最近一年来,真正质图以 Stable Diffusion 为代表的实现生图一系列文生图散漫模子残缺修正了视觉创作规模 。数不清的步文用户经由火散模子发生的图片提升花难题。可是极速 ,散漫模子的采样天生速率是一个旧调重弹的下场。由于降噪模子依赖于多步降噪来逐渐将初始的天生高斯噪音酿成图片,因此需要对于收集一再合计 ,高品导致天生速率很慢。真正质图这导致大规模的实现生图文生图散漫模子对于一些看重实时性,互动性的步文运用颇为不友好 。随着一系列技术的极速提出 ,从散漫模子中采样所需的采样步数已经从最后的多少百步 ,到多少十步,天生致使惟独要 4-8 步 。高品
最近,真正质图来自google的钻研团队提出了 UFOGen 模子 ,一种能极速采样的散漫模子变种。经由论文提出的措施对于 Stable Diffusion 妨碍微调,UFOGen 惟独要一步就能天生高品质的图片。与此同时,Stable Diffusion 的卑劣运用 ,好比图生图,ControlNet 等能耐也能患上到保存 。
论文链接 :https://arxiv.org/abs/2311.09257
从下图可能看到 ,UFOGen 惟独一步即可天生高品质,多样的图片。
提升散漫模子的天生速率并非一个新的钻研倾向 。以前对于这方面的钻研主要会集在两个倾向 。一个倾向是妄想更高效的数值合计措施 ,以求能抵达运用更少的离散步数求解散漫模子的采样 ODE 的目的。好比清华的朱军团队提出的 DPM 系列数值求解器,被验证在 Stable Diffusion 上颇为实用,能清晰地把求解步数从 DDIM 默认的 50 步降到 20 步之内。另一个倾向是运用知识蒸馏的措施,将模子的基于 ODE 的采样道路缩短到更小的步数 。这个倾向的例子是 CVPR2023 最佳论文候选之一的 Guided distillation,以及最近大火的 Latent Consistency Model (LCM) 。特意是 LCM,经由对于不同性目的妨碍蒸馏 ,可能将采样步数降到惟独 4 步,由此催生了良多实时天生的运用 。
可是,google的钻研团队在 UFOGen 模子中并无追寻以上悭吝向,而是另辟蹊径,运用了一年多条件出的散漫模子以及 GAN 的混合模子思绪。他们以为前面提到的基于 ODE 的采样以及蒸馏有其根基的规模性 ,很难将采样步数缩短到极限 。因此想实现一步天生的目的,需要掀开新的思绪。
散漫模子以及 GAN 的混合模子最先是英伟达的钻研团队在 ICLR 2022 上提出的 DDGAN(《Tackling the Generative Learning Trile妹妹a with Denoising Diffusion GANs》)。其灵感来自于艰深散漫模子对于降噪扩散妨碍高斯假如的根基缺陷 。重大来说,散漫模子假如其降噪扩散(给定一个加了噪音的样本 ,对于噪音含量更少的样本的条件扩散)是一个重大的高斯扩散。可是,随机微分方程实际证实这样的假如只在降噪步长趋于 0 的时候成立,因此散漫模子需要大批一再的降噪步数来保障小的降噪步长,导致很慢的天生速率。
DDGAN 提出扔掉降噪扩散的高斯假如,而是用一个带条件的 GAN 来模拟这个降噪扩散 。由于 GAN 具备极强的展现能耐 ,能模拟重大的扩散,以是可能取较大的降噪步长来抵达削减步数的目的。可是 ,DDGAN 将散漫模子晃动的重构磨炼目的酿成为了 GAN 的磨炼目的,很简略组成磨炼不晃动,从而难以缩短到更重大的使命 。在 NeurIPS 2023 上,以及缔造 UGOGen 的同样的google钻研团队提出了 SIDDM(论文问题 Semi-Implicit Denoising Diffusion Models),将重构目的函数重新引入了 DDGAN 的磨炼目的,使磨炼的晃动性以及天生品质都比照于 DDGAN 大幅后退。
SIDDM 作为 UFOGen 的前身,惟独要 4 步就能在 CIFAR-10, ImageNet 等钻研数据集入地生高品质的图片。可是 SIDDM 有两个下场需要处置 :首先,它不能做到事实情景的一步天生;其次,将其扩展到更受关注的文生图规模并不重大。为此 ,google的钻研团队提出了 UFOGen,处置这两个下场。
详细来说,对于下场一,经由重大的数学合成,该团队发现经由修正天生器的参数化方式,以及修正重构损失函数合计的合计方式 ,实际上模子可能实现一步天生。对于下场二,该团队提出运用已经有的 Stable Diffusion 模子妨碍初始化来让 UFOGen 模子更快更好的扩展到文生图使命上。值患上留意的是 ,SIDDM 就已经提出让天生器以及分说器都接管 UNet 架构,因此基于该妄想,UFOGen 的天生器以及分说器都是由 Stable Diffusion 模子初始化的 。这样做可能最大限度地运用 Stable Diffusion 的外部信息,特意是对于图片以及翰墨的关连的信息。这样的信息很难经由坚持学习来取患上 。磨炼算法以及图示见下。
值患上留意的是 ,在这以前也有一些运用 GAN 做文生图的使命,好比英伟达的 StyleGAN-T ,Adobe 的 GigaGAN,都是将 StyleGAN 的根基架构扩展到更大的规模 ,从而也能一步文生图。UFOGen 的作者指出,比起以前基于 GAN 的使命,除了天生品质外,UFOGen 尚有多少点优势:
1. 隧道的 GAN 磨炼颇为不晃动 ,特意是对于文生图使命来说,分说器不光需要分说图片的纹理,还需要清晰图片以及翰墨的立室水平 ,而这黑白常难题的使命