扩散模型家族再添一员,最新ColdDiffusion不再依赖
任意图像变换方式都可生成。扩散模型或取代GAN?
作者王玥、李梅
编辑陈彩娴
最近,Stability。Ai公开发布了其文本生成图像模型StableDiffusion的最新版本,网友们的新一波图像创作热潮又开始了
图注:StableDiffusion生成图像
前特斯拉AI总监AndrejKarpathy评论说:这是人类创造力具有历史意义的一天,如此丰富的人类视觉创造力集中体现到了一个人人可触及的产品中。
从生成图像的效果来看,StableDiffusion已经是当前最好的模型之一,而它背后的扩散模型(DiffusionModel)最近也备受关注,显示出要取代GAN模型的势头。
其实,自从2015年扩散模型首次被提出以来,该领域本身已经有非常多的研究,研究人员也提出不少变体。而日前,来自马里兰大学和纽约大学的团队提出了近来最新的一种扩散模型:ColdDiffusion。
1Diffusionmodel再升华
目前业界出现的扩散模型变体层出不穷,但它们都有一个不变的核心:都是围绕随机噪声去除这个概念建立的。
扩散模型的本质,以及目前我们对扩散模型的理解,都与高斯噪声在训练和生成过程中所起的作用高度相关。我们可以将扩散理解为使用Langevin动力学围绕图像密度函数的随机移动,扩散的每一步都需要高斯噪声。扩散始于高温状态(即噪音很大的状态),然后逐渐降温到几乎没有噪音的冷状态。
而在这篇叫做ColdDiffusion:InvertingArbitraryImageTransformsWithoutNoise的最新论文中,作者提出了一个疑问:制作扩散模型的变体,是不是非得使用高斯噪声不可?
论文地址:https:arxiv。orgpdf2208。09392。pdf
通过多次尝试,该研究团队得出了答案:并不一定需要。
在这篇论文中,作者不再将扩散模型局限于依赖高斯噪声而建立,而是提出了围绕模糊(blurring)、下采样(downsampling)等任意图像变换方式建立的广义扩散模型。由于不再有原先的高温状态,这种全新广义扩散模型也就被称作为ColdDiffusion。
过去标准的扩散模型有两步工作流程:首先,用图像退化算子(imagedegradationoperator)使得图像受到高斯噪声的污染,其次用一个训练好的恢复算子(restorationoperator)对图像进行去噪,逆转退化,从而得到一张新图像。
图注:传统扩散模型的两步工作流程
ColdDiffusion继承了这两步工作流程,但又对之进行了升华式的修改。如下图所示,在图像退化再到逆转退化的过程中,ColdDiffusion研究团队尝试了使用噪声、模糊、变形(Animorph)、遮罩(mask)、像素化(pixelate)、雪花等变换方式,且都得到了不错的效果。
图注:ColdDiffusion使用不同图像变换方式得到新图像的工作流程
工作原理
对于已知图像x0,设图像退化算子为D,执行算子的次数为t。
对以往标准的扩散模型来说,其执行图像变换的前向过程,是由图像退化算子D来对图像添加高斯噪声。添加0次时,D应满足:
添加t次时,则应有:
而在ColdDiffusion的模型设计中,D可以用来执行其他各种图像变换方式,如模糊、变形、像素化、雪花等,其退化程度取决于tColdDiffusion的升级正体现在可以进行包括噪音在内的多种图像变换。
同时我们还需要一个能把xt变回图像的恢复算子R,应有:
在有了图像退化算子D和恢复算子R后,就可以借用扩散模型的标准方法对算子进行串联使用,从而实现退化运算逆转退化的工作流程。如果退化运算的次数t比较小(t0),对R进行一次应用就可以得到一幅恢复后的新图像。
由于R通常只经过了一个简单的凸损失训练,当执行退化运算的次数t很大时,生成的结果会很模糊。对此,作者团队提出一个改进的ColdDiffusion采样算法来生成高质量图像。
变化无穷
这篇研究的重点就在于,作者观察到,扩散模型的图像生成并不完全依赖于高斯噪声,我们也可以选择其他图像变换方式来生成新图像。通过改变图像变换方式,甚至可以构建出整个生成模型家族。
以模糊为退化运算方式
基于噪声的扩散模型中的前向扩散过程(即退化运算这一步)的优点是,在最后一步T处的退化图像分布只是一个各向同性的高斯分布。因此,我们可以首先从各向同性高斯分布中抽取样本,然后通过反向扩散顺序对其进行去噪来执行(无条件)生成。而选择模糊这种退化运算时,完全退化的图像不能形成我们可以抽样的良好封闭式分布,但是可以形成一个足够简单的分布,可以用简单的方法进行建模。
对于次数足够大的T,每个图像x0都会降级为一个常数xT(即每个像素都是相同的颜色)。该常数值恰好是RGB图像x0的通道平均值,可以表示为三维向量,并使用高斯混合模型(Gaussianmixturemodel,GMM)表示。通过对该GMM进行采样,可以产生高度模糊图像的随机像素值,然后使用colddiffusion就可以进行去模糊化,从而创建新图像。
另外,像素之间的对称性会导致生成的图像缺乏多样性,为了打破同一管道像素的对称性,作者向每个采样的xT添加少量高斯噪声,这个简单的技巧极大地提高了生成图像的丰富性。
图注:对128128CelebAandAFHQ数据集使用colddiffusion的模糊方式变换生成样本示例
以其他图像变换为退化运算方式
最后团队进一步证明,除了模糊方式以外,colddiffusion还可以扩展到其他变换,如修复、超分辨率和变形(animorphosis)方式上,且生成的图像效果也都很好:
图注:colddiffusion的生成图像。第一行使用变形方式变换,第二行使用修复方式变换,第三行使用超分辨率变换方式。
研究团队给出了CelebA数据集上的结果,colddiffusion在修复、超分辨率和变形方面的FID得分分别为90。14、92。91和48。51。(FID,即RechetInceptionDistancescore,是用来计算真实图像和生成图像计算的特征向量之间距离的指标。)
在训练和测试期间不需要高斯噪声的colddiffusion,突破了人们对扩散模型的原有理解,为新型生成模型打开了未来的大门。
2DiffusionModel时代来临
这项研究因为提出了一种不同于传统形式的扩散模型,而在近日登上了许多论文排行榜的热门,同样引起了热议的,还有论文其中一位作者在推特上发起的讨论:为什么扩散模型如此迅速地取代了GAN?
马里兰大学副教授TomGoldstein解释,扩散模型的优点是它可以最小化凸回归损失,所以OpenAI在开发DALLE时直接抛弃了GAN,而使用扩散模型来解决不稳定的鞍点问题(saddlepointproblem)。
而且,他认为,扩散模型的成功是新数学范式发挥其作用的一个例子,世界上所有的超参数调整都比不过几行深思熟虑的数学公式。
要说今天的文本生成图像领域已经由扩散模型统治或许还不够严谨,但GAN的一家独大的确已经成为历史。归根结底,谁的图像生成质量和稳定性更好,谁才在越来越卷的生成模型界成为宠儿。这项工作提出的ColdDiffusion,或许就会在不久之后为我们带来一个新的、强大的文本生成图像模型。
参考链接:
https:arxiv。orgpdf2208。09392。pdf
美国亿万富翁埃里克普林斯欲打造绝对安全的智能手机埃里克普林斯(ErikPrince)向投资者的推介很直接,但无疑也很有野心:只需花费500万欧元,就能解决我们这个时代最大的网络安全和隐私问题。这位美国亿万富翁正在推动U……
初夏养生秘籍这几种初夏养生原则你知道吗?今天是二十四节气中的立夏,是夏季的第一个节气,这也意味着正式地进入到了夏季时令,天气也开始由春季的温暖舒适向炎热转变,此时人们在饮食和作息上都需要进行调整,这样才能够有益健康。……
姚安娜晒出3张自拍照没有意外手中拿的是这款手机【手机中国新闻】8月1日,华为创始人、CEO任正非小女儿姚安娜更新了微博我的夏日ootd。微博中,姚安娜连发三张自拍照,分享自己的夏日穿搭,同时也曝光了用来拍照的手机。根据微博……
人老了,劝你少去别人家串门,原因如下文夏莫01、卷首语周国平说:孤独是人的宿命,爱和友谊不能把它根除,但可以将它抚慰。人总是害怕独处,尤其是到了老年。在变老的路上,总是希望有人陪在身边,消遣时光,杜绝……
760万欧元打水漂?24岁巴萨新星身价仅50万!却夺得过2座2020年8月,巴塞罗那完成了一笔转会,但时至今日几乎已被人遗忘,以760万欧元转会费从尤文图斯签下巴西中场马特乌斯佩雷拉,球员加入巴萨B队。如今不到2年时间,他的身价降至只有……
冷门旅游地,六个国内最不像地球的地方六个媲美国外的小众旅行地像极了坐坐沙漠星球,幽暗且荒无人烟逃离地球,误入异星世界。。。。。1。苦水丹霞甘肃省兰州市永登县苦水镇大西北的又一个小众景……
梅西助攻姆巴佩开场8秒破门!一起围观足球场上那些快男们在北京时间8月22日凌晨进行的法甲第3轮巴黎圣日耳曼主场与里尔队的比赛中,姆巴佩开场仅8秒便帮助大巴黎首开纪录。法甲官方表示,这一进球追平了法甲联赛历史最快进球纪录。卡昂……
地板价了!小米显示器399元超值到手文万怡飘责编吕东兴总编唐迪小米显示器一直很受许多游戏玩家的喜爱,小编向大家推荐的是小米Redmi21。45英寸显示器,采用超窄边框设计有很高的颜值,75Hz可以带来流畅的……
走进中国土家第一村,这是神仙居住的地方早听说云舍景区美景如画。双休日,我们来一趟说走就走的旅行,开车前往贵州铜仁市江囗云舍村,当车行驶到贵州境内,天突然下了大雨,高速公路上行驶的车辆开启了双闪。我在心里默默地……
STEAM近期折扣游戏(四十一)中文名:酷极轮滑英文名:Rollerdrome简介:酷极轮滑是一款集热血战斗、流畅动作和精妙机制于一体的第三人称动作射击游戏,通过相辅相成的多元游戏元素,打造极富挑……
痛风患者可以吃绿豆吗?痛风患者可以吃绿豆吗?大家知道,痛风患者不能食用高嘌呤类食物,一是海鲜类,包括各种贝壳类海鲜和深海鱼类,二是动物内脏,常见有猪、牛、羊的心、肝、肾、脑等,三是牛羊肉,四是……
霸王龙!本泽马11次金球提名追平齐达内并列历史第六,前五是谁北京时间8月13日,今天凌晨官方公布了2022年的金球奖30人候选名单,金球奖大热门本泽马毫无悬念地获得了提名,这是本泽马生涯第11次获得金球奖提名,也追平了齐达内并列法国队历……