35张图,直观理解StableDiffusion
作者JayAlammar
翻译杨婷、徐佳渝
最近,AI图像生成引人注目,它能够根据文字描述生成精美图像,这极大地改变了人们的图像创作方式。StableDiffusion作为一款高性能模型,它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小,是AI图像生成领域的里程碑。
在接触了AI图像生成以后,你可能会好奇这些模型背后的工作原理。
下面是对StableDiffusion工作原理的概述。
StableDiffusion用途多样,是一款多功能模型。首先它可以根据文本生成图像(text2img)。上图是从文本输入到图像生成的示例。除此之外,我们还可以使用StableDiffusion来替换、更改图像(这时我们需要同时输入文本和图像)。
下面是StableDiffusion的内部结构,了解内部结构可以让我们更好地理解StableDiffusion的组成、各组成部分的交互方式、以及各种图像生成选项参数的含义。
1StableDiffusion的组成
StableDiffusion并不是一个单一模型,而是由多个部分和模型一起构成的系统。
从内部来看,首先我们可以看到一个文本理解组件,这个组件将文本信息转化为数字表示(numericrepresentation)以捕捉文本意图。
这部分主要对ML进行大概介绍,文章后续还会讲解更多细节。可以说这个文本理解组件(文本编码器)是一个特殊的Transformer语言模型(严格来说它是一个CLIP模型的文本编码器)。将文本输入到Clip文本编码器得到特征列表,对于文本中的每一个wordtoken都有会得到一个向量特征。
然后将文本特征作为图像生成器的输入,图像生成器又由几部分组成。
图像生成器两步骤:
1图像信息创建器(Imageinformationcreator)
图像信息创建器是StableDiffusion特有的关键部分,也是其性能远超其他模型的原因。
图像信息创建器运行多个step生成图像信息。StableDiffusion接口(interfaces)和库(libraries)的step参数一般默认为50或100。
图像信息创建器完全在图像信息空间(亦称潜在空间)上运行,这让StableDiffusion比以前在像素空间(pixelspace)上运行的扩散模型速度更快。从技术上讲,图像信息创建器由UNet神经网络和调度算法组成。
扩散一词描述了图像信息创建器中发生的事情。因为图像信息创建器对信息作了逐步处理,所以图像解码器(imagedecoder)才能随后产出高质量图像。
2图像解码器(ImageDecoder)
图像解码器根据图像信息创建器的信息绘制图像,它只用在过程结束时运行一次,以生成最终的像素图像。
这样就构成了StableDiffusion的三个主要组成部分,每个部分都有自己的神经网络:
ClipText:用于文本编码。输入:文本。输出:77个tokenembeddings向量,每个向量有768维。UNet调度程序:在信息(潜在)空间中逐步处理信息。输入:文本embeddings和一个初始化的多维数组(结构化的数字列表,也称为张量)组成的噪声。输出:经过处理的信息数组。自动编码解码器(AutoencoderDecoder):使用经过处理的信息数组绘制最终图像。输入:经过处理的信息数组(维数:(4,64,64))输出:生成的图像(维数:(3,512,512),即(红绿蓝;宽,高))。
2到底何为扩散(Diffusion)?
扩散是发生在粉色区域图像信息创建器组件中的过程。这一部分有一个表示输入文本的tokenembeddings和一个随机初始化的图像信息数组,这些数组也被称为latents,在这个过程中会产生一个信息数组,图像解码器(ImageDecoder)使用这个信息数组生成最终图像。
扩散是循序渐进逐步发生的,每一步都会增加更多的相关信息。为了更加直观地了解这个过程,我们可以检查随机latents数组,看它是否转化为了视觉噪音(visualnoise)。在这种情况下,视觉检查(Visualinspection)是通过图像解码器进行的。
扩散分为多个step,每个step都在输入的latents数组上运行,并且会产生另一个latents数组,这个数组更类似于输入文本以及模型在模型训练时的所有图像中获取的所有视觉信息。
我们可以对一组这样的latents数组执行可视化,看看每一步都添加了什么信息。这一过程令人叹为观止。
链接
在这种情况下,步骤2和4之间发生了一些特别有意思的事情,就好像轮廓是从噪音中浮现出来的。
链接
3Diffusion的工作原理
扩散模型图像生成的核心是强大的计算机视觉模型。在足够大的数据集的基础上,这些模型可以学会很多复杂运算。扩散模型通过如下方式建构问题来实现图像生成:
假设我们有一个图像,我们首先生成一些噪音(noise),然后将这些噪音添加到图像上。
我们可以将这看成是一个训练示例。之后我们使用同样的公式去创建更多的训练示例,然后用这些示例去训练图像生成模型的中心组件。
虽然这个例子展示了从图像(总量0,没有噪音)到总噪音(总量4,总噪音)的一些噪音值,但是我们可以轻松控制向图像中添加的噪音,因此我们可以将其分为数十个step,为数据集中的每个图像创建数十个训练示例。
有了这个数据集,我们可以训练噪音预测器(noisepredictor),并最终得到一个在特定配置下运行时可以创建图像的预测器。接触过ML的人会觉得训练步骤非常熟悉:
接下来我们来看看StableDiffusion是如何生成图像的。
4通过降噪绘图
经过训练的噪音预测器可以对噪音图像进行降噪处理,并且可以预测噪音。
因为样本噪音(samplednoise)被预测,所以如果我们从图像中去掉这个样本,我们得到的图像就会更接近模型训练的图像。(这个图像不是确切的图像本身,而是图像分布,也就是图像的像素排列,在像素排列中天空通常是蓝色的,高于地面,人有两只眼睛,猫有尖耳朵并且总是懒洋洋的)。
如果训练数据集中的图像比较美观,比如说StableDiffusion训练的LAIONAesthetics,那么训练出来的图像的可观赏性也会更高。如果我们在logo图像上对其进行训练,那么我们最终会得到一个logo生成模型。
这里总结了扩散模型处理图像生成的过程,主要如论文DenoisingDiffusionProbabilisticModels所述。相信你对扩散的含义有了一定的了解,知道了StableDiffusion、DallE2和谷歌Imagen的主要组件。
值得注意的是,到目前为止我们所描述的扩散过程,没有使用任何文本数据,只需运行模型就能生成精美图像。不过我们无法控制图像的内容,它可能是一座金字塔,也可能是一只猫。接下来,我们将讨论如何将文本信息融入扩散过程以控制图片类型。
5速度提升:在压缩(Latent)数据中扩散
为了加快图像生成过程,StableDiffusion论文没有在像素图像上进行运行,而是在图像的压缩版本上运行。论文将这称为前往潜在空间(DeparturetoLatentSpace)。
压缩(随后是解压缩绘图)通过编码器完成。自动编码器使用ImageEncoder将图像压缩进潜空间,然后使用ImageDecoder再对压缩信息进行重构。
正向扩散在潜空间上完成。噪声信息应用于潜空间,而不是应用于像素图象。因此,训练噪声预测器(noisepredictor)实际上是为了预测压缩表示(compressedrepresentation)上的噪音,这个压缩表示也被称为潜空间(latentspace)。
正向扩散是使用ImageEncoder生成图像数据,来训练噪声预测器。训练一旦完成,就可以执行反向扩散,使用ImageDecoder生成图像。
LDMStableDiffusion论文的图3中提及了这两个过程:
上图还显示了conditioning组件,这个组件在本例中是描述模型生成图像的文本提示词(textprompts)。接下来,我们继续探讨文本组件。
6文本编码器:一种Transformer语言模型
Transformer语言模型作为语言理解组件,能够接受文本提示词,生成tokenembeddings。StableDiffusion模型使用的是ClipText(基于GPT的模型),而论文中采用的是BERT。
Imagen论文表明,语言模型的选择相当重要。相较于较大的图像生成组件,较大的语言模型组件对生成图像的质量影响更大。
较大的更好的语言模型对图像生成模型的质量有巨大的影响。资料来源:Saharia等人所著论文GoogleImagen中的图A。5。
早期的StableDiffusion模型仅使用了OpenAI发布的预训练模型ClipText。未来模型可能转向新发布的更大的CLIP变体OpenCLIP。(更新于2022年11月,详情见StableDiffusionV2usesOpenClip。与仅含有630万文本模型参数的ClipText相比,OpenCLIP文本模型参数多达3。54亿。)
7如何训练CLIP
CLIP模型是在图像和图像说明数据集上训练的。我们可以设想这样一个数据集,它里面有4亿张图像以及这些图像说明的材料。
图像及图像说明数据集
实际上,CLIP是在网络上抓取的带有alt标签的图像上训练的。CLIP是图像编码器和文本编码器的结合。简单来说,训练CLIP就是分别对图像和图像文本说明进行编码。
然后,使用余弦相似度来比较生成的embeddings。刚开始训练时,即使文本正确描述了图像,相似度也会很低。
我们更新了这两个模型,这样下次嵌入它们时就可以得到相似的embeddings。
通过在数据集上重复此操作并使用大的batchsize,最终使编码器能够生成图像和文本说明相似的embeddings。如word2vec,训练过程也需要包含不匹配的图像和文本说明作为负样本,以得到较低的相似度分数。
8将文本信息融入图像生成过程
为了使文本融入图像生成,我们须调整噪声预测器来输入文本。
现在,在数据集中加入文本。因为我们是在潜空间中运行,所以输入的图像和预测的噪声都处于潜空间中。
为了更好地理解UNet中文本tokens的使用方式,下面我们将进一步探究UNet模型。
Unet噪声预测器的Layers(未使用文本)
首先来看没有使用文本的UNet,其输入和输出如下:
可以看到:UNet是一系列用于转换latents数组的layers每一layer都对前一个layer的输出进行操作Someoftheoutputsarefed(viaresidualconnections)intotheprocessinglaterinthenetwork通过残差连接(residualconnections),将网络前面的layer输出送入到后面的layer进行处理时间步长被转化为embedding向量,在网络层中使用
Unet噪声预测器中的Layers(带文本)
现在让我们看看如何改变该系统以增加对文本的关注度。
为了给文本输入提供支持,也就是专业上所说的文本条件(textconditioning),我们需要在系统的ResNetblocks之间添加一个注意力层(attentionlayer)。
文本信息不直接由ResNet处理,而是通过注意力层将这些文本表示融入到latents中。这样,下一个ResNet就能在处理过程中利用融入的文本信息。
9总结
希望本文能帮助你深入了解StableDiffusion的运作机制。虽然还涉及到许多其他概念,但是只要熟悉了以上板块,这些概念就会变得很容易理解。下面是一些我认为很有用的资源。
资源
https:www。youtube。comshortsqL6mKRyjK0https:huggingface。coblogstablediffusionhttps:huggingface。coblogannotateddiffusionhttps:www。youtube。comwatch?vJ87hffSMB60https:www。youtube。comwatch?vltLNYA3lWAQhttps:ommerlab。comresearchlatentdiffusionmodelshttps:lilianweng。github。ioposts20210711diffusionmodelshttps:www。youtube。comwatch?v7rMfsA24Ls
(本文在遵循CCBYNCSA4。0协议的基础上由OneFlow编译发布,译文转载请联系获得授权。原文:Alammar,J(2018)。TheIllustratedTransformer〔Blogpost〕。https:jalammar。github。ioillustratedstablediffusion)
欢迎Star、试用OneFlow最新版本:https:github。comOneflowInconeflow
A股京东方A的大股东是谁?京东方A的大股东是谁?京东方A的全称是,京东方科技集团股份有限公司;大股东,北京国有资本运营管理有限公司;行业类别,电子设备,计算机、通信和其他电子设备制造业。京东……
CBA深圳队与顾全顶薪续约三年联赛公司在16日更新了深圳队新赛季国内球员注册球员信息,深圳队已经完成与内线主力沈梓捷为期两年的顶薪续约合同。但目前,深圳队顾全的状态还是预注册。据北京青年报记者16日获悉,深……
未来中国房地产市场将进入缓慢的下降周期房地产经了二十多年商品市场的发展,已经饱和和过剩了,房地产刚需的时代已经过去,未来房地产市场生存的空间越来越小,简单的说就像照相机胶卷一样,大多数的房地产公司都会消失!这……
确定!中国女排明天出征世锦赛,14人大名单或最后一刻公布2022年世界女排锦标赛将于9月23日至10月16日在荷兰和波兰两个国家进行,备受外界关注的中国女排目前确定将于17日启程前往荷兰,参加在那里进行的女排世锦赛第一阶段小组赛争夺……
拒绝被爆冷!世界冠军恶战5局淘汰强敌,对手曾打哭张本智和北京时间9月16日下午,乒乓球WTT哈萨克斯坦赛迎来了一场强强对决,世乒赛男双冠军、男单亚军得主法尔克(瑞典)登场,与世乒赛男单季军、曾把张本智和打得痛哭流涕的猛将安宰贤(韩国……
三年前抢走了中国男篮东京奥运资格的他,今天又淘汰了东契奇的斯文羊城晚报全媒体记者郝浩宇谁是马特乌什波尼特卡?恐怕连最资深的篮球迷听到这个名字时也会犹豫半晌,然后模模糊糊地在心中生成一个穿着波兰球衣的普通球员模样。的确,在众多……
外援就该这么用!王晗弃用保罗激活罗切斯特,吉伦沃特适应新角色北京时间10月25日,CBA联赛第7轮上演焦点之战,山东高速男篮面对上海久事在第一节就拉开了分差,比赛早早失去了悬念,最终山东高速10687击败了上海久事。王晗在弃用保罗后双外……
千元机荣耀X40的上代机荣耀X30荣耀X40,相信大家对它的性能及其数据都十分了解,那么作为荣耀X40的上一代手机荣耀的X30,大家对它的了解又有多少呢,今天就让我们来细说一下。正背面图该款手机搭载……
传统旅游企业转型中国旅游协会休闲度假分会会长魏小安旅游业,在将近三年的疫情磨难之下,刚刚燃起的希望又一次破灭。这个时候,呼吁政府重视,希望政策支持,是自然而然的事情。但是,哪个行业不困难……
自强奋进,助益乡村振兴之基石群众有期盼,我们有信仰;群众有需要,我们有力量。明天更美好不仅仅是因为我们坚信明天更美好,更是因为我们鼓足干劲在创造更加美好的明天。时间是生命的丈量尺,生命是肉体存在的倒……
熵议125个科学问题来自基因还是记忆?问题Howdomigratoryanimalsknowwheretheyregoing?迁徙动物如何知道它们要去哪里?先分析现有答案,我们知道当一个问题的答案……
双十一好机推荐!新iPhone14亲身体验高颜值高性能再上黑哈喽,您好!我是原呵呵,点点关注吧,更多精彩内容等着您新的iPhone14终于到货了。这一次,我正在盘点新的iPhone14,但请注意,具有相同规格但尺寸更大的iPhon……