幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

35张图,直观理解StableDiffusion

  作者JayAlammar
  翻译杨婷、徐佳渝
  最近,AI图像生成引人注目,它能够根据文字描述生成精美图像,这极大地改变了人们的图像创作方式。StableDiffusion作为一款高性能模型,它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小,是AI图像生成领域的里程碑。
  在接触了AI图像生成以后,你可能会好奇这些模型背后的工作原理。
  下面是对StableDiffusion工作原理的概述。
  StableDiffusion用途多样,是一款多功能模型。首先它可以根据文本生成图像(text2img)。上图是从文本输入到图像生成的示例。除此之外,我们还可以使用StableDiffusion来替换、更改图像(这时我们需要同时输入文本和图像)。
  下面是StableDiffusion的内部结构,了解内部结构可以让我们更好地理解StableDiffusion的组成、各组成部分的交互方式、以及各种图像生成选项参数的含义。
  1StableDiffusion的组成
  StableDiffusion并不是一个单一模型,而是由多个部分和模型一起构成的系统。
  从内部来看,首先我们可以看到一个文本理解组件,这个组件将文本信息转化为数字表示(numericrepresentation)以捕捉文本意图。
  这部分主要对ML进行大概介绍,文章后续还会讲解更多细节。可以说这个文本理解组件(文本编码器)是一个特殊的Transformer语言模型(严格来说它是一个CLIP模型的文本编码器)。将文本输入到Clip文本编码器得到特征列表,对于文本中的每一个wordtoken都有会得到一个向量特征。
  然后将文本特征作为图像生成器的输入,图像生成器又由几部分组成。
  图像生成器两步骤:
  1图像信息创建器(Imageinformationcreator)
  图像信息创建器是StableDiffusion特有的关键部分,也是其性能远超其他模型的原因。
  图像信息创建器运行多个step生成图像信息。StableDiffusion接口(interfaces)和库(libraries)的step参数一般默认为50或100。
  图像信息创建器完全在图像信息空间(亦称潜在空间)上运行,这让StableDiffusion比以前在像素空间(pixelspace)上运行的扩散模型速度更快。从技术上讲,图像信息创建器由UNet神经网络和调度算法组成。
  扩散一词描述了图像信息创建器中发生的事情。因为图像信息创建器对信息作了逐步处理,所以图像解码器(imagedecoder)才能随后产出高质量图像。
  2图像解码器(ImageDecoder)
  图像解码器根据图像信息创建器的信息绘制图像,它只用在过程结束时运行一次,以生成最终的像素图像。
  这样就构成了StableDiffusion的三个主要组成部分,每个部分都有自己的神经网络:
  ClipText:用于文本编码。输入:文本。输出:77个tokenembeddings向量,每个向量有768维。UNet调度程序:在信息(潜在)空间中逐步处理信息。输入:文本embeddings和一个初始化的多维数组(结构化的数字列表,也称为张量)组成的噪声。输出:经过处理的信息数组。自动编码解码器(AutoencoderDecoder):使用经过处理的信息数组绘制最终图像。输入:经过处理的信息数组(维数:(4,64,64))输出:生成的图像(维数:(3,512,512),即(红绿蓝;宽,高))。
  2到底何为扩散(Diffusion)?
  扩散是发生在粉色区域图像信息创建器组件中的过程。这一部分有一个表示输入文本的tokenembeddings和一个随机初始化的图像信息数组,这些数组也被称为latents,在这个过程中会产生一个信息数组,图像解码器(ImageDecoder)使用这个信息数组生成最终图像。
  扩散是循序渐进逐步发生的,每一步都会增加更多的相关信息。为了更加直观地了解这个过程,我们可以检查随机latents数组,看它是否转化为了视觉噪音(visualnoise)。在这种情况下,视觉检查(Visualinspection)是通过图像解码器进行的。
  扩散分为多个step,每个step都在输入的latents数组上运行,并且会产生另一个latents数组,这个数组更类似于输入文本以及模型在模型训练时的所有图像中获取的所有视觉信息。
  我们可以对一组这样的latents数组执行可视化,看看每一步都添加了什么信息。这一过程令人叹为观止。
  链接
  在这种情况下,步骤2和4之间发生了一些特别有意思的事情,就好像轮廓是从噪音中浮现出来的。
  链接
  3Diffusion的工作原理
  扩散模型图像生成的核心是强大的计算机视觉模型。在足够大的数据集的基础上,这些模型可以学会很多复杂运算。扩散模型通过如下方式建构问题来实现图像生成:
  假设我们有一个图像,我们首先生成一些噪音(noise),然后将这些噪音添加到图像上。
  我们可以将这看成是一个训练示例。之后我们使用同样的公式去创建更多的训练示例,然后用这些示例去训练图像生成模型的中心组件。
  虽然这个例子展示了从图像(总量0,没有噪音)到总噪音(总量4,总噪音)的一些噪音值,但是我们可以轻松控制向图像中添加的噪音,因此我们可以将其分为数十个step,为数据集中的每个图像创建数十个训练示例。
  有了这个数据集,我们可以训练噪音预测器(noisepredictor),并最终得到一个在特定配置下运行时可以创建图像的预测器。接触过ML的人会觉得训练步骤非常熟悉:
  接下来我们来看看StableDiffusion是如何生成图像的。
  4通过降噪绘图
  经过训练的噪音预测器可以对噪音图像进行降噪处理,并且可以预测噪音。
  因为样本噪音(samplednoise)被预测,所以如果我们从图像中去掉这个样本,我们得到的图像就会更接近模型训练的图像。(这个图像不是确切的图像本身,而是图像分布,也就是图像的像素排列,在像素排列中天空通常是蓝色的,高于地面,人有两只眼睛,猫有尖耳朵并且总是懒洋洋的)。
  如果训练数据集中的图像比较美观,比如说StableDiffusion训练的LAIONAesthetics,那么训练出来的图像的可观赏性也会更高。如果我们在logo图像上对其进行训练,那么我们最终会得到一个logo生成模型。
  这里总结了扩散模型处理图像生成的过程,主要如论文DenoisingDiffusionProbabilisticModels所述。相信你对扩散的含义有了一定的了解,知道了StableDiffusion、DallE2和谷歌Imagen的主要组件。
  值得注意的是,到目前为止我们所描述的扩散过程,没有使用任何文本数据,只需运行模型就能生成精美图像。不过我们无法控制图像的内容,它可能是一座金字塔,也可能是一只猫。接下来,我们将讨论如何将文本信息融入扩散过程以控制图片类型。
  5速度提升:在压缩(Latent)数据中扩散
  为了加快图像生成过程,StableDiffusion论文没有在像素图像上进行运行,而是在图像的压缩版本上运行。论文将这称为前往潜在空间(DeparturetoLatentSpace)。
  压缩(随后是解压缩绘图)通过编码器完成。自动编码器使用ImageEncoder将图像压缩进潜空间,然后使用ImageDecoder再对压缩信息进行重构。
  正向扩散在潜空间上完成。噪声信息应用于潜空间,而不是应用于像素图象。因此,训练噪声预测器(noisepredictor)实际上是为了预测压缩表示(compressedrepresentation)上的噪音,这个压缩表示也被称为潜空间(latentspace)。
  正向扩散是使用ImageEncoder生成图像数据,来训练噪声预测器。训练一旦完成,就可以执行反向扩散,使用ImageDecoder生成图像。
  LDMStableDiffusion论文的图3中提及了这两个过程:
  上图还显示了conditioning组件,这个组件在本例中是描述模型生成图像的文本提示词(textprompts)。接下来,我们继续探讨文本组件。
  6文本编码器:一种Transformer语言模型
  Transformer语言模型作为语言理解组件,能够接受文本提示词,生成tokenembeddings。StableDiffusion模型使用的是ClipText(基于GPT的模型),而论文中采用的是BERT。
  Imagen论文表明,语言模型的选择相当重要。相较于较大的图像生成组件,较大的语言模型组件对生成图像的质量影响更大。
  较大的更好的语言模型对图像生成模型的质量有巨大的影响。资料来源:Saharia等人所著论文GoogleImagen中的图A。5。
  早期的StableDiffusion模型仅使用了OpenAI发布的预训练模型ClipText。未来模型可能转向新发布的更大的CLIP变体OpenCLIP。(更新于2022年11月,详情见StableDiffusionV2usesOpenClip。与仅含有630万文本模型参数的ClipText相比,OpenCLIP文本模型参数多达3。54亿。)
  7如何训练CLIP
  CLIP模型是在图像和图像说明数据集上训练的。我们可以设想这样一个数据集,它里面有4亿张图像以及这些图像说明的材料。
  图像及图像说明数据集
  实际上,CLIP是在网络上抓取的带有alt标签的图像上训练的。CLIP是图像编码器和文本编码器的结合。简单来说,训练CLIP就是分别对图像和图像文本说明进行编码。
  然后,使用余弦相似度来比较生成的embeddings。刚开始训练时,即使文本正确描述了图像,相似度也会很低。
  我们更新了这两个模型,这样下次嵌入它们时就可以得到相似的embeddings。
  通过在数据集上重复此操作并使用大的batchsize,最终使编码器能够生成图像和文本说明相似的embeddings。如word2vec,训练过程也需要包含不匹配的图像和文本说明作为负样本,以得到较低的相似度分数。
  8将文本信息融入图像生成过程
  为了使文本融入图像生成,我们须调整噪声预测器来输入文本。
  现在,在数据集中加入文本。因为我们是在潜空间中运行,所以输入的图像和预测的噪声都处于潜空间中。
  为了更好地理解UNet中文本tokens的使用方式,下面我们将进一步探究UNet模型。
  Unet噪声预测器的Layers(未使用文本)
  首先来看没有使用文本的UNet,其输入和输出如下:
  可以看到:UNet是一系列用于转换latents数组的layers每一layer都对前一个layer的输出进行操作Someoftheoutputsarefed(viaresidualconnections)intotheprocessinglaterinthenetwork通过残差连接(residualconnections),将网络前面的layer输出送入到后面的layer进行处理时间步长被转化为embedding向量,在网络层中使用
  Unet噪声预测器中的Layers(带文本)
  现在让我们看看如何改变该系统以增加对文本的关注度。
  为了给文本输入提供支持,也就是专业上所说的文本条件(textconditioning),我们需要在系统的ResNetblocks之间添加一个注意力层(attentionlayer)。
  文本信息不直接由ResNet处理,而是通过注意力层将这些文本表示融入到latents中。这样,下一个ResNet就能在处理过程中利用融入的文本信息。
  9总结
  希望本文能帮助你深入了解StableDiffusion的运作机制。虽然还涉及到许多其他概念,但是只要熟悉了以上板块,这些概念就会变得很容易理解。下面是一些我认为很有用的资源。
  资源
  https:www。youtube。comshortsqL6mKRyjK0https:huggingface。coblogstablediffusionhttps:huggingface。coblogannotateddiffusionhttps:www。youtube。comwatch?vJ87hffSMB60https:www。youtube。comwatch?vltLNYA3lWAQhttps:ommerlab。comresearchlatentdiffusionmodelshttps:lilianweng。github。ioposts20210711diffusionmodelshttps:www。youtube。comwatch?v7rMfsA24Ls
  (本文在遵循CCBYNCSA4。0协议的基础上由OneFlow编译发布,译文转载请联系获得授权。原文:Alammar,J(2018)。TheIllustratedTransformer〔Blogpost〕。https:jalammar。github。ioillustratedstablediffusion)
  欢迎Star、试用OneFlow最新版本:https:github。comOneflowInconeflow

只欢迎清北名校生?淄博回应据淄博日报公众号3月2日发布的报道,3月1日,淄博市参加2023年春季山东名校人才直通车北京站引才活动,淄博市市委书记马晓磊在现场表示,今年五一期间,淄博将对北大、清华在校生实……宝宝辅食何时添加,第一口辅食吃什么?5个原则要注意医生,我不是来看病的。我就是来咨询一下,我家宝宝马上4个月了,我婆婆说4个月过了就可以添加辅食了。可是,我出院的时候,当时医生明明告诉我要到6个月才可以添加辅食。……恐龙统治了地球1亿7千万年,却没进化成高等智慧生物,为什么?恐龙是地球上最著名和最富有争议的生物之一。在地球历史上,恐龙统治了地球长达1亿7千万年的时间,成为了地球上最顶尖、最强大的生物。然而,令人困惑的是,尽管它们拥有如此惊人的力量和……买火龙果,选红心还是白心,差别很大,建议弄明白了再买火龙果是一种色彩斑斓、口感清香的水果。它在市场上分为红心火龙果和白心火龙果两类,而且价格差异也较大。很多人喜欢购买火龙果,但是却不知道该如何选择,红心火龙果好还是白心火龙果好?……全国笔记本电脑租赁可以这样安排,靠谱而省心租电脑对于当代社会的人来说并不陌生,看上去电脑是家家户户都有的设备,当初电脑可以享受到更大的方便,比如可以随时更换想要的电脑类型,比如可以获得最新系统的电脑,比如可以随时退还电……大衣哥买棺材,村民得寸进尺要拆房分钱,疑提前为自己留下棺材本大衣哥是朱楼村唯一一个明星,他的爆火经历,见证了人心的险恶。在他出名前,村中没有一个人瞧得起他,但大家并没有太过极端,只是在说话时有些嘲讽之意罢了。毕竟那时的朱之文,只是一个每……2023泰国可再生能源峰会举行来源:人民网国际频道原创稿2023泰国可再生能源峰会现场。人民网李源欣摄2023泰国可再生能源峰会现场。人民网李源欣摄泰国能源部替代能源开发与效率局局长普拉斯……网曝游客报团游九寨沟在饭店饮酒后1死1失明都是导游为了拿回扣,不断向游客推酒。这个导游有着不可推卸的责任。你作为专业导游,难道你不知道从平原到高原海拨差异风险有多大吗?你还不断推酒怎么怎么好?在生命和利益面前,难道导游……看杨幂赵今麦同框就知道为啥新生代小花不能打了最近,综艺《花儿与少年》系列阔别多年终于再次开录,目前第四季的名单基本确定,据悉有张凯丽刘敏涛杨幂赵今麦等,这次的嘉宾阵容还是挺有看点的,要咖位有咖位,要话题有话题……推动数字经济与实体经济深度融合京东(钟祥)数字经济产业园开园湖北日报客户端讯(通讯员王超华任凯)3月17日,京东(钟祥)数字经济产业园在钟祥经济开发区开园。省商务厅电商处处长刘默、京东科技集团销售中心副总裁任江鹏,钟祥市领导周军、杨孟富……可口可乐粉丝的福利,杭州这个工业博物馆重新开放了,预约走起3月15日,国际消费者权益日到来之际,浙江省工业旅游示范基地可口可乐博物馆再次对外开放。由消费者代表、大学生代表组成的近50名首批观众,受邀参加消费日有我透明工厂行活动,……衡东启动智赋百企推动企业数字化转型升级赋能湖南日报新湖南客户端4月12日讯(通讯员罗忠奇向立中)近日,衡东县组织召开送政策解难题优服务智赋百企行动推进会。将以推动产业数字化,加快大数据、人工智能、云计算、5G等数字技术……
A股京东方A的大股东是谁?京东方A的大股东是谁?京东方A的全称是,京东方科技集团股份有限公司;大股东,北京国有资本运营管理有限公司;行业类别,电子设备,计算机、通信和其他电子设备制造业。京东……CBA深圳队与顾全顶薪续约三年联赛公司在16日更新了深圳队新赛季国内球员注册球员信息,深圳队已经完成与内线主力沈梓捷为期两年的顶薪续约合同。但目前,深圳队顾全的状态还是预注册。据北京青年报记者16日获悉,深……未来中国房地产市场将进入缓慢的下降周期房地产经了二十多年商品市场的发展,已经饱和和过剩了,房地产刚需的时代已经过去,未来房地产市场生存的空间越来越小,简单的说就像照相机胶卷一样,大多数的房地产公司都会消失!这……确定!中国女排明天出征世锦赛,14人大名单或最后一刻公布2022年世界女排锦标赛将于9月23日至10月16日在荷兰和波兰两个国家进行,备受外界关注的中国女排目前确定将于17日启程前往荷兰,参加在那里进行的女排世锦赛第一阶段小组赛争夺……拒绝被爆冷!世界冠军恶战5局淘汰强敌,对手曾打哭张本智和北京时间9月16日下午,乒乓球WTT哈萨克斯坦赛迎来了一场强强对决,世乒赛男双冠军、男单亚军得主法尔克(瑞典)登场,与世乒赛男单季军、曾把张本智和打得痛哭流涕的猛将安宰贤(韩国……三年前抢走了中国男篮东京奥运资格的他,今天又淘汰了东契奇的斯文羊城晚报全媒体记者郝浩宇谁是马特乌什波尼特卡?恐怕连最资深的篮球迷听到这个名字时也会犹豫半晌,然后模模糊糊地在心中生成一个穿着波兰球衣的普通球员模样。的确,在众多……外援就该这么用!王晗弃用保罗激活罗切斯特,吉伦沃特适应新角色北京时间10月25日,CBA联赛第7轮上演焦点之战,山东高速男篮面对上海久事在第一节就拉开了分差,比赛早早失去了悬念,最终山东高速10687击败了上海久事。王晗在弃用保罗后双外……千元机荣耀X40的上代机荣耀X30荣耀X40,相信大家对它的性能及其数据都十分了解,那么作为荣耀X40的上一代手机荣耀的X30,大家对它的了解又有多少呢,今天就让我们来细说一下。正背面图该款手机搭载……传统旅游企业转型中国旅游协会休闲度假分会会长魏小安旅游业,在将近三年的疫情磨难之下,刚刚燃起的希望又一次破灭。这个时候,呼吁政府重视,希望政策支持,是自然而然的事情。但是,哪个行业不困难……自强奋进,助益乡村振兴之基石群众有期盼,我们有信仰;群众有需要,我们有力量。明天更美好不仅仅是因为我们坚信明天更美好,更是因为我们鼓足干劲在创造更加美好的明天。时间是生命的丈量尺,生命是肉体存在的倒……熵议125个科学问题来自基因还是记忆?问题Howdomigratoryanimalsknowwheretheyregoing?迁徙动物如何知道它们要去哪里?先分析现有答案,我们知道当一个问题的答案……双十一好机推荐!新iPhone14亲身体验高颜值高性能再上黑哈喽,您好!我是原呵呵,点点关注吧,更多精彩内容等着您新的iPhone14终于到货了。这一次,我正在盘点新的iPhone14,但请注意,具有相同规格但尺寸更大的iPhon……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网