大家还记得去年1月OpenAI发布的120亿参数魔法模型DALLE吗? 当时,DALLE的画风是这样的: 只要阅读文本,DALLE就能根据文本的内容自动生成栩栩如生的大师级画像。因此,当时一经发布,DALLE就火遍了AI圈,吸粉无数,也让LanguageVision(文本视觉)方向又火了一把。 就在近日,时隔一年后,OpenAI结合CLIP,又发布了DALLE的第二个版本DALLE2。0! 相比DALLE1。0,DALLE2。0可以生成更真实和更准确的画像:综合文本描述中给出的概念、属性与风格等三个元素,生成现实主义图像与艺术作品!分辨率更是提高了4倍! 比如,当提示文本中分别包含概念Anastronaut(一个宇航员)、属性ridingahorse(在骑一匹马)和风格inaphtprealisticstyle(超现实风格)时: 文本提示:Anastronautridingahorseinaphtprealisticstyle(一个宇航员骑马超现实风格) DALLE2可以生成如下这些同时包含三种元素的图像: 在满足三种给定元素的基础上,它可是充分发挥了自己的想象力,不仅马的姿态各不相同,而且给宇航员穿上了样式各异的服装,场景也是十分丰富,草地上、山顶上、星空中。。。。。。 神不神奇!牛不牛!让我们来欣赏DALL2。0的大师作品! 如果你想要变换文本中概念、属性和风格三个元素中的一个或多个,比如保留概念一个宇航员和属性在骑一匹马,而将超现实主义风格替换为波普艺术家安迪沃霍尔的风格,DALLE2也可以轻松转换它的绘画风格: 文本提示:AnastronautridingahorseinthestyleofAndyWarhol(一个宇航员在骑一匹马安迪沃霍尔的风格) DALLE2生成的图像: 文本提示:Anastronautridingahorseasapencildrawing(一个宇航员在骑一匹马铅绘风格) DALLE2生成的图像: 文本提示:Anastronautlounginginatropicalresortinspaceinavaporwavestyle(一个宇航员在太空热带度假胜悠哉地躺着蒸汽波风格) DALLE2生成的图像: 文本提示:Teddybearsmixingsparklingchemicalsasmadscientistsasa1990sSaturdaymorningcartoon(泰迪熊们正在像疯狂的科学家一样混合着冒泡的化学物质20世纪90年代的周六早间卡通片风格) DALLE2生成的图像: 文本提示:Teddybearsshoppingforgroceriesinthestyleofukiyoe(泰迪熊购买杂货浮世绘风格) DALLE2生成的图像: 文本提示:TeddybearsshoppingforgroceriesinancientEgypt(泰迪熊购买杂货古埃及风格) DALLE2生成的图像: 文本提示:Abowlofsoupthatisaportaltoanotherdimensionasdigitalart(一碗汤通往另一个维度的门户数字艺术风格) DALLE2生成的图像: 文本提示:Abowlofsoupasaplanetintheuniverseasa1960sposter(一碗汤宇宙中的一个星球1960年代海报风格) DALLE2生成的图像: 文本提示:Abowlofsoupasaplanetintheuniverseasdigitalart(一碗汤宇宙中的一个星球数字艺术风格) DALLE2生成的图像: DALLE2。0的其他功能 1、图像编辑 DALLE2可以根据自然语言描述的标题对现有图像进行逼真的编辑,比如,在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下: 文本描述的编辑需求:选择一个位置在图中添加火烈鸟。 原图vs。DALLE2编辑后的图像: 文本描述的编辑需求:选择一个位置在图中添加柯基。 原图vs。DALLE2编辑后的图像: 2、风格变体 DALLE2可以拍摄一张图片,然后根据原图制作出同一个风格的不同画像。示例如下: 原图1: DALLE2创造的同一风格图像: 原图2: DALLE2创造的同一风格图像: 原图3: DALLE2创造的同一风格图像: 原图4: DALLE2创造的同一风格图像: 对于AI从文本生成的图像,我们非常看重的一点当然是图像的分辨率了,图像的分辨率越高,像素数量就越多,图像也就越清晰和逼真。与DALLE1相比,DALLE2的分辨率提高了4倍! 比如,对于同样的文本提示: 文本提示:apaintingofafoxsittinginafieldatsunriseinthestyleofClaudeMonet(一只狐狸坐在日出时的田野里克劳德莫奈风格) 下面两张图分别是DALLE1和DALLE2所生成图像的对比: 对比之下,DALLE1生成的图像可以说是很模糊了,甚至根本看不出日出在哪里,狐狸只显露出它的头部,田野也不太有田野的样子,而且在整体风格上与画家莫奈的印象派风格相去甚远。 而在DALLE2的魔法手笔下,图像质量显著提高,日出和田野都很生动,小狐狸端坐在草地上,姿态可爱。这幅画作色彩更加丰富,使用了更多的复色,对光影的描绘更加接近莫奈的风格。 总体来说,相比DALLE1。0,DALL2显然能hold住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述,而是对一个场景的整体表达,故事更完整,想象力也更丰富! 更详细的内容,可以查看DALLE2的相关研究论文: 论文地址:https:cdn。openai。compapersdalle2。pdf