谷歌ampampampHuggingFace零样本能力最强的
本文约2000字,建议阅读5分钟
要是为了模型的zeroshot泛化能力,decoder结构语言模型任务最好;要是再multitaskfinetuning,encoderdecoder结构MLM任务最好。
从GPT3到Prompt,越来越多人发现大模型在零样本学习(zeroshot)的设定下有非常好的表现。这都让大家对AGI的到来越来越期待。
但有一件事让人非常疑惑:19年T5通过调参发现,设计预训练模型时,EncoderDecoder的模型结构MLM任务,在下游任务finetune效果是最好的。可是在2202年的当下,主流的大模型用的都是仅decoder的模型结构设计,比如OpenAI的GPT系列、Google的PaLM〔1〕、Deepmind的Chinchilla〔2〕等等。这是为什么?难道这些大模型设计都有问题?
今天带来一篇HuggingFace和Google的文章。这篇文章与T5在实验上的思路相似,通过大量对比设计,得到一个重磅结论:要是为了模型的zeroshot泛化能力,decoder结构语言模型任务最好;要是再multitaskfinetuning,encoderdecoder结构MLM任务最好。
除了找到最好的训练方式,作者通过大量的实验,还找到了最好的同时还能最节省成本的训练方式。训练计算量只需要九分之一!
论文题目:
WhatLanguageModelArchitectureandPretrainingObjectiveWorkBestforZeroShotGeneralization?
论文链接:
https:arxiv。orgabs2204。05832
模型设计
模型设计可以分成图中的四个方面,即选什么结构?什么训练目标?要不要搞adaptation?multitaskfinetuning?文章还在两个benchmark进行了评测。
模型结构Architecture
模型结构都基于transformer,有三个选项,如图所示:
Causaldecoderonly(CD):直接只用transformerdecoder。这类模型大多使用语言模型的训练目标,即通过上文预测当前token。代表作有GPT系列。Noncausaldecoderonly(ND):为了能在给定条件下生成或基于输入生成,训练时可以让前面一部分token可见。Encoderdecoder(ED):这就是原始transformer的结构,输入一个序列,encoder输出同样长度的向量表示序列,decoder基于encoder的输出做有条件的自回归生成。
小结一下,CD是只用decoder,ND是给提示的decoder,ED是encoderdecoder。后面将用缩写表示。
训练目标Objective
与模型结构对应,训练目标也有三种:
Fulllanguagemodeling(FLM):CD类的模型架构常用FLM,通过上文预测当前token。在训练时,每个token可以并行计算出loss,预测时要迭代预测。Prefixlanguagemodeling(PLM):ND类和ED类的模型架构可以用PLM。首先在attention矩阵中定义一段prefix,训练时要求模型生成prefix后面的tokens。Maskedlanguagemodeling(MLM):只用Encoder的模型常用MLM目标。后来在T5这个seq2seq模型里,也使用了整段mask的MLM任务。
小结一下,FLM就是语言模型目标,PLM是带提示的语言模型目标,MLM是掩码目标。后面也会用缩写表示。
适应任务Adaptation
适应任务是预训练之后,换一个新的训练目标,继续训练。与finetune不同的是,适应的过程并没有使用新的下游任务的数据,只是继续使用预训练的数据。适应任务也可以分成两类。
Languagemodelingadaptation(LMA):预训练用MLM,后面再用PLM或FLM继续训练。MLMFLM就是T5采用的方式,而MLMPLM,就是之前非常火的连续化prompttuning的方法,比如prefixtuning等等。NoncausalMLMadaptation(NCA):预训练用的是PLM,后面再用FLM继续训练。这个方法是本文首次提出的,给decoder前面一部分prefix固定住,用PLM目标训练,相当于给GPT做prefixtuning。
多任务微调Multitaskfinetuning
多任务微调multitaskfinetuning(MTF)是HuggingFace去年年底的工作〔3〕,即拿到预训练模型,给他在171个任务上用prompt的方式同时finetune。这种方式可以极大地增加预训练模型的zeroshot能力。
实验和结论
评测任务
这篇文章用了两个benchmark:
EleutherAILMEvaluationHarness(EAIEval):这个任务是用来评测语言模型(也就是本文中使用FLM训练目标的模型)的zeroshot能力。T0的测试集(T0Eval):就是HuggingFace之前multitaskfinetuning工作使用的测试集。
这两个测试集都是用prompt的方式进行测试,即直接构建prompt输入给预训练模型,让模型生成预测结果。两个测试集不同的地方在于,EAIEval的每个任务只给了一个prompt,因此评测受prompt波动影响比较大,因此在本文的测试里,作者们为每个任务多设计了一些prompts,来消除随机性。
结论
实验得到如下结论:
只无监督预训练时:
CD的模型结构FLM训练目标zeroshot最好的模型。
这里就跟现在的大模型对上了。大模型都用的是这个组合,有最好的零样本泛化能力。
预训练之后再加上多任务微调时:
ED的模型结构MLM训练目标zeroshot最好的模型。
这张图左右表示两个评测集。每张图上都有九个点,代表九个模型架构和训练目标的组合。左边T0Eval上结果非常明显:可以将九个组合分成三组,左边是几个baseline,中间是三种模型结构语言模型训练目标,右边是三种模型结构MLM训练目标。可以明显看到,MLM训练目标明显更好,MLMED最好。
适应任务的作用:
预训练之后,换一个新的训练目标,继续训练,这带来的主要是训练成本的降低。比如左图,本身我们想要一个CDFLM的结合,那就先训一个NDMLM,然后改成CDFLM再做适应任务,这样可以总体提速1。6倍。
经过一系列实验,作者最后总结出一个结论:如果想最低成本的构建效果好的大模型,那就用CDFLM预训练,然后再改用NDMLM做适应任务,最后再使用多任务微调。这样的训练方式要比直接训练提速9。1倍,同时效果最好。
总结
这篇文章跟T5非常像,也是用调参的感觉在设计实验,最终找到最好的模型设计和训练方式。这样的论文读下来也感觉逻辑清晰严谨。
但是从另外一个角度想,这样的文章似乎也有些无聊:现在大模型的使用,变成了找prompt的特征工程。这篇文章的训练和设计也变成了调参,而失去了创新的灵机一动。这可能代表了大模型领域的内卷吧。
参考文献:
〔1〕AakankshaChowdhery,et。el。,Palm:Scalinglanguagemodelingwithpathways。,https:arxiv。orgabs2204。02311〔2〕JordanHoffmann,et。al。,TrainingComputeOptimalLargeLanguageModels。,https:arxiv。orgabs2203。15556〔3〕VictorSanh,et。al。,MultitaskPromptedTrainingEnablesZeroShotTaskGeneralization,https:arxiv。orgabs2110。08207
缅甸翡翠如何辨别nbsp四种方法让你避免买到假货缅甸翡翠简称缅翠,市场上商业品级的翡翠玉石九成以上来自缅甸,翡翠又称为缅甸玉,因此将缅甸玉作为翡翠的代名词。日本、美国加州等地均产有硬玉,但其质量远不如缅甸。近些年,人们……
图如何制作漂亮的软陶珠子快来学习掌握这些基本功软陶又叫塑泥,是一种PVC人工低温聚合材料,从外形看像橡皮泥,但烘烤之后性质类似塑料,有非常生动的造型能力。用软陶可以制成软陶珠子,其中切片软陶珠子较为简单。软陶作为一项……
图贾宝玉林黛玉的爱情过程详细揭秘他们的悲剧缘由《红楼梦》作为一本家喻户晓的长篇小说,它不仅描绘了古代世家的生活情景,更是塑造了一系列惟妙惟肖的人物,特别其中的贾宝玉和林黛玉,他们的爱情故事一直让人牵肠挂大家都知道,《……
绿松石的功效与作用nbsp注意保养让它光彩依旧绿松石一种大众认知度比较高的宝石,很多人都喜欢其淡雅的色彩,佩戴起来给人一种清新优雅的感觉。但其实看似普通的绿松石,却具有强大的功效,长期佩戴有不少好处。珠宝的种类繁多,……
图羊毛毡猫咪做法就是要这么简单羊毛毡制作出来的动物,可爱形象,栩栩如生。很多家里有养猫咪的,就喜欢用羊毛毡去制作一个跟自己家里猫咪一样的羊毛毡,不仅会很可爱,还可以观察自己家猫咪的反应。羊毛毡制作猫咪……
三八妇女节送给女人的诗你是大地厚德载物的岁月充实了世界的美丽你是光照亮着儿女们的路你是闪电喜怒哀乐悲恐惊都在渲染着平凡的日子你是绿荫遮挡着岁月的……
蜜蜡怎样鉴别真假nbsp教你4个简单的方法蜜蜡因为其漂亮多变的色彩和神奇的变化,受到了越来越多人的喜爱,也成为了很多收藏市场的时尚宠儿。那怎么样能辨别蜜蜡的真伪呢?今天小编告诉你几招吧!蜜蜡有非常高的收藏价值,在……
等待4年149天,中国高尔夫天才再夺冠,摔帽子疯狂庆祝跪地痛近段时间,中国高尔夫天才李昊桐,在时隔4年149天之后,再次夺得重要赛事的冠军!从慕尼黑传来的喜讯显示,李昊桐在决赛延长赛中敢打敢拼,一记神奇的12米推杆抓鸟,让他力压未能成功……
长按2秒,挖掘微信9个隐藏的小功能,各个都很实用微信是我们日常生活之中最常用的软件。几乎在国内每一台智能手机上都安装有微信。微信也方便了我们的生活,我们用微信与家人朋友沟通、打视频电话,出门买菜购物扫描付款,疫情当下我们还用……
黑玛瑙产地详解nbsp它还有这两大不可思议的功效黑玛瑙自古以来就是应用广泛玉料,古代人们常以珍珠玛瑙来形容财富。国外很多的传说中提到黑玛瑙能给佩戴黑玛瑙者带来愉快和信心,带来美梦,象征着友善的爱心。说起黑玛瑙这种宝石,……
图简笔画人物怎么画几个小方法教给你孩子不会画人物简笔画,让你教她,看着孩子渴望的眼神,你总不能狠心的说不会吧。可是自己也真的不会,那怎么办呢,今天就给你们分享一些简笔画人物的画法。简笔画,顾名思义就是将复……
独特的火锅火锅是我们四川人爱吃的东西,锅里开了花的是脆皮肠,又百又方的是诱人的虾饺,粉粉嫩嫩的是潵尿牛丸。还有红海似的汤,星星点点的葱火锅不仅看相好,味道也好。只要有锅底,你就只须……