幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

谷歌ampampampHuggingFace零样本能力最强的

  本文约2000字,建议阅读5分钟
  要是为了模型的zeroshot泛化能力,decoder结构语言模型任务最好;要是再multitaskfinetuning,encoderdecoder结构MLM任务最好。
  从GPT3到Prompt,越来越多人发现大模型在零样本学习(zeroshot)的设定下有非常好的表现。这都让大家对AGI的到来越来越期待。
  但有一件事让人非常疑惑:19年T5通过调参发现,设计预训练模型时,EncoderDecoder的模型结构MLM任务,在下游任务finetune效果是最好的。可是在2202年的当下,主流的大模型用的都是仅decoder的模型结构设计,比如OpenAI的GPT系列、Google的PaLM〔1〕、Deepmind的Chinchilla〔2〕等等。这是为什么?难道这些大模型设计都有问题?
  今天带来一篇HuggingFace和Google的文章。这篇文章与T5在实验上的思路相似,通过大量对比设计,得到一个重磅结论:要是为了模型的zeroshot泛化能力,decoder结构语言模型任务最好;要是再multitaskfinetuning,encoderdecoder结构MLM任务最好。
  除了找到最好的训练方式,作者通过大量的实验,还找到了最好的同时还能最节省成本的训练方式。训练计算量只需要九分之一!
  论文题目:
  WhatLanguageModelArchitectureandPretrainingObjectiveWorkBestforZeroShotGeneralization?
  论文链接:
  https:arxiv。orgabs2204。05832
  模型设计
  模型设计可以分成图中的四个方面,即选什么结构?什么训练目标?要不要搞adaptation?multitaskfinetuning?文章还在两个benchmark进行了评测。
  模型结构Architecture
  模型结构都基于transformer,有三个选项,如图所示:
  Causaldecoderonly(CD):直接只用transformerdecoder。这类模型大多使用语言模型的训练目标,即通过上文预测当前token。代表作有GPT系列。Noncausaldecoderonly(ND):为了能在给定条件下生成或基于输入生成,训练时可以让前面一部分token可见。Encoderdecoder(ED):这就是原始transformer的结构,输入一个序列,encoder输出同样长度的向量表示序列,decoder基于encoder的输出做有条件的自回归生成。
  小结一下,CD是只用decoder,ND是给提示的decoder,ED是encoderdecoder。后面将用缩写表示。
  训练目标Objective
  与模型结构对应,训练目标也有三种:
  Fulllanguagemodeling(FLM):CD类的模型架构常用FLM,通过上文预测当前token。在训练时,每个token可以并行计算出loss,预测时要迭代预测。Prefixlanguagemodeling(PLM):ND类和ED类的模型架构可以用PLM。首先在attention矩阵中定义一段prefix,训练时要求模型生成prefix后面的tokens。Maskedlanguagemodeling(MLM):只用Encoder的模型常用MLM目标。后来在T5这个seq2seq模型里,也使用了整段mask的MLM任务。
  小结一下,FLM就是语言模型目标,PLM是带提示的语言模型目标,MLM是掩码目标。后面也会用缩写表示。
  适应任务Adaptation
  适应任务是预训练之后,换一个新的训练目标,继续训练。与finetune不同的是,适应的过程并没有使用新的下游任务的数据,只是继续使用预训练的数据。适应任务也可以分成两类。
  Languagemodelingadaptation(LMA):预训练用MLM,后面再用PLM或FLM继续训练。MLMFLM就是T5采用的方式,而MLMPLM,就是之前非常火的连续化prompttuning的方法,比如prefixtuning等等。NoncausalMLMadaptation(NCA):预训练用的是PLM,后面再用FLM继续训练。这个方法是本文首次提出的,给decoder前面一部分prefix固定住,用PLM目标训练,相当于给GPT做prefixtuning。
  多任务微调Multitaskfinetuning
  多任务微调multitaskfinetuning(MTF)是HuggingFace去年年底的工作〔3〕,即拿到预训练模型,给他在171个任务上用prompt的方式同时finetune。这种方式可以极大地增加预训练模型的zeroshot能力。
  实验和结论
  评测任务
  这篇文章用了两个benchmark:
  EleutherAILMEvaluationHarness(EAIEval):这个任务是用来评测语言模型(也就是本文中使用FLM训练目标的模型)的zeroshot能力。T0的测试集(T0Eval):就是HuggingFace之前multitaskfinetuning工作使用的测试集。
  这两个测试集都是用prompt的方式进行测试,即直接构建prompt输入给预训练模型,让模型生成预测结果。两个测试集不同的地方在于,EAIEval的每个任务只给了一个prompt,因此评测受prompt波动影响比较大,因此在本文的测试里,作者们为每个任务多设计了一些prompts,来消除随机性。
  结论
  实验得到如下结论:
  只无监督预训练时:
  CD的模型结构FLM训练目标zeroshot最好的模型。
  这里就跟现在的大模型对上了。大模型都用的是这个组合,有最好的零样本泛化能力。
  预训练之后再加上多任务微调时:
  ED的模型结构MLM训练目标zeroshot最好的模型。
  这张图左右表示两个评测集。每张图上都有九个点,代表九个模型架构和训练目标的组合。左边T0Eval上结果非常明显:可以将九个组合分成三组,左边是几个baseline,中间是三种模型结构语言模型训练目标,右边是三种模型结构MLM训练目标。可以明显看到,MLM训练目标明显更好,MLMED最好。
  适应任务的作用:
  预训练之后,换一个新的训练目标,继续训练,这带来的主要是训练成本的降低。比如左图,本身我们想要一个CDFLM的结合,那就先训一个NDMLM,然后改成CDFLM再做适应任务,这样可以总体提速1。6倍。
  经过一系列实验,作者最后总结出一个结论:如果想最低成本的构建效果好的大模型,那就用CDFLM预训练,然后再改用NDMLM做适应任务,最后再使用多任务微调。这样的训练方式要比直接训练提速9。1倍,同时效果最好。
  总结
  这篇文章跟T5非常像,也是用调参的感觉在设计实验,最终找到最好的模型设计和训练方式。这样的论文读下来也感觉逻辑清晰严谨。
  但是从另外一个角度想,这样的文章似乎也有些无聊:现在大模型的使用,变成了找prompt的特征工程。这篇文章的训练和设计也变成了调参,而失去了创新的灵机一动。这可能代表了大模型领域的内卷吧。
  参考文献:
  〔1〕AakankshaChowdhery,et。el。,Palm:Scalinglanguagemodelingwithpathways。,https:arxiv。orgabs2204。02311〔2〕JordanHoffmann,et。al。,TrainingComputeOptimalLargeLanguageModels。,https:arxiv。orgabs2203。15556〔3〕VictorSanh,et。al。,MultitaskPromptedTrainingEnablesZeroShotTaskGeneralization,https:arxiv。orgabs2110。08207

布克19分太阳力克魔术终结3连败!富尔茨2579NBA常规赛3月17日继续进行,最终,太阳以116113战胜魔术,太阳终结了3连败。首节开始,双方上来打得难分难解,太阳以117稍稍领先后太阳突然断电,整整4分钟时间一分……绍兴最具代表的产物之一,你知道它的来头吗?带你揭秘!每当提及绍兴,人们总是想到鲁迅先生笔下乡情浓郁的乌毡帽。它外形朴实无华,安逸自然,淳厚端庄;内涵意蕴深邃,遐迩闻名,受人青睐。它以特有的文化内涵,成为绍兴人的标志,绍兴农民的代……将办爱情主题马拉松!2023年猫儿山高山杜鹃花文化旅游节即将广西新闻网南宁4月12日讯(记者金翔义实习生韦晓霓)华南第一高峰即将迎来为期一月的旅游节。4月12日下午,2023年猫儿山高山杜鹃花文化旅游节新闻发布会在南宁举行,杜鹃游园会、……德媒拜仁预计周末对马内打人事件发表声明,他的状态令队友困惑直播吧4月13日讯据《SPORT1》报道,关于马内打人事件,拜仁预计周末会发表官方声明。不管怎么样,在对阵霍芬海姆之前的新闻发布会上,拜仁主帅图赫尔都会有机会对该事件发表评论。……蒋凡回归阿里核心,铺开国际数字商业新版图阿里集团在马云回到杭州后宣布的新声明中,提到了即将到来的阿里内部16N的体系改革,本来是再正常不过的事情,细致的网友却在新的任命名单中,看到了蒋凡的名字,没错,蒋凡将担任……CNN卡塔尔荒漠中有一处神秘岩石艺术宝库包含什么内容难以破解中国小康网04月11日讯老马有些像沐浴在阳光下的爬行动物一样从柔软的岩石中射出,其他则是神秘的洼地。类似于世界各地玩的古老棋盘游戏,还有一些是直截了当的令人费解的符号。卡……歌手李玟六次恋爱无果,36岁嫁洋人老公,9次试管怀不上孩子2011年,刚新婚的李玟在访谈节目中,大方谈及丈夫的前妻和两个女儿,言语间全是自信和轻松。她不排斥乐裕民有过婚史,更不会苛刻他的曾经。因为前妻姐是个很好的人,她也从……星星会知道你努力,但人不会原来我还是跟别人有差距。我已经不记得发出这样的感叹,多少次了。有些时候发现自己无论多努力都比不过别人。而归其原因不是因为不够别人优秀,而是不够别人有后台。我从来都不是个自……夸父一号卫星观测数据向海内外试开放中新社南京4月12日电(记者杨颜慈)中新社记者12日从中国科学院紫金山天文台获悉,中国首颗综合性太阳探测专用卫星夸父一号观测数据现已向海内外试开放。同时,夸父一号国际访问学者计……欢乐颂4沦为打拳剧,女性应追求平权,而非复辟封建陋习近些年有这样一种观点,认为资本在刻意讨好女性,原因则非常简单,为了获取利益。譬如说,现在但凡是个节日,商家就会鼓吹男生要送女生礼物,不送就是不爱。至于送什么,自然早已被商家定义……聊两句总有AI取代不了的招聘我们在招人,外加回复一个粉丝问题。这个周末有两件挺重要的事情,想跟大家聊聊的统一回复下。很多粉丝在后台问,之前为什么有两个月没有更新?那是因为我们看到了ChatGPT。它让我们……每公里1块钱?小拉出行接单需200保证金,小平台吃相不要太难今年网约车行业垄断得厉害,从年初滴滴回归,到这两个月自动驾驶的逐步落地,行业趋势越来越明显:网约车要准备向另一种形式的出租车靠拢了。另一重含义来说,小平台的生存环境也越来……
缅甸翡翠如何辨别nbsp四种方法让你避免买到假货缅甸翡翠简称缅翠,市场上商业品级的翡翠玉石九成以上来自缅甸,翡翠又称为缅甸玉,因此将缅甸玉作为翡翠的代名词。日本、美国加州等地均产有硬玉,但其质量远不如缅甸。近些年,人们……图如何制作漂亮的软陶珠子快来学习掌握这些基本功软陶又叫塑泥,是一种PVC人工低温聚合材料,从外形看像橡皮泥,但烘烤之后性质类似塑料,有非常生动的造型能力。用软陶可以制成软陶珠子,其中切片软陶珠子较为简单。软陶作为一项……图贾宝玉林黛玉的爱情过程详细揭秘他们的悲剧缘由《红楼梦》作为一本家喻户晓的长篇小说,它不仅描绘了古代世家的生活情景,更是塑造了一系列惟妙惟肖的人物,特别其中的贾宝玉和林黛玉,他们的爱情故事一直让人牵肠挂大家都知道,《……绿松石的功效与作用nbsp注意保养让它光彩依旧绿松石一种大众认知度比较高的宝石,很多人都喜欢其淡雅的色彩,佩戴起来给人一种清新优雅的感觉。但其实看似普通的绿松石,却具有强大的功效,长期佩戴有不少好处。珠宝的种类繁多,……图羊毛毡猫咪做法就是要这么简单羊毛毡制作出来的动物,可爱形象,栩栩如生。很多家里有养猫咪的,就喜欢用羊毛毡去制作一个跟自己家里猫咪一样的羊毛毡,不仅会很可爱,还可以观察自己家猫咪的反应。羊毛毡制作猫咪……三八妇女节送给女人的诗你是大地厚德载物的岁月充实了世界的美丽你是光照亮着儿女们的路你是闪电喜怒哀乐悲恐惊都在渲染着平凡的日子你是绿荫遮挡着岁月的……蜜蜡怎样鉴别真假nbsp教你4个简单的方法蜜蜡因为其漂亮多变的色彩和神奇的变化,受到了越来越多人的喜爱,也成为了很多收藏市场的时尚宠儿。那怎么样能辨别蜜蜡的真伪呢?今天小编告诉你几招吧!蜜蜡有非常高的收藏价值,在……等待4年149天,中国高尔夫天才再夺冠,摔帽子疯狂庆祝跪地痛近段时间,中国高尔夫天才李昊桐,在时隔4年149天之后,再次夺得重要赛事的冠军!从慕尼黑传来的喜讯显示,李昊桐在决赛延长赛中敢打敢拼,一记神奇的12米推杆抓鸟,让他力压未能成功……长按2秒,挖掘微信9个隐藏的小功能,各个都很实用微信是我们日常生活之中最常用的软件。几乎在国内每一台智能手机上都安装有微信。微信也方便了我们的生活,我们用微信与家人朋友沟通、打视频电话,出门买菜购物扫描付款,疫情当下我们还用……黑玛瑙产地详解nbsp它还有这两大不可思议的功效黑玛瑙自古以来就是应用广泛玉料,古代人们常以珍珠玛瑙来形容财富。国外很多的传说中提到黑玛瑙能给佩戴黑玛瑙者带来愉快和信心,带来美梦,象征着友善的爱心。说起黑玛瑙这种宝石,……图简笔画人物怎么画几个小方法教给你孩子不会画人物简笔画,让你教她,看着孩子渴望的眼神,你总不能狠心的说不会吧。可是自己也真的不会,那怎么办呢,今天就给你们分享一些简笔画人物的画法。简笔画,顾名思义就是将复……独特的火锅火锅是我们四川人爱吃的东西,锅里开了花的是脆皮肠,又百又方的是诱人的虾饺,粉粉嫩嫩的是潵尿牛丸。还有红海似的汤,星星点点的葱火锅不仅看相好,味道也好。只要有锅底,你就只须……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网