幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

文心ERNIE3。0Tiny新升级!端侧压缩部署小快灵!

  近年来,随着深度学习技术的迅速发展,大规模预训练范式通过一次又一次刷新各种评测基线证明了其卓越的学习与迁移能力。在这个过程中,研究者们发现通过不断地扩大模型参数便能持续提升深度学习模型的威力。然而,参数的指数级增长意味着模型体积增大、所需计算资源增多、计算耗时更长,而这无论出于业务线上响应效率的要求还是机器资源预算问题,都给大模型落地带来了极大的挑战。
  图:模型上线时精度、时延、内显存占用等多重需求示意
  如何在保证效果的前提下压缩模型?如何适配CPU、GPU等多硬件的加速?如何在端侧场景下落地大模型?如何让加速工具触手可及?这是行业内亟待解决的课题。2022年6月,文心大模型中的轻量化技术加持的多个文心ERNIE3。0Tiny轻量级模型(下文简称文心ERNIE3。0Tinyv1)开源至飞桨自然语言处理模型库PaddleNLP中,该模型刷新了中文小模型的SOTA成绩,配套模型动态裁剪和量化推理方案,被学术与工业界广泛使用。
  近期,文心ERNIE3。0Tiny升级版文心ERNIE3。0Tinyv2也开源了!相较于v1,文心ERNIE3。0Tinyv2在Outdomain(域外数据)、Lowresource(小样本数据)的下游任务上精度显著提升,并且v2还开源了3L128H结构,5。99M参数量的小模型,更适用于端侧等低资源场景。
  同时,PaddleNLP依托PaddleSlim、PaddleLite、FastDeploy开源了一整套端上语义理解压缩和部署方案。通过模型裁剪、量化感知训练、Embedding量化等压缩方案,在保持模型精度不降的情况下,推理加速2。1倍,内存占用降低62。18(降低2。6倍),体积缩小92。2(缩小12。8倍)仅5。4M。再结合高性能NLP处理库FastTokenizer对分词阶段进行加速,使端到端推理性能显著提升,从而将文心ERNIE3。0Tinyv2模型成功部署至端侧。由于端侧部署对内存占用的要求比服务端更高,因此该方案也同样适用于服务端部署。
  图:端侧设备示意
  01hr文心ERNIE3。0Tinyv2开源
  百度文心大模型团队在2021年底发布了百亿级别大模型文心ERNIE3。0和千亿级别的大模型文心ERNIE3。0Titan。为了让大模型的能力能够真正在一线业务发挥威力,文心大模型团队推出多个轻量级模型,即文心ERNIE3。0Tiny系列,刷新了中文小模型的成绩。除了在GPU上,这些模型也能在CPU上轻松调用,极大拓展了大模型的使用场景。本次开源的文心ERNIE3。0Tinyv2,使教师模型预先注入下游知识并参与多任务训练,大大提高了小模型在下游任务上的效果。
  多任务学习提升泛化性
  文心ERNIE3。0Tinyv1直接通过在线蒸馏技术将预训练大模型压缩成预训练小模型。在此基础上,文心ERNIE3。0Tinyv2首先在多个下游任务中微调教师模型,让教师模型学习到下游任务相关知识,并将这些知识通过蒸馏的方式传导给学生模型。尽管学生模型完全没有见过下游数据,也能够蒸馏获取到下游任务的相关知识,进而使下游任务的效果得到提升。由于教师模型是在多任务上进行微调的,多任务学习带来的强泛化性也能传递给学生模型,从而提升小模型的泛化性,最终获得的学生模型相比文心ERNIE3。0Tinyv1在Outdomain和Lowresource数据集上获得大幅提升。
  图:文心ERNIE3。0Tinyv2示意
  文心ERNIE3。0Tinyv2包含一系列不同尺寸的中文预训练模型,方便不同性能需求的应用场景使用:
  文心ERNIE3。0TinyBasev2(12layer,768hidden,12heads)文心ERNIE3。0TinyMediumv2(6layer,768hidden,12heads)文心ERNIE3。0TinyMiniv2(6layer,384hidden,12heads)文心ERNIE3。0TinyMicrov2(4layer,384hidden,12heads)文心ERNIE3。0TinyNanov2(4layer,312hidden,12heads)文心ERNIE3。0TinyPicov2(3layer,128hidden,2heads)
  除以上中文模型外,本次还发布了英文版文心ERNIE3。0TinyMiniv2,适用于各类英文任务。
  多任务学习的能力加持下,在文本分类、文本推理、实体抽取、问答等各种NLU任务上,文心ERNIE3。0Tinyv2相比文心ERNIE3。0Tinyv1在Outdomain、Lowresource数据上均获得显著的效果提升,在Indomain上也有一定提升。
  文心ERNIE3。0Tinyv2多任务学习、在线蒸馏方案效果显著,刷新了中文小模型的SOTA成绩。具体对比数据见如下模型精度时延图,横坐标表示在ARMCPU(高通865芯片)上,基于ARMv8arch测试(batchsize1,seqlen32)的推理时延(Latency,单位毫秒),纵坐标是CLUE10个任务上的平均精度(包含文本分类、文本匹配、自然语言推理、代词消歧、阅读理解等任务),其中CMRC2018阅读理解任务的评价指标是ExactMatch(EM),其它任务的评价指标均是Accuracy。模型名下方标注了模型的参数量。
  图中越靠左上方的模型,精度和性能水平越高。可以看到文心ERNIE3。0Tinyv2在同等规模的开源模型中,综合实力领先其他同类型轻量级模型,这波开源厉害了!与UERRoBERTaBase相比,12L768H的文心ERNIE3。0Base平均精度提升了4。5个点;6L768H的文心ERNIE3。0Medium相比12L768H的UERChineseRoBERTa高2。4,并且节省一倍运算时间;另外值得一提的是,这些小模型能够直接部署在CPU上,简直是CPU开发者的希望之光!
  在PaddleNLP中,可一键加载以上模型。
  frompaddlenlp。transformersimporttokenizerAutoTokenizer。frompretrained(ernie3。0tinymediumv2zh)用于分类任务seqclsmodelAutoModelForSequenceClassification。frompretrained(ernie3。0tinymediumv2zh)用于序列标注任务tokenclsmodelAutoModelForTokenClassification。frompretrained(ernie3。0tinymediumv2zh)用于阅读理解任务qamodelAutoModelForQuestionAnswering。frompretrained(ernie3。0tinymediumv2zh)
  此外,PaddleNLP还提供了CLUEBenchmark的一键评测脚本,并提供了大量中文预训练模型在CLUE上的效果。PaddleNLP接入了GridSearch策略,支持在超参列表范围内自动搜索超参,保留最佳结果和对应的超参数,方便一键复现模型效果,且打通了CLUE各个任务数据处理、训练、预测、结果提交的流程,方便用户快速提交CLUE榜单。
  以上模型均已开源,如有帮助,欢迎star支持。
  模型地址
  https:github。comPaddlePaddlePaddleNLPtreedevelopmodelzooernietiny
  02hr端上语义理解压缩、部署方案
  由文心大模型蒸馏得到的文心ERNIE3。0Tinyv2可以直接在下游任务上微调应用,如果想要将模型部署在移动端、边缘端,或者想要进一步压缩模型体积,降低推理时延,可使用PaddleNLP开源的端上语义理解压缩方案。以边缘端业务上线场景为例,模型经过压缩后,精度基本无损,端到端推理速度达到原来的2。13倍,内存占用减小了62。18,体积减小了92。2!
  结合飞桨模型压缩工具PaddleSlim,PaddleNLP发布了端上语义理解压缩方案,包含裁剪、量化级联压缩,如下图所示:
  基于PaddleNLP提供的的模型压缩API,可大幅降低开发成本。压缩API支持对ERNIE、BERT等ransformer类下游任务微调模型进行裁剪和量化。只需要简单地调用compress()即可一键启动裁剪量化流程,并自动保存压缩后的模型。
  frompaddlenlp。trainerimportPdArgumentParser,CompressionArgumentsStep1:使用PdArgumentParser解析从命令行传入的超参数,以获取压缩参数compressionargs;parserPdArgumentParser(CompressionArguments)compressionargsparser。parseargsintodataclasses()Step2:实例化Trainer并调用compress()trainerTrainer(modelmodel,argscompressionargs,datacollatordatacollator,traindatasettraindataset,evaldatasetevaldataset,criterioncriterion)trainer。compress()
  PaddleNLP模型裁剪、量化使用示例
  下面会对压缩方案中的词表裁剪、模型宽度裁剪、量化感知训练、词表量化进行介绍。
  词表裁剪
  端侧部署对内存占用的要求较高,而文心ERNIE3。0Tiny预训练模型的词表参数量在总参数量中占比很大,因此在下游任务微调之前,可以按照词频对词表进行裁剪,去除出现频次较低的词,这样能够减少分词后〔UNK〕的出现,使精度得到最大限度保持。例如,某数据集4w大小的词表,高频出现的词不到1w个,此时通过词表裁剪可以节省不少内存。
  模型宽度裁剪
  基于DynaBERT宽度自适应裁剪策略,通过知识蒸馏的方法,在下游任务中将文心ERNIE3。0Tiny的知识迁移到宽度更窄的学生网络中,最后得到效果与教师模型接近的学生模型。一般来说,对于4到6层的NLU模型,宽度裁剪14可基本保证精度无损。DynaBERT宽度自适应裁剪策略主要分为以下3个步骤:
  Step1
  根据AttentionHead和FFN中神经元的重要性对神经元进行重新排序,将新模型作为待压缩的模型,这样可以保证之后对神经元的裁剪可以更大程度地保留更重要的神经元。
  Step2
  用教师模型同时蒸馏按不同比例压缩宽度的多个模型。
  Step3
  在蒸馏后得到的不同宽度的学生模型中,选择大小和精度符合要求的模型并导出。
  量化感知训练
  模型量化是一种通过将训练好的模型参数、激活值从FP32浮点数转换成INT8整数来减小存储、加快计算速度、降低功耗的模型压缩方法。目前主要有两种量化方法:
  静态离线量化:使用少量校准数据计算量化信息,可快速得到量化模型;
  量化感知训练:在模型中插入量化、反量化算子并进行训练,使模型在训练中学习到量化信息。
  图:量化感知训练vs离线量化
  在对文心ERNIE3。0Tiny的压缩中,更推荐使用量化感知训练的方式。通常情况下,使用量化感知训练的方法能够比使用静态离线量化取得更高的精度。这是因为在量化感知训练之前,压缩API在模型的矩阵乘算子前插入量化、反量化算子,使量化带来的误差可以在训练过程中被建模和优化,能够使模型被量化后精度基本无损。
  Embedding量化
  端侧部署对显存的要求比较高,为了能进一步节省内存占用,可对模型的Embedding权重进行INT8量化,并将精度的损失保持在0。5之内。Embedding量化主要分两步:
  Step1
  离线统计权重在log域上的分布并进行分桶,根据分桶结果将FP32权重量化成INT8权重。如图所示,量化算子会统计权重在log域上量化后的数值分布,取出现次数topk的FP32数值,记录在对应的x轴上,作为buckets的value,其中key为〔128,127〕范围内的整数。
  Step2
  构造INT8推理模型:将权重设置为量化后的INT8权重,并在Embedding对应的算子后,插入反量化算子,反量化算子根据buckets将INT8数值类型的输入〔5,3,6〕反量化为〔1。51,0。75,2。50〕,实现方式为查表。
  部署
  模型压缩后,精度基本无损,体积减小了92。2,仅有5。4MB。到此,算法侧的工作基本完成。为了进一步降低部署难度,可以使用飞桨FastDeploy对模型进行部署。
  FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具,提供开箱即用的部署体验。FastDeploy为NLP任务提供了一整套完整的部署Pipeline,提供文心ERNIE3。0Tiny模型从文本预处理、推理引擎Runtime以及后处理三个阶段所需要的接口模块,开发者可以基于这些接口模块在云、边、端上部署各类常见的NLP任务,如文本分类、序列标注、信息抽取等。
  FastDeploy中的PaddleLite后端基于算子融合和常量折叠对深度模型进行优化,无缝衔接了PaddleLite的FP16和INT8的推理能力,可使模型推理速度大幅提升。其集成的高性能NLP处理库FastTokenizer(视觉领域集成了高性能AI处理库FlyCV),能够对分词阶段进行加速,适配GPU、CPU等多硬件。例如在麒麟985芯片上测试,单条文本的分词时延低于0。1毫秒。
  在端到端部署方面,FastDeploy在Android端目前支持CV和NLP中的7场景,35模型的开箱即用,以及简单一致的API,让Android开发者快速完成AI落地,并且获得考虑前后处理在内端到端高性能的部署体验。
  综上,基于FastDeploy部署工具,可完成文心ERNIE3。0Tiny端侧和服务端的高效部署。以下动图展示了基于文心ERNIE3。0Tinyv2的意图识别、槽位填充联合模型,使用FastDeploy部署在AndroidAPP上进行推理的效果展示:
  GitHub地址
  https:github。comPaddlePaddleFastDeploy
  总结来说,以上各类压缩策略以及对应的推理功能如果从零实现非常复杂,飞桨模型压缩工具库PaddleSlim和飞桨高性能深度学习端侧推理引擎PaddleLite提供了一系列压缩、推理工具链。飞桨AI推理部署工具FastDeploy对其进一步封装,使开发者可以通过更简单的API去实现模型压缩、推理部署流程,适配多领域模型,并兼容多硬件。PaddleNLP依托以上工具,提供NLP模型数据处理、训练、压缩、部署全流程的最佳实践。
  欢迎扫码加入PaddleNLP官方交流群
  入群福利
  与众多社区开发者以及官方团队深度交流;及时获取PaddleNLP最新技能;获取10G重磅NLP学习大礼包。
  03hr文心大模型
  随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称大模型),成为人工智能发展的关键方向与人工智能产业应用的基础底座。
  文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API以及内置文心大模型能力的EasyDL和BML开发平台。百度通过大模型与国产深度学习框架融合发展,打造了自主创新的AI底座,大幅降低了AI开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动AI规模化应用的产业价值。欢迎点击阅读原文访问官网地址。
  文心大模型官网地址
  https:wenxin。baidu。com
  相关项目地址
  官网地址
  https:www。paddlepaddle。org。cn
  PaddleNLP
  https:github。comPaddlePaddlePaddleNLP
  FastDeploy
  https:github。comPaddlePaddleFastDeploy
  PaddleSlim
  https:github。comPaddlePaddlePaddleSlim
  PaddleLite
  https:github。comPaddlePaddlePaddleLite
  参考文献
  〔1〕LiuW,ChenX,LiuJ,etal。ERNIE3。0Tiny:FrustratinglySimpleMethodtoImproveTaskAgnosticDistillationGeneralization〔J〕。arXivpreprintarXiv:2301。03416,2023。
  〔2〕SuW,ChenX,FengS,etal。ERNIETiny:AProgressiveDistillationFrameworkforPretrainedTransformerCompression〔J〕。arXivpreprintarXiv:2106。02241,2021。
  〔3〕WangS,SunY,XiangY,etal。ERNIE3。0Titan:ExploringLargerscaleKnowledgeEnhancedPretrainingforLanguageUnderstandingandGeneration〔J〕。arXivpreprintarXiv:2112。12731,2021。
  〔4〕SunY,WangS,FengS,etal。ERNIE3。0:LargescaleKnowledgeEnhancedPretrainingforLanguageUnderstandingandGeneration〔J〕。arXivpreprintarXiv:2107。02137,2021。
  〔5〕HouL,HuangZ,ShangL,JiangX,ChenXandLiuQ。DynaBERT:DynamicBERTwithAdaptiveWidthandDepth〔J〕。arXivpreprintarXiv:2004。04037,2020。
  〔6〕WuH,JuddP,ZhangX,IsaevMandMicikeviciusP。IntegerQuantizationforDeepLearningInference:PrinciplesandEmpiricalEvaluation〔J〕。arXivpreprintarXiv:2004。09602v1,2020。

我也想有这种巨星朋友C罗举办生日派对,众好友参加直播吧2月7日讯2023年2月5日是C罗38岁的生日,他和朋友们举办了生日派对进行庆祝。《太阳报》介绍了出席C罗生日派对的好友,包括了西班牙六台节目ElChiringui……腾讯2022Q4营收1449。5亿元,广告收入大涨15,降本文InnocentRoland3月22日,腾讯发布了2022年第四季度的财报,其收入达5545。52亿元,同比下降1,归母净利润1882。43亿元,同比降低16。虽然从全……加盟山西男篮12年邢志强完成从替补到主力的蜕变山西国投职业篮球俱乐部供图加盟山西男篮12年,邢志强完成了从替补到主力的蜕变。邢志强的篮球职业生涯,可谓高开低走。早在山西男篮青年队时,邢志强便展现出超强的三分球投……关于2023南京仙林半程马拉松比赛期间对部分道路采取临时交通经南京市栖霞区人民政府批准,2023南京仙林半程马拉松赛定于4月9日(星期日)上午8:00在羊山公园举行。届时,将有1。2万名参赛选手参加比赛,为确保赛事活动安全顺利进行,维护……深度剖析太阳立体探测任务的控制系统设计0引言日冕主要由高速运动的自由电子、质子以及高度电离的离子组成,它是太阳大气的最外层,会引发日冕物质抛射现象(coronalmassejection,CME)和共转相互作……盐碱地有望变良田!中国科学家发现耐碱基因俗话说盐碱地里种庄稼,十年九不收,不过现在,盐碱地有望被治愈。图源:央视新闻由于土壤表层盐类、碱类集积,绝大部分经济作物都不能在盐碱地里生长,或者大量减产。联合国粮……科研人员制备用于可穿戴织物的柔韧储热相变无纺布近日,中科院大连化学物理研究所研究员史全团队、吴忠帅团队和澳大利亚迪肯大学教授陈英团队合作,在柔性纤维型相变材料研究方面取得新进展。合作团队通过湿法纺丝和真空浸渍制备了柔性石墨……本周国内融资金额73。82亿元,西藏国能矿业获得40。8亿融编者按:硬氪投融资周报升级栏目内容。从本期开始,我们在聚焦华南融资的同时,将会对国内的融资讯息进行全覆盖。作者胡佳琳编辑彭孝秋本周融资概况1、整体融资概况……25周孕妇卵巢囊肿破裂,医生肚脐上打孔终得母子平安(通讯员於鑫益)备孕多年的女子确诊巧克力囊肿,经试管婴儿治疗,成功圆梦。孕期25周的她因急性腹痛,来到武汉大学中南医院就诊,B超检查后考虑卵巢囊肿破裂,医生在肚脐上开了一个小孔……长城汽车发力第三代半导体,重要项目在无锡动工2月26日,长城无锡芯动半导体第三代半导体模组封测项目正式动工,标志着芯动半导体第三代半导体模组封测项目迈出了产业化的关键一步。据了解,该项目总投资8亿元,建筑面积约30……用稀有奶源打造营养新高度,推动奶业高质量发展,越秀辉山开启奶近日,以国粉新力量营养新高度为主题的首届娟姗奶粉节暨辉山奶粉品牌战略发布会在广州启动。中国奶业协会与越秀集团战略合作框架协议签约仪式同期举行,双方将发挥各自优势,开展全方位合作……2023年陕西春茶迎来销售高峰品质口碑较往年皆有提升陕西网讯从3月中旬开始,陕西汉中、安康、商洛等茶叶产区的春茶陆续上市,各地的开园活动热闹纷呈,消费者也在第一时间喝到了春日的第一口鲜。我们在2月份就召开了订货会,各个经销……
官宣!太阳签下三分射手,四巨头再获帮手,15人冲冠豪阵出炉北京时间2月16日,NBA常规赛继续展开,自由市场又传来消息,其中太阳官方宣布,正式签下三分射手特伦斯罗斯。在交易得到杜兰特之后,太阳也是在提升阵容深度,将目光放在买断市场,成……40张对比照片展示基因是如何复制粘贴的基因并不是唯一能决定孩子特征的东西,但这些引人注目的照片对比证明,基因在定义一个家庭外貌的能力是不可抗拒的。在这些家庭中,一个孩子和他们的父母,甚至是同一年龄的祖父母之间的对比……迈向更绿色的未来的巨大飞跃可持续合成氨和化肥生产的突破性进展氨的工业生产主要用于合成肥料,这是上世纪绿色革命的燃料,也是世界上最大的化学市场品种,但也是能源密集度最高的市场之一。在全球范围内,制造氨的哈伯波什工艺使用了所有化石燃料的1,……我国已发现CH。1。1变异株输入病例!会引发第二轮感染吗?1月31日深夜,中国疾控中心发布奥密克戎变异株CH。1。1相关信息。1、奥密克戎变异株CH。1。1是什么?CH。1。1属于奥密克戎变异株BA。2。75的第六代亚分支……最近流行一种新穿法上半身上班下半身蹦迪,回头率满满春天眼瞅着就要到了,大家准备好自己的新衣服了吗?微喇裤、衬衫、连衣裙,各种轻薄时髦的单品都可以买起来了!但大家千万别忽略了穿搭的重要性,会影响整体的时尚感,如果不知道怎么穿更加……沪深交易所新两委正式名单出炉(附表格)在A股全面注册制正式启动之际,2月3日,沪深交易所第一届上市委、重组委正式名单出炉。就人员构成来看,沪深交易所上市委和重组委均为4名委员来自国家部委和科研院所、3名来自证……孩子如何学会情绪管理?这里有一套情绪认知卡孩子在成长过程中,往往会遇到各种各样的情绪问题,例如害怕、开心、悲伤、嫉妒、沮丧、生气。研究显示,孩子常见的情绪多达48种,而回应孩子的情绪,陪伴孩子感受情绪、认知情绪、管理情……免费游!敦煌向全国医务人员发出热情邀请来源:【新甘肃】每日甘肃网讯(新甘肃每日甘肃网记者杨红丽)记者从敦煌市文体广电和旅游局获悉,敦煌市积极落实优惠政策,从2月1日起启动我在春天等您全国医护人员免票游敦煌活动……西藏珠峰阿根廷5万吨盐湖提锂项目进展预期延迟集微网消息,2月7日,西藏珠峰发布公告称,阿根廷孙公司的年产5万吨碳酸锂盐湖提锂建设项目提交环评报告后,因涉及境外政府行政许可的程序及标准,审核批准时间有不确定性,导致项目整体……微信辅助注册覆盖无需绑定新手机号!给你们最新最快的微信最新更新资讯!我想很多小伙伴们都已经开工了,休息了几天的我终于有时间给大家更新新的文章了,也是兔年的第一篇文章,希望在接下来的日子里大家会喜欢每一次的……10。8亿次!冬游威海话题火了!潮拍千里山海短视频话题挑战赛自2022年11月启动以来,引发全国网友的广泛关注和积极参与。截至2023年1月底,参赛作品4200多个,累计播放量达到10。8亿次,全网掀起关于冬……Lightpath与DataVerge合作扩大纽约市的网络覆据telecompaper网2月1日报道,DataVerge宣布与Lightpath合作,扩大两家公司在布鲁克林地区的网络覆盖,该地区一直是服务不足的网络基础设施市场。图……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网