范式重置后的自然语言处理，魔搭社区语言模型轻松上手

微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

范式重置后的自然语言处理，魔搭社区语言模型轻松上手

　　作者黄非阿里达摩院语言技术实验室研究员
　　PretrainingFinetune正在重置AI领域的研究范式，预训练大模型已成为备受瞩目的研究方向，它首先兴起于自然语言处理，也彻底变革了这方面的研究和应用。预训练新范式先将非常普遍的通识知识抽取出来，培养一个基础模型，然后以此进行微调，得到处理具体问题的专业模型，其性能和效率大多已胜过传统的任务模型，使得AI应用门槛大幅降低。
　　达摩院是国内最早投入预训练大模型的研究团队之一。2021年1月，达摩院推出多模态大模型M6，模型参数从百亿起步，后增至10万亿，成为全球最大的预训练模型之一。同时，针对自然语言处理，达摩院推出了2万亿参数的语言大模型PLUG，中文预训练也逐渐朝大模型演进。在上述研究的基础上，达摩院更是推出了阿里通义大模型体系，以多模态预训练模型为底座，涵盖文本、视觉和多模态任务。
　　这里我着重介绍下阿里通义大模型体系中的AliceMind，它以通用预训练模型StructBERT为核心，包括一系列预训练语言模型，取得了多个业界领先的技术成果，包括2018年1月在英文机器阅读理解榜单SQuAD首次超越人类基准，2021年8月在视觉问答榜单VQALeaderboard上首次超越人类基准，2022年11月在中文语言理解榜单CLUE首次超越人类基准。
　　基于阿里通义AliceMind，我们在各种自然语言的下游任务，包括理解生成、文本分类、对话问答、文档分析和机器翻译等方面研发出了一整套的自然语言处理技术和框架，目前正在AI模型社区魔搭ModelScope上持续进行开源开放，希望能推动NLP领域的研究，帮助开发者轻松构建自己的语言模型和AI应用。
　　自然语言理解任务
　　1。信息增强的词法分析任务
　　分词、词性标注、命名实体识别等词法分析任务是NLP中基础、且应用最广泛的任务模块，应用场景包括搜索query分析、商品信息抽取、对话NLU、文档结构化等。在预训练的范式之下，如何融入无监督、半监督、检索等多类型知识是词法分析任务在学术界和工业界的共同热点。
　　分词
　　模型名称：BAStructBERT
　　体验链接：https：modelscope。cnsearch？searchBAStructBERT
　　中文分词算法已经发展了30多年，从最初的基于词典的匹配方法，到后来的基于字标注的统计学习方法，再到深度学习方法，而大规模预训练语言模型的出现大幅度提升了中文分词的效果。
　　魔搭开源的分词模型在预训练阶段将边界熵、互信息等无监督统计信息融入到预训练任务中，从而提升预训练语言模型对中文词汇边界的学习能力。该模型在分词、词性标注等中文序列标注任务取得了SOTA结果，具体论文发表于EMNLP2022。
　　为了便利开发者使用，我们在魔搭上的分词、词性标注模型提供Base和Lite两种规模的模型，还专门提供了基于电商数据训练的电商行业分词模型。未来，我们会持续丰富行业分词、词性标注模型，同时也会提供推理效率更高的基于浅层神经网络（LSTM、GCNN）的蒸馏模型。
　　命名实体识别（NER）
　　模型名称：RaNER
　　体验链接：https：modelscope。cnsearch？searchRaNER
　　信息抽取能帮助我们从海量文本自动提取挖掘关键信息，是数字化的重要支撑技术，其中，命名实体识别（NER）是信息抽取中的重要子任务。
　　比如上面电商文本，模型需要合理地识别核心产品、品牌、场景、功能等关键信息。而要实现高质量的识别结果，必须融入知识。我们经过两年的技术探索，提出检索增强技术体系RaNER，在自然语言处理国际学术会议ACLEMNLPNAACLCOLING发表论文五篇，在SemEval2022国际多语言竞赛获得十项第一，获得唯一的最佳系统论文奖，同时也在NLPCC语音实体理解竞赛获得榜首成绩。
　　在魔搭社区，我们不仅提供通用的实体识别模型，还有40多个具体的模型，横跨15个不同的行业，多个中英小语种，及包括baselargelstm模型规格，方便用户在不同行业、不同语种、同场景进行使用。
　　2。文本分类任务
　　作为业界最权威的中文自然语言理解榜单之一，CLUE从文本分类、阅读理解、自然语言推理等9项任务中全面考核AI模型的语言理解能力。过去三年，该榜单吸引了众多国内顶尖NLP团队的参与，尽管榜首位置多次易主，但参评AI模型一直未能超越人类成绩。
　　2022年11月22日，阿里通义AliceMind在4项任务中的表现超过人类水平，同时实现了总榜平均分的首次超越，意味着AI模型的中文语言理解水平达到了新的高度。
　　情感分类模型
　　模型名称：StructBERT情感分类体验链接：https：modelscope。cnmodels？name情感分类
　　情感分类需要模型对带有感情色彩的主观性文本进行分析、推理，即分析文本所表达的态度，是倾向于正面还是反面。通常来说，情感分类的输入是一段句子或一段话，模型需要返回该段话正向负向的情感极性，在用户评价，观点抽取，意图识别中往往起到重要作用。
　　我们在魔搭上开源了5个情感分类模型，包括了中英文通用版本和中文电商领域版本。以启动的时候很大声音，然后就会听到1。2秒的卡察的声音，类似齿轮摩擦的声音为例，模型会返回情感的正负面以及其对应的概率。如下图所示：
　　该模型使用StructBERT作为预训练底座，收集了各领域的开源情感分类数据集（共10W）进行Finetune，并结合Rdrop、labelsmoothing等策略避免模型过拟合，因此能实现较好的效果。
　　零样本分类
　　模型名称：StructBERT零样本分类
　　体验链接：https：www。modelscope。cnmodelsdamonlpstructbertzeroshotclassificationchinesebasesummary
　　从上图两个实例，我们可以发现StructBERT零样本分类模型支持候选标签任意定义，从而具备了解决各种任务的能力，比如例子1中的主题分类任务、例子2中的情感分析任务。因此，我们能在无标注数据或标注数据很少的情况进行快速启动模型，或者为待标注数据进行预分类从而提高标注效率。
　　技术上，StructBERT零样本分类模型将待分类的文本和每个标签依次拼接进行自然语言推理任务，之后整合每个标签得到的结果，从而形成文本所属的标签。该模型对文本和标签的信息都进行充分的编码和交互，并利用预训练学习到的知识，可在不使用下游数据进行训练的情况下，按照指定的标签对文本进行分类。
　　3。文本语义表示
　　语义匹配
　　模型名称：ROM
　　体验链接：https：modelscope。cnmodels？nameCoROMpage1
　　文本语义匹配模型在文本相似度、文本聚类、文本检索排序等下游任务中发挥着重要作用，基于预训练模型构建的召回、排序模型对比传统的统计模型优势明显。下图展示了搜索场景中判断查询query和候选文档的相似度的典型样例：
　　文本语义匹配检索系统应用示例
　　达摩院自研的ROM模型提供文本表示、文本排序的中英文单塔、双塔模型。区别于通用的BERT预训练模型，ROM模型在预训练任务中通过引入结合词权重的RandomMasking方法和对比学习任务，提升了文本表示能力和对关键词信息的建模能力。依赖ROM系列模型构建的文本检索系统在2022年3月份登顶MSMARCOPassageRankingLeaderBoard。
　　ROM预训练语言模型
　　自然语言生成任务
　　随着OpenAI提出GPT3超大规模生成模型，AIGC领域也进入高速发展期，从文本生成、到图片生成甚至是视频生成。我们在魔搭社区也开源开放了多个生成模型。
　　1。PALM模型
　　https：modelscope。cnmodels？namePALMpage1
　　自动生成摘要
　　PALM模型采用了与之前的生成模型不同的预训练方式。在海量无标签文本语料上结合了Autoencoding和Autoregression两种方式，引入MaskedLM目标来提升encoder的表征能力，同时通过预测文本后半部分来提升decoder的生成能力。相关技术论文发表在EMNLP2020，论文发表时在CNNDailyMailGigaword等数据集上实现了SOTA。
　　在PALM基础上，我们采用多阶段多任务渐进式从易到难的训练范式，提出了PALM2。0中文预训练生成模型，并将训练好的下游场景模型和finetune训练能力完全开放，适用于大部分的中文生成业务场景。
　　2。PLUG模型
　　https：modelscope。cnmodelsdamonlpplugtextgeneration27Bsummary
　　该模型提出时是中文社区最大规模的纯文本预训练语言模型，集语言理解与生成能力于一身，在语言理解（NLU）任务上，以80。179分刷新了当时CLUE分类榜单的新记录排名第一；在语言生成（NLG）任务上，在多项业务数据上较SOTA平均提升8以上。
　　模型采用encoderdecoder的双向建模方式，在大规模的中文训练数据（1T以上）训练，因此在传统的zeroshot生成的表现上，无论是生成的多样性，领域的广泛程度，还是生成长文本的表现，较此前的模型均有明显的优势。
　　该模型的零样本生成能力较为突出，下面是一些具体展示：
　　小说续写
　　生活百科
　　零样本学习
　　3。mPLUG模型
　　https：modelscope。cnsearch？searchmplug
　　在纯文本大模型PLUG的基础上，我们又推出了多模态的统一大模型mPLUG，2021年在视觉问答榜单VQAChallenge取得第一，并首次超越人类基准，具体技术论文发表于EMNLP2022。
　　mPLUG核心解决了多模态融合时视觉特征序列过长导致的低效性、信息淹没的问题，提出新的跨模态融合方法skipconnectednetwork。在仅用1300万图文数据预训练，便在VQA、Caption等核心多模态任务上取得同等参数规模下的SOTA，除此之外，还可用于下游的视频文本的理解和生成场景。
　　视觉问答（VQA）
　　图像描述（ImageCaptioning）
　　视觉定位（VisualGrounding）
　　图文检索（ImagetextRetrieval）TRIEV
　　4。中文版GPT3
　　模型链接：https：modelscope。cnmodelsdamonlpgpt3textgeneration13Bsummary
　　使用入口：https：modelscope。cnstudiosdamoaiwritersummary
　　因为GPT3主要支持英文，对于中文效果较差，访问使用还需要申请，因此我们推出了中文GPT3，免费开放，可自由访问，希望为中文社区带来更好用的中文生成大模型。
　　我们创新性地结合无监督数据和有监督prompt数据，并考虑到用户的不同GPU资源，训练了不同版本规模的中文GPT3，包括baselarge1。3B2。7B13B30B，以及后续即将推出的175B。目前模型具备多种生成能力，如代码生成、小说续写、作文生成等。
　　代码生成
　　作文生成
　　SQL生成
　　对话问答
　　1。SPACE对话模型
　　https：modelscope。cnmodelsdamonlpspacepretraineddialogmodelsummary
　　如何将人类先验知识低成本融入到预训练模型中一直是个难题，我们提出了一种基于半监督预训练的新训练方式，将对话领域的少量有标数据和海量无标数据一起进行预训练，从而把标注数据中蕴含的知识注入到预训练模型中去，打造了SPACE123系列预训练对话模型，在11个国际公开对话数据集上取得了最好结果。
　　在魔搭社区上，我们以SPACE模型为基座，开源了理解、生成finetuning和意图分类、对话状态追踪和回复生成推理pipeline，覆盖了对话系统各个核心模块，只需几行代码，就能快速上手对话系统，复现论文里的SOTA效果。
　　2。SPACET表格问答模型
　　https：modelscope。cnmodelsdamonlpconvaitext2sqlpretraincnsummary
　　现代企业花费大量精力构建了数据库、数据中台等基础设施，支撑CRM、ERP、OA等系统，但是常规的企业智能化方案中，仍需要花费大量资源，去重新构建图谱、意图、FAQ等知识形态。如果能够利用已有的二维关系型数据库直接构建企业智能化系统，就可以节省大量成本。
　　达摩院研发了SPACET表格问答模型，能够智能理解分析表格信息，已经在阿里云智能客服等多个产品中输出，服务了多领域的客户。这次在魔搭社区上免费开源开放，能够让有需要的企业通过对接自己的数据库，定制化构建自己的表格问答应用，可具备单多属性查询能力、单多条件筛选能力、最值平均计数等基础统计能力等，如下图所示：
　　技术上，该模型由亿级表格数据预训练构建，具备良好的开箱即用能力。模型在训练和推理过程中都会将表格的Schema信息作为输入，使模型能够理解表格信息，实现了表格知识即插即用的效果。
　　机器翻译
　　模型名称：CSANMT连续语义增强机器翻译
　　体验链接：https：modelscope。cnmodels？nameCSANMTpage1taskstranslation
　　达摩院长期致力于机器翻译的研究，产生了一批高质量的模型。这次我们重点开源了CSANMT连续语义增强机器翻译，这是我们最新研发的高质量神经机器翻译（NMT）模型，获得了AL2022杰出论文奖。
　　CSANMT模型由编码器（Encoder）、解码器（Decoder）和语义编码器（SemanticEncoder）三个单元构成。语义编码器可以在连续分布式语义空间捕捉源语言与目标语言的相似性，从而更加充分、更加高效地利用双语训练数据，不仅可以显著提升了翻译质量，而且能够有效改善了模型的泛化能力和鲁棒性。
　　首批开源的CSANMT模型包括中英、英中、英法、法英、英西、西英等语向的模型，后续还将开源覆盖欧洲、东亚、东南亚等区域主要语种的CSANMT翻译模型。我们将对模型进行持续迭代优化，确保性能和体验处于业内领先水平。
　　结语
　　自然语言处理代表着AI从感知智能走向认知智能，相关研究如火如荼，随着预训练新范式的推动，底座模型越来越通识，下游模型场景越来越丰富，落地效果也更加完善，各种应用方兴未艾。
　　魔搭社区不仅提供了达摩院自己研发的100多个NLP模型，也接入了业界一流科研机构的众多优质模型，比如澜舟科技的孟子系列轻量化预训练语言模型，智谱AI的mGLM多语言模型等。。。欢迎大家基于这些优质模型，搭建出自己的创意应用，更希望自然语言处理迎来一个全新的时代。

拼经济圳发力目标3000亿！深圳剑指直播电商之都拼经济圳发力系列报道近日，一场主题围绕电商高质量发展的大会在深圳举行，阿里巴巴、哔哩哔哩、联想等行业巨头参与其中。会上，一个数据引发大家关注：截至2022年，深圳已……（新华全媒头条图文互动）描绘村美人和共富的动人画卷从三组数据（配总社同题文字稿）2023年4月7日，游客在浙江省湖州市安吉县梅溪镇红庙村一咖啡馆休闲。新华社记者翁忻旸摄2023年4月7日，浙江省杭州市富阳区里山镇安顶村的茶农……女人这样说，男人真的杠不住嗨，我是小小可爱耶，点击上方关注，定期为你分享各类的文案及文章1、如果你给我的，和你给别人的，是一样的，那我就不要了。如果我给你的，和别人给你的，你都要了，那我就不给了！……盛大开园！您的2023完美假期，就在神鹿峰！春风万里，绿满山河。阔别163天，神鹿峰旅游度假区定于4月8日正式开园，携天然美景与特色萌鹿，加之梦幻城堡、文化商街、清音谷、星野广场等景点全新设计的文化打卡地，为您打造完美假……铆足干劲抓项目快马加鞭促投资各地话目标谈举措赛成效来源：【广安日报广安在线】3月28日至29日，全市2023年第一季度项目投资工作流动现场会举行，参会人员用一天半时间，深入各县（市、区）、广安经开区、川渝高竹新区实地察看……一周观察丨印度制造，道阻且长文羊城晚报周末特约主笔谢不明近日多家外媒报道，苹果公司在印度南部的工厂，每生产两个组件，就有一个不达标，良品率仅有50。苹果CEO库克苦心经营的果链转移，换来的却是无印良……通威集团董事局主席刘汉元推动川渝能源一体化高质量发展来源：【四川日报川观新闻】川观新闻记者史晓露在双碳目标下，什么样的可再生能源能担当主角？2月23日，在第三届川渝民营企业家合作峰会暨第五届企业家天府年会上，全国工商……八匹马杨松山解决5大用户痛点，撬动万亿新能源商用车市场3月2930日，由电车资源、成都新能源汽车产业推广应用促进会主办，招商局检测车辆技术研究院有限公司、运联智库提供支持的2023第六届中国新能源汽车产业大会暨第七届新能源商用车‘……湿气重该怎么调整饮食？记住3多吃3少吃注重脾胃保养，在功能正常时运化水时能力强，可以让湿气，有害物质正常排泄，这样的人往往精神状态好、胃口正常、排便规律。但如果有湿气重相关表现，例如舌苔厚腻、身体发胖、疲惫乏力，要……新春合家欢，带娃游海信！初一到初八海信探索中心不打烊快过年了，团圆的日子近了，又可以和家人一起热热闹闹的吃饭、一起聊聊天、一起出门玩玩。。。这种感觉真的想想都很好。今年春节假期，海信探索中心开门纳客，并已备下各种合家欢的活动，期……圆通速递大宗交易折价买卖近7000万元，总裁及相关管理人员刚提示！快递生态圈主要目标群：（投资人私募基金券商机构各地方政府决策者快递监管部门快递经营者媒体从业者快递上下游经营者加盟网点老板年薪30万以上快递物流从业者）添加公众号之……一觉醒来！数码界传来三大好消息，换手机要有高品控如果您喜欢，可以点击上面的关注二字。后续会为您提供更多有价值的内容。在近期的采访中，微软公司创始人比尔盖茨说：美国试图阻止中国研发芯片的努力是徒劳的。的确，历史证明这些难……

<<<<<<－>>>>>>

五一还能本地周边游吗？在家提升自己是个不错的选择拆东墙补西墙，拼凑出来的五一假期，说是5天，其实只是1天而已。然而，抱怨归抱怨，大家还是要认真仔细规划一下。是去市内景区转一转，还是去周边欣赏一下大自然的美景以及春天的气……这里是京西战略要冲，自称为北京唯一的石头军事古城，你认同吗？要选一处北京既有看头又零商业化的古城我首推沿河城记得初次来到沿河城，在村口驻足许久，在有关沿河城历史介绍中看到这样一句话：北京乃至华北地区唯一的一座石头军事古城……非洲红河猪种群泛滥，数量高达700万头，为何不将其引进中国？在美丽浩瀚无边的非洲大草原中，不仅有令人目不暇接的各式各样的物种，还有景色迷人的各类景观。尽管非洲大草原的生态环境是非常不错的，但也面临物种入侵的困扰。由于入侵的物种泛滥成灾，……好消息传来，中国一箭八星顺利完成发射任务，具体作用是什么？又传来好消息！5月5日，长征二号丁运载火箭发射升空，一箭八星，将吉林一号宽幅01C卫星，以及搭载的吉林一号高分03D（2733）等8颗卫星，送入预定轨道。为什么要说又传来……28分钟3次冲突染红！图赫尔疯跑回击孔蒂，隔空致敬穆里尼奥在赛季的首场强强对话里，孔蒂、图赫尔就联手奉献了一场好戏。在与孔蒂发生冲突之后，詹姆斯的进球让图赫尔完美地复制了穆里尼奥的庆祝动作。最终，两位主帅都吃到了红牌。霍伊贝尔远……冬病夏治，肾脏病患者夏天该如何调理呢？今天是立夏。相信肾友们听到过这样一句话，冬病夏治。一：什么是冬病夏治呢？冬病夏治是我国的传统中医特色疗法，慢性肾脏病患者大多数有，肾气亏虚，肾阳不足等情况。在……人民日报顶级神仙文案（建议收藏）1。我相信，路虽远行则可至，事虽难做则可成。无论生活怎样，希望你保持自律保持热爱。昨日之深渊，今日之浅谈。2。成年人的生活，万般皆苦，唯有自渡，活着就是遇山开山，见水架桥……传奇世界曾经打BOSS都是靠抢，运气好还能捡现成传奇世界中，有很多的BOSS，这些BOSS也是很多装备和稀有物品的主要来源之一。但是这些BOSS也是让玩家们又爱又恨。其中一个原因就是BOSS太强了！很多人为了找到它已经消耗巨……中国雪乡世界共享中国雪乡亮相冬奥会开闭幕式据极光新闻报道2月4日至20日，第24届冬季奥林匹克运动会在北京和张家口市成功举行。中国雪乡在开、闭幕式环节均有精彩亮相，林区职工群众热盼冬奥的喜悦心情及雪乡美景通过电视、网络……夜读夜在云观台主播读经典、陪您说晚安，大家好！这里是闪电夜读，我是禹城融媒主播庞伟伟，今晚与您分享贾平凹的散文《夜在云观台》。三年前，我从学校毕了业，莽撞撞入了社会，经了好多世事，人情……苹果手表和MacBook新设计专利，将金属外壳替换为玻璃外壳美国专利和商标局正式授予苹果公司一项新专利，该专利涉及苹果手表和MacBook的重新设计，其中目前的金属外壳将被一个主要由玻璃（塑料、玻璃、碳纤维、陶瓷或其他材料）制成的外壳取……从3399元跌至2699元，12GB256GB四摄，从高端市距离华为Mate40系列旗舰发布已经过去了超过一年半，但是新一代的华为Mate50系列仍未登场，正常情况下一个系列的手机更新时间是一年，所以华为Mate系列的更新速度要低于平均……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网