幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

ChatGPT开源替代来了!参数量200亿,在4300万条指

  科技之巅
  机器之心报道
  编辑:张倩
  OpenChatKit是一个类ChatGPT开源工具包,内含一个20B参数量的大模型,而且该模型在4300万条指令上进行了微调。
  2023年,聊天机器人领域似乎只剩下两个阵营:OpenAI的ChatGPT和其他。
  ChatGPT功能强大,但OpenAI不太可能将其开源。其他阵营表现欠佳,但不少人都在做开源方面的努力,比如前段时间Meta开源的LLaMA。
  除此之外,一个名为EleutherAI的开源AI研究团队也一直在贡献开源大模型成果。自2020年7月成立以来,该团队先后开源了基于GPT3的、包含60亿参数的NLP模型GPTJ,类GPT的27亿参数模型GPTNeo,以及200亿参数的GPTNeoX20B。据悉,他们的最终目标是将开源模型的参数规模扩展到1700亿左右,就像GPT3一样。
  在ChatGPT火遍全球之际,EleutherAI的这些开源成果派上了用场。一家名为Together的组织表示,他们基于EleutherAI开源的GPTNeo和GPTJ构建了一个新的类ChatGPT开源项目OpenChatKit。
  项目链接:https:github。comtogethercomputerOpenChatKit
  这个项目提供了一个强大的、开源的基础,可以为各种应用创建专门和通用的聊天机器人。具体来说,它包含:一个参数量达20B的开源模型,该模型基于EleutherAI的GPTNeoX20B,在4300万条指令上进行了微调;一个参数量达60亿的审核模型(moderationmodel),可以帮模型过滤不当内容;一个可扩展的检索系统,可以帮模型检索维基百科等资源库,从而给出最新信息。
  根据Together提供的链接,我们可以粗略看到OpenChatKit在摘要提取、问答、写作等方面的表现。以下是Together提供的一些demo:
  想要深入了解OpenChatKit的读者也可以亲自测试。
  测试链接:https:huggingface。cospacestogethercomputerOpenChatKit
  从目前的表现来看,OpenChatKit可能还不太令人满意。但在此开源项目的基础上,社区有望构建出更加强大的聊天机器人应用。
  参数量20B的指令调优大模型
  GPTNeoXTChatBase20B是构成OpenChatKit基础的大型语言模型。它基于EleutherAI的GPTNeoX模型,并通过专注于对话互动的数据进行了微调。Together在Huggingface上发布了这个模型的预训练权重:https:huggingface。cotogethercomputerGPTNeoXTChatBase20B
  Together的开发者将模型调整的重点放在几个任务上,如多轮对话、问答、分类、提取和总结。他们用4300万条高质量指令对模型进行了微调,并与LAION和Ontocord合作,创建了该模型所基于的OIG43M数据集。数据集信息参见:https:laion。aiblogoigdataset
  OIG43M数据集示例。
  开箱即用的GPTNeoXTChatBase20B为一系列广泛的自然语言任务提供了一个强大的基础。从质量上看,它在HELM基准上的得分比其基础模型GPTNeoX高,特别是在涉及问答、提取和分类的任务上。
  在HELM上评估GPTNeoXTChatBase20B并与GPTNeoX进行比较。表示测试包含微调语料库中的数据。
  模型长处
  OpenChatKit有几个任务是开箱即用的,包括:
  1、将一份长的文件总结成一句话,并回答与该文件相关的问题,问答可进行多轮;
  2、从非结构化文件中提取结构化信息,如下图所示;
  3、将一个句子或段落分为不同的类别(比如情绪是积极还是消极)。
  利用OpenChatKit把一段长文字内容转化成图表。
  模型短板
  OpenChatKit目前的短板包括:基于知识的封闭式问答。该聊天机器人可能会给出不正确的结果,需要用户提供反馈;代码相关任务。由于训练数据中没有足够多的代码,因此该聊天机器人在代码方面表现欠佳;重复性。该聊天机器人有时会重复自己的回答,用户可以点击刷新,开始新的对话;上下文切换。该聊天机器人不太擅长转换话题。创意写作和较长的答案。该聊天机器人不会生成长的、有创意的文本,如论文或故事。
  针对特定任务定制聊天机器人
  在一般问答任务中,大型语言模型已经显示出令人印象深刻的能力。当为特定的应用进行微调时,它们往往能达到更高的准确率。例如,谷歌的PaLM在医学回答上达到了大约50的准确率,但是通过添加指令支持和对医学特定信息的微调,谷歌创造了MedPaLM,其准确率达到了92。6。同样的方法也可以用于其他任务。
  OpenChatKit提供了一些工具来为专门的应用微调聊天机器人。其开发团队正在与研究小组和公司合作,帮助他们为各种任务创建自定义模型。这些任务包括:教育助手:在开放的教科书数据集上进行微调,创建一个聊天机器人,通过自然对话帮助各年龄段的学生了解各种主题;金融问答:微调并利用美国证券交易委员会文件等金融数据的检索,实现金融领域的问答;客户支持代理:利用知识库数据进行微调,创建聊天机器人,帮助终端用户分辨问题并快速找到答案。
  如何进行微调
  微调需要的操作包括准备好你的数据集,使用指定格式的交互示例;将你的数据集保存为jsonl文件,并按照OpenChatKit的GitHub文档对聊天模型进行微调;不要忘记审核模型!在开始使用你的微调模型之前,请注意审核模型可能需要过滤的域外问题。如果有必要,准备一些调节数据并微调审核模型。
  这个过程的文档和源代码可以在OpenChatKit的GitHub链接中找到。由于OpenChatKit在Apache2。0许可下完全开源,你可以为自己的应用或研究深入调整、修改或检查权重。
  用于实时更新答案的可扩展检索系统
  OpenChatKit还包括一个可扩展的检索系统。有了这个检索系统,聊天机器人能够将定期更新的内容或自定义的内容,如来自维基百科的知识、新闻提要或体育比赛成绩纳入回答中。
  检索增强系统的工作流程示例。
  审核模型在必要时进行干预
  OpenChatKit的最后一个组件是一个由GPTJT微调的60亿个参数的审核模型。在聊天应用中,审核模型与主聊天模型同步运行,检查用户话语中是否有任何不适当的内容。基于审核模型的评估,聊天机器人可以将输入的内容限制在经过审核的主题上。当然,这个审核模型只是一个基线,用户可以根据不同的需求进行调整和定制。
  在推理过程中,开发者进行了fewshot分类,将用户问题分为五类。聊天机器人只在问题落入允许的分类中时才会做出回应。
  参考链接:https:www。together。xyzblogopenchatkit

贵州黄果树瀑布旁天星桥景区的超长徒步走(一)数生步天星桥景区位于黄果树瀑布下游的7公里处,这里是水上石林变化而成的一座天然盆景,能观赏到石、树、水的美妙结合,这里的一副对联风刀水剑刻就万倾盆景,根笔藤墨绘制千古绝画,很好地概括……我们是这样老去的从渐老走向大限,有几十年的时间要度过。这段日子,也许二十年,可能三十年,也可能更长,这个时间是前半生的一倍,还有可能更多。这段日子,我们不用朝九晚五的工作,我们可以尽情地……拇指西瓜和西瓜鸡,糖尿病究竟是吃还是不吃?新旧交替,不吃水果的糖人已是昔日黄花。时代从未遗弃糖尿病,水果不甘落后,吃对的食品,生活和健康一个不掉队。从单品西瓜到复合西瓜食品,根据个人喜好与口味,总有一款适合……亲水行丨亲水踏青可以有!16区美丽幸福河湖打卡点,邀你共赴水最美人间四月天不负春光与时行随着河湖治理成效日益显现河湖水质持续向好河湖颜值不断提升上海16区美丽河湖成为了靓丽的风景线亲水行的好去处……中国造飞天巨眼,计划今年发射对2023年可能发生的世界科技热点事件,多家国际主流媒体进行了展望,均把中国空间站工程巡天望远镜(即中国巡天空间望远镜,英语简称CSST)列入其中,认为它的飞天将与美国发射新型……冷能冰可乐,热可制酸奶,这就是办公室夏天必备的小电器阿里造点新货众筹平台(原淘宝众筹)上线了一款智能快速冷热酸奶机,售价198元,同时提供制冷制热能力。对于不让用大功率电器,不给买制冰机的公司,这家伙可以说是夏天工位上必备的一个……能量来自哪里?熵增定律真的是不可逆的吗?有待熵榷!很久很久以前,无论人类文明到什么程度,由于对自然包括人本身所见所闻所感所触,都认识到一点:世界没有永恒的存在,只有事物与生命的不断生灭。于是,人类把不断延迟灭的过程而不断探索,……5款大内存大电池手机,小米vivo和OPPO喜欢谁?再战三年如果您喜欢,可以点击上面的关注二字。后续会为您提供更多有价值的内容。今天分享,5款大内存大电池手机,小米vivo和OPPO喜欢谁?再战三年。第一款:红米K60E参考……穿越火线合区详情图,又掀起了一股热潮!最近,小编收到了很多小伙伴的留言,现在的不同大区能不能一起游戏?在以往的穿越火线中,不同大区的角色是不可以一起玩的,不能跨区进行游戏。但由于现在的穿越火线热度大不如前,穿……黄瓜苦瓜靠边站,春天多吃丝瓜!全身是宝,鲜嫩好吃不上火!导语:黄瓜、苦瓜靠边站,春天多吃这菜!全身是宝,维C含量极高,随手一炒,鲜嫩好吃不上火!大家好,我是傻姐美食,春天正是一个万物复苏的季节,气温也会不断的上升,外出时再遇上……他是新加坡精英,曾与扎克伯格齐名,如今身家过亿2023年3月23日上午,现任四十岁的TikTokCEO周受资出现在美国国会众议院听证现场这是他的开场白:Iamsotrue,andimfromSingaporethat……三个项目获评省级优秀园林,来和记者一起探访这些春游好去处来源:【嘉兴日报嘉兴在线】近日,嘉城集团负责实施的三个园林工程项目斩获浙江省风景园林学会评选的优秀园林工程奖。其中,南湖湖滨区域改造提升景观绿化工程、芦席汇历史街区保护性……
大雪过后,抓住孩子身高储存期,常吃4种菜,孩子个头猛长冬日生活打卡季很多人都知道冬天不是孩子长个子的最佳时机,个子长得比较慢,但因为这个就放任不管了就错了。其实冬天是孩子身高储能期,把握好这个机会,到了春天菜长得好。冬……分红累计上万亿,增持计划言而无信,中国移动价值几何?中国移动2003年3月18日港股上市,股价3。20港币,至今股价51。75港币,市值1。11万亿,分红累计11274亿港币。中国移动2022年1月5日在A股上市,股价57……11月24日新版早上好问候语图片丨周四温馨问候丨朋友圈早安祝听说早晨收到祝福就会快乐一天我早早地爬起来,赶紧把快乐送给你祝你开心每一秒,早上好,记得吃早餐。四季:春、夏、秋、冬,四季随能轮回,但生命不会重来,只有春种一……我阳了,那酸爽!我阳了,那酸爽!文叶雨秋首先声明,我没有测,感觉有可能是阳了,不过,说心里话,就是一场感冒而已,一点儿都不可怕!根本不像网上很多人说的,要死不得活的感觉!今年……促进个体工商户发展条例十一月一日起正式施行《促进个体工商户发展条例》(以下简称《条例》)11月1日起正式施行。国务院新闻办11月1日召开新闻发布会,国家市场监管总局、国家发展改革委、国家税务总局、司法部等部门有关负责人……独居青年的大门管家小米智能门锁M20一个人租房,我最担心的就是安全问题,尤其是晚上回家的时候,总觉得后面有人,恨不得立马就能开门回家然后锁上,但钥匙开门就很难受,开门找钥匙会找不到,有时候怼进门锁里还会打不开,着……卡位HUD优质赛道,华阳集团拥抱智能化浪潮,聚势而强未来可期(报告出品方分析师:开源证券任浪)1、汽车电子精密压铸业务协同,集团优势显著汽车电子龙头之一,享智能化浪潮实现业绩腾飞。华阳集团坐落惠州,成立于1993年,经过多年……利拉德和欧文谁更强?美媒全面对比,结果和想象不同如今的NBA处于小球时代,在小球的浪潮下,NBA也进入了控卫盛世,双能卫在这个时期的表现十分劲爆。库里、威少、欧文、利拉德、保罗等人个个实力强大,成绩出色。其中库里不用多说,是……为争夺QQ这一商标,腾讯和奇瑞整整大战11年,你敢信最后腾讯你知道吗?腾讯和奇瑞竟因为QQ这一商标,大战了11年!说起QQ你第一时间会想起什么?是腾讯的QQ软件还是奇瑞的QQ汽车呢?相信每个人都有自己的答案。但是先注册QQ这……系外行星大气首次发现二氧化碳,是否意味着会有外星生命?据美国国家航空航天局(NASA)报道,詹姆斯韦伯太空望远镜(JWST)在700光年外WASP39b行星的大气中发现了二氧化碳,这是第一次明确地在太阳系外的行星中发现这种气体。这……手中有矿心中不慌!广汽集团成立合资公司布局锂矿,欲掌控新能源每经记者:孙磊每经编辑:裴健如11月7日,广汽集团(SH601238,股价12。56元,市值1291。25亿元)发布公告称,其子公司广汽部件与东阳光子公司狮溪煤业、遵义能……经过16道复杂工序,iQOO新配色赛道版表现独特如今,智能手机硬件配置大同小异,优秀的外观设计成为了至关重要的一项,一直以来十分重视产品设计的iQOO,在前不久带来了全新配色版本,iQOO9Pro赛道版,从后盖处材料、工艺方……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网