2天训练出15亿参数大模型国产开源项目力克英伟达Megatr

微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

2天训练出15亿参数大模型国产开源项目力克英伟达Megatr

　　1月20日消息，当今AI之势，影响纵深发展的矛盾是什么？
　　一方面，大模型风头正劲，效果惊艳，人人都想试试。但另一方面，硬件基础上动不动就是上万张GPU的大规模集群在日夜燃烧，钞能力劝退。
　　所以如果告诉你，现在只用一半数量的GPU，也能完成同样的GPT3训练呢？
　　你会觉得关键钥匙是什么？
　　不卖关子了。实现如此提升的，是一个名为ColossalAI的GitHub开源项目。
　　而且该项目开源不久，就迅速登上了Python方向的热榜世界第一。
　　GitHub地址：点击打开
　　不仅能加速GPT3，对于GPT2、ViT、BERT等多种模型，ColossalAI的表现也都非常nice：
　　比如半小时左右就能预训练一遍ViTBase32，2天能训完15亿参数GPT模型、5天可训完83亿参数GPT模型。
　　与业内主流的AI并行系统英伟达MegatronLM相比，在同样使用512块GPU训练GPT2模型时，ColossalAI的加速比是其2倍。而在训练GPT3时，更是可以节省近千万元的训练费用。
　　此外在训练GPT2时，显存消耗甚至能控制在MegatronLM的十分之一以下。
　　ColossalAI究竟是如何做到的？
　　老规矩，我们从论文扒起。高效6维并行方法
　　简单来说，ColossalAI就是一个整合了多种并行方法的系统，提供的功能包括多维并行、大规模优化器、自适应任务调度、消除冗余内存等。
　　首先来看多维并行。
　　所谓多维是指，目前主流的分布式并行方案往往使用多种并行方法。
　　比如英伟达的MegatronLM使用了3种方法：数据并行、流水并行和张量并行。因此这种模式也被称为三维并行。微软的DeepSpeed调用MegatronLM作为并行基础。
　　而ColossalAI能将系统的并行维度，一下子拉升到6维
　　在兼容数据并行、流水并行的基础上，基于该项目团队自研的2维2。5维3维张量并行方法，以及序列并行实现。
　　其中，高维张量并行正是ColossalAI提升大模型显存利用率和通信效率的关键所在。
　　其实张量并行并不新奇，只是过去我们常见的张量并行更多都是基于一维的。
　　它的原理是将模型层内的权重参数按行或列切分到不同的处理器上，利用分块矩阵乘法，将一个运算分布到多个处理器上同时进行。
　　比如英伟达的MegatronLM就是一个典型的例子。
　　但这种并行方式存在一定弊端。
　　比如，每个处理器仍需要存储整个中间激活，使得在处理大模型时会浪费大量显存空间。
　　另一方面，这种单线方法还会导致每个处理器都需要与其他所有处理器进行通信。
　　这意味着假设有100个GPU的话，每个GPU都需要与其他99个GPU通信，每次计算需要通信的次数就高达9900次。
　　但如果将张量并行的维度扩展到2维，单次计算量能立刻下降一个量级。
　　因为每个GPU只需与自己同行或同列的GPU通信即可。
　　同样还是100个GPU的情况，每个GPU需要通信的GPU个数就能降到9个，单次计算仅需900次。
　　实际上在此基础上，ColossalAI还包含2。5维、3维张量并行方法，可以进一步降低传输成本。
　　相较于2维并行方法，2。5维并行方法可提升1。45倍效率，3维方法可提升1。57倍。
　　针对大图片、视频、长文本、长时间医疗监控等数据，ColossalAI还使用了序列并行的方法，这种方法能突破原有机器能力限制，直接处理长序列数据。
　　值得一提的是，ColossalAI的API接口是可以定制的，这使得它可以便捷添加新的并行维度。
　　其次，大规模优化器也是ColossalAI的亮点。
　　上面我们也提到了，在分布式并行系统中会使用多种并行方法，数据并行则是另一种常见方法。
　　这种方法的原理不难理解，就是把训练数据划分成若干份，让不同的机器运算不同的数据，然后通过一个参数服务器（ParemeterServer）收集目标数据。
　　由此可以大幅提升AI模型训练过程中的批量大小，加速训练过程。
　　不过大批量训练有个通病，就是会产生泛化误差（GeneralizationGap），导致网络泛化能力下降，进而导致AI模型准确度下降。
　　所以，ColossalAI在系统中使用了自研的LAMB、LARS等大规模优化器。在保证训练精度的情况下，还将批大小从512扩展到65536。
　　其中，LARS优化器是通过逐层调整学习率，来减少因为学习率导致的无法收敛情况。
　　LAMB优化器则是在LARS的基础上，将逐层调整学习率的思想应用到自适应梯度上。
　　由此，LAMB能够很好解决此前LARS在BERT训练中存在差异的问题，最大批量达到了64K。
　　此前，LAMB优化器曾成功将预训练一遍BERT的时间，从原本的三天三夜缩短到一个多小时。
　　第三方面，ColossalAI使用自适应可扩展调度器来高效处理任务。
　　与现有常见的任务调度器不同，ColossalAI不是静态地通过GPU个数来判断任务规模，而是根据批大小来动态、自动管理每个任务。
　　通过演化算法，该任务调度器还能不断优化调度决策，更大程度提升GPU利用率。
　　评估结果表明，与当前最先进的方法相比，该方法在平均JCT（jobcompletiontime）上能够缩短45。6的时间，优于现有的深度学习任务调度算法。
　　此外，这种自适应可扩展调度器还能通过NCCL网络通信实现高效的任务迁移。
　　最后，消除冗余内存也是加速AI训练的一种解决思路。
　　在这方面，ColossalAI使用了zeroredundancyoptimizer技术（简称ZeRO）。
　　这种方法主要通过切分优化器状态、梯度、模型参数，使GPU仅保存当前计算所需的部分，从而来消除数据并行、模型并行中存在的内存冗余。
　　尤其是在部署模型推理时，通过zerooffload可以将模型卸载到CPU内存或硬盘，仅使用少量GPU资源，即可实现低成本部署前沿AI大模型。
　　综上不难看出，在技术层面ColossalAI的加速效果非常明显。
　　而在应用层面，ColossalAI的设计也顾及了能耗问题和易用性两个维度。
　　考虑到数据移动会是能耗的主要来源，ColossalAI在不增加计算量的情况下尽可能减少数据移动量，以此来降低能耗。
　　另一方面，作为一个开源给所有人使用的系统，ColossalAI的使用门槛不高，即便是没有学习过分布式系统的人也能上手操作。
　　同时，只需要极少量的代码改动，ColossalAI就能将已有的单机代码快速扩展到并行计算集群上。最新实验结果释出
　　Talkischeap，效果如何，还是得把实验结果展开来看。
　　ColossalAI近日释出的最新实验结果表明，这一大规模AI训练系统具有通用性，在GPT3、GPT2、ViT、BERT等流行模型上均有亮眼的加速表现。
　　注：以下GPU均指英伟达A100。
　　GPT3训练速度提高10。7
　　英伟达的MegatronLM在加速训练GPT3时，至少需要128块GPU才能启动；而从下表可以看出，使用相同的计算资源，ColossalAI可以将每次迭代花费的时间从43。1秒降至38。5秒。
　　这也就意味着，ColossalAI可以将GPT3的训练速度进一步提高10。7。
　　站在工程的角度，考虑到训练这样的大模型往往需要投入数百万美元，这一提升比例带来的收益不言而喻。
　　另外，通过系统优化，ColossalAI还能在训练速度损失不大（43。148。5）的前提下，将GPU数量从128块减少到96块，大幅降低训练成本。
　　而进一步启用ZeRO3（零冗余优化器）后，所需GPU数量甚至能减少一半至64块。2天内可完成GPT2训练
　　在GPT2的加速训练结果中，可以看到，无论是在4、16还是64块GPU的情况下，与MegatronLM相比，ColossalAI占用的显存都显著减少。
　　也就是说，利用ColossalAI，工程师们可以在采用同等数量GPU的前提下，训练规模更大的模型，或设置更大的批量大小来加速训练。
　　从下表结果中还可以看出，随着批量大小的增加，ColossalAI的资源利用率会进一步提高，达到MegatronLM速度的2倍。
　　研发团队在256块GPU上进行了实验，最终用时82。8个小时完成了15亿参数版GPT2的训练。
　　据此预估，后续在512块GPU上进行GPT2预训练，ColossalAI能将训练时间加速到45小时。充分兼容多种并行模式
　　在BERT上进行的实验，则体现了ColossalAI作为世界上并行维度最多的AI训练系统的优势。
　　与MegatronLM相比，ColossalAI序列并行方法只需要更少的显存，就能够利用更大的批量大小来加速训练。同时，还允许开发者使用更长的序列数据。
　　ColossalAI的序列并行方法还与流水并行方法兼容。当开发者同时使用序列并行和流水并行时，可以进一步节省训练大模型的时间。
　　另外，在近期的学术热点ViT模型上，ColossalAI也展现了高维张量并行方法的优势。
　　在使用64张GPU的情况下，ColossalAI采用22。5维方式进行张量并行，充分利用更大的批量大小，达到了更快的处理速度。
　　背后团队：LAMB优化器作者尤洋领衔
　　看到这里，是不是觉得ColossalAI确实值得标星关注一发？
　　实际上，这一国产项目背后的研发团队来头不小。
　　领衔者，正是LAMB优化器的提出者尤洋。
　　在谷歌实习期间，正是凭借LAMB，尤洋曾打破BERT预训练世界纪录。
　　据英伟达官方GitHub显示，LAMB比Adam优化器快出整整72倍。微软的DeepSpeed也采用了LAMB方法。
　　说回到尤洋本人，他曾以第一名的成绩保送清华计算机系硕士研究生，后赴加州大学伯克利分校攻读CS博士学位。
　　2020年博士毕业后，他加入新加坡国立大学计算机系，并于2021年1月成为校长青年教授（PresidentialYoungProfessor）。
　　同样是在2021年，他还获得了IEEECS超算杰出新人奖。该奖项每年在全球范围内表彰不超过3人，仅授予在博士毕业5年之内，已在高性能计算领域做出有影响力的卓越贡献，并且可以为高性能计算的发展做出长期贡献的优秀青年学者。
　　与此同时，尤洋回国创办潞晨科技一家主营业务为分布式软件系统、大规模人工智能平台以及企业级云计算解决方案的AI初创公司。
　　其核心团队成员来自加州大学伯克利分校、斯坦福大学、清华大学、北京大学、新加坡国立大学、新加坡南洋理工大学等国内外知名高校，在高性能计算、人工智能、分布式系统方面有十余年的技术积累，并已在国际顶级学术刊物会议上发表论文30余篇。
　　目前，潞晨科技已拿下创新工场和真格基金合投的超千万元种子轮融资。传送门
　　有关ColossalAI，今天就先介绍到这里。
　　最后，附上传送门，感兴趣的小伙伴，自行取用
　　GitHub地址：点击打开
　　参考链接：点击打开

鄂尔多斯名词伊金霍洛旗成吉思汗陵lt；？xml：namespaceprefixonsurn：schemasmicrosoftcom：office：office伊金是鄂尔多斯第三大城市，在自治区旗的级别大……ENDOFWINTERHOLLYSHIT（SHIT通序）短途旅行了一下。刚回来。我做着自己动手丰衣足食的美梦。在美颜坊花13块钱买了三把剃刀。在厕所里成功的把眉毛剃坏了。冬天完结。……岁月荏苒，时过境迁岁月荏苒时过境迁物是人非已不再一如既往该走的走了，也无法挽留该忘的忘了，也无法重回回忆是一件很累的事沉浸其中自我受累可是故人在心中可是……今日作家江雨林陕南之行（散文）陕南之行文江雨林同学无言来电话说，陕南汉中油菜花开了，洋县旅游成了大热门，去的朋友都说非常值得一看。咸阳旅游公司开大巴专线，百十块钱的车费，早出晚归一日游十分方便。……一分耕芸一分收获，聊聊头条抄作业这档子事儿之一今天来聊聊抄作业这档子事儿。天下文章一大抄，都是从学生时代过来的，抄作业这个活，有几个没干过呢〔机智〕这是一个真实的例子，几年前，小男孩读初一，他奶奶说，暑假来我这……老公睡别人的女人，我想离婚，他拿离婚冷静期说事，该怎么办？《民法典》已经开始走进人们的生活，很多法律规定更加的亲民，需要我们都熟知掌握，不然的话，就很可能因为不懂法而吃亏。我有个朋友，她是个善良的女人，因为善良，所以表现得比较软……心理学家发现你的恋爱对象，早在一岁的时候就已经确定了心理学家认为，一个人的恋爱对象，其实早在他一岁的时候就已经确定了。原因在于，原生家庭以及父母对孩子行为的诱导会影响孩子成年后的择偶选择。家庭治疗师萨提亚认为，一个人……克明面业爱心助力300户困境人群克明面业爱心助力300户困境人群为认真开展党史教育，扎实推进我为群众办实事活动，6月23日，中共克明面业党总支部通过长沙市培源社会服务中心，搭建起克明面业股份有限公司与辖……上月总结本月计划四月总结1、早睡早起20次（下白班不超过11点，下夜班高质量睡眠，早起可考虑晨练）完成。首先这一点算是超预期，当初制定计划的时候以为很难做到，事实是不仅超过了，而且……你嫁给什么样的人，就有什么样的命都说女人有三次改变命运的机会，一是出生在有钱人的家人，二是靠自己的努力改变命运，三是你找到了一个好男人，活出了真正的自我。嫁对一个好男人是多么重要，关系到女人一辈子的幸福……我去2021go请日试万言，倚马可待唐李白一直不爱写小结，坚持了几次的月结最终还是放弃了，但这篇小文，还是要写的。2020即将结束，本非常期待着2020，想着是爱你爱你，一定……你的耳朵准备好春游了么？春天来了，万物复苏，一家人外出游玩，看看风景，呼吸新鲜的空气，听损朋友们面对大自然复杂的环境里，基本听不清外界的声音，其实助听器跟眼镜一样，是需要验配的。验配是指在专业人员的指……

<<<<<<－>>>>>>

35岁的程序员还需要找老婆吗？网友的回答扎心了人一到三十多岁还没结婚自然而然就会被扣上大龄剩男女的称号，也会被长辈们成为重点讨论对象。特别是35岁这个年纪，如果事业上还没有起色，想要找对象那可谓是机场等船。最近在职业论坛上……32岁男人出轨十个女人，妻子毫无反应，离婚才知道她的决断忠诚是婚姻关系的底线，一旦这个环节被冲破，就有可能会打翻婚姻这条船，伤着爱人；伤着儿女；伤着亲人。只不过虽然很多人都明白这个道理，但是这个世界上又有太多的诱惑，如果做不到……2021年高考作文命题来袭，三个方面全面布局，高分作文就要这文章前言：一年一度的高考即将来临，最近莘莘学子处在备战阶段，高考生都在冲刺的路上，争取在阳光明媚、夏意浓烈的缤纷六月考出优异的成绩，来慰问十年寒窗下的勤学漫路。从此……能看懂下面这段话的绝对是高人没有一所学校会教你有用的知识可怜了那么多父母付出毕生精力、削尖脑袋也要逼迫孩子成为学霸！在我看来，结果没什么特别！因为：这个世界上确实存在上帝上帝可以看……大理发现一户人家，进去不想走了，犹如仙境，那叫一个漂亮有时候特别羡慕有院子的人家，因为不管院子的面积多大，都能够打造自己的一片小天地。或者养花，或者种菜，或者栽种一些果树。以前的时候，我也在农村生活，所以也在院子里栽种了各种各样的……初游越南略记原创：胡生明漫步河内巴亭广场初居异国盼天明，七点饭罢逛古城。巴亭广场位市中，越南革命扬威名。广场西侧主席陵，巴亭会堂紧靠东。四周绿树萦纡绕，雄王大……2021年的雪花，应了冬之约，终于飘来了我一直固执地以为，冬天，因为有了白色的六角形的雪花，会绵延成思念的季节。今天，2021年的第一场雪，终于应了冬之约，款款而来。雪花，细细碎碎，迷迷蒙蒙，似寻梦的蝶，袅袅绕……比努力更重要的是，提升你的思维层次知乎上有人问：人和人的差距，真的在于努力的程度吗？有一个高赞回答说：真正拉开差距的，是你有没有对应的思维认知。如果思维认知到了，你自然会心甘情愿地去努力。如果……学史力行，勇做红色文化传承人人无精神不立，党无精神不强。弘扬社会主义先进文化，促进红色文化建设，依托当地红色资源，将红色资源积极利用起来，营造传承红色基因的浓厚氛围，引导广大人民群众了解党的历史，做学史明……酸及其性质第一节酸及其性质教学目标：1、知识与技能：学会用酸碱指示剂、酸碱试纸检验溶液酸碱性；知道pH与溶液酸碱性强弱的关系，会用pH试纸检验溶液酸碱性强弱。……目前，因创业失败而导致的失信被执行人，需要一个机会今天看到关于十四五时期，纵深推进大众创业、万众创新的政策纲要，内心是很难平静。十年过去了，再次重提大众创新万众创业的口号，让人感受到政策的正确性。但号召归号召，问题是目前社会上……山中花开唤醒灵魂的力量之师父箴言对修行者来说，哪里会有永久的居所？都只不过如过客一般，暂借一宿而已。事实上，一个人的住所能反映出主人的内心世界；屋宇内的一切，代表了主人的思想与生活方式。或许我们可……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网