跑ChatGPT体量模型,从此只需一块GPU加速百倍的方法来
机器之心报道
编辑:泽南
1750亿参数,只需要一块RTX3090,ChatGPT终于不再是大厂专属的游戏?
计算成本是人们打造ChatGPT等大模型面临的重大挑战之一。
据统计,从GPT进化到GPT3的过程也是模型体量增长的过程参数量从1。17亿增加到了1750亿,预训练数据量从5GB增加到45TB,其中GPT3训练一次的费用是460万美元,总训练成本达1200万美元。
除了训练,推理也很花钱。有人估算,现在OpenAI运行ChatGPT的算力费用每天就有10万美元。
在发展技术,让大模型掌握更多能力的同时,也有人在尝试降低AI所需的算力资源。最近,一种名为FlexGen的技术因为一块RTX3090跑ChatGPT体量模型而获得了人们的关注。
虽然FlexGen加速后的大模型看起来仍然很慢跑1750亿参数的语言模型时每秒1个token,但令人印象深刻的是,它已经把不可能变成了可能。
传统上,大语言模型(LLM)推理的高计算和内存要求使人们必须使用多个高端AI加速器进行训练。本研究探索了如何将LLM推理的要求降低到一个消费级GPU并实现实用性能。
近日,来自斯坦福大学、UCBerkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了FlexGen,这是一种用于运行有限GPU内存的LLM的高吞吐量生成引擎。
通过聚合来自GPU、CPU和磁盘的内存和计算,FlexGen可以在各种硬件资源限制下灵活配置。通过线性规划优化器,它搜索存储和访问张量的最佳模式,包括权重、激活和注意力键值(KV)缓存。FlexGen将权重和KV缓存进一步压缩到4位,精度损失低到可以忽略不计。与最先进的offloading系统相比,FlexGen在单个16GBGPU上运行OPT175B的速度提高了100倍,并首次实现了1tokens的实际生成吞吐量。如果提供了更多的分布式GPU,FlexGen还带有流水线并行runtime,以允许在解码时进行超线性扩展。
目前,该技术已经放出代码,获得了几千Star量:https:github。comFMInferenceFlexGen
简介
近年来,大语言模型在广泛的任务中表现出卓越的性能。LLM在展现出前所未有的通用智能的同时,也让人们在构建时面临着前所未有的挑战。这些模型可能有数十亿甚至数万亿个参数,这导致运行它们需要极高的计算和内存要求。例如,GPT175B(GPT3)仅用于存储模型权重就需要325GB的内存。要让此模型进行推理,至少需要五块英伟达A100(80GB)和复杂的并行策略。
降低LLM推理资源需求的方法是最近人们经常讨论的内容。这些努力分为三个方向:
(1)模型压缩以减少总内存占用量;
(2)协同推理,通过去中心化分摊成本;
(3)Offloading以利用CPU和磁盘的内存。
这些技术显着降低了使用LLM的计算资源需求。然而,人们通常假设模型适合GPU内存,而现有的基于offloading的系统仍然难以使用单块GPU以可接受的吞吐量运行1750亿参数规模的模型。
在新研究中,作者专注于高吞吐量生成推理的有效offloading策略。当GPU显存不够用时,我们需要将其卸载到二级存储,通过部分加载的方式,逐段进行计算。在典型的机器上,内存层次结构分为三级,如下图所示。高级内存速度快但稀缺,低级内存速度慢但充裕。
在FlexGen中,作者不追求低延迟,而是瞄准面向吞吐量的场景,这些场景在基准测试、信息提取、数据整理等应用中很受欢迎。实现低延迟对于offloading来说本质上是一个挑战,但是对于面向吞吐量的场景,可以大大提高offloading的效率。图1说明了三个具有offloading的推理系统的延迟吞吐量权衡。通过仔细的调度,IO成本可以通过大量输入分摊并与计算重叠。在研究中,作者展示了就单位算力成本而言,单块消费级GPU吞吐量优化的T4GPU效率要比云上延迟优化的8块A100GPU的效率高4倍。
图1。OPT175B(左)和OPT30B(右)上三个基于offloading的系统的延迟和吞吐量权衡。FlexGen实现了新的帕累托最优边界,OPT175B的最大吞吐量提高了100倍。由于内存不足,其他系统无法进一步提高吞吐量。
尽管已有研究在训练的背景下讨论了offloading的延迟吞吐量权衡,但尚未有人将其用于生成LLM推理,这是一个截然不同的过程。由于LLM的自回归性质,生成推理提出了独特的挑战。除了存储所有参数外,它还需要顺序解码并维护一个大的注意力键值缓存(KV缓存)。现有的offload系统都无法应对这些挑战,因此它们执行过多的IO,只能实现远低于硬件能力的吞吐量。
为生成推理设计良好的offloading策略具有一定挑战性。首先,这个过程中存在三种张量:权重、激活和KV缓存。该策略应指定在三级层次结构上的卸载内容、位置以及卸载时机。其次,逐个batch、逐个token和逐个layer计算的结构形成了一个复杂的依赖图,可以通过多种方式进行计算。该策略应该选择一个可以最小化执行时间的时间表。这些选择共同构成了一个复杂的设计空间。
为此,在新方法FlexGen上,人们提出了一种用于LLM推理的offloading框架。FlexGen聚合来自GPU、CPU和磁盘的内存,并能有效地调度IO操作,作者也讨论了可能的压缩方法和分布式管道并行性。
该研究的主要贡献如下:
1、作者正式定义了可能的offloading策略的搜索空间,并使用成本模型和线性规划求解器搜索最佳策略。值得关注的是,研究人员证明了搜索空间捕获了一个几乎IO最优的计算顺序,其IO复杂度在最优计算顺序的2倍以内。搜索算法可以针对各种硬件规格和延迟吞吐量限制进行配置,从而提供一种平滑导航权衡空间的方法。与现有策略相比,FlexGen解决方案统一了权重、激活和KV缓存的放置,从而实现了更大的batchsize。
2、研究表明,可以将OPT175B等LLM的权重和KV缓存压缩到4位,而无需重新训练校准,精度损失可忽略不计。这是通过细粒度分组量化实现的,可以显著降低IO成本。
3、通过在英伟达T4GPU(16GB)上运行OPT175B来展示FlexGen的效率。在单块GPU上,给定相同的延迟要求,与DeepSpeedZeroInference(Aminabadietal。,2022)和HuggingFaceAccelerate(HuggingFace,2022)相比,不压缩的FlexGen可以实现高出65倍的吞吐量,后者是目前业内最先进的基于offloading的推理系统。如果允许更高的延迟和压缩,FlexGen可以进一步提高吞吐量并达到100倍的改进。FlexGen是第一个可以使用单块T4GPU为OPT175B实现1tokens速度吞吐量的系统。如果给定多块分布式GPU,具有流水线并行性的FlexGen可在解码时实现超线性扩展。
在研究中,作者还将FlexGen和Petals作为offloading和去中心化集合推理方法的代表进行了比较。结果表明,具有单块T4GPU的FlexGen在吞吐量方面胜过具有12块T4GPU的分散式Petal集群,并且在某些情况下甚至可以实现更低的延迟。
运行机制
通过聚合来自GPU、CPU和磁盘的内存和计算,FlexGen可以在各种硬件资源限制下灵活配置。通过线性规划优化器,它搜索存储和访问张量的最佳模式,包括权重、激活和注意力键值(KV)缓存。FlexGen将权重和KV缓存进一步压缩到4位,精度损失可以忽略不计。
FlexGen的一个关键思想是进行延迟吞吐量权衡。实现低延迟对于卸载方法来说本来就具有挑战性,但对于面向吞吐量的场景,可以极大地提升卸载效率(见下图)。FlexGen利用块调度来重用权重并将IO与计算重叠,如下图(b)所示,而其他基线系统使用低效的逐行调度,如下图(a)所示。
目前,该研究作者的下一步计划包括对苹果M1、M2芯片的支持和Colab部署的支持。
FlexGen自发布后在GitHub上的Star量很快上千,在社交网络上热度也很高。人们纷纷表示这个项目很有前途,似乎运行高性能大型语言模型的障碍正在被逐渐克服,希望在今年之内,单机就能搞定ChatGPT。
有人用这种方法训练了一个语言模型,结果如下:
虽然没有经过大量数据的投喂,AI不知道具体知识,但回答问题的逻辑似乎比较清晰,或许未来的游戏中,我们能看见这样的NPC?
参考内容:https:news。ycombinator。comitem?id34869960
气虚,怕上火?一味金元名方,益气复脉养阴生津,补气不上火一位低血压的朋友,常常头晕、眼黑、肢软,甚至心悸,日常在服用人参升血压,却又不知道每天到底吃多少人参合适,于是微信向我询问。我对她讲,如果是气阴两虚型低血压,可以喝生脉饮……
当代的守株待兔警惕对技术的迷信2007年乔布斯发明苹果手机。对中国人来说,这不仅是技术史上的大事,更是思想史上的大事。因为,中国社会的思想因此被深深改变。01hr2007年,乔布斯发明苹果手机,随后一……
广东人来云南旅游,饭店服务员这一举动意外火了,网友们却馋哭了每年的这个季节就是云南人的菌子节,又因为这个季节天气好还是暑假,所以游客也非常多,所以很多游客也会来云南品尝各种菌子。云南人吃菌子一般是炒着吃,炖汤也不错,还有一种特色的烹饪方……
神舟十三号即将携太空三人组凯旋归来据中国载人航天工程办公室消息称,神州十三号载人飞船已完成全部既定任务,预计于2022年4月16日上午返回东风着陆场。2021年10月16日,一个历史性的时刻,神舟十三号载……
NASA机智号正在为第25次飞行也是迄今最长距离飞行做准备NASA的机智号(Ingenuity)火星直升机最近在4月3日周日进行了第24次飞行,但现在它正在准备进行第25次飞行,这将是它迄今为止最长的一次飞行。这架直升机最初只设计了五……
江浙沪有哪些树屋酒店?春暖花开的,植树节要到了,哈哈。喵妈这一联想,竟然想到了树屋。过去听说什么树屋、木屋、童话屋的,仿佛还只是歪果仁玩的野趣,想想就艳羡。这几年,就算疫情也竟没耽误树屋在国内……
为什么三恒系统比空调地暖新风要好?现在很多家庭都选择安装中央空调地暖新风的这种搭配,最近几年市面上中央空调、地暖的销量在不断地增长,可能大家都以为中央空调、地暖的走势会越来越好,但没想到也有很多人对中央空调和地……
那年那月(4)盛夏的余热似乎并没有退去的打算,就好比已经关了灶火的锅里,水,依然在翻滚着,更为难受的却是,还要不停的站在烈日下不断的重复着,左转,右转,后转,齐步走,正步走两条腿早在前……
全球手机销量排行华为跌至第9苹果痛失第1,中国品牌独占7席哪个品牌的手机全球销量第一?答案是三星。你没有想到这个结果吧,感觉很久没有看到三星品牌的手机了,但是它确实坐上了全球手机销量的头把交椅。原来的老大苹果手机滑落到了第二位;国产手……
10月18日10足球莱红牛,布赖顿,西布罗姆,马竞,水晶宫视频加载中。。。【001莱红牛vs汉堡】查看球队近5场比赛中3次拿下了赛事。目前队内有3名队员因个人原因缺席,球队近5场比赛中仅2次和对手踢出了大球。莱比锡红牛近5……
青未了那遥远的故乡漂泊万里夜凭栏,异国他乡思故园。无论身隔多远,离开多久,我都忘不了那遥远的故乡洪五。洪五,是我生长的摇篮,是我童年的世界。我的人生从那里开始,上小学上中学,参加工作。从洪……
配备RTX3060独显SurfaceStudio2发布10月12日晚,微软发布了新一代SurfaceStudio2一体机,简约的设计让其更具科技感。目前这款产品的信息已经登陆微软官方网站,但尚未开售,将稍晚在中国市场推出。配……