2023炼丹GPU选购指南来了英伟达3080和4070Ti成
Alex发自凹非寺
量子位公众号QbitAI
春暖花开,各位深度学习er想不想给自己的丹炉升级一波?
炼丹爱好者们应该知道,在该领域中,GPU的总体表现完胜CPU。
那么GPU应该怎么选?不妨来看看这篇超级详尽的2023版GPU选购指南。
知名测评博主、华盛顿大学在读博士TimDettmers亲测后,写下万字长文,手把手教你Pick性价比最高的显卡,避免踩雷。
光是目录就有这么长
至于谁是性价比之王,不卖关子,这里先放上Tim哥的结论:
对于16位训练过程,RTX3080的性价比最高;对于8位和16位推理,RTX4070Ti的性价比最高。
有意思的是,不只这俩,他在本文推荐的显卡全是英伟达家的Tim哥觉得,对于深度学习,AMDGPUROCm目前还打不过NVIDIAGPUCUDA。
手把手教你挑GPU
Tim哥自制了一张表格,展示出在训练和推理过程中,一美元能买到多少算力;这在一定程度上体现了英伟达众显卡的性价比。
蓝色16位训练;红色16位推理;黄色8位推理
看到这个,你可能一脸问号:从表格来看,不是RTX4080在8位和16位推理上的性价比更高吗?
其实,咱们开头说的是综合性价比
除了看一美元能买多少算力,还要结合显卡的运行成本,比如电费。所以总的来说,还是RTX4070Ti的性价比更高。
虽然RTX3080和RTX4070Ti性价比高,但这俩的内存是个明显短板:
Tim哥指出,12GB在很多情况下都不够用,要运行Transformer模型的话,至少需要24GB。
于是,Tim哥又贴心地做了一个小程序,帮你根据不同的任务选择最合适的GPU。
其背后的核心思想是:不管干啥,一定要保证GPU的内存满足你的需求。
首先,要弄清楚这个GPU是个人用还是公用,还有就是要处理什么任务比如,是要训练语言大模型(LLM)吗、参数量有没有超过130亿?还是就做点小项目?
然后再根据自己的钱包情况,参考上面的表格,选择最合适的GPU。
举个例子:
如果要训练LLM且参数量超过130亿,不差钱的可以选择支持Azure公有云的A100或者H100;追求性价比的话,可以选支持AWS的A100或者H100。
但如果预算实在有限,建议放弃
(在亚马逊上,40GB的英伟达TeslaA100售价为11769美元起,约合人民币79529元。当然这都是针对国外的情况,在国内炼丹仅供参考)
另外,Tim哥还支了一招:最好用云GPU(比如Lambda云)来估测一下所需的GPU内存(至少12GB用于图像生成,至少24GB用于处理Transformer)。
其实假如GPU仅偶尔使用(每隔几天用几小时),甚至都不用去买个实体的,用云GPU就可以了。
对了如果你真的不在乎这点(?)钱,就要追求极致性能,那可以看看这张表,即GPU的原始性能排行。
那如果实在钱不够,即使是Tim哥推荐的最便宜的GPU也买不起,还有办法吗?
那可以考虑二手呀!
先去买个便宜的GPU用于原型设计和测试,然后在云端进行全面的实验和测试。关键性能点有哪些?
盘点完英伟达的一堆GPU后,再来叙一叙关乎深度学习速度的几大GPU性能关键点。
(如果你想稍微深入了解一些,请接着往下看。)
Tim哥指出,重点有四:GPU的内存、核心、TensorCore和缓存。
而其中最重要的是TensorCore。
TensorCore是英伟达为其高端GPU开发的一项技术,本质上,就是加速矩阵乘法的处理单元。其中Tensor即张量,是一种能表示所有类型数据的数据类型。
Tim表示,在所有深度神经网络中,最昂贵的部分是矩阵乘法,而有了TensorCore,运算速度会变得非常快,有助于大大减少成本。
就拿一个入门级的3232矩阵乘法来说,通过TensorCore,将矩阵乘法的运算时间从504个周期,降低到235个周期,直接减半。
而且即便是超大规模的矩阵运算,TensorCore也能轻松处理。在规模堪比GPT3的训练中,TensorCore的TFLOPS利用率也就约为4565。
而当两个GPU都有TensorCores时,要比较它们性能,最佳指标之一就是内存带宽。
例如,A100GPU的内存带宽为1555GBs,而V100为900GBs。因此,A100和V100相比,运算速度大概是后者的15559001。73倍。
由此可见,内存带宽会影响到TensorCore的性能发挥。于是研究人员开始寻找其他GPU属性,使内存数据传输到TensorCore的速度更快。
然后,他们发现,GPU的一级缓存、二级缓存、共享内存和使用的寄存器数量也都是相关因素。
对于缓存来说,数据块越小,计算速度越快;所以需要把大的矩阵乘法,划分成小的子矩阵乘法。研究者们把这些小的子矩阵乘法称为内存碎片(memorytiles)。
一部分碎片被加载到TensorCore中,由寄存器直接寻址。
根据英伟达Ampere架构的规则,举个例子
把每一个权重矩阵都切成4个碎片,并假设其中两个为零于是就得到了一堆稀疏权重矩阵。
然后把这些稀疏权重矩阵与一些密集输入相乘,TensorCore功能启动,将稀疏矩阵压缩为密集表示,其大小为下图所示的一半。
在压缩之后,密集压缩的碎片被送入TensorCore,计算的矩阵乘法是一般大小的两倍。这样,运算速度就成了通常的2倍。
Tim哥表示,上述性能点,他在统计英伟达GPU性能时都考虑在内了。
如果你把这些东西吃透了话,以后就能完全靠自己配置出最合适的炼丹炉了。
原文传送门:
https:timdettmers。com20230130whichgpufordeeplearning
完
量子位QbitAI头条号签约
关注我们,第一时间获知前沿科技动态
大米里加2个土豆一起煮,没想到这么好吃,营养又解馋,太香了生活没有彩排,美食没有美颜。大家好,今天用大米给大家分享一道美食。大米,日常生活中缺一不可的一种食材,我们都是用来煮米饭,生活中真的是顿顿都离不了它。今天我们要用大米来给大家做……
不匆忙出战的话犹在耳边,第二战却让朱婷打满,为何出尔反尔?有人说她满血回归,为此满心欢喜,以至于想对蔡斌说:中国女排又有希望了!也有人在质疑:这是什么比赛?国家队的不打,而在这里却是龙精虎猛;但更多人却在说:慢慢来,不要用……
井陉县糖心苹果在石家庄西部井陉县东方岭村,有一片山地果园,出产一种糖心苹果,甜度非常好,深受当地人喜爱。从石家庄市区到东方岭苹果基地有两条路,一条是走307国道,从头泉村附近进山,走山……
三十而已王漫妮最后和谁在一起了三十而已王漫妮最后和谁都没有在一起,自己单身,不过,王漫妮的官配cp就是在游轮上遇到的梁正贤,但梁正贤是个渣男,最后王漫妮已找到自己的初心,在追寻自己的学业和事业线。王漫……
三十而已原著小说结局三十而已原著小说结局是三个女人都有了自己的归宿。《三十而已》是根据同名小说改编而来的,以三位三十岁女性视角展开,讲述了都市女性在三十岁这一重要年龄节点时,遭遇到多重压力的故事。……
三十而已钟晓芹和钟晓阳在一起了吗三十而已钟晓芹和钟晓阳没有在一起。其实,这样的结果很正常,因为钟晓芹的经历更成熟一些,这也就决定了钟晓芹选择必须慎重,而不能像钟晓阳一样可以不顾一切,再加上两人年龄上的差距,所……
三十而已钟晓芹和谁在一起了三十而已钟晓芹和陈屿复婚了,剧中钟晓芹有两段感情线:第一段:一个是钟晓芹和陈屿结婚后爆发的问题,之后离婚,复婚。剧中钟晓芹有一份普通工作,安心做一个平凡妻子,嫁给事业单位……
这座18线海滨老城,比三亚安静!更是国内宜居城市Top1中华民族长子山东,是中国果蔬种植大省,几乎供养了半个中国,这里的蔬菜、水果、水产品,产量均居全国第一。这里还坐拥中国16的最美海岸线,有中国最美海滨城市,中国最美海岛、最……
三十而已和二十不惑的关系电视剧《三十而已》和《二十不惑》是承上启下的关系。《二十不惑》是一个开始,《三十而已》是一个经历的过程。不论是18岁,还是20岁、30岁,都是人生的重要阶段,面临着人生重要的选……
感冒判断依据及辨证论治从此感冒不求人感冒判断依据【定义】感冒是以鼻塞、流涕、喷嚏、头痛、恶寒、发热、全身不适为主症的病证,是最常见的外感病之一。【好发】四季皆可发病,以冬春季节多见。【别名】本病……
三十而已结局是什么三十而已已经迎来了大结局,作品的最后是晓芹和陈屿幸福地在一起了,而且晓芹成为了一位知名作家,陈屿也有了一份稳定的工作,两人的生活是很平淡的。顾佳最后和许幻山离婚了,许幻山……
名侦探柯南最恐怖的几集?第1112集的《钢琴奏鸣曲月光杀人事件》12年前,著名的钢琴家杀死了自己的妻子和女儿后在家自焚而死。火海之中不断响起贝多芬的《月光》?住在京东的儿子成实幸运存活下来,成实……