深度学习装机指南从到显示器全套硬件

12月4日飞虹塔投稿

　　硬件设备，是任何一名深度学习er不可或缺的核心装备。各位初级调参魔法师们，你们有没有感到缺少那一根命中注定的魔杖？
　　可是，各种CPU、GPU、内存条、外设，那么多品牌种类型号参数，到底该怎么选？
　　为了帮你凑齐一套能打的装备，一位名叫TimDettmers的歪果小哥哥将自己一年组装七部工作站的装机经验凝练成一篇实用攻略分享了出来，帮你确定一整套硬件选型，并且，还根据今年的新硬件做了推荐。
　　好啦，下面我们从GPU开始，依次看看各重要部件应该如何选择，全文超过5000字，预计阅读时间11分钟。当然，文末还为大家准备了精华清单
　　GPU
　　显卡（GPU）是深度学习的重要部件，甚至比CPU更重要。做深度学习不用GPU只用CPU显然是不明智的，所以作者Tim先介绍了GPU的选择。
　　选购GPU有三大注意事项：性价比、显存、散热。
　　使用16bit的RTX2070或者RTX2080Ti性价比更高。另外在eBay上购买二手的32bitGTX1070、GTX1080或者1080Ti也是不错的选择。
　　除了GPU核心，显存（GPURAM）也是不可忽视的部分。RTX比GTX系列显卡在显存方面更具优势，在显存相同的情况下，RTX能够训练两倍大的模型。
　　通常对显存的要求如下：
　　如果想在研究中追求最高成绩：显存11GB；
　　在研究中搜寻有趣新架构：显存8GB；
　　其他研究：8GB；
　　Kaggle竞赛：48GB；
　　创业公司：8GB（取决于具体应用的模型大小）
　　公司：打造原型8GB，训练不小于11GB
　　需要注意的是，如果你购买了多个RTX显卡，一定不要忽视散热。两个显卡堆叠在相邻PCIe插槽，很容易令GPU过热降频，可能导致性能下降30。这个问题后面还会具体讨论。
　　内存
　　选择内存（RAM）有两个参数：时钟频率、容量。这两个参数哪个更重要？
　　时钟频率
　　炒作内存时钟频率是厂家常用的营销手段，他们宣传内存越快越好，实际上真的是这样吗？
　　知名数码博主LinusTechTips解答了这个问题：厂商会引诱你购买更快的RAM，实际上却几乎没有性能提升。
　　内存频率和数据转移到显存的速度无关，提高频率最多只能有3的性能提升，你还是把钱花在其他地方吧！
　　内存容量
　　内存大小不会影响深度学习性能，但是它可能会影响你执行GPU代码的效率。内存容量大一点，CPU就可以不通过磁盘，直接和GPU交换数据。
　　所以用户应该配备与GPU显存匹配的内存容量。如果有一个24GB显存的TitanRTX，应该至少有24GB的内存。但是，如果有更多的GPU，则不一定需要更多内存。
　　Tim认为：内存关系到你能不能集中资源，解决更困难的编程问题。如果有更多的内存，你就可以将注意力集中在更紧迫的问题上，而不用花大量时间解决内存瓶颈。
　　他还在参加Kaggle比赛的过程中发现，额外的内存对特征工程非常有用。
　　CPU
　　过分关注CPU的性能和PCIe通道数量，是常见的认知误区。用户更需要关注的是CPU和主板组合支持同时运行的GPU数量。
　　CPU和PCIe
　　人们对PCIe通道的执念近乎疯狂！而实际上，它对深度学习性能几乎没有影响。
　　如果只有一个GPU，PCIe通道的作用只是快速地将数据从内存传输到显存。
　　ImageNet里的32张图像（32x225x225x3）在16通道上传输需要1。1毫秒，在8通道上需要2。3毫秒，在4通道上需要4。5毫秒。
　　这些只是是理论数字，实际上PCIe的速度只有理论的一半。PCIe通道通常具有纳秒级别的延迟，因此可以忽略延迟。
　　Tim测试了用32张ImageNet图像的minibatch，训练ResNet152模型所需要的传输时间：
　　前向和后向传输：216毫秒
　　16个PCIe通道CPUGPU传输：大约2毫秒（理论上为1。1毫秒）
　　8个PCIe通道CPUGPU传输：大约5毫秒（2。3毫秒）
　　4个PCIe通道CPUGPU传输：大约9毫秒（4。5毫秒）
　　因此，在总用时上，从4到16个PCIe通道，性能提升约3。2。但是，如果PyTorch的数据加载器有固定内存，则性能提升为0。因此，如果使用单个GPU，请不要在PCIe通道上浪费金钱。
　　在选择CPUPCIe通道和主板PCIe通道时，要保证你选择的组合能支持你想要的GPU数量。如果买了支持2个GPU的主板，而且希望用上2个GPU，就要买支持2个GPU的CPU，但不一定要查看PCIe通道数量。
　　PCIe通道和多GPU并行计算
　　如果在多个GPU上训练网络，PCIe通道是否重要呢？Tim曾在ICLR2016上发表了一篇论文指出（https：arxiv。orgabs1511。04561）：如果你有96个GPU，那么PCIe通道非常重要。
　　但是，如果GPU数量少于4个，则根本不必关心PCIe通道。几乎很少有人同时运行超过4个GPU，所以不要在PCIe通道上花冤枉钱。这不重要！
　　CPU核心数
　　为了选择CPU，首先需要了解CPU与深度学习的关系。
　　CPU为深度学习中起到什么作用？当在GPU上运行深度网络时，CPU几乎不会进行任何计算。CPU的主要作用有：（1）启动GPU函数调用（2）执行CPU函数。
　　到目前为止，CPU最有用的应用是数据预处理。有两种不同的通用数据处理策略，具有不同的CPU需求。
　　第一种策略是在训练时进行预处理，第二种是在训练之前进行预处理。
　　对于第一种策略，高性能的多核CPU能显著提高效率。建议每个GPU至少有4个线程，即为每个GPU分配两个CPU核心。Tim预计，每为GPU增加一个核心，应该获得大约05的额外性能提升。
　　对于第二种策略，不需要非常好的CPU。建议每个GPU至少有2个线程，即为每个GPU分配一个CPU核心。用这种策略，更多内核也不会让性能显著提升。
　　CPU时钟频率
　　4GHz的CPU性能是否比3。5GHz的强？对于相同架构处理器的比较，通常是正确的。但在不同架构处理器之间，不能简单比较频率。CPU时钟频率并不总是衡量性能的最佳方法。
　　在深度学习的情况下，CPU参与很少的计算：比如增加一些变量，评估一些布尔表达式，在GPU或程序内进行一些函数调用。所有这些都取决于CPU核心时钟率。
　　虽然这种推理似乎很明智，但是在运行深度学习程序时，CPU仍有100的使用率，那么这里的问题是什么？Tim做了一些CPU的降频实验来找出答案。
　　CPU降频对性能的影响：
　　请注意，这些实验是在一些上古CPU（2012年推出的第三代酷睿处理器）上进行的。但是对于近年推出的CPU应该仍然适用。
　　硬盘固态硬盘（SSD）
　　通常，硬盘不会限制深度学习任务的运行，但如果小看了硬盘的作用，可能会让你追、悔、莫、及。
　　想象一下，如果你从硬盘中读取的数据的速度只有100MBs，那么加载一个32张ImageNet图片构成的minibatch，将耗时185毫秒。
　　相反，如果在使用数据前异步获取数据，将在185毫秒内加载这些minibatch的数据，而ImageNet上大多数神经网络的计算时间约为200毫秒。所以，在计算状态时加载下一个minibatch，性能将不会有任何损失。
　　Tim小哥推荐的是固态硬盘（SSD），他认为SSD在手，舒适度和效率皆有。和普通硬盘相比，SSD程序启动和响应速度更快，大文件的预处理更是要快得多。
　　顶配的体验就是NVMeSSD了，比一般SSD更流畅。
　　电源装置（PSU）
　　一个程序员对电源最基础的期望，首先得是能满足各种GPU所需能量吧。随着GPU朝着更低能耗发展，一个质量优秀的PSU能陪你走很久。
　　应该怎么选？Tim小哥有一套计算方法：将电脑CPU和GPU的功率相加，再额外加上10的功率算作其他组件的耗能，就得到了功率的峰值。
　　举个例子，如果你有4个GPU，每个功率为250瓦，还有一个功率为150瓦的CPU，则需电源提供42501501001250瓦的电量。
　　Tim通常会在此基础上再额外添加10确保万无一失，那就总共需要1375瓦。所以这种情况下，电源性能需达1400瓦。
　　这样手把手教学，应该不难理解了。还有一点得注意，即使一个PSU达到了所需瓦数，也可能没有足够的PCIe8pin或6pin的接头，所以买的时候还要确保电源上有足够多的接头接GPU。
　　另外，买一个能效等级高的电源，特别是当你需要连很多GPU并且可能运行很长时间的时候，原因你懂的。
　　再举个例子吧，如果以满功率（10001500瓦）运行4GPU系统、花两周时间训练一个卷积神经网络，需要耗用300500度电。按德国每度0。2欧元计算，电费最终耗费约折合人民币455766元。
　　如果电源效率降到80，电费将增加140203元人民币。
　　需要的GPU数量越多，拉开的差距越明显。PSU的挑选是不是比之前想象的复杂一点？
　　CPU和GPU的冷却
　　对于产热大户CPU和GPU来说，散热性不好会降低它们的性能。
　　对CPU来说，则标配的散热器，或者AIO水冷散热器都是不错的选择。
　　但GPU该用哪种散热方案，却是个复杂的事。
　　风冷散热
　　如果只有单个GPU，风冷是安全可靠的，但若你GPU多达34个，靠空气冷却可能就不能满足需求了。
　　目前的GPU会在运行算法时将速度提升到最大，所以功耗也达到最大值，一旦温度超过80，很有可能降低速度，无法实现最佳性能。
　　对于深度学习任务来说这种现象更常见了，一般的散热风扇远达不到所需效果，运行几秒钟就达到温度阈值了。如果是用多个GPU，性能可能会降低1025。
　　怎么办？目前，英伟达GPU很多是针对游戏设计的，所以对于Windows系统进行了专门的优化，也可以轻松设置风扇方案。
　　但在Linux系统中这招就不能用了，麻烦的是，很多深度学习库也都是针对Linux编写的。
　　这是一个问题，但也不是无解。
　　在Linux系统中，你可以进行Xorg服务器的配置，选择coolbits选项，这对于单个GPU还是很奏效。
　　若你有多个GPU，就必须模拟一个监视器，Tim小哥说自己尝试了很长时间，但还是没有什么改进。
　　如果你想在空气冷却的环境中运行34个小时，则最应该注意风扇的设计。
　　目前市场上的散热风扇原理大致有两种：鼓风式的风扇将热空气从机箱背面推出，让凉空气进来；非鼓风式的风扇是在GPU中吸入空气达到冷却效果。
　　所以，如果你有多个GPU彼此相邻，那么周围就没有冷空气可用了，所以这种情况，一定不要用非鼓风式的散热风扇了。
　　那用什么？接着往下看
　　水冷散热
　　水冷散热虽然比风冷法成本略高，但很适用于多个GPU相邻的情况，它能hold住四个最强劲的GPU保持周身凉爽，是风冷无法企及的效果。
　　另外，水冷散热可以更安静地进行，如果你在公共区域运行多个GPU，水冷的优势更为凸显了。
　　至于大家最关心的成本问题，水冷单个GPU大概需要100美元（约690元人民币）再加一些额外的前期成本（大约350元人民币）。
　　除了财力准备，还需要你投入一些精力，比如额外花时间组装计算机等。这类事情网上教程已经很多了，只需要几个小时搞定，后期的维护也不复杂。
　　结论
　　对于单个GPU，风冷便宜也够用；多个GPU情况下，鼓风式的空气冷却比较便宜，可能会带来1015的性能损失。如果想追求散热极致，水冷散热安静且效果最好。
　　所以，风冷or水冷都合理，看你自己的实际情况和预算了。但小哥最后建议，通常情况下，还是考虑下低成本的风冷吧。
　　主板
　　主板应该有足够的PCIe插槽来支持所需的GPU数量。但需要注意的是，大多数显卡宽度需要占用两个PCIe插槽。
　　【PCIe插槽】
　　如果打算使用多个GPU，就要购买PCIe插槽之间有足够空间的主板，确保显卡之间不会相互遮挡。
　　机箱
　　选机箱的时候，必须保证机箱能装下主板顶部的全长GPU，虽然大部分机箱是没问题的，但是万一你买小了，那就得看商家给不给你七天无理由了
　　所以，买之前最好确认一下机箱的尺寸规格，也可以搜一下机箱装着GPU的图，有别人的成品图的话就能买得放心一些。
　　另外，如果你想用定制水冷的话，保证你的机箱能装得下散热器，尤其是给GPU用定制水冷的时候，每个GPU的散热器都需要占空间。
　　显示器
　　怎么配显示器还用教？
　　必须得教。
　　Tim放出了买家秀：
　　是的，作为一个成熟的技术人员，用多台显示器是基本配置了。
　　想象一下把买家秀上这三台显示器上的内容堆到同一块屏幕里，来回切换窗口，这得多累人。
　　太长不看版
　　GPU：
　　RTX2070、RTX2080Ti、GTX1070、GTX1080、GTX1080，这些都不错。
　　CPU：
　　1。给每个GPU配12个CPU核心，具体要看你预处理数据的方式；
　　2。频率要大于2GHz，CPU要能支持你的GPU数量；
　　3。PCIe通道不重要。
　　内存：
　　1。时钟频率无关紧要，内存买最便宜的就行了；
　　2。内存显存最大的那块GPU的RAM；
　　3。内存不用太大，用多少买多少；
　　4。如果你经常用大型数据集，买更多内存会很有用。
　　硬盘SSD：
　　1。给你的数据集准备足够大的硬盘（3TB）；
　　2。有SSD会用的舒坦一些，还能预处理小型数据集。
　　PSU：
　　1。需要的功率最大值（CPU功率GPU功率）110；
　　2。买一个高能效等级的电源，特别是当你需要连很多GPU并且可能运行很长时间的时，这样可以节省很多电费；
　　3。买之前请确保电源上有足够多的接头（PCIe8pin或6pin）接GPU。
　　散热：
　　CPU：
　　标准配置的CPU散热器或者AIO水冷散热器；
　　GPU：
　　1。单个GPU，风冷散热即可；
　　2。若用多个GPU，选择鼓风式风冷散热或水冷散热。
　　主板：
　　准备尽可能多的链接GPU的PCle插槽，一个GPU需要两个插槽，每个系统最多4个GPU，不过你也要考虑GPU的厚度。
　　显示器：
　　为了提高效率，多买几块屏幕吧。
　　发了三篇顶会的博士在读小哥哥
　　这篇指南的作者TimDettmers去年硕士毕业，目前在华盛顿大学读博，主要研究知识表达、问答系统和常识推理，曾在UCL机器学习组和微软实习。
　　按照去年毕业开始读博的话，Tim的博士才读了一年半，现在就已经是三篇顶会论文的作者了，其中还有一篇AAAI是一作，一篇ICLR是唯一作者。
　　另外，他还是一个刷Kaggle爱好者，曾经在2013年排到全球第63名（前0。22）。
　　OneMoreThing
　　其实说了这么多，你也不想装机对不对？
　　Tim已然料到，所以，在装机指南之外，他还主动奉献了一些装机鼓励：
　　虽然买硬件很贵，一不小心搞错会肉疼，但是不要怕装电脑这件事。
　　其一，装机本身很简单，主板手册里都把如何装机写的明明白白，比装乐高难不了多少，还附带了大量的指南和分步操作视频，就算你是0经验小白也能学得会。
　　其二，装机这件事，只要有第一次，后面就不难了，因为所有的计算机都是那几个硬件构成的。所以，只要装一次，就可以get一门终身技能，投资回报率非常高。
　　所以，加油准备一台你自己的设备吧

投诉评论

语文老师年级常考文学常识大全孩子背文学常识是语文这一门科目中非常重要的。因为从小学到高中这类题型都是经常考到。并且分之占比也越来越大。语文的改革，特别注重了中国的传统文化知识。所以文学常识也随之得到重视。……油价又涨了实用好操作的节油妙招有哪些自从2019年开始，这三个月里每次到了油价调控窗口都是每个车友们提心吊胆的时候。而今年油价已经喜迎三连涨，小编想说既然我们无法控制油价，那我们总能做到自律自节吧，小编这就给各位……济南红叶谷的秋韵别样美几年前深秋的一天，在朋友的引领下我来到济南市红叶谷观赏秋景，所到之处感到这里的秋韵别具一格、实在太美了，什么叫五彩斑斓？什么叫秋天真正的的红叶峡谷？在这里就可以找到答案。在观赏……如何兼顾用户体验【网站设计论文】如何兼顾用户体验？网站优化的最终结果是从搜索引擎那里获取比较好的一个网站的排名，但是并不是说我们纯粹为了排名而忽略用户体验。怎么才能兼顾SEO和用户体验？……用户又懒又笨如何影响产品设计用户是懒且笨的吗？答案是肯定的，虽然互联网从业者似乎什么功能都能够很好的使用且精通各种常规以及不常规的使用方法。但是就普通用户而言，要做到这些实在是有点难为别人。不要忘记，网上……生态系统解析2013年，移动互联网引领进入O2O元年，而O2O的大面积布局与实践应在2014年。从O2O发展现状来看，市场规模大、增长迅猛，以本地生活服务O2O市场为例，2013年市场规模……橱柜防变形保养小妙招原木风格保留原始木纹，是自然的代表。原木色的橱柜受到很多家庭的欢迎，怎样才能在使用的过程中永恒保持它的天然色泽，使它容颜不老呢？原木家具制品，其最大优点在于浑然天成的木纹……深度学习装机指南从到显示器全套硬件硬件设备，是任何一名深度学习er不可或缺的核心装备。各位初级调参魔法师们，你们有没有感到缺少那一根命中注定的魔杖？可是，各种CPU、GPU、内存条、外设，那么多品牌种类型……老师傅珍藏已久的个资源网站一次全部给你现在每天和电脑打交道的人很多，但是大家有没有发现网上的资源越来越少了，基本上都找不到自己想要的，所以今天小编就准备了5个资源网站给大家，有娱乐、办公和自学的，希望大家能够喜欢。……新加坡国花是什么花新加坡国花是胡姬花，有卓越锦绣，万代不朽之寓意，代表着新加坡四大民族平等，在新加坡人民眼中代表着许多美好的象征，蕴含了新加坡人民对国家的美好祝愿，将刚采摘下的制作成金银首饰，还……黄金百香果叶子特点黄金百香果的叶子大多是单片叶或双片叶，它的叶子上的纹路是红色的，黄金百香果会在每年11月结果，它的果实呈卵球形。黄金百香果属于热带水果，喜光，种植时最好将植株放置在通风且光照充……多肉喷水会变红多肉喷水会变红是因为这种喷洒式的浇水没有办法让多肉正常的吸收，只能渗透积压在多肉的叶面上形成的，让多肉叶片变红还可以，让它进行充分的光合作用，以及在低温下让它形成红色素，或者施……

<<<<<<－>>>>>>

怎样才算正常的异性交往昌黎先生集主要内容简介及赏析西宁人力物力森林资源消费市场将召开中小型团队系列微商代理怎么做新手卖家写一个好标题有多重要怎样经营好汽车店的人看了自己拍的就会绝望说不定就从此再也不敢拍了一看就想哭的文案短句心情低落的文案句子妙不可言花间词一词一句皆是最美欧洲历史上的骑士板甲到底有多重孩子为什么喜欢顺手牵羊老人退休后不能闲应做自己感兴趣的事人士三生。三生有幸学国画不存在中等收入陷阱名号造句用名号造句大全送王先生还金鳌分得水字学校哪些食物易引起中毒五官的争吵今日山西玉米价格行情，山东省玉米价格 Rushb什么意思（0闻了rush菊花还会痛吗）题满洲姚缜庵十六国宫词后二首孩子冬季咳嗽反反复复可能是呼吸道感染引起的两节妇诗

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找