“天(tiān)下武(wǔ)功,唯快不破”,你需要以“快”制胜。
如(rú)今,全(quán)球顶级公司的研究人(rén)员(yuán)和数据科学家(jiā)团队(duì)们都(dōu)在致力于创建更为复杂的AI模型(xíng)。但是,AI模型的创建工作不(bú)仅(jǐn)仅是设计模(mó)型,还需(xū)要(yào)对模型进(jìn)行快速地训练(liàn)。
这就是(shì)为什么说,如果想在AI领域(yù)保持领导(dǎo)力,就首先需要(yào)有赖于AI基础(chǔ)设(shè)施的领导(dǎo)力。而这也正解释了为(wéi)什么MLPerf AI训练结果如此(cǐ)之重(chóng)要。
通过完成全部6项MLPerf基准测试(shì),NVIDIA展现出了全球一流的性能表现和多功能性。NVIDIA AI平台在训练性(xìng)能(néng)方面创下了八项记录(lù),其中包(bāo)括三项大规模整体性能纪录和五项基于每(měi)个加速器的性能纪录(lù)。
表1:NVIDIA MLPerf AI纪录
每个加速器的(de)比(bǐ)较(jiào)基于早前报告的基于单一(yī)NVIDIA DGX-2H(16个 V100 GPU)、与其他同规模相比较的(de)MLPerf 0.6的性能(除MiniGo采用的(de)是(shì)基于8个V100 GPU的(de)NVIDIA DGX-1 ) |最大规模(mó)MLPerf ID:Mask R-CNN:0.6-23,GNMT:0.6-26,MiniGo:0.6-11 |每加速器(qì)MLPerf ID:Mask R-CNN,SSD,GNMT,Transformer:全部(bù)使用0.6-20,MiniGo:0.6-10
以上测试结果数(shù)据由谷歌(gē)、英特尔、百度、NVIDIA、以及创建MLPerf AI基(jī)准测试的其他数十家顶级技(jì)术公司和大学提供背书,能够(gòu)转化为具有重要意义的创新。
简而言(yán)之,NVIDIA的AI平台如(rú)今能够在不到两分钟的时(shí)间内完成此前需要一(yī)个工(gōng)作(zuò)日(rì)才(cái)能完成的模型(xíng)训练。
各公司都知道,释放生产力是一件重中之(zhī)重的(de)要务(wù)。超级计算(suàn)机如(rú)今已经成为了AI的(de)必备工具,树立AI领域的领导(dǎo)力首(shǒu)先需要强(qiáng)大的AI计算(suàn)基础设施支持。
NVIDIA最新的MLPerf结果(guǒ)很好地(dì)展示了将NVIDIA V100 Tensor核心GPU应(yīng)用于超算级基础设施(shī)中所能(néng)带(dài)来(lái)的益处(chù)。
在2017年春季的时候(hòu),使用搭载了V100 GPU的NVIDIA DGX-1系统训练图像识别模型ResNet-50,需(xū)要花(huā)费整整一个工(gōng)作日(8小时)的时间。
而(ér)如今(jīn),同样的(de)任务,NVIDIA DGX SuperPOD使用相同的V100 GPU,采用Mellanox InfiniBand进行互联,并借助可用(yòng)于分布式AI训练的最新NVIDIA优(yōu)化型AI软件,仅需80秒即(jí)可完成。
80秒的(de)时(shí)间(jiān),甚至都(dōu)不够用(yòng)来冲一杯(bēi)咖啡。
图(tú)1:AI时间机器
2019年MLPerf ID(按(àn)图表从上到下(xià)的(de)顺序(xù)):ResNet-50:0.6-30 | Transformer:0.6-28 | GNMT:0.6-14 | SSD:0.6-27 | MiniGo:0.6-11 | Mask R-CNN:0
AI的必备工具:DGX SuperPOD 能够更快速地(dì)完成(chéng)工作负载
仔细观察今日的(de)MLPerf结果,会发现(xiàn)NVIDIA DGX SuperPOD是唯一在所(suǒ)有六个MLPerf类别中耗时都少(shǎo)于20分钟的AI平(píng)台:
图2:DGX SuperPOD打破大规模AI纪录
大规模MLPerf 0.6性能(néng) | 大规(guī)模MLPerf ID:RN50 v1.5:0.6-30,0.6-6 | Transformer:0.6-28,0.6-6 | GNMT:0.6-26,0.6-5 | SSD:0.6-27,0.6-6 | MiniGo:0.6-11,0.6-7 | Mask R-CNN:0.6-23,0.6-3
更进一步观(guān)察会发(fā)现,针(zhēn)对重量级目标(biāo)检测和强化学习(xí),这些最困难的AI问题(tí),NVIDIA AI平(píng)台(tái)在总体训练时间方面脱颖而出。
使用Mask R-CNN深度神(shén)经网络的重量级目标检测可(kě)为用户提供高级实例分割(gē)。其用途包括将其与多个数据源(摄像头、传(chuán)感器(qì)、激光雷(léi)达、超声波等)相结合,以精确识别并定位特(tè)定目标。
这类AI工作负(fù)载有助于训练自动驾(jià)驶(shǐ)汽车,为其提供行(háng)人和(hé)其他目标的精确(què)位置。另外(wài),在(zài)医(yī)疗健(jiàn)康领域,它能够帮助(zhù)医生在医疗扫描中查找并识(shí)别肿瘤(liú)。其意义的重要性非同小可。
NVIDIA的“重量级目(mù)标(biāo)检测”用(yòng)时不到19分钟,性能几(jǐ)乎(hū)是第二名(míng)的两倍。
强化学习是(shì)另一有难度的类(lèi)别。这(zhè)种AI方(fāng)法(fǎ)能够用于训(xùn)练工厂车间机器(qì)人(rén),以简(jiǎn)化(huà)生产。城市也可以用这(zhè)种方式来控制(zhì)交(jiāo)通灯,以减(jiǎn)少拥堵。NVIDIA采用(yòng)NVIDIA DGX SuperPOD,在创纪录的(de)13.57分钟内完成(chéng)了对MiniGo AI强化训练模(mó)型(xíng)的(de)训练(liàn)。
咖啡还(hái)没好,任务已完(wán)成:即(jí)时AI基础(chǔ)设(shè)施提供全球领先性能
打破基准测试纪(jì)录(lù)不是目的,加速创新才是目标。这就是为什么NVIDIA构建的DGX SuperPOD不仅性能强大,而且易(yì)于部署。
DGX SuperPOD全面配置(zhì)了可通(tōng)过(guò)NGC容器(qì)注册表免费获取的优化型CUDA-X AI软件,可提供开箱即用的(de)全球领先AI性能。
在这个由130多万名(míng)CUDA开发者组成的生态系统中,NVIDIA与开发(fā)者们合作,致力于为所有AI框架(jià)和(hé)开发环境提供有力支(zhī)持。
我们已经助力优(yōu)化了数百万行代码,让我们的客户能够将其AI项目落地(dì),无论(lùn)您身在何处都(dōu)可以找到NVIDIA GPU,无论是在云端,还是在数据中心,亦或是(shì)边缘。
AI基础设施(shī)如今有够(gòu)快,未来会更快
更好的一点在于,这一平(píng)台的速(sù)度一直在提升。NVIDIA每月都(dōu)会(huì)发布(bù)CUDA-X AI软件的新优(yōu)化和性(xìng)能改进(jìn),集成型软件堆栈可在NGC容器(qì)注册表中(zhōng)免(miǎn)费下载,包括容器化的框架、预先(xiān)训练好(hǎo)的模(mó)型和(hé)脚本。
借助在CUDA-X AI软件(jiàn)堆栈上的创(chuàng)新(xīn),NVIDIA DGX-2H服务器的MLPerf 0.6吞(tūn)吐量比NVIDIA七个(gè)月前发布的结果提升了80%。
图(tú)3:基于同一服务器,性能提升高达80%
对单个历元上单一DGX-2H服务器的吞吐量进行比较(数据集单次通过(guò)神经网络)| MLPerf ID 0.5 / 0.6比较(jiào):ResNet-50 v1.5: 0.5-20/0.6-30 | Transformer: 0.5-21/0.6-20 | SSD: 0.5-21/0.6-20 | GNMT: 0.5-19/0.6-20 | Mask R-CNN: 0.5-21/0.6-20