人(rén)工智能浪潮(cháo)的推动下,AI相(xiàng)关产业的商用场景正逐步大规模落地,基于(yú)AI技术的三大支柱:“算法(fǎ)+大数据(jù)+计算能力(lì)”智能应用已成(chéng)为计算机最主要的负载之一。我国在用户数据方面拥有数量的先天优势(shì),但面对有限的(de)规模、结构固(gù)定、能耗(hào)受限的硬件制约下,如何用AI芯片处(chù)理海量的并不断演进的深度学习算法呢?跟(gēn)随OFweek编辑一起来看看各大科技巨头们(men)研发(fā)的AI芯片(piàn)吧。(排名按(àn)首(shǒu)字母顺序排列)
1.含光800
2019年的杭州云栖(qī)大会(huì)上,达摩(mó)院院长张建锋现场展示了这款全球最(zuì)强的 AI芯片——含光(guāng)800。在业界标准(zhǔn)的 ResNet-50 测(cè)试中,含光 800 推理性能达到(dào) 78563 IPS,比目前业界最好的 AI 芯片性能高 4 倍;能效比500 IPS/W,一个含光800的算力相(xiàng)当于10个GPU。
目前,含光800已经实现了大规模应用于阿(ā)里(lǐ)巴巴集团内多个场景(jǐng),例如视频图像识别/分类/搜索、城(chéng)市大(dà)脑(nǎo)等,未来(lái)还可应用于医疗(liáo)影像、自动驾(jià)驶等领(lǐng)域(yù)。以杭州城市大脑(nǎo)实时处理1000路视频(pín)为例(lì),过去使(shǐ)用GPU需要40块(kuài),延时为300ms,单路视频功耗2.8W;使用含(hán)光800仅需(xū)4块,延(yán)时(shí)150ms,单(dān)路视频功耗1W。
2.Graphcore IPU
总部位于英(yīng)国布里斯托的Graphcore公司(sī)日前(qián)推出了(le)一款称为智能处理单元(IPU)的新型AI加速处理器。芯片(piàn)本(běn)身,即(jí)IPU处理器(qì),是迄今为止(zhǐ)最复杂的(de)处理器(qì)芯(xīn)片:它(tā)在一(yī)个16纳米芯片上(shàng)有(yǒu)几乎240亿个晶体管,每个芯片(piàn)提供(gòng)125 teraFLOPS运(yùn)算能力。一个(gè)标(biāo)准4U机箱中可(kě)插入8张(zhāng)卡,卡间通过IPU链路互连(lián)。8张卡中的IPU可以作为一个处(chù)理器元件工作,提供两个(gè)petaFLOPS的运算能力。与芯(xīn)片在CPU和GPU中的存(cún)在形式不同,它为机器智能提供了更高(gāo)效的(de)处理平(píng)台。
Graphcore公(gōng)司于2016年(nián)启动风险投(tóu)资计划,并(bìng)在2018年12月的最后一(yī)轮融资中募集了2亿美元。基于其(qí)17亿美元的公司估值(zhí),Graphcore已成为(wéi)西方半导体界(jiè)的(de)唯(wéi)一“独(dú)角兽”。它的(de)投(tóu)资者们包括戴(dài)尔、博世、宝马、微软和三星(xīng)。
3.Inferentia芯片
2019年(nián),亚(yà)马逊的云(yún)服务业务(wù)AWS在其(qí)发(fā)布会AWS re:Invent上(shàng)带来了高性能机器学习加(jiā)速(sù)芯片Inferentia。据了解,AWS Inferentia 是一个由 AWS 定制设计的机器学习推理芯片,旨在以极低成本(běn)交付(fù)高(gāo)吞吐量、低延(yán)迟(chí)推理性能。该(gāi)芯片将支持 TensorFlow、Apache MXNet 和 PyTorch 深度学(xué)习框架以及使用 onNX 格(gé)式的模型。
每个 AWS Inferentia 芯(xīn)片都(dōu)能在低功(gōng)率下支持高达 128 TOPS(每秒(miǎo)数万亿次运行)的性能,从而为每个 EC2 实(shí)例启用多个芯片。AWS Inferentia 支持 FP16、BF16 和 INT8 数据类型。此外,Inferentia 可以采用 32 位(wèi)训练模型,并使用 BFloat16 以(yǐ) 16 位模型(xíng)的速度运行该模型。与(yǔ)EC4上(shàng)的常规Nvidia G4实例相比(bǐ),借助Inferentia,AWS可(kě)提供(gòng)更低的延迟和三倍的吞吐(tǔ)量,且每次推理成本降低40%。
4.昆仑(lún)芯片
2019年(nián)尾(wěi)声,百度宣布首款(kuǎn)AI芯片昆仑(lún)已(yǐ)经完成研发,将由三星代工生产。该芯片使(shǐ)用的是三(sān)星14nm工(gōng)艺技术,封装解决方案(àn)采用的是I-Cube TM。
据(jù)悉,昆仑AI芯片提供512Gbps的内存带宽,在150瓦(wǎ)的功率(lǜ)下实现(xiàn)260TOPS的处理(lǐ)能力,能支持(chí)语音,图像,NLP等不同的算法模型,其中ERNIE模型的性能(néng)是T4GPU的(de)三倍以上,兼容百度飞桨(jiǎng)等主流深度学习框架(jià)。该款(kuǎn)芯片主要(yào)用于(yú)云计算(suàn)和(hé)边缘计算,预计在(zài)2020年初实现量产(chǎn),
5.Nervana NNP 芯片(piàn)
2019 英特尔人(rén)工智能峰会,英特尔推出面(miàn)向训练 (NNP-T1000) 和面向推(tuī)理 (NNP-I1000) 的(de)英特(tè)尔 Nervana 神(shén)经网络(luò)处理器 (NNP)。据了解,Nervana NNP-T 代号(hào) Spring Crest,采用了台积电的 16nm FF+ 制程工艺,拥有 270 亿个(gè)晶体管,硅片面积 680 平方毫米(mǐ),能够支持 TensorFlow、PaddlePaddle、PYTORCH 训练框架,也支(zhī)持 C++ 深度学习软件库和编(biān)译器 nGraph。
Nervana NNP-I,代(dài)号为 Spring Hill,是一款专门用于大型数据中心的推理芯片。这款芯片是基于(yú) 10nm 技术和 Ice Lake 内核(hé)打造的,打造地(dì)点是(shì)以色列的 Haifa ,Intel 号(hào)称它能(néng)够利用最(zuì)小的能量来处理高(gāo)负载的工作,它(tā)在 ResNet50 的效率可(kě)达 4.8TOPs/W,功(gōng)率范围在 10W 到 50W 之(zhī)间。
6.Orin芯片
2019年NVIDIA GTC中国大会(huì)中英伟(wěi)达发布了全新的软件定义自动驾驶平台——NVIDIA DRIVE AGX Orin,该平台内置全新Orin系统(tǒng)级芯片,由(yóu)170亿个晶(jīng)体(tǐ)管组(zǔ)成。
Orin系(xì)统级芯片集(jí)成了NVIDIA新一代(dài)GPU架(jià)构和Arm Hercules CPU内核以及全新(xīn)深度学(xué)习和计算机视(shì)觉(jiào)加速器,每秒可运行200万亿(yì)次计算,几乎是NVIDIA上一代Xavier系统级芯片性能的7倍。此外,Orin可(kě)处理(lǐ)在自动驾驶汽车和机(jī)器人中(zhōng)同时运行的大(dà)量应用和深度神经网络,并且达(dá)到了ISO 26262 ASIL-D等系统(tǒng)安全标(biāo)准。
7.邃思DTU
由(yóu)腾(téng)讯(xùn)领投、融资累计(jì)超过 6 亿元(yuán)的 AI 芯片(piàn)公司(sī)燧原(yuán)科技,在2019年发布会中推(tuī)出自主研发(fā)的首(shǒu)款(kuǎn) AI 训练芯片“邃思(sī) DTU”。
据了解邃思(sī)DTU采用格(gé)罗方德(dé)12nm FinFET工艺,480平方毫米主芯片上承载141亿(yì)个晶体管,实(shí)现2.5D高级立体封装(zhuāng),据称(chēng)单(dān)卡单精度算力为(wéi)业界第一,达20TFLOPS,首次支持混合精度,半精度及混合精(jīng)度下算力达80TFLOPS,最(zuì)大功耗仅(jǐn)225W。
邃(suì)思芯片基于可重构芯片的设计理念,其计算核心包含 32 个通用可扩(kuò)展神经元处理器(SIP),每 8 个(gè) SIP 组(zǔ)合成 4 个可(kě)扩展智能计(jì)算群(SIC)。SIC 之间通过 HBM 实现高速互(hù)联(lián),通过片上调度算法,数据在迁移中(zhōng)完成计算,实现了 SIP 利用率最(zuì)大化。
8.思元220芯片
寒武纪在第21届(jiè)高交会正式发布边缘AI系列产品思元220(MLU220)芯片及(jí)M.2加(jiā)速卡产(chǎn)品,标志寒武纪(jì)在云、边、端(duān)实现了全(quán)方位、立体(tǐ)式的覆盖(gài)。
思元(yuán)220芯片采用了寒(hán)武纪在处理器架构领域的一系列(liè)创新性技术,其架(jià)构为寒(hán)武纪(jì)最新一代智(zhì)能处理器MLUv02,实现最大32TOPS(INT4)算力,而功(gōng)耗(hào)仅(jǐn)10W,可(kě)提供16/8/4位(wèi)可配置的定(dìng)点(diǎn)运算(suàn)。作为通用处理器,支持各类深度学习(xí)技术,支持多模态智能处理(lǐ)(视(shì)觉、语音和自然语言处理),应用领域广泛(fàn),客户可以根据(jù)实际应(yīng)用灵活(huó)的选择运算类型来获(huò)得(dé)卓越的人工智能推(tuī)理性能。
9.昇腾910
2019年8月(yuè),华(huá)为在深圳总部发布AI处理(lǐ)器Ascend 910(昇腾910),据华(huá)为发布的参数显示,昇腾910是一款(kuǎn)具有超高算力的(de)AI处(chù)理器,其最大功耗为310W,华为自研的(de)达芬(fēn)奇架构大大提升了其能效比。八位整数精度(INT8)下的性(xìng)能达到512TOPS,16位浮(fú)点数(FP16)下的性能达到256 TFLOPS。
作为一款高集成度的(de)片上系统(SoC),除了基于(yú)达芬奇架构的AI核外,昇腾910还集成了(le)多个CPU、DVPP和(hé)任务调度器(Task Scheduler),因而具有自我管(guǎn)理能力,可(kě)以充分发挥其(qí)高(gāo)算力的优势。
昇腾910集(jí)成(chéng)了HCCS、PCIe 4.0和RoCE v2接口,为构建横向扩展(Scale Out)和(hé)纵向(xiàng)扩展(Scale Up)系统提供了灵活高效的方(fāng)法(fǎ)。HCCS是华为自(zì)研的高速互联接口,片内RoCE可用于节点间直(zhí)接互联。最新的PCIe 4.0的吞吐量(liàng)比上一代提(tí)升一倍。
10.征(zhēng)程二代
2019世界人工智(zhì)能大会(huì)中,人工智能芯片初创公司(sī)地平线正式(shì)宣布量产(chǎn)中国首款车规级人工智能芯片——征程二代,并且获得(dé)五个国家市场客户的前装定点项目。
据介(jiè)绍,征程二代于(yú)今年初流片成功,搭载地(dì)平线自主创新研发的高性能(néng)计算(suàn)架构BPU2.0(Brain Processing Unit),可(kě)提供超过4TOPS的(de)等效算(suàn)力,典型功耗仅2瓦,满足AEC-Q100标准,算力利用率超(chāo)过90%,每TOPS算力可以处理的帧(zhēn)数可达同(tóng)等算力GPU的10倍以上,识(shí)别精度(dù)超过99%,延迟少于100毫秒,多任务模式下可(kě)以同时跑超过(guò)60个分类任务,每秒(miǎo)钟识(shí)别目(mù)标数可(kě)以超过2000个。
此次地平线率先推出首款车规级AI芯片不(bú)仅实(shí)现了中国车(chē)规(guī)级AI芯片量产零的突破,也补齐了国(guó)内自(zì)动驾驶(shǐ)产业生态建设的关(guān)键环节。
小结
目(mù)前通过CPU/GPU处理人工(gōng)神(shén)经网络(luò)效率低下,谷歌大脑(nǎo)需(xū)要1.6万(wàn)个CPU核跑数天(tiān)方能完成猫脸识(shí)别训练;AIpha GO与李世石下(xià)棋时用了1000个CPU和200个GPU,AI芯片的发展是第(dì)三次(cì)AI浪潮(cháo)中(zhōng)极为明(míng)显(xiǎn)的趋势,算法已渗透(tòu)到云服务(wù)器和智能手机的(de)方方面面,未来每台计算机可能都需(xū)要一个专门的(de)深度(dù)学习处理器。