半岛彩票一般的说,AI芯片被称为AI加速器或计算卡,即专门用于加速AI应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。而从广义范畴上讲,面向AI计算应用的芯片都可以称为AI芯片。
除了以GPU、FPGA、ASIC为代表的AI加速芯片(基于传统芯片架构,对某类特定算法或者场景进行AI计算加速),还有比较前沿性的研究,例如类脑芯片、可重构通用AI芯片等(但距离大规模商用还有较长距离)。以GPU、FPGA、ASIC为代表的AI芯片,是目前可大规模商用的技术路线,是AI芯片的主战场,本文以下主要讨论的就是这类AI芯片。
一种是延续传统计算架构,加速硬件计算能力,主要以 3 种类型的芯片为代表,即 GPU、 FPGA、 ASIC,但CPU依旧发挥着不可替代的作用;
另一种是颠覆经典的冯·诺依曼计算架构,采用类脑神经结构来提升计算能力,以IBM TrueNorth 芯片为代表。
训练,是指通过大数据训练出一个复杂的神经网络模型,即用大量标记过的数据来“训练”相应的系统,使之可以适应特定的功能。训练需要极高的计算性能,需要较高的精度,需要能处理海量的数据,需要有一定的通用性,以便完成各种各样的学习任务。此种为用于构建神经网络模型的训练芯片。
推理,是指利用训练好的模型,使用新数据推理出各种结论。即借助现有神经网络模型进行运算, 利用新的输入数据来一次性获得正确结论的过程。也有叫做预测或推断。此种为利用神经网络模型进行推理预测的推理芯片
推理芯片更注重综合指标, 单位能耗算力、时延、成本等都要考虑。 推理的完成目前也主要集中在云端,但随着越来越多厂商的努力,很多的应用将逐渐转移到终端。
云端,即数据中心,在深度学习的训练阶段需要极大的数据量和大运算量,单一处理器无法独立完成,因此训练环节只能在云端实现。
终端,即手机、安防摄像头、汽车、智能家居设备、各种IoT设备等执行边缘计算的智能设备。终端的数量庞大,而且需求差异较大。
云AI芯片的特点是性能强大、能够同时支持大量运算、并且能够灵活地支持图片、语音、视频等不同AI应用。基于云AI芯片的技术,能够让各种智能设备和云端服务器进行快速的连接,并且连接能够保持最大的稳定。
端AI芯片的特点是体积小、耗电少,而且性能不需要特别强大,通常只需要支持一两种AI能力。
优点:具有数以千计的计算核心可实现 10-100倍应用吞吐量,支持对深度学习至关重要的并行计算能力,比传统处理器更加快速 加快了训练过程,目前最普遍采用的深度学习运算单元之一。
1. 应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节,GPU在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理, 并行度的优势不能完全发挥
2. 硬件结构固定不具备可编程性。深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU无法灵活的配置硬件结构。
目前, GPU 已经发展到较为成熟的阶段。谷歌、 FACEBOOK、微软、 Twtter和百度等公司都在使用GPU 分析图片、视频和音频文件,以改进搜索和图像标签等应用功能。此外,很多汽车生产商也在使用GPU芯片发展无人驾驶。 不仅如此, GPU也被应用于VR/AR 相关的产业。
FPGA,即现场可编辑门阵列,是一种新型的可编程逻辑器件,由于其具有静态可重复编程和动态在系统重构的特性,使得硬件的功能可以像软件一样通过编程来修改。
可编程专用性,高性能,低功耗。北京大学与加州大学的一个关于FPGA 加速深度学习算法的合作研究。展示了 FPGA 与 CPU 在执行深度学习算法时的耗时对比。在运行一次迭代时,使用 CPU耗时 375 毫秒,而使用 FPGA 只耗时 21 毫秒,取得了 18 倍左右的加速比。
根据瑞士苏黎世联邦理工学院(ETHZurich)研究发现,基于FPGA的应用加速比CPU/GPU方案,单位功耗性能可提升25倍,而时延则缩短了50到75倍,与此同时还能实现出色的I/O集成。而微软的研究也表明,FPGA的单位功耗性能是 GPU 的 10倍以上,由多个 FPGA 组成的集群能达到 GPU 的图像处理能力并保持低功耗的特点。根据英特尔预计,到 2020年,将有 1/3 的云数据中心节点采用 FPGA 技术。
由于 FPGA 具备灵活快速的特点, 因此在众多领域都有替代ASIC 的趋势。 FPGA 在人工智能领域的应用如图所示。
DPU(Data Processing Unit)是以数据为中心构造的专用处理器,采用软件定义技术路线支撑基础设施层资源虚拟化,支持存储、安全、服务质量管理等基础设施层服务。
2020年NVIDIA公司发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”,掀起了一波行业热潮。DPU的出现是异构计算的一个阶段性标志。与GPU的发展类似,DPU是应用驱动的体系结构设计的又一典型案例;但与GPU不同的是,DPU面向的应用更加底层。
DPU要解决的核心问题是基础设施的“降本增效”,即将“CPU处理效率低下、GPU处理不了”的负载卸载到专用DPU,提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。
DPU工作原理(网络传输运算)与传统网卡工作原理对比(图源:头豹研究院)
融资:2021年7月,大禹智芯宣布完成数千万元Pre-A轮融资,由华义创投和奇绩创坛投资,本次融资金将用于 DPU 产品的研发、生产投入以及高端人才的引入。作为国内领先 DPU 创业公司,大禹智芯在成立之初就获得了天使轮融资,由中科创星和惟一资本联合投资。
团队:深圳云豹智能有限公司成立2020/8/28日,核心团队来自阿里巴巴、海思、Broadcom、Intel和Arm等,拥有中国*有经验的DPU芯片和软件设计团队;
云豹智能芯片和解决方案面向云计算服务商、新型互联网公司、5G运营商及大型企业,为解决云计算新技术需求,提供中国***款高性能云原生DPU SoC芯片和解决方案。
融资:云豹智能投资方包括红杉、腾讯、华业天成和耀途,深创投等,具体金额不详,目前应该处于天使轮融资,暂时无具体产品推出。
团队:珠海星云智联有限公司成立于2021/3/22日,星云智联在业界首屈一指的技术团队带领下,汇集来自硅谷、以色列、加拿大的计算通信领域芯片和软件顶级专家。星云智联这支过往成功的实现了多领域通信与网络芯片开发的团队,是目前国内唯一达到了全球领先水平,真正有能力开发出DPU及其生态系统的团队。具体的创始人,技术领军人物不详细。暂时无产品,也无流片。
融资:2021年4月,DPU芯片研发商星云智联宣布完成数亿元天使轮融资,融资高瓴,鼎晖和华登国际零头,2021年7月,PRE-A轮由老股东鼎晖VGC(鼎晖创新与成长基金)领投;现有投资方高瓴创投(GL Ventures)、华登国际继续追加投资;BAI资本、复星(旗下复星锐正资本、复星创富)、华金投资、金浦投资(旗下金浦科创基金)、嘉御基金、松禾资本、沃赋资本等多家投资机构跟投。目前看是天使轮融资。2021年8月30,A轮,美团战略投资部,数亿金额。
团队:益思芯科技(上海)有限公司 成立于2020/7/13日,技术团队由国内外网络、存储、系统领域的核心专业人员、研发人员组成,在网络、交换、存储及高性能CPU方面领域具有深厚的技术实力。
融资:8月25日消息,国内 DPU 芯片领军企业益思芯科技(上海)有限公司(以下简称“益思芯科技”)完成 Pre-A 轮融资。本轮融资由联想创投、栎芽资本(Oakseed Ventures)联合领投,励石创投、鼎心资本、东方富海、一旗力合强力跟投。
XPU的新架构具有灵活、高效、专用及支持丰富产品组合等特性。其中,高灵活性表现在可以根据计算密度的需求,动态来分布负载;高效率部分能够基于场景调度XPU,提高整体计算效率;高性能部分可以用新的架构提升性能,并且实现超低功耗。此外,也可以支持丰富的XPU产品组合。
XPU产品构建出的子系统可以完美地支持智能物联网、自动驾驶及新型数据中心等。智能物联网应用场景支持万物互联,基于多IP及专用总线的XPU子系统可以广泛应用在AIoT、VR/AR以及家庭、安防等多领域。XPU子系统还可以支持新型的自动驾驶。随着车载E2E架构的发展,计算趋势也进入了下一个里程碑,多域计算及中央计算的技术演进也进一步迭代。XPU的融合计算架构,即超域架构可以完美地满足新的计算架构的技术演进。通过构建车规级的CPU及XPU单元的协同,XPU能够更好地支持整个自动驾驶产业的技术演进。
ASIC(Application Specific Integrated Circuits,专用集成电路),是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。ASIC用于专门的任务,比如去除噪声的电路,播放视频的电路,但是 ASIC明显的短板是不可更改任务。但与通用集成电路相比,具有以下几个方面的优越性:体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低。
当然ASIC是能效最高的,但目前,都在早期阶段,算法变化各异。想搞一款通用的ASIC适配多种场景,还是有很多路需要走的。但从比特币挖矿机经历的从CPU、GPU、FPGA到最后 ASIC 的四个阶段来推论,ASIC将是人工智能发展的重要趋势之一。
深度学习算法稳定后, AI 芯片可采用ASIC设计方法进行全定制, 使性能、功耗和面积等指标面向深度学习算法做到最优。
TPU全称为Tensor Processing Unit,张量处理器就是谷歌专门为加速深层神经网络运算能力而研发的一款芯片,其实也是一款ASIC。
TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升,初代的TPU只能做推理,要依靠Google云来实时收集数据,并产生结果,而训练过程还需要额外的资源。
类脑芯片不采用经典的冯·诺依曼架构,而是基于神经形态架构设计,以IBM Truenorth为代表。 IBM 研究人员将存储单元作为突触、计算单元作为神经元、传输单元作为轴突搭建了神经芯片的原型。
目前, Truenorth用三星 28nm功耗工艺技术,由 54亿个晶体管组成的芯片构成的片上网络有4096个神经突触核心,实时作业功耗仅为70mW。由于神经突触要求权重可变且要有记忆功能, IBM采用与CMOS工艺兼容的相变非易失存储器(PCM)的技术实验性的实现了新型突触,加快了商业化进程。
类脑芯片之NPU:Neural network Processing Unit,即神经网络处理器。顾名思义,这家伙是想用电路模拟人类的神经元和突触结构啊。
神经网络中,存储和处理是一体化的,都是通过突触权重来体现。而冯·诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现,二者之间存在巨大的差异。
CPU是整个IT生态的定义者,无论是服务器端的x86还是移动端的ARM,都各自是构建了稳固的生态系统,不仅形成技术生态圈,还形成了闭合价值链。
GPU是执行规则计算的主力芯片,如图形渲染。经过NVIDIA对通用GPU(GPGPU)和CUDA编程框架的推广,GPU在数据并行的任务如图形图像、深度学习、矩阵运算等方面成为了主力算力引擎,并且成为了高性能计算最重要的辅助计算单元。2021年6月公布的Top500高性能计算机(超级计算机)的前10名中,有六台(第2、3、5、6、8、9名)都部署有NVIDIA的GPU。
这些基础层负载给“异构计算”提供了一个广阔的发展空间。将这些基础层负载从CPU上卸载下来,短期内可以“提质增效”,长远来看还为新的业务增长提供技术保障。DPU将有望成为承接这些负载的代表性芯片,与CPU和GPU优势互补,建立起一个更加高效的算力平台。可以预测,用于数据中心的DPU的量将达到和数据中心服务器等量的级别,每年千万级新增,算上存量的替代,估算五年总体的需求量将突破两亿颗,超过独立GPU卡的需求量。每台服务器可能没有GPU,但必须有DPU,好比每台服务器都必须配网卡一样。
本文为AI芯片第一篇总篇,只梳理分类及应用场景,后续有时间会择机针对FPGA/GPU/DPU三个分支做单独文章梳理跟踪。