半岛彩票未来4000亿美元规模的AI加速计算市场中,其中至少2000亿美元将专用于AI推理计算的场景。因此,AI推理对于大模型发展起到非常关键的作用。
随着生成式 AI 技术加速演进,算力需求急剧增长,将促使2.8万亿元 AI 加速芯片市场迎来一场新竞赛。
近日,芯片巨头英特尔(Intel)发布基于Intel 7(10nm)制程的全新第五代英特尔至强可扩展CPU(中央处理器)芯片Emerald Rapids,平均性能比上代提升21%,可微调最高200亿参数 AI 大模型,主要用于云数据中心和 AI 推理等场景。
除了英特尔,近期英伟达、AMD也在发布了多款数据中心GPU(图形处理器)、CPU产品,以应对新一轮 AI 热潮下算力暴增需求。其中,英伟达于11月发布H200 GPU芯片,大模型推理速度比H100提高近2倍;AMD则发布Instinct MI300X AI芯片,称MI300X在多项测试中均优于英伟达H100,运行8卡时AI性能提升60%。
然而近期,英伟达团队炮轰AMD,称其没有用开源TensorRT-LLM大模型优化软件,如果用的线%;对此,AMD“回怼”称,即便用了英伟达软件,MI300X也比H100快30%;英特尔CEO基辛格(Pat Gelsinger)也公开称,英伟达CUDA软件护城河“太浅”,其在AI领域的成功纯属偶然、非常幸运。
如今,面对 AI 加速计算的巨大需求,美国芯片巨头们正悄然展开着一场争夺大战。
英特尔数据中心与人工智能集团兼副总裁兼中国区总经理陈葆立对钛媒体App等表示,“AI 芯片用于大模型推理还处于早期阶段,在当前一些加速芯片非常短缺的情况下,我们给了很多用户另外一个选择。我们非常看好数据中心市场的蓬勃发展。2023年一些智算算力的需求是远远大于供给的,这个情况会延续到明年。”
据统计,预计到2027年,基于 AI 需求带动,全球数据中心加速芯片市场规模将达到2.8万亿元。
过去一年,以ChatGPT为代表的生成式 AI 技术,推动了 AI 相关算力需求将不断增长,并且可能成为 AI 芯片未来几年内非常重要的需求赛道。
据艾瑞咨询报告显示,2023年,AI 大模型相关行业需求占中国智能算力总需求的58.8%,接近60%,是智能算力的最大需求方。阿里、腾讯、百度等中国科技巨头对GPU芯片需求强烈,英伟达也因此成为中国 AI 大模型领域关键“军火商”。
另据世界半导体贸易统计协会(WSTS)预估,2024年,受益于 AI 芯片需求持续增长,全球半导体市场规模预计将达到5883.6亿美元(接近6000亿美元,约合4.16万亿元),同比增长13.1%。
阿里云创始人王坚曾预测,未来云计算的算力都将会被这些在智能时代的电动机、所谓的大模型给消耗掉。
数据显示,2023年,全球 AI 加速计算市场规模将达450亿美元。预计到2027年,全球数据中心AI加速芯片市场规模将达到4000亿美元(约合人民币2.8万亿元),五年的年复合增长率(CAGR)高达70%。
具体到案例中,生成式 AI 对算力的具体需求主要体现在搜索、办公、计算机和游戏等核心场景中。
然而,在智能算力中心(服务器)环境下,AIGC不止需要GPU进行训练,尤其随着Llama 2这种超大参数规模的开源模型广泛使用,未来大模型不一定需要重复性数据训练。因此,大模型更大的算力工作负载或与 AI 推理计算有关,所以无论是CPU,还是GPU、APU、IPU加速卡,都将会发挥更大作用。
字节跳动旗下的火山引擎IAAS产品负责人李越渊向钛媒体App介绍,“从CPU角度来说,在AI模型训练前,需要快速处理“脏数据”,变成为模型所用的高效数据,这就要求高计算能力加持。同时,模型训练涉及多种数据类型和多模态能力,那么对CPU的能力、内存和带宽提出了高要求。另外,随着模型增大,芯片间的互联互通能力也变得关键。”
据AMD首席执行官苏姿丰(Lisa Su)预估,未来价值4000亿美元规模的AI加速计算市场中,其中超过一半的份额,即至少2000亿美元将被专门用于 AI 推理计算场景的应用。这凸显了AI 推理在整个AI加速计算市场中的重要地位,以及 AI 推理计算在大模型发展中的关键作用。
12月14日,英特尔发布了第五代至强可扩展处理器系列,在性能和能效方面都有重要提升,重点强调在AI大模型推理方面的性能表现,内置英特尔AMX(加速器),无需添加独立加速器即可为AI加速,包括对参数量多达200亿的模型进行推理和调优,并将其模型推理性能提高42%。
英特尔表示,与上一代至强产品相比,在相同的热设计功率范围内,全新第五代英特尔至强处理器平均性能提升21%,并在一系列工作负载中将每瓦性能提升高达36%。对于遵循典型的五年更新周期的客户来说,总体成本最多可降低77%。IBM表示,相比此前测试数据,第五代至强处理器在其watsonx.data平台上的网络查询吞吐量提高2.7倍。
陈葆立对钛媒体App表示,“近一、两年,英特尔一直在以稳健的执行力推动产品路线图发展,并按四年五个节点的节奏如期推进。至强更新速度越来越快,其实也是响应了客户对于算力需求。”
陈葆立指出,英特尔与中国企业合作非常紧密。例如,美团采用英特尔第四代至强可扩展处理器支持目标识别、计算机视觉等 AI 推理工作负载;京东云则利用第五代至强处理器,使整机性能比上一代提升123%,Llama 2模型推理性能提升151%。
据悉,英特尔即将首次采用了“双核并进”的路线图设计,明年将推出基于Intel 3(3nm)制程的性能核和能效核处理器,对应着下一代至强Granite Rapids和全新能效核至强处理器Sierra Forest,以满足不同数据中心需求。
阿里云服务器研发事业部高级总监王伟表示,由于大模型是显存带宽密集型和显存容量密集型的,因此基于第五代至强可扩展处理器,增加了内存带宽,在某种意义上来讲,是有利于未来通过CPU来做生成式AI推理应用的。“目前,我们发现CPU可以轻松运行各种生成式 AI 模型,如Stable Diffusion、通义千问7B/14B/72B等,均可以在阿里云第八代ECS实例上进行推理运行。”
在陈葆立看来,AI 已经是当今生活不可或缺的一部分,AI 无处不在,因此对于英特尔的 AI 芯片和解决方案需求在不断增加,而非只有GPU才能做到。
“很多企业目前采用最新的至强处理器已经可以处理许多工作。当然,一些想要训练模型的公司需要加速卡,不管是来自英特尔还是友商,这确实是用户需求,但我并不认为所有公司都有这个需要,这超过了目前市场的实际需求。”陈葆立表示,“我们非常看好数据中心市场的蓬勃发展。因为不管是CPU、GPU还是IPU,过去几年每年都有不同火的点,但数据中心整体算力需求始终在增加,需要去解决不同的问题。”
陈葆立对钛媒体App表示,他相信2024年,可能将会有更多 AI 大模型或AIGC应用落地,会有更多应用于创新,也会反哺到企业端。
“英特尔的策略是,凭借全栈的产品和解决方案,我们可以给客户在不同的场景,不同的需求下,提供不同的解决方案,包括端、云、边缘侧等。”陈葆立强调,长远来看,未来更多 AI 应用或将采用CPU芯片进行推理计算。
AI 大模型引发算力需求增长,同时也带来更大的竞争,尤其是英特尔这些芯片巨头的竞争对手、客户、下游供应商等企业都在自研服务器芯片。
12月7日,谷歌发布迄今为止功能最强大、最通用的多模态 AI 大模型Gemini 1.0(中文称“双子座”)系列。在30项性能基准测试中,超大杯Gemini Ultra超越了目前最强模型GPT-4,甚至在MMLU测试上得分高达90.0%,成为第一个超越人类专家水平的 AI 模型。
但谷歌表示,Gemini 1.0 并非用英伟达A100或者是AMD等产品进行训练,而是用自研设计的TPUs v4 和 v5e芯片上进行大规模 AI 训练推理的,称因此Gemini的运行速度明显快于早期规模更小、性能更弱的模型。
更早之前,微软也公布用于数据中心的两款自研芯片,一是专门用于云端训练和推理的AI芯片(ASIC)Microsoft Azure Maia 100;二是微软自研的首款CPU(中央处理器)Microsoft Azure Cobalt 100。
此外,亚马逊、阿里、腾讯、字节跳动等多家国内外科技公司都开始自研芯片,用于自家的数据中心或云计算服务当中。而加上目前芯片限制的影响,中国市场的竞争就更加复杂。
谈及市场竞争,陈葆立向钛媒体App坦言,英特尔非常欢迎有很多的竞争对手来参与到整个市场中,同时英特尔对于市场竞争力非常有信心。
“首先,国内对于算力的政策支持,如算力网络和‘东数西算’等,显示出算力领域受到重视,这是个积极的信号;其次,全球AI技术的迅猛发展带来了新的机遇,AI 的爆发推动了对新算法、新算力和新硬件的需求增长。回归本质,英特尔非常欢迎有很多的竞争对手来参与到整个市场中,这说明市场好。但同时,我们对自身还是有信心的。
英特尔在这个环境中持续推进,首先是在先进制程技术方面的领导地位,例如正在推进的Intel 4和Intel 3制程。同时,英特尔的封装技术,如EMIB(嵌入式多芯片互连桥接),也在市场中占据了重要位置。此外,英特尔还开放工厂合作。因此,我们有信心能够在这里做出最好的产品。
最重要的是,英特尔强调以客户为中心,通过与客户如阿里、字节的紧密沟通,早期沟通、识别并修正产品问题,确保满足客户的最终需求。我们也希望,我们承诺做出来的东西能够满足客户最终的需求,以客户为优先拥抱市场这个理念,也是我们多年来的优势。综合以上,我们(对于市场竞争)还是很有信心的。”陈葆立表示。
在他看来,AI 算力需求不是只有一、两家是“赢家”,而是整个 AI 芯片、计算相关产业都会因为这场 AI 浪场而受益。竞争远未结束。
有行业人士日前向钛媒体App表示,目前整个 AI 大模型训练推理算力的挑战在于软件生态,无论是CUDA软件,还是NVLink多卡互联,均是2023年英伟达获得巨大成功的关键要素。因此,如何让英特尔、AMD和更多厂商,在短期内形成CUDA或是英伟达 AI 生态,才是最为关键的因素。
作为老牌芯片巨头,英特尔花了很长的时间做了OpenVINO、OneAPI等软件栈产品,以及逐步将异构计算、3D封装等多个技术进行快速落地应用,未来 AI 场景过程中,单独的GPU无法做主导,而是需要CPU、GPU、NPU(神经网络处理器)等技术相融合。
“在数据中心端,其实做生态做得最成熟的也只有英特尔。虽然说在 AI、GPU这里我们才刚开展,但对于整个生态、开源社区的合作,多年来应该没有其他公司比我们做得更多的。所以,英特尔将持续与开发者社区合作,让更多人参与进来。这也是我们明年会投入的一个方向。”陈葆立表示,“芯片需要一个长期的研发流程,我们会非常认真听从客户反馈并进行改进,也会针对合作伙伴提供一些定制产品,提供更好的服务,以满足客户需求。”
陈葆立强调,下一步,英特尔将持续推进 AI 技术和数据中心领域的创新,并计划2024年重点加强与开发者的互动,以进一步助力大模型技术的应用与产业化落地,促进中国 AI 产业不断发展壮大。