半岛彩票深度学习的黄金十年,终于产生了黄金般昂贵的芯片。用于AI加速的最新版本GPU 芯片H200,售价每块可高达40000美元,而刚创新高的黄金价格为每盎司2000美元。
2012年,两张英伟达GPU训练出来的AlexNet,超过了相当于上千个CUP核训练出来的AI系统,在AI视觉竞赛中取得压倒性胜利,能对上千万张图片准确进行上千种分类。从那以后,GPU成为研究和训练复杂神经网络的首选硬件,英伟达在十年内实现了上千倍的算力提升,黄仁勋称之为“黄氏定律”,开启了深度学习和GPU互相成就的辉煌历程。
大模型以每年10倍的速度扩大参数规模,对算力的需求每两个月翻一倍;GPU算力每年翻倍;摩尔定律以每18个月翻倍的速度已经放缓;内存增长的速度更慢。服务器和数据中心的扩张已经追不上神经网络的加速野心。算力卡住了第四次工业革命的脖子。
在Transformer架构中,每预测一个单词,就要在上万亿个词元(token)和上千亿个参数中通过概率计算筛选出最合适、最对齐人类的那个字,这需要在存储和计算之间每秒钟调用10^12字节的数据量。
在内存和计算之间高速移动TB (10^12)级别的数据量,需要TB/秒的数据传输带宽,这远远超出了目前的内存能力,被称为“内存墙”。如果处理器没有及时接收到数据,它就会处于空闲状态,影响其效率。有研究发现,GPT-4在最先进的芯片上运行的效率可跌至3%或更低。一个名义性能为petaops (10^15次运算)的生成式AI加速器,实际上只能提供区区30TOPS的性能。设计这些处理器非常昂贵,用来运行这些算法,却基本上有97%的时间处于闲置状态。
为了弥补数据中心处理模型训练和推理的低效率,云服务提供商增加了更多的硬件来执行相同的任务。这种方法导致成本急剧上升,电力消耗也成倍增加。
大模型经济,在过去的亢奋的一年中,基本上就是在这么昂贵而又短缺的算力基础上开始建立起来。研究测算证明,最先进的GPT-4,平均查询一次的成本,数倍于在谷歌上进行一次查询的成本。谷歌每年为全球用户提供了数万亿次的免费查询,成本数十亿美元,也成功建立起了广告模式。难怪谷歌在自己的业务中大规模推广生成式AI查询是那么慎重;而微软和OpenAI,都试图在其Copilot产品和GPT-4中建立订阅付费和API服务模式。
这样的结果,就是让英伟达这家30年前创办的企业,从一个做游戏显卡的公司,被历史性和技术性地选择为一个大模型训练和推理芯片的垄断者。因为其GPU的并行计算、张量计算、存储、Nvlink等的集成,以及其CUDA软件形成的生态,不仅在算力上遥遥领先,而且在生态上无处不在。AI公司只有足够的数量的GUP卡,才能吸引顶级的AI科学家。在过去的一年,公司市值增长了3倍 ,成为一家市值过万亿的最大的半导体公司,也跻身于科技巨头之列。
生成式AI对于科技巨头的未来如此重要而又如此昂贵,在2024年会带来一系列效应。
推理的需求将有更大的发展空间,而且用户对推理的价格更加敏感,所以专门用于推理的芯片对于科技巨头更重要。Omdia预计,专用的ASICs(应用特定集成电路)和ASSPs(应用特定标准产品)将成为GPU的重要竞争者。区分训练与推理,是AI加速芯片发展的一个重要趋势。
科技巨头加快推出主要用于推理的自研芯片。科技巨头公司,一定会从英伟达那里抢购最新一代的GPU,也开始从英特尔和AMD预订新推出的AI芯片。但在推理层面,这些拥有云计算基础设施的巨头,会逐步转向自主研发AI加速芯片。这是因为,一旦部署了训练好的模型,支持业务运营的推理成本将会更大。科技巨头首先要考虑的是降低推理成本,并且结合算法,为用户推出差异化的产品与服务。
英伟达会在2024年开始交付H200和研发B100。2024年初,英特尔会推出Gaudi3,AMD会推出MI300,其性能都相当于H100或更强。
而谷歌的TPU,亚马逊的Trainum和Inferentia,微软的Maia和Colbat,Meta的MTIA,以及华为的昇腾,都将有助于这些巨头构建一个日益完善的技术栈,一体化地推动业务整体向AI战略转型。AI加速器需要与算法共同开发。
在服务器上和数据中心,GPU相对于CPU的主导作用越来越强。芯片架构从异构转向超异构。CPU,GPU,NPU,以及匹配用户需求的各种算法的芯片,越来越多地集成到单个芯片中(SOC),或者形成相互协处理的系统。这样,那些为了给用户提供更好的产品和服务体验的科技公司,纷纷进入芯片设计领域,以控制产品的成本、实现产品的差异化。这也给AI加速器中多计算元素协同和负载的优化带来难度,对于芯片的架构和封装技术带来挑战,也带来创新的机会。
更加复杂的架构,对于不同计算素之间的数据传输提出了很高的要求,加上存储墙的存在,片上网络(NOC)对人工智能加速起到决定性的作用。
芯片设计公司主要是设计出更强大的通用算力芯片,但也需要与大型的云计算厂商深度结合。英伟达自己也提供模型训练服务(training as a service ),它与亚马逊合作,在AWS那里托管。
尽管黄氏定律还跟不上大模型的规模法则,这种从PC时代沿袭下来的软硬件互相加速的节奏,如英特尔CPU与Windows操作系统的互相借力,正在AI时代延续,只是这次换成了英伟达的GPU和OpenAI——大模型正在成为新的操作系统。
生成式AI,把芯片战提升到了一个新的高度。这不仅是科技巨头之间的竞争,世界上最先进的大模型之间的竞争,芯片企业之间的竞争,而且也是国家之间的竞争。
通用人工智能的前景,不仅仅是“白领工业革命”,还包括自动驾驶、机器人、元宇宙、科学智能、应对气候变化、大国竞争等等。超级智能要求的,可能是超级算力。除了用冯-诺依曼架构设计更先进制程的芯片之外,如1纳米的芯片,量子计算机在提上日程,如最近IBM推出的上千个超导量子比特的芯片,为2033年推出超级计算机带来了希望。
在过去的一年,美国升级了对中国的芯片管制,小院高墙扩大了地缘遏制的范围,长臂之手伸向了盟国和友岸。焦点中的公司是英伟达。2022年10月7日的禁令后,它生产出了绕过禁令的A800与H800。2023年10月禁令后,它还要再次绕过禁令,将于2024年一季度为中国量产H20、L20和L2 ,据分析其性能相当于H100。英伟达正在与美国商务部合作,确保向中国出口的芯片符合美国出口禁令。
英伟达令人惊掉下巴的业绩中,有15%来自弹丸之地新加坡。一些中国的科技巨头,如字节、阿里、百度等在这里投资,在新加坡依然能使用英伟达先进的GPU所提供的云服务。中东的沙特阿拉伯、阿联酋也加强与中国在人工智能领域的合作,引起了美国的警觉,最近还迫使沙特退出了OpenAI CEO奥特曼参与投资的半导体公司的投资。美国对中国半导体出口控制,商务部的BIS每年十月将会审核。2024年,中美芯片战是否向变本加厉的方向演变,仍然值得关注。
台积电创始人张忠谋认为,中美芯片战,阻挠了创新的速度。但是,在通用人工智能的愿景中,硅谷喊出了加速主义的口号;而中国这里,自主创新的力度反而在加强,尽管从全球化市场来看有一些被迫重新发明轮子的资源浪费。
中国在2023年开始出现突破点,主要是7纳米制程。通过用于14米制程的深紫外光(DUV)技术的两次曝光,华为代工方实现了麒麟9000s芯片的7纳米制程。据浸润技术之父林本坚认为,曝光4次,5纳米也可以做出来,但是良率较低,成本较高。另外,华为通过魔改ARMv8.2,形成了自己的架构。华为用于数据中心的升昇腾AI芯片达到了A100至H100之间的性能。华为已经站到了一个新起点,2024年值得期待。
Gartner预计2024年,全球半导体收入将增长17%,其中内存市场将强劲反弹,增长达66.3%。而世界半导体行业统计(WSTS) 预计, 2024 年将出现强劲反弹,预计增长 13.1% ,这一轮增长主要由存储器推动。