半岛彩票马斯克表示“salute”,贾跃亭觉得“是个大错误”,李想认为“完全正确”,雷军则深表“震惊”。
不过,就在大家都在为苹果砍掉造车项目感到震惊时,或许更应该被关注的是后者。
作为拥有万亿市值的全球科技巨头,苹果一直都不是新技术的创造者,但却往往能成为新规则的制定者,这就是过往这半个世纪苹果展现出的魔力。
实际上,在经历了这几年的狂热后,生成式AI正在撬动整个科技产业的底层逻辑,例如芯片。
于是,在谷歌主导了TPU项目研发的Jonathon Ross,于2016年从谷歌离职创业,开始专心做这样一颗AI芯片。
从这一点上来看,作为中国搜索领域绝对霸主的百度,也或多或少借鉴了谷歌的发展经验,不仅在2017年的首届AI开发者大会上喊出“All in AI”,还从AI芯片、AI算法、AI硬件,一路干到了大模型。
近几年,百度还将一手培养起来的NLP专家王海峰,提拔到了百度CTO的位置上。
在此之前,谷歌虽然奉行的是“Mobile First”战略,但由于搜索、云计算,以及一些创新业务对AI的迫切需求,谷歌一直在向AI领域追加投入。
甚至在2014年砸了6亿美元,收购了一家名为DeepMind的英国人工智能创业团队。
值得注意的是,这个团队在2010年成立时,创始人Demis Hassabis提出的终极目标,就是要做通用人工智能(AGI)。
而谷歌动为人工智能,或者说当时很时髦的机器学习算法研发一颗芯片的想法其实要更早,可以追溯到2006年。
起因依然是谷歌核心业务对AI算法的强需求,当然还有另一个重要原因是,云计算技术这一年在谷歌内部业务上开始被使用。
而究其根源,实际上是谷歌大量互联网业务对“日益增长的服务器算力资源需求”与“服务器算力资源无法满足谷歌业务需求”之间的矛盾。
好的算法谷歌自然不缺,毕竟有那么多优秀的软件工程师,然而,要想解决上面这一问题,最好的方法还是软硬一体,也就是苹果那套玩法。
谷歌是在2014年完成这颗芯片研发的,并为这颗基于ASIC架构开发的AI加速专用处理器取了一个还不错的名字——TPU(Tensor Processing Unit),张量处理器。
这颗芯片在研发成功后,直接被应用到了谷歌的数据中心中,用上TPU的谷歌数据中心被Sundar Pichai称为“AI First数据中心”。
以前文提到被谷歌收购的DeepMind研发出曾轰动一时的AlphaGo为例:
2016年3月,AlphaGo击败世界围棋冠军李世石,当时背后支撑AlphaGo的算力则是由50块TPU提供;
2017年5月,AlphaGo击败世界围棋冠军柯洁,当时背后支撑AlphaGo的算力已经是由4块TPU提供。
不过,就在谷歌TPU研发完成后,Jonathon Ross也从谷歌离职开始创业,并在投资人的帮助下,将谷歌TPU初创团队10人中的8人拉到了他的新团队中。
Palihapitiya被视为是硅谷最耿直的年轻一代投资人,他是在2014年年底一次会议上听说谷歌在搞TPU。
在几经调查后,Palihapitiya在一定程度上验证了自己的猜想,并最终有了另外一个大胆的想法——找到这个团队的核心成员,搞一个AI芯片的创业项目。
作为一位颇具资源的投资人,他最擅长的就是找人,不过,为了找出谷歌TPU核心团队人员名单,他还是花了将近一年半的时间。
之后,就有了Jonathon Ross在内的谷歌TPU团队8位核心员工的离职组建新团队。
虽然顶着“谷歌TPU核心团队”的光环,但在Groq最初成立的几年里,团队一直比较低调,也 没有弄出像DeepMind团队AlphaGo这样的大动静。
媒体上对它的报道也都浮于表象,只是说它筹集了1000万美元,在Delaware州注册了公司,好像是在搞AI芯片。
CNBC在2017年找到Palihapitiya求证此事时,Palihapitiya也只是用“现在谈具体细节还为时尚早”搪塞了过去。
不过,他还是确认了这个 团队确实在研发AI芯片,一种被称作“下一代芯片”,“可以让 Facebook、亚马逊、特斯拉等公司利用机器学习做一些以前做不到的事情的芯片。”
这颗芯片真正炸场是在全球经历了百模大战后,就在前不久谷歌和OpenAI掰手腕时,每秒能输出超500个token的Groq意外走红。
由于Groq对外提供100万个token的免费试用,看了Groq相关新闻后,锌产业最近也在Groq官网上试用了它的服务,响应速度确实没话说,几乎就是整段、整页地往外蹦。
Groq响应速度之所以这么快,正是因为使用了自研的GroqChip,这也是一个名为LPU的新型处理器。
Groq在2022年的另一篇论文中又着重介绍称,这种架构更适用于大规模机器学习。
(注:此处提到的奠定了GroqChip基础的两篇论文,可在公众号回复关键词「Groq」免费获取。)
彼时,百模大战还未正式开启,Jonathon Ross很可能也没想过Groq会在两年后因为大模型(而不是机器学习)火遍全球。
在讲计算密集型处理器与访存密集型处理器有何不同之前,我们先来聊一聊另一个古老的故事。
2023年10月,在夏威夷的骁龙峰会上,手机处理器巨头高通在发布会上一反常态,花大篇幅讲了一颗PC芯片(X Elite)的故事。
这不是高通第一次向PC芯片大佬英特尔发起挑战,虽然前几次战况惨烈,高通都未能如愿在主流PC市场打起多少水花。
1968年7月,硅谷“八叛徒”中的两位——Robert Noyce和Gordon Moore从仙童半导体“叛逃”,创立了英特尔公司,并开始开展他们的芯片设计宏图大业。
英特尔初入市场时,复杂指令集(CISC)是当时设计芯片唯一主流范式,没得选的英特尔就开始使用复杂指令集设计芯片。
大约是在英特尔成立十年后,一种名为精简指令集(RISC)被IBM研究中心John Cocke提出,后经时任斯坦福大学校长的John Hennessy写进了美国大学的计算机课本。
RISC处理器不仅解决了CISC处理器设计复杂,实现同样性能需要更高集成度的问题,还一定程度上避免了由此带来的功耗问题。
彼时,基于RISC处理器设计的工作站,运行速度普遍快于基于CISC处理器设计的工作站,而且是肉眼可见的差距。
然而,当时英特尔在CISC处理器上已经有了十年的技术积累,转向RISC处理器就意味着要放弃这样的技术积累和好不容易构建起的市场优势。
几经斟酌后,英特尔选择了“逆技术潮流而行”,依然采用CISC设计处理器,这样也保持了前向兼容。
英特尔之所以敢这么做,很大一个原因是当时RISC阵营没有出现像ARM这样强劲的对手(ARM是1990年成立的)。
第二,英特尔利用规模优势,大强度投入研发,英特尔每款处理器的研发投入都高于当时市面上任意一款RISC处理器的投入;
第三,英特尔曾研发过两款RISC处理器,但用户依然选择了英特尔的CISC处理器,事实证明,用户对兼容性比对性能要求更高;
然而,在PC市场败北,并没有影响RISC处理器的崛起,后来高通和ARM的出现,以及移动互联网的来临,让基于ARM架构的RISC处理器最终成了智能手机的核心。
高通在智能手机市场一骑绝尘后,也开始试探性地进攻PC市场,例如2018年推出骁龙8cx系列处理器,2019年推出骁龙7c、8c两款处理器。
不过,在和英特尔几番交手后,高通最终没讨到什么好处,相关芯片后来也就不了了之。
然而,令英特尔没有想到的是,2020年11月,苹果基于ARM架构的M1芯片一经发布,彻底闯入了英特尔严防死守的腹地。
尤其是随着苹果Apple Silicon战略的持续推进,苹果在这一年后,逐渐为自家PC换上了自己的M系列芯片,这意味着全球至少有近10%的PC,将迈入迟来的RISC时代。
正因有了苹果的胜利,高通才借着AI PC的新窗口期,重新打起了自己的小算盘。
也是在这时,在这个AGI新时代,芯片产业还有一个更大的潜在变量也在酝酿中。
计算密集型是指,算法模型的计算密度较大,算法模型访存少而计算量大,性能受到处理器最大计算峰值限制的计算类型。
访存密集型是指,算法模型的计算密度较小,算法模型访存多而计算量少,性能受到处理器内存带宽限制的计算类型。
由于网络、硬件等在过去40年里一直保持着超高速发展,算力一直处于供不应求状态,计算密集型处理器也就成了主流。
如今的大模型追根溯源都是基于Transformer架构,作为自回归模型,基于Transformer的AI模型生成每一个新token,都需要将所有输入过的token计算一遍。
为了避免重复计算,在实际应用时,AI模型会将实际计算过的数据预存下来,这就导致这类模型对访存的需求要求普遍会很高。
Groq团队解决当下大模型普遍遇到的“性能受到处理器内存带宽限制”问题的方法,是换用低带宽存储器SRAM。
相较于GPU使用的高带宽存储器HBM,SRAM的运行速度至少要快20倍,从而大大提高了访存带宽。
然而,由于GroqChip采用的SRAM带宽只有230MB,实际上相当于是在用空间换时间。
前阿里技术副总裁贾扬清就曾指出,Groq在运行Llama-2 70B模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
不过,可以看到的是,Groq只是在百模大战正酣、AGI被提上日程的现在一次大胆的尝试。