网站首页

星空官网产品中心

半岛智能终端处理器 半岛智能云服务器 半岛软件开发环境

星空官网新闻中心

关于我们星空官网

公司概况 核心优势 核心团队 发展历程

联系我们星空官网

官方微信 官方微博
星空官网 > 星空官网新闻中心

GPU推理时代终结?世界最大芯片加持推理狂飙2星空体育网站入口0倍英伟达H100也趴

发布时间:2024-08-30 04:59浏览次数: 来源于:网络

  星空体育官网【新智元导读】LLM若以每秒1000+token高速推理,当前最先进的GPU根本无法实现!Cerebras Inference一出世,推理速度赶超英伟达GPU,背靠自研的世界最大芯片加持。而且,还将推理价格打了下来。

  曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。

  不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。

  如下图右所示,以往,微调版Llama3.1 8B推理速度为90 token/s,清晰可见每行文字。

  而现在,直接从90 token/s跃升到1800 token/s,相当于从拨号上网迈入了带宽时代。

  左边Cerebras Inference下模型的推理速度,只能用「瞬间」、「疯狂」两字形容。

  值得一提的是,Cerebras并没有因为提高LLM的速度,而损失其精度。

  测试中,使用的Llama3.1模型皆是采用了Meta原始16位权重,以便确保响应高精度。

  不仅远超之前的保持者Groq,而且和其他平台相比,甚至是隔「坐标轴」相望了。

  看到自家模型推理如此神速,LeCun、Pytorch之父纷纷动手转发起来。

  由于GPU的内存带宽限制,如今推理速度为每秒几十个token,而不是数千个。

  更进一步说,大模型每个生成的单词,都必须通过整个模型进行处理,即所有参数必须从内存投入到计算中。

  也就是,生成100个单词需要100次处理,因为「下一词」的预测,皆需要依赖前一个单词,而且这个过程无法并行。

  那么,想要每秒生成100个单词,就需要所有模型参数,每秒投入计算100次。

  模型有700亿参数,每个参数是16位,需要2字节的存储,那整个模型便需要140GB的内存。

  想要模型输出一个token,那700亿参数必须从内存,移动到计算核心,以执行前向推理计算。

  因此,每次生成的token输出时,需将整个占用140GB内存的模型,完整传输到计算中。

  那么,一个H100有3.3 TB/s的内存带宽,足以支持这种缓慢的推理。

  而若要实现即时推理,需要达到1000 token/s或140 TB/s,这远远超过任何GPU服务器/系统内存带宽。

  这完全是大错特错,更多的处理器只会增加系统的吞吐量(给出更长响应),并不会加速单个查询的响应时间。

  一直以来,这家公司就致力于打造世界上最大芯片,希望将整个模型存储在一个晶片上,以此来解决内存带宽瓶颈。

  凭借独特的晶圆设计,WSE-3单个芯片上便集成了44GB SRAM,具备21 PB/s的内存带宽星空体育网站入口。

  单个芯片拥有如此大内存,便消除了对外部内存的需求,以及将外部内存连接到计算的慢速通道。

  它是唯一一款同时具有PB级计算和PB级内存带宽的AI芯片,使其成为高速推理的近乎理想设计。

  与小型AI芯片相比,芯片上内存多了约200倍,支持从1-100的批大小,使其在大规模部署时,具有极高的成本效益星空体育网站入口。

  正是有了如此强大的芯片,Cerebras Inference的快速推理得以实现。

  如果模型参数超过单个晶圆的内存容量时,研究人员将在「层边界」将其拆分星空体育网站入口,并映射到多个CS-3系统上。

  官方表示,未来几周,将会测试更大参数版本的模型,比如Llama3-405B、Mistral Large。

  业界中,一些公司试图将模型权重精度星空体育网站入口,从16位减少到8位,来克服内存带宽的瓶颈。

  这样方法,通常会造成模型精度损失,也就是响应结果的准确性、可靠性不如以前。

  Cerebras Inference之所以强就强在了,速率和原始权重,皆要顾及。

  正如开篇所述,他们采用了原始16位权重运行了Llama3.1 8B和70B。

  通过评估,16位模型准确率比8位模型,高出多达5%。尤其是在,多轮对话、数学和推理任务中表现更好。

  目前,Cerebras Inference可通过聊天平台,以及API访问,任何一个人可随时体验。

  基于熟悉的OpenAI Chat Completions格式,开发者只需更换API密钥即可集成强大的推理功能。

  它是唯一能即时运行Llama3.1-70B的方案,可实现450 token/s,同样使用的是原始16位模型权重。

  在此,Cerebras送上大福利,每天为开发者们提供100万个免费token。对于大规模部署,其定价只是H100云的一小部分星空体育网站入口。

  首次推出时,Cerebras提供了Llama3.1 8B和70B模型,而且有能力每天为开发者和企业,提供数千亿token。

  有开发者问道,你们提供的rpm(每分钟请求次数)和tpm(每分钟处理token数)是多少?

  通常,LLM会即刻输出自己的全部想法,而不考虑最佳答案。而诸如scaffolding(脚手架)这类的新技术,则如同一个深思熟虑的智能体,会在作出决定前探索不同的可能解决方案。

  这种「先思考后发言」的方式在代码生成等严苛任务中,可以带来超过10倍的性能提升,从根本上提升了AI模型的智能,且无需额外训练。

  因此可见,如果我们能大幅缩短处理时间,那么就可以实现更为复杂的AI工作流程,进而实时增强LLM的智能。

  但极致的速度,确实为Cerebras带来了极致的速度-价格和速度-延迟比。

  不过,值得注意的是,在Cerebras上跑的Llama 3.1,上下文只有8k……

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

下一篇:星空体育官方网站首搭中国首款自研车规级7nm量产芯片 豪华智享超电SUV领克08上市
上一篇:AI芯片独角兽IPO:腾讯连投6轮 创始人来自芯片梦之班星空体育网站入口

咨询我们

输入您的疑问及需求发送邮箱给我们