网站首页

星空官网产品中心

半岛智能终端处理器 半岛智能云服务器 半岛软件开发环境

星空官网新闻中心

关于我们星空官网

公司概况 核心优势 核心团队 发展历程

联系我们星空官网

官方微信

官方微博

星空官网 > 星空官网新闻中心

GPU推理时代终结？世界最大芯片加持推理狂飙2星空体育网站入口0倍英伟达H100也趴

发布时间：2024-08-30 04:59浏览次数：来源于：网络

　　星空体育官网【新智元导读】LLM若以每秒1000+token高速推理，当前最先进的GPU根本无法实现！Cerebras Inference一出世，推理速度赶超英伟达GPU，背靠自研的世界最大芯片加持。而且，还将推理价格打了下来。
　　曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。
　　不论是总结文档，还是代码生成等任务，响应几乎一闪而过，快到让你不敢相信自己的眼睛。
　　如下图右所示，以往，微调版Llama3.1 8B推理速度为90 token/s，清晰可见每行文字。
　　而现在，直接从90 token/s跃升到1800 token/s，相当于从拨号上网迈入了带宽时代。
　　左边Cerebras Inference下模型的推理速度，只能用「瞬间」、「疯狂」两字形容。
　　值得一提的是，Cerebras并没有因为提高LLM的速度，而损失其精度。
　　测试中，使用的Llama3.1模型皆是采用了Meta原始16位权重，以便确保响应高精度。
　　不仅远超之前的保持者Groq，而且和其他平台相比，甚至是隔「坐标轴」相望了。
　　看到自家模型推理如此神速，LeCun、Pytorch之父纷纷动手转发起来。
　　由于GPU的内存带宽限制，如今推理速度为每秒几十个token，而不是数千个。
　　更进一步说，大模型每个生成的单词，都必须通过整个模型进行处理，即所有参数必须从内存投入到计算中。
　　也就是，生成100个单词需要100次处理，因为「下一词」的预测，皆需要依赖前一个单词，而且这个过程无法并行。
　　那么，想要每秒生成100个单词，就需要所有模型参数，每秒投入计算100次。
　　模型有700亿参数，每个参数是16位，需要2字节的存储，那整个模型便需要140GB的内存。
　　想要模型输出一个token，那700亿参数必须从内存，移动到计算核心，以执行前向推理计算。
　　因此，每次生成的token输出时，需将整个占用140GB内存的模型，完整传输到计算中。
　　那么，一个H100有3.3 TB/s的内存带宽，足以支持这种缓慢的推理。
　　而若要实现即时推理，需要达到1000 token/s或140 TB/s，这远远超过任何GPU服务器/系统内存带宽。
　　这完全是大错特错，更多的处理器只会增加系统的吞吐量（给出更长响应），并不会加速单个查询的响应时间。
　　一直以来，这家公司就致力于打造世界上最大芯片，希望将整个模型存储在一个晶片上，以此来解决内存带宽瓶颈。
　　凭借独特的晶圆设计，WSE-3单个芯片上便集成了44GB SRAM，具备21 PB/s的内存带宽星空体育网站入口。
　　单个芯片拥有如此大内存，便消除了对外部内存的需求，以及将外部内存连接到计算的慢速通道。
　　它是唯一一款同时具有PB级计算和PB级内存带宽的AI芯片，使其成为高速推理的近乎理想设计。
　　与小型AI芯片相比，芯片上内存多了约200倍，支持从1-100的批大小，使其在大规模部署时，具有极高的成本效益星空体育网站入口。
　　正是有了如此强大的芯片，Cerebras Inference的快速推理得以实现。
　　如果模型参数超过单个晶圆的内存容量时，研究人员将在「层边界」将其拆分星空体育网站入口，并映射到多个CS-3系统上。
　　官方表示，未来几周，将会测试更大参数版本的模型，比如Llama3-405B、Mistral Large。
　　业界中，一些公司试图将模型权重精度星空体育网站入口，从16位减少到8位，来克服内存带宽的瓶颈。
　　这样方法，通常会造成模型精度损失，也就是响应结果的准确性、可靠性不如以前。
　　Cerebras Inference之所以强就强在了，速率和原始权重，皆要顾及。
　　正如开篇所述，他们采用了原始16位权重运行了Llama3.1 8B和70B。
　　通过评估，16位模型准确率比8位模型，高出多达5%。尤其是在，多轮对话、数学和推理任务中表现更好。
　　目前，Cerebras Inference可通过聊天平台，以及API访问，任何一个人可随时体验。
　　基于熟悉的OpenAI Chat Completions格式，开发者只需更换API密钥即可集成强大的推理功能。
　　它是唯一能即时运行Llama3.1-70B的方案，可实现450 token/s，同样使用的是原始16位模型权重。
　　在此，Cerebras送上大福利，每天为开发者们提供100万个免费token。对于大规模部署，其定价只是H100云的一小部分星空体育网站入口。
　　首次推出时，Cerebras提供了Llama3.1 8B和70B模型，而且有能力每天为开发者和企业，提供数千亿token。
　　有开发者问道，你们提供的rpm（每分钟请求次数）和tpm（每分钟处理token数）是多少？
　　通常，LLM会即刻输出自己的全部想法，而不考虑最佳答案。而诸如scaffolding（脚手架）这类的新技术，则如同一个深思熟虑的智能体，会在作出决定前探索不同的可能解决方案。
　　这种「先思考后发言」的方式在代码生成等严苛任务中，可以带来超过10倍的性能提升，从根本上提升了AI模型的智能，且无需额外训练。
　　因此可见，如果我们能大幅缩短处理时间，那么就可以实现更为复杂的AI工作流程，进而实时增强LLM的智能。
　　但极致的速度，确实为Cerebras带来了极致的速度-价格和速度-延迟比。
　　不过，值得注意的是，在Cerebras上跑的Llama 3.1，上下文只有8k……
　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

下一篇：星空体育官方网站首搭中国首款自研车规级7nm量产芯片豪华智享超电SUV领克08上市
上一篇：AI芯片独角兽IPO：腾讯连投6轮创始人来自芯片梦之班星空体育网站入口

咨询我们

输入您的疑问及需求发送邮箱给我们

相关新闻推荐

星空体育官方网站首搭中国首款自研车规级7 2024-08-30

GPU推理时代终结？世界最大芯片加持推理 2024-08-30

AI芯片独角兽IPO：腾讯连投6轮创始 2024-08-30

美股芯片股盘前普跌英伟达跌近5%台积电、 2024-08-29

星空体育官方网站Meta因巨额亏损放弃自 2024-08-29

星空体育官方网站泰凌微出手小米基金两度 2024-08-29

简历投递

admin@ksoboa.com

商务合作

admin@ksoboa.com

媒体垂询

admin@ksoboa.com

星空官网产品中心: 半岛智能终端处理器半岛智能云服务器半岛软件开发环境

星空官网新闻中心

关于我们星空官网: 公司概况核心优势核心团队发展历程

关注腾讯

微信二维码

微博二维码

Copyright © 2002-2024 星空体育·(中国)官方网站版权所有备案号：苏ICP备2020064158号-1 HTML地图 XML地图 txt地图