半岛彩票2023年10月,美国政府出台新规,禁止顶级AI芯片如英伟达H100、H200向中国出口。为降低损失,英伟达推出性能降级80%的“减配版”H20系列芯片,希望能够符合规定要求、重新进入中国市场。
但是,阿里巴巴、腾讯、字节跳动等中国科技巨头买家并不买账。测试发现,H20系列芯片的算力严重不足,性价比大幅下降。以用于AI模型训练的H20为例,其浮点运算能力仅及英伟达旗舰H100的五分之一,这意味着中国企业需要购买更多H20芯片才能达到相同性能,实际成本因此大增。
与此同时,国产AI芯片正快速发展,逐步具备替代能力。华为、寒武纪、平头哥等企业展示过各自的AI芯片实力。特别是华为昇腾910B性能已基本可与英伟达A100芯片对标。总体来说,中国在AI芯片领域拥有足够的技术储备支撑国内需求。那么接下来咱们一起盘点一下中国AI芯片的发展情况。
在2018年的全联接大会上,华为不仅提出了全面的AI战略和全栈全场景的AI解决方案,而且同时发布了两款引人注目的AI芯片:昇腾910和昇腾310。这两款产品的问世标志着华为在AI硬件领域的深度布局。
昇腾910在规格上采用了先进的7nm工艺制程,拥有高达256TFLOPS的半精度计算能力和350W的功耗。这种高算力与相对较高的功耗表明,昇腾910主要面向数据中心和AI训练场景,提供强大的处理性能。其核心架构为华为自研的达芬奇架构,这一架构不仅提升了芯片的运算效率,还赋予其在不同AI场景下的灵活适应性。
基于升腾910、升腾310 AI芯片,华为还推出了Atlas AI计算解决方案。 华为升腾社区显示,目前Atlas 300T产品有三个型号,分别对应升腾910A、910B、910 ProB,最大300W功耗,前两者AI算力均为256TFLOPS,而910 ProB可达280 TFLOPS(FP16)。 该款芯片在 2023 年已经获得了大客户至少 5,000 套的订单,预计会在 2024 年交付。 业界认为,华为升腾910B能力已经基本做到可对标NVIDIA A100。
寒武纪推出的思元370芯片,是其首款运用chiplet技术的AI芯片,采用了先进的7nm制程工艺,并集成了高达390亿个晶体管。这款芯片在性能上相较前代产品有了显著的提升,其最大算力达到了256TOPS(INT8),是其前代产品思元270的两倍。这样的算力使得思元370在处理AI任务时速度更快、效率更高。
此外,思元370支持LPDDR5内存技术,这一高性能的内存技术支持更高的数据传输速率和更低的功耗,对于AI芯片在处理大量数据时尤为关键。同时,寒武纪最新的智能芯片架构MLUarch03为思元370提供了强大的架构支持,使其在执行AI训练和推理任务时更为高效。这些特点使得思元370成为了AI硬件市场中的一款重要产品,展现了寒武纪在AI芯片领域的实力与创新能力。
壁仞科技BR100系列GPU芯片于2022年8月正式发布,这是一款专为云端AI训练和推理设计的高性能通用GPU产品。其搭载了壁仞科技自研的先进原创架构“壁立仞”,并采用TSMC的7纳米制造工艺,集成了770亿个晶体管。
在性能方面,该芯片的16位浮点算力超过了1000T,而8位定点算力更是达到2000T以上,单芯片的峰值算力已经触及PFLOPS等级。
壁仞科技BR100系列芯片的推出,显著提升了数据中心在处理复杂AI工作负载时的能力,尤其在面对AI模型训练任务时展现出强大的性能优势。公司的这一突破性成果不仅体现了国产硬件自主研发的进步,同时也为国内外客户在构建高效能计算平台时提供了更多选择,有助于促进全球AI产业的发展和技术创新。
燧原科技邃思2.0和邃思2.5人工智能云端推理加速卡,专为数据中心设计,能够在多种AI推理场景中提供高效的计算性能。
邃思2.0具有大尺寸设计和高算力特点,其面积达到3306mm²,采用了格罗方德12nm FinFET工艺,内部集成了9颗芯片。这使得邃思2.0在单精度FP32算力上达到了40TFLOPS,张量TF32算力高达160TFLOPS,以及整数精度INT8算力为320TOPS。
邃思2.5作为第二代人工智能云端推理芯片,针对性地满足了计算机视觉、语音识别与合成、自然语言处理、搜索与推荐等AI推理场景的需求,它的设计兼顾了当下数据中心对于AI推理任务的高要求和复杂算法处理能力。
燧原科技的邃思系列加速卡采用尖端封装技术,代表了中国在AI芯片领域的重要进展。邃思2.0特别引人注目的是接近日月光2.5D封装技术极限的大尺寸设计和卓越的计算能力,使其在处理大规模AI工作负载时展现出非凡的性能。同时,邃思2.5以其高度适配多种AI应用场景的能力,强化了燧原科技在云端推理市场的地位,为AI工作负载优化提供了专业解决方案。
百度作为中国领先的互联网科技公司,早在2011年便开始了对AI芯片的前瞻性布局。通过多年的研发积累,百度终于在2018年推出了自研的AI芯片——昆仑1,这是国内首款基于自研XPU架构并采用14nm制程的AI芯片。在2020年,昆仑1正式进入量产阶段,并被广泛应用于百度搜索引擎、小度等核心业务中,展现了其强大的性能与稳定性。
为了进一步巩固在AI芯片领域的领先地位,百度在2021年3月成功完成了昆仑芯片的独立融资。同年8月,百度宣布第二代自研AI芯片——昆仑2正式量产。昆仑2采用了先进的7nm制程,并搭载了自研的第二代XPU架构,相较于第一代产品,其性能提升了2-3倍,同时在通用性和易用性方面也实现了显著的增强。
凭借卓越的性能和广泛的应用场景,百度昆仑芯的前两代产品已经成功部署了数万片,为各行各业的AI应用提供了强大的算力支持。而据最新消息,百度昆仑芯的第三代产品也有望在2024年4月举办的百度Create AI开发者大会上亮相。我们期待这款新品能够继续延续百度在AI芯片领域的辉煌成就,为未来的AI技术发展注入新的活力。
紫霄AI芯片是腾讯在人工智能领域的一项重要创新,于2021年11月正式亮相。这款芯片采用了自研的存算架构和加速模块,具有高效能、低成本的特点。紫霄AI芯片的计算加速性能达到了同类产品的3倍,同时能够降低45%的整体成本。这使得紫霄AI芯片在人工智能计算领域具有显著的优势。
目前,紫霄AI芯片主要为腾讯内部使用,不对外销售。腾讯通过其云服务平台向用户提供基于紫霄AI芯片的算力租赁服务,从而获取收益。这种模式不仅有助于腾讯降低成本,还能为用户提供更加便捷、高效的AI计算服务。
值得一提的是,近期有媒体报道称,腾讯正考虑将紫霄V1芯片作为NVIDIA A10芯片的替代品,应用于AI图像和语音识别领域。这表明紫霄AI芯片在性能和应用范围上已经具备了与业界领先产品竞争的实力。此外,腾讯还计划推出针对AI训练优化的紫霄V2 Pro芯片,旨在未来取代NVIDIA L40S芯片,进一步巩固其在AI计算领域的地位。
AI芯片布局上,阿里平头哥2019年9月推出了其首款高性能人工智能推理芯片──含光800,基于12nm制程与自研架构,整合170亿晶体管,性能峰值算力达820TOPS。 在业界标准的 ResNet-50测试中,推理性能达到78563IPS,能效比达 500IPS/W。
2023年8月,阿里平头哥发布了首个自研RISC-V AI平台,支持运行170余个主流AI模型,推动RISC-V进入高性能AI应用时代。 同时,平头可宣布玄铁处理器C920全新升级,C920执行GEMM(矩阵的矩阵乘法)计算较Vector方案可提速15倍。
2023年11月,阿里平头哥玄铁RISC-V上新了三款基于软硬协同新范式的处理器(C920、C907、R910),大幅提升了加速计算能力、安全性及即时性,有望加速推动RISC-V在自动驾驶、人工智能、企业级SSD、网络通信等场景和领域的大规模商用落地。
在AI技术快速迭代的今天,算力已成为推动创新不可或缺的战略资源。无论是训练还是推理,大规模的神经网络都需要消耗巨大的计算能力。这使得高性能GPU像英伟达A100和H100等成为公认的AI计算“霸主”供不应求。
正因为算力的重要性,美国通过芯片法案等手段,严格限制顶级GPU向中国出口。这是因为算力优势直接决定着一个国家在AI领域的技术发展路径和速度。要限制中国在高科技产业的进一步崛起,控制关键算力资源就是美国的策略选择之一。
面对外部挑战与压制,中国企业也在芯片领域持续发力。华为、寒武纪、平头哥等厂商开发的自主AI芯片,已经初步展现出可与英伟达旗舰GPU竞争的实力,让中国企业敢对对英伟达“减配版”芯片说不。