华为云新一代昇腾 AI 云服务全面上线:首创将 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 全对等互联
6 月 20 日消息,在今日举行的华为开发者大会 2025(HDC 2025)上,华为常务董事、华为云计算 CEO 张平安宣布基于 CloudMatrix384 超节点的新一代昇腾 AI 云服务全面上线,为大模型应用提供“澎湃算力”。
随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑 AI 技术的代际跃迁。华为云新一代昇腾 AI 云服务基于 CloudMatrix384 超节点,首创将 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 通过全新高速网络 MatrixLink 全对等互联,形成一台超级“AI 服务器”,单卡推理吞吐量跃升到 2300 Tokens / s。
超节点架构能更好地支持混合专家 MoE 大模型的推理,可以实现“一卡一专家”,一个超节点可以支持 384 个专家并行推理,提升效率。同时,超节点还可以支持“一卡一算力任务”,灵活分配资源,提升任务并行处理,减少等待,将算力有效使用率(MFU)提升 50% 以上。
对于万亿、十万亿参数的大模型训练任务,在云数据中心,还能将 432 个超节点级联成最高 16 万卡的超大集群;同时,超节点还可以支持训推算力一体部署,如“日推夜训”,训推算力可灵活分配,帮助客户资源使用最优。
新浪与华为云深度合作,基于 CloudMatrix384 昇腾 AI 云服务,为“智慧小浪”智能服务体系构建了统一的推理平台,底层由昇腾 AI 算力提供支持。推理的交付效率提升了超过 50%,模型上线速度成倍加快;通过软硬协同调优,NPU 利用率提升超过 40%。
硅基流动正在使用 CloudMatrix384 超节点,为数百万用户高效提供 DeepSeek V3、R1 的推理服务。面壁智能使用 CloudMatrix384 超节点,让他们的小钢炮模型的推理业务性能得到了 2.7 倍提升。
在科研领域,中国科学院基于 CloudMatrix384 超节点打造了自己的模型训练框架,快速构建了中国科学院 AI for Science 科研大模型,摆脱了对国外高性能 AI 算力平台的依赖。
在互联网领域,360 打造的纳米 AI 搜索,为用户提供超级 AI 搜索服务,也已开启了 CloudMatrix384 超节点的测试。
从大会获悉,当前,昇腾 AI 云服务为超过 1300 家客户提供 AI 算力。
华为开发者大会 HDC 2025 专题
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。