为什么昇腾384超节点能成为“镇馆之宝”？

文观察者网吕栋

机器人不仅能调酒、分拣还能格斗，AI眼镜不仅能翻译、导航还能支付，医疗大模型不仅能识别病理切片还能自动生成诊断报告，金融数字员工正从辅助工具变身“专业研究员”......这些画面并不是科幻电影，而是世界人工智能大会（WAIC 2025）被火爆围观的场景。

在这里，每个人都能感受到，中国AI应用创新正呈现百花齐放之势。但不可否认的是，无论AI技术在哪个场景落地，都离不开算力底座的支撑。尤其是在当下，随着全球AI竞争进入白热化，美国不断收紧技术出口管制，中国产业界更加呼唤底层软硬件的技术突破。

行业变革中，华为一直走在开放创新的前列。这次参展WAIC，华为重磅展出了昇腾384超节点真机，并获评“WAIC镇馆之宝”。它的创新之处在于，并没有像传统计算架构一样简单堆叠芯片，而是通过高速互联总线，突破互联瓶颈，让超节点像一台“AI服务器”一样工作，超大带宽、超低时延和超强性能等三大技术优势，可以长期满足行业算力需求。

在国外巨头的先发优势下，外界之前或许对国产算力没有底气，但相信这次大会能打消不少人的疑虑。在昇腾384超节点的身后，华为全方位展现了昇腾算力底座的创新能力、训练及推理解决方案、开源开放的软硬件生态，以及在互联网、运营商、金融、能源、教育科研等11大行业的丰富实践。

适配和开发超80个大模型，孵化6000+个行业解决方案等数据，充分证明了昇腾绝对不是“花架子”，而是已形成技术、应用和生态的正向循环。

镇馆之宝背后，是系统工程的突破

自大模型蓬勃发展以来，中国产业界就一直存在算力焦虑。一方面，大模型的Scaling Law（尺度定律）持续有效，训练和推理的算力需求爆发式增长；另一方面，美国不断收紧对先进算力芯片的出口管制，并遏制中国先进芯片制造能力，给国产单卡算力追赶制造障碍。

但实际上，大模型技术演进过程中，国产算力的挑战和机遇并存。一方面训练万亿参数大模型，仅靠单卡算力无法实现，集群算力成为大势所趋；另一方面，随着以DeepSeek为代表的MoE（混合专家模型）成为主流模型架构，其复杂混合并行导致通信需求骤增，单纯靠堆芯片，已不能带来有效算力的线性增加，但给提升通信带宽进而改善性能带来机遇。

在这种趋势下，华为充分发挥在通信、存储、基础软件等方面的大杂烩优势，通过非摩尔补摩尔、数学补物理等系统工程创新，成功实现业界最大规模的384颗昇腾NPU高速总线互联，构建了昇腾384超节点。它由12个计算柜和4个总线柜构成，算力总规模达300 PFLOPS。

并且，昇腾384超节点还可以通过灵活分配资源，更好地支持混合专家MoE大模型的训推，实现384卡“一卡一专家”，是业界唯一支持DeepSeekV3/R1在一个超节点域内即可完成所有的专家并行（EP）的方案，也是MoE模型的最佳训练/推理方案。

之所以能实现这种超强性能，是因为昇腾超节点并非修补式改进，而是彻底重构系统。一是打破以CPU为中心的冯诺依曼架构，计算单元通过总线直接互访，转变为更高效、更灵活的全对等架构；其次，新的总线技术重新定义通信互联协议，减少系统开销，内存统一编址，超节点内全局TB级内存统一访问；第三，突破传统服务器间通信能力不足带来的系统性能瓶颈，实现通信能力10倍提升，让计算不再等待通信，提升算力利用率和整体性能。

在半导体制程受限的情况下，昇腾384超节点通过资源高效调度，一定程度弥补了芯片工艺的不足。性能测试数据显示，在昇腾超节点集群上，LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上；在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上，性能提升可达3倍以上，较业界其他集群高出1.2倍，在行业中处于领先地位。更重要的是，通过最佳负载均衡组网等方案，还能将昇腾超节点组成数万卡的Atlas 900 SuperCluster超节点集群，支持更大规模的模型训练，成为中国AI创新的可靠底座。