为什么昇腾384超节点能成为“镇馆之宝”?
在国外巨头的先发优势下,外界之前或许对国产算力没有底气,但相信这次大会能打消不少人的疑虑。在昇腾384超节点的身后,华为全方位展现了昇腾算力底座的创新能力、训练及推理解决方案、开源开放的软硬件生态,以及在互联网、运营商、金融、能源、教育科研等11大行业的丰富实践。
自大模型蓬勃发展以来,中国产业界就一直存在算力焦虑。一方面,大模型的Scaling Law(尺度定律)持续有效,训练和推理的算力需求爆发式增长;另一方面,美国不断收紧对先进算力芯片的出口管制,并遏制中国先进芯片制造能力,给国产单卡算力追赶制造障碍。
但实际上,大模型技术演进过程中,国产算力的挑战和机遇并存。一方面训练万亿参数大模型,仅靠单卡算力无法实现,集群算力成为大势所趋;另一方面,随着以DeepSeek为代表的MoE(混合专家模型)成为主流模型架构,其复杂混合并行导致通信需求骤增,单纯靠堆芯片,已不能带来有效算力的线性增加,但给提升通信带宽进而改善性能带来机遇。
并且,昇腾384超节点还可以通过灵活分配资源,更好地支持混合专家MoE大模型的训推,实现384卡“一卡一专家”,是业界唯一支持DeepSeekV3/R1在一个超节点域内即可完成所有的专家并行(EP)的方案,也是MoE模型的最佳训练/推理方案。
之所以能实现这种超强性能,是因为昇腾超节点并非修补式改进,而是彻底重构系统。一是打破以CPU为中心的冯诺依曼架构,计算单元通过总线直接互访,转变为更高效、更灵活的全对等架构;其次,新的总线技术重新定义通信互联协议,减少系统开销,内存统一编址,超节点内全局TB级内存统一访问;第三,突破传统服务器间通信能力不足带来的系统性能瓶颈,实现通信能力10倍提升,让计算不再等待通信,提升算力利用率和整体性能。
在半导体制程受限的情况下,昇腾384超节点通过资源高效调度,一定程度弥补了芯片工艺的不足。性能测试数据显示,在昇腾超节点集群上,LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上,性能提升可达3倍以上,较业界其他集群高出1.2倍,在行业中处于领先地位。更重要的是,通过最佳负载均衡组网等方案,还能将昇腾超节点组成数万卡的Atlas 900 SuperCluster超节点集群,支持更大规模的模型训练,成为中国AI创新的可靠底座。
枝繁叶茂,昇腾已走进千行万业
1、霍启刚再度夫凭妻贵!霍震霆继08年后再给儿媳站台,难怪何家羡慕,霍启刚总裁
2、雷军:小米已经站在了全球SoC研发的最前列,雷军小米发展史