时间:2025-07-29 22:27 作者:一陈旧人
为什么昇腾384超节点能成为“镇馆之宝”?
文 观察者网吕栋
机器人不仅能调酒、分拣还能格斗,AI眼镜不仅能翻译、导航还能支付,医疗大模型不仅能识别病理切片还能自动生成诊断报告,金融数字员工正从辅助工具变身“专业研究员”......这些画面并不是科幻电影,而是世界人工智能大会(WAIC 2025)被火爆围观的场景。
在这里,每个人都能感受到,中国AI应用创新正呈现百花齐放之势。但不可否认的是,无论AI技术在哪个场景落地,都离不开算力底座的支撑。尤其是在当下,随着全球AI竞争进入白热化,美国不断收紧技术出口管制,中国产业界更加呼唤底层软硬件的技术突破。
行业变革中,华为一直走在开放创新的前列。这次参展WAIC,华为重磅展出了昇腾384超节点真机,并获评“WAIC镇馆之宝”。它的创新之处在于,并没有像传统计算架构一样简单堆叠芯片,而是通过高速互联总线,突破互联瓶颈,让超节点像一台“AI服务器”一样工作,超大带宽、超低时延和超强性能等三大技术优势,可以长期满足行业算力需求。
在国外巨头的先发优势下,外界之前或许对国产算力没有底气,但相信这次大会能打消不少人的疑虑。在昇腾384超节点的身后,华为全方位展现了昇腾算力底座的创新能力、训练及推理解决方案、开源开放的软硬件生态,以及在互联网、运营商、金融、能源、教育科研等11大行业的丰富实践。
适配和开发超80个大模型,孵化6000+个行业解决方案等数据,充分证明了昇腾绝对不是“花架子”,而是已形成技术、应用和生态的正向循环。
镇馆之宝背后,是系统工程的突破
自大模型蓬勃发展以来,中国产业界就一直存在算力焦虑。一方面,大模型的Scaling Law(尺度定律)持续有效,训练和推理的算力需求爆发式增长;另一方面,美国不断收紧对先进算力芯片的出口管制,并遏制中国先进芯片制造能力,给国产单卡算力追赶制造障碍。
但实际上,大模型技术演进过程中,国产算力的挑战和机遇并存。一方面训练万亿参数大模型,仅靠单卡算力无法实现,集群算力成为大势所趋;另一方面,随着以DeepSeek为代表的MoE(混合专家模型)成为主流模型架构,其复杂混合并行导致通信需求骤增,单纯靠堆芯片,已不能带来有效算力的线性增加,但给提升通信带宽进而改善性能带来机遇。
在这种趋势下,华为充分发挥在通信、存储、基础软件等方面的大杂烩优势,通过非摩尔补摩尔、数学补物理等系统工程创新,成功实现业界最大规模的384颗昇腾NPU高速总线互联,构建了昇腾384超节点。它由12个计算柜和4个总线柜构成,算力总规模达300 PFLOPS。
并且,昇腾384超节点还可以通过灵活分配资源,更好地支持混合专家MoE大模型的训推,实现384卡“一卡一专家”,是业界唯一支持DeepSeekV3/R1在一个超节点域内即可完成所有的专家并行(EP)的方案,也是MoE模型的最佳训练/推理方案。
之所以能实现这种超强性能,是因为昇腾超节点并非修补式改进,而是彻底重构系统。一是打破以CPU为中心的冯诺依曼架构,计算单元通过总线直接互访,转变为更高效、更灵活的全对等架构;其次,新的总线技术重新定义通信互联协议,减少系统开销,内存统一编址,超节点内全局TB级内存统一访问;第三,突破传统服务器间通信能力不足带来的系统性能瓶颈,实现通信能力10倍提升,让计算不再等待通信,提升算力利用率和整体性能。
在半导体制程受限的情况下,昇腾384超节点通过资源高效调度,一定程度弥补了芯片工艺的不足。性能测试数据显示,在昇腾超节点集群上,LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上,性能提升可达3倍以上,较业界其他集群高出1.2倍,在行业中处于领先地位。更重要的是,通过最佳负载均衡组网等方案,还能将昇腾超节点组成数万卡的Atlas 900 SuperCluster超节点集群,支持更大规模的模型训练,成为中国AI创新的可靠底座。
枝繁叶茂,昇腾已走进千行万业
“中国制造业像今天这样如此强大的原因,不仅是它能更便宜地生产东西,也因为它能更便宜、更快、更好、更智能地生产东西,而且正在越来越多地将人工智能融入到产品中来。”美国记者托马斯·弗里德曼在《我在中国看到了世界未来的样子》一文中写道。
毫无疑问,任何技术只有落地才能产生价值,而中国AI技术的落地正走在世界前列。如果深入华为WAIC的展台就会发现,昇腾不仅在大规模算力集群上进行系统性创新,同时也已经深入千行万业,支撑互联网、运营商、金融、政务、教育等垂直领域的创新落地。
以运营商领域为例,浙江移动基于昇腾算力与移动九天大模型打造的“营销助手”ChatCRM,为一线人员提供智能问答、信息搜索和业务办理支持,目标客户获取时间从3小时骤降至3分钟,营销成功率提升5个百分点,知识问答准确率超过95%;上海电信基于昇腾算力自研魔方应用系统,让一线客服人员从被动接受变为主动设计,已经基于昇腾完成了Telechat和Qwen大模型的微调,把大模型在客服场景的准确度从80%提升到了90%。
金融行业也在积极携手昇腾,拥抱智能化。交通银行基于昇腾千卡算力集群,瞄准审贷联动、惠民催收、数据速查等大模型高价值场景,通过全流程优化,大幅减少人工校验工作量,缩短处理时间,目前已落地大小模型融合应用超100个,累计提升人力效能超1000人。浦发银行基于昇腾千卡算力集群,采用CANN架构,通过MindIE硬件使能引擎及ModelArts一站式AI开发平台进行统一纳管,支持DeepSeek、Qwen等多种主流大模型的部署,帮助浦发银行实现运营、普惠、零售、信用卡等200多个AI应用场景落地。
昇腾还深度融入实体产业,赋能更多领域。例如在医疗场景,昇腾+DeepSeek智慧医疗应用一体化解决方案,已在瑞金医院、华西医院、中山眼科等多家医疗机构落地,覆盖医学科研、辅助诊断、院区管理等多个核心场景;在电力领域,昇腾助力南方电网打造电力行业首个开放创新大模型“大瓦特”;在建材领域,昇腾助力海螺水泥打造建材行业大模型......
与此同时,AI技术也正在深刻重塑零售行业的各个环节。以深圳大型零售企业天虹为例,在昇腾算力和丰富AI工具链的支撑下,基于Qwen、DeepSeek等开源模型以及内外部海量数据进行模型后训练,打造了“百灵鸟”零售垂直模型,在营销策划、导购服务、商品运营、客服售后、经营决策、办公助手等业务维度开发了30多个智能应用,服务于6万名员工及合作伙伴,每月模型访问请求量超300万次,企业内部工作效率提升30%。
当全球AI竞争进入白热化,昇腾展现的不仅是根技术实力,更是一幅清晰的产业落地图景。截至目前,业界基于昇腾适配和开发超过80个大模型,在基础大模型多个技术方向均有积累,如讯飞星火认知、DeepSeek、Qwen、鹏城、LLaMA等。同时,昇腾联合2700+行业合作伙伴,共同孵化超过6000+个行业解决方案,正加速AI赋能千行万业。
以开放促发展,昇腾产业生态快速成长
AI技术的竞赛从来不是单点的比拼,本质上是软硬件生态的竞争。英伟达能领跑行业,不仅是因为有高性能的GPU,同时也因为拥有深厚的软件与开发者生态护城河。
从这一点来看,昇腾之所以能引领中国AI算力产业创新,在千行万业迅速落地,首先就是因为构建了完整且开放的昇腾AI基础软硬件平台,包括Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等,帮助伙伴和开发者高效使用AI能力,创新场景化AI应用。
短短六年,昇腾产业生态以惊人速度构建起一片繁荣之地,330万开发者、2700家行业伙伴、6000余个行业解决方案、60余家硬件伙伴推出150多款产品……这些数字背后,是中国AI底层软硬件生态的强势崛起,更揭示了构建自主开放的AI算力生态已是大势所趋。
昇腾生态的爆发性增长,本质是华为和产业伙伴的集体突围。
当英伟达CUDA构筑的“围墙花园”日益成为全球AI研发的隐形基础设施,其生态黏性几乎定义了开发者的技术路径。然而昇腾以“开放”为抓手,开辟了另一条路径:作为充分释放处理器极致性能的关键,CANN实现分层深度开放,从最底层的算子开发层,到模型开发层、推理层,进一步兼容三方开源框架,让运行在三方框架、推理引擎上的模型/应用迁移至昇腾无需修改;新增开放AscendNPU IR接口,使能开发者向昇腾平台“无感迁移”。
昇腾的快速生长,也印证了AI竞争的本质是生态之争。英伟达CUDA生态的统治力,源自长期积累的庞大工具链、优化库与开发者社区形成的“护城河”。昇腾的破局之道在于双轨并行:一方面以开源开放加速技术民主化,在算子开发、系统调优、编译链优化等场景提供好用的工具软件,推动AI开发效率与性能的双重突破,截至目前,已携手互联网、运营商、金融等30多个伙伴,创新开发260多个高性能算子;另一方面,以“智能基座”产教融合深入人才土壤,2600门+实战导向课程,与高校联合成立实验室,为生态持续造血。“技术+人才”的双轮驱动,让昇腾持续成为中国AI创新的坚实底座。
在AI重塑未来的时代,没有生态的算力如同无根之木。国外厂商虽有先发优势,但单一依赖将扼杀技术多样性与产业安全。昇腾生态的快速成长,标志着全球AI算力格局正从“一极统治”向多元生态深刻演变。当昇腾“黑土地”上持续生长出本土化的框架、工具与人才,中国AI产业将实现真正的技术、应用和生态繁茂,握紧通往智能时代的钥匙。
2、北大教授姚洋宣布开始“沪漂”,如何看待他列出的离开北京的原因?