首页资讯

破解大模型算力困局?国产GPU用“AI工厂”给出答案

时间:2025-07-29 14:54 作者:枯井杀手

破解大模型算力困局?国产GPU用“AI工厂”给出答案

人工智能蓬勃发展,AI芯片成为全球讨论热点。凭借GPU先发优势,英伟达在领先算力和友好生态的支持下近乎垄断市场,公司业绩和市值屡创新高。AMD CEO Lisa Su在日前的采访中也预测道:“仅用于AI和大型计算系统的加速器市场规模在几年内就会超过 5000 亿美元。”正是在这样的市场现状下,无论是做芯片的,还是使用芯片的,都对加速计算倍加关注,进而催生了倚仗不同架构、不同技术的算力演进之路。

在世界人工智能大会WAIC前夕,国内全功能GPU厂商摩尔线程带来了他们的分享与最新实践。摩尔线程创始人兼CEO张建中表示,在面向未来的AI基础设施建设中,具备计算功能完备性与精度完整性的全功能GPU,将是支撑多元场景的核心基石。基于此,摩尔线程正试图打造生产智能的“AI工厂”,以系统级的技术创新和工程化的能力,提升AGI时代先进模型的生产效率。

全功能GPU,持续加速计算

在摩尔线程看来,算力革命的进化史,就是一部全功能GPU的发展史。

上世纪末面世的第一张游戏卡只干一件事——加速3D图形计算,其他任务都是CPU来完成。这种产品有点类似当下的ASIC:任务单一,不灵活,很难编程。对程序员、开发者来讲不太友好;到了本世纪初,我们才真正迎来了图形处理器,因为它真正开放了编程接口,每个人都可以在上面开发,发挥各自的创意。

进入21世纪第二个十年,DirectX 12的推出给GPU带来了更多的可能。而随着多伦多大学研究生Alex Krizhevsky和Ilya Sutskever及其导师Geoffrey Hinton开发的AlexNet在ImageNet比赛上大杀四方之后,GPU加速了人工智能时代的到来。

盘点全球排名TOP 100的HPC,当中80%都是被GPU厂商占据,这意味着GPU的通用性,加速了图形图像、超级计算、人工智能等一系列计算平台的革命。换而言之,当今几乎所有关键算力,都已由全功能GPU承载。

所谓全功能GPU有四大核心引擎:一是AI计算加速;二是现代3D图形渲染;三是物理仿真和科学计算;四是超高清视频编解码。与此同时,全功能GPU具备全精度计算,支持从FP64至INT8的完整精度谱系。

正是基于全功能GPU的技术积累,成立于2020年的摩尔线程已构建起完整的计算加速体系:成功推出四代GPU架构和智能SoC产品,拓展出覆盖AI智算、专业图形加速、桌面级图形加速等领域丰富完整的计算加速产品矩阵,全面支持云计算、边缘计算及终端设备市场,满足从政务、企业智能计算到个人消费场景的多层次需求。

围绕GPU的加速技术革命,还在持续进化。这场革命的起点,以OpenAI发布ChatGPT开始,一场轰轰烈烈的生成式AI竞赛席卷全球。领先的开发者也正在以前所未有的速度更新大模型。作为这场“战役”的关键,聚焦“算力”的AI基础设施正在以空前的速度扩建。

OpenAI CEO Sam Altman日前曾表示,将在今年年底前推出超过 100 万个 GPU,未来,他的目标是将GPU拥有数量提高100倍。xAI的创始人Elon Musk随后也表示,“xAI 的目标是在 5 年内实现 5000 万个与 H100 相当的 AI 计算能力(但能效更高)。”

在单卡算力有限的前提下。如何打造有效算力更强大的基础设施,已经成为全球争夺的重点。

基于此,摩尔线程将打造生产先进模型的“AI工厂”,以系统级技术创新和工程能力,致力于解决大模型训练效率瓶颈,为AGI时代提供可靠的底层算力支撑。

在摩尔线程看来, “AI工厂”是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

五大技术构建“AI工厂”

如图所示,这座“AI工厂”的智能“产能”,由五大核心要素共同决定,其效率公式可概括为:AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性。

首先看加速通用性方面,如前文所说,这是摩尔线程从成立伊始就坚持全功能GPU的发展方向。在拥有了全功能GPU之后,还需要有“全精度”。作为国内极少数具备FP8大模型训练平台,能把训练和推理集成到一起的企业,是摩尔线程的另一个优势。

其次看单芯片有效算力,而架构作是芯片设计的核心基础,决定了芯片的功能、性能和功耗等关键指标。这时候,公司自研架构的优势就完全显现出来。

据介绍,摩尔线程自研的MUSA架构不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升资源利用率。其参数化配置可伸缩架构,允许面向目标市场快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。

正是基于这个先进架构,让摩尔线程在单芯片GPU上即可集成AI计算加速、图形渲染、物理仿真及超高清视频编解码能力,充分适配AI训推、具身智能、AIGC等多样化应用场景。在计算精度方面,摩尔线程支持从FP64至INT8的完整精度谱系,并通过FP8混合精度技术,在主流前沿大模型训练中实现20%~30%的性能跃升,为国产GPU的算力效率树立行业标杆。

这还远远不够,内存系统方面,摩尔线程通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。在通信和互联领域,独创的ACE异步通信引擎减少了15%的计算资源损耗。通过上述计算、内存、通信三重突破,显著提升单芯片有效算力。

来到“单节点计算效率”方面,要在这方面实现提升,则需要全栈的系统软件。

据介绍,在软件栈方面,摩尔线程首先通过提供高效的GPU驱动提升了工作效率(核函数启动时间缩短50%);在算子方面,摩尔线程的muDNN算子也获得了极致的性能优化(GEMM算子算力利用率达98%,Flash Attention 算子算力利用率突破95%);至于通信方面,摩尔线程让MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%。

此外,摩尔线程在细粒度方面可以重计算,这也是一个非常重要的点,让训练精度能保持更高,累计误差更小。摩尔线程的FP8优化与重计算技术显著降低了训练开销。

要获得一个高效率的节点,除了软件栈之外,生态系统的支持和帮助也非常重要。

于是,为了让开发者更好地将算力强劲的芯片用起来,摩尔线程打造了包括Torch Profiler,监控、管理,performance tuning等在内的一套完整的软件开发工具。在这些工具和生态的支持下,开发者能让摩尔线程的软硬件的协调工作,提升整体的效率和性能。如图所示,摩尔线程基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

为了提升“AI工厂”的生产效率,还需要关注“集群效率”和“集群稳定性”

所谓的AI算力集群,是指通过高速网络,将大量高性能计算节点互联,从而形成的一种分布式计算系统。在单卡或单节点,甚至超节点算力受限的当下,这是发展AGI的必经之路。因此,如何将效率和稳定性提高,就成为评价一个集群是否好用的关键。这也是摩尔线程“夸娥”集群致力于实现的目标。

资料显示,“夸娥”是摩尔线程推出的,以全功能GPU为硬件核心,软硬一体化、完整的系统级算力解决方案,旨在为大规模GPU算力的建设和运营管理提供系统级支持。KUAE为智算中心提供端到端解决方案,支持万卡级规模扩展能力,单集群可部署超1,000个计算节点,每节点集成8颗自研OAM模组化GPU,通过3D全互联拓扑实现亚微秒级通信延迟,为大模型预训练提供稳定高效的算力支撑。其中,KUAE1是支持千卡互联的第一代智算融合中心产品;KUAE2是2024年底推出的第二代大规模智算融合中心产品,支持万卡互联。

据介绍,借助整合数据、模型、张量、流水线和专家并行技术创新5D并行训练,夸娥全面支持Transformer等主流架构,显著提升大规模集群训练效率;基于自主研发的Simumax工具,夸娥能面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据;针对大模型稳定性难题,夸娥还创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。

为了保证夸娥稳定运行,摩尔线程创新推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。此外,KUAE集群还通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。

赋能开发者,服务千行百业

从图形渲染基石到AI算力引擎,摩尔线程全功能GPU持续加速计算革新。以“KUAE+MUSA”为智算业务核心,摩尔线程将加速赋能千行百业,推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。

展望未来,摩尔线程希望能通过全功能的GPU和“AI工厂”,用好的推理引擎,赋能更多开发者,让他们服务千行百业。

在WAIC 2025现场,摩尔线程还展示了联合国内科研机构,基于国产SPONGE和DSDP软件,打造的软硬件协同的生命科学解决方案;在物理仿真方面,摩尔线程携手硒钼科技,开启AI for Science科研新范式;此外,摩尔线程还带来了联合超图共同构建的、覆盖训练、推理到可视化的完整国产化链条的遥感大模型解决方案,补齐了遥感智能解译方案全国产关键一环。

不仅如此,全功能GPU赋能的创娱教育、智能制造、智慧医疗和智能驾驶,也是摩尔线程WAIC 2025展位上其他不得不提的亮点。

正如大家所见,人工智能正在改变每一个行业,但要实现真正的人工智能,需要面对的挑战毋庸置疑。因此,笔者认为。拥有夯实技术底座的摩尔线程,必然能在“AI+时代”扮演重要角色。

Top

1、赖斯谈引援:上赛季我们受困于伤病,而现在有了轮换阵容,赖斯身价

2、调拨4.3万件救灾物资,国家防减救灾委针对京冀启动国家救灾应急响应

3、人社微百科|职场新人入职,这些事项要注意!,新人入职应该

小编推荐

当前文章:http://www.share.floome.cn/PWP/detail/ugsdnm.html

相关阅读

网友评论

我要评论

发表
取消

枯井杀手