首页资讯

当“光”成为AI的命门,曦智的“英伟达时刻”近了 | 对话沈亦晨

时间:2025-07-28 15:32 作者:青铜剑客

当“光”成为AI的命门,曦智的“英伟达时刻”近了 | 对话沈亦晨


作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

把数百甚至上千颗GPU用光连起来,会发生什么?

你会得到一个带宽更高、延迟更低、能耗也更小的“光速”超节点。它不仅能将这些GPU的算力高效聚合,突破传统电互连的物理瓶颈,而且与英伟达的封闭体系不同,它能让各家国产GPU绕开协议的不同而彼此相连一起工作。

今天,这个充满野心的想法在第一次变成现实。

在2025年世界人工智能大会(WAIC)上,曦智科技发布了其光跃LightSphere X分布式全光互连芯片及超节点解决方案。这是国内首个光互连光交换的GPU超节点方案,更重要的是,它是一个真实落地开始提供算力的方案——它即将落地上海仪电的国产算力集群。


这是AI算力的重要一步,也是曦智的重要时刻。

1

AI

曦智一直在“等待”AI。

2017年,沈亦晨在麻省理工学院(MIT)读物理学博士,他在《自然-光子学》上发表了一篇论文。这篇开创性的论文,从物理层面证明了利用光子进行矩阵运算的可行性,为直接在光域中执行AI计算奠定了理论基础。它提供了一条超越传统电子芯片限制的全新路径。而硅光和神经网络,在那时是两个都处在极早期的技术,但也是两个注定会彻底改变人类利用科技能力的天花板的技术,也是从一开始就是为解决更宏大、更复杂的问题而存在的技术


博士毕业后,沈亦晨就创办了曦智科技。这家公司的技术路线从第一天起就带着某种信仰色彩——坚信光子最终会是突破计算能力和范式边界的钥匙。而要实现这个“信仰”,光的技术首先需要持续进步。

曦智在成立最初的多年,某种程度上像一个实验室般运营着,它沿着“计算”和“互连”两条路径,一步步积累着自己的“武器库”。从光子矩阵计算(oMAC),利用光本身完成AI核心的矩阵运算;到片上光网络(oNOC),用光连接芯片内部的各个计算核心;再到片间光网络(oNET),用光连接不同的芯片以构建更大规模的系统,曦智成为全球仅有的几个在硅光技术上持续突破的公司。

而另一方面,曦智也一直在等待一个足够大的问题出现,一个传统电子芯片方案无法解决,但对于人类技术进步又必须解决的问题出现。

沈亦晨和曦智也一直在寻找硅光技术的“杀手级应用”。他们曾在诸如伊辛算法等特定算法上,做到了比英伟达更快的处理速度。但这些依然是点上的突破,缺少规模化的震撼。

直到大模型带来的AI能力以及对算力的需求的彻底爆发。

最终,这个曦智一直在等待的时刻,与沈亦晨最初的论文形成了奇妙的互文。当年论文里提到的神经网络,在十余年的演进后,成为了今天最重要的技术。大模型的爆发,让所有资源向其倾斜,算力逐渐成为追逐通用人工智能(AGI)的关键瓶颈。

当成千上万颗GPU需要像一个大脑般协同工作时,连接它们的“神经”——传统的电缆——开始不堪重负。电缆在长距离传输高带宽信号时,会产生巨大的延迟和功耗,这限制了集群的规模和效率。要构建更大规模的集群,电互连的物理限制就成了绕不过去的坎。

——旧的方法即将失效,其中很重要的症结在于芯片间的互连能力。而光成了破局的答案,它成为了AI的命门。

1

AI也一直在“等待”光,曦智研究了许久的光。

今年的世界人工智能大会上,曦智发布的超节点方案,是其多年技术积累的集大成之作。“这是第一个落地的基于硅光的大规模方案。”沈亦晨说。

曦智此次发布了两个核心方案:一是“光互连电交换”,这是一个相对稳妥、更接近现有技术路径的方案;而另一个,也是此次发布的核心亮点,是更具革命性的“光互连光交换”方案。后者完全摆脱了对传统电交换芯片的依赖,是真正意义上的“全光”路径,它不仅更具创新性,也从根本上解决了当前开放算力生态中最棘手的协议壁垒和硬件瓶颈问题。

这套方案的核心,是曦智全球首创的“分布式光交换”(dOCS)芯片。传统的交换方案,无论是电交换还是光交换,都依赖一个中央交换机,像一个大型交通枢纽。而曦智的方案,则是在每一个GPU的“门口”都设置了一个微型、智能的光路切换站。这让数据流的调度变得极其灵活,且不受连接数量的限制。

更关键的是,这种交换方式发生在物理层,与上层的数据传输协议无关。曦智CTO孟怀宇解释说,这解决了国内GPU生态的一个核心痛点:十几家GPU公司,就像“十个国家说十种不同的语言”,各家有各家的互连协议,却缺少统一的高性能交换芯片。曦智的光交换方案,好比建立了一套不关心火车司机(协议)、只由中央控制台调度铁轨(光路)的铁路系统,“润物细无声”地将它们连接起来。


这正是AI算力在等待的解决方案。它不仅解决了中国算力特有的挑战,也指向了整个行业突破瓶颈的确定方向。

在全球超节点方案的版图上,此前一直由两家巨头定义着游戏规则。英伟达凭借其私有的NVLink协议和专用的电交换芯片,构建了一个性能强大但生态封闭的帝国,成本高昂且高度依赖定制化硬件。而谷歌则为其TPU定制了集中式光交换机,同样是“自产自销”的模式,技术门槛和成本都极高,令外界难以企及。

曦智的方案希望提供一条不同的更开放的方式。它不依赖先进的半导体工艺,也无需专用的交换机,从而能够兼容不同厂商的GPU。

此次的光跃LightSphere X分布式OCS全光互连芯片及超节点解决方案是国内首个光互连光交换GPU超节点解决方案。此次的参与方为壁仞科技、中兴通讯和上海仪电国产超节点算力集群,它接下来会变为一个开放且可复制的算力方案,更多的芯片厂商和AI上下游公司会参与进来。


“对于全新的技术,总得有人第一个站出来,不问‘还有谁用过?用的怎么样’这样的问题,而选择相信和使用这个新技术方案。”沈亦晨在最近和硅星人的对话中提到。光跃就是这样一个重要的突破。曦智与合作伙伴一起真正实现了千卡级的真实部署,成功地迈出了这最艰难的一步。

“算力没有足够一说,再多的算力都会被算法吃掉。”沈亦晨说。而这种对算力永无止境的需求,正是光技术价值的最终体现。更强大的互连能力,将催生出更强大的“集体计算能力”,从而“催生出可能更聪明的更先进的人工智能”。

AI想要兑现它所承诺的未来,其实也一直在等待一个能让算力无限扩展的方案,一直在等待光。

“以前的方案是轮子的话,我们相当于创造了翅膀,你可以飞到以前到不了的地方。”沈亦晨说。

1

“英伟达时刻”

“今天是硅光技术的最好的时代。”沈亦晨对硅星人说。在死磕技术多年后,今天也是曦智最好的机会。

曦智也为硅光技术进入现实世界做着更多层面的准备。两年前,公司的组织调整开始向产品和商业化落地倾斜。沈亦晨透露,他们引入了多位有商业化背景的高管,并将80%的工程资源投入到由市场和客户需求驱动的明确项目中。

一个积累了许久的“技术信仰”等来了它的“杀手级应用”,而且是会改变整个技术格局和AI发展范式的应用。这一切,都自然而然让人想到英伟达。

曦智互连产品线副总裁朱剑认为英伟达的很多成功,源于其创始人和CEO黄仁勋对“并行计算”这一核心技术的长期信仰。但即便是英伟达,也曾在移动计算时代惨败。在他看来,成功的关键在于“在恰当的时间出现在恰当的地方”。

而今天曦智的故事很是相似。当摩尔定律走向物理极限,整个行业都在寻求新的底层技术突破时,曦智多年来在硅光技术上的积累,恰好可以满足AI基础设施对更高带宽、更低功耗互连的根本性要求。

“我们前五年可能就是在等这些契机,现在契机来了,我们要做到的就是在这一波浪潮里尽快往前游,”沈亦晨说。“尽快把我们的客户,我们供应链,我们的生态链聚合起来,形成聚合效应,推动这个充满潜力的硅光技术进入更多真实世界里去。”

当“光”成为了今天AI算力命门,曦智的“英伟达时刻”看起来的确近了。

1

对话沈亦晨:这是硅光最好的时代

在光跃发布前夕,我们也和曦智创始人兼CEO沈亦晨以及核心团队进行了一场对话。以下为对话重点实录,经不改变原意的整理。

硅星人:这次发布是曦智的一个重要里程碑,可以先请您用自己的语言来跟我们介绍一下“光跃Lightsphere”分布式光交换全光互连芯片方案。

沈亦晨:曦智的初衷是用硅光技术提升计算能力。过去一两年,随着AI的爆发,如何让海量GPU高效协同工作成为关键问题,这需要创新的GPU互连能力。我们这次发布了两个方案:光互连电交换和光互连光交换。前者是比较稳妥的方案,而后者是我们全球首创的,更适合当前市场需求的创新方案。

它对应两个问题,为何要用光互连,以及为何用光交换

先说为何用光互连。目前传统方案是“8卡一机”,节点规模小,协同效率低。为了训练更大模型,如果把这个比喻成一个个班集体,那么小的班集体当需要组织起来完成任务的时候就效率很低。所以我们需要把“班集体”的规模扩大。英伟达的NVL72系统就是将72张先进的GB200 GPU置于一个机柜内,形成了强大的算力单元。要实现同等级别的算力,国内需要将数百乃至上千个GPU以高带宽、低延迟连接在一起。

而传统的铜缆线连接距离一旦超过1米,性能便会急剧下降,无法满足需求。因此,我们必须用光。我们为此定制了低延迟的LPO光互连芯片,能直接与国产GPU互连。

另外,为何用光交换。核心因为这是与协议无关的分布式交换。

当超节点规模变大,GPU间的“交通管制”就成了挑战。英伟达有NVSwitch这样的电交换芯片作为“红绿灯”,但国内绝大多数GPU公司没有类似的高性能电交换芯片。更棘手的是,国内各家GPU公司的互连协议各不相同,如同“说不同的语言”,难以用一个统一的电交换芯片去管理。

我们的光交换方案则不依赖协议。它像一个由中央控制的铁路轨道系统,直接在光的物理层面进行路径切换,绕开了协议的复杂性。同时,电交换方案能连接的GPU数量有上限,而我们的分布式光交换芯片随GPU数量一同扩展,理论上可以构建任意规模的超节点。

硅星人:这个技术方案诞生的关键节点有哪些,另外,如果按照“班集体”来比喻,想要改变班级结构,需要班内成员们同意,也就是这些GPU公司们,这个合作过程是怎样实现的

沈亦晨:我们的光互连芯片能力在2022年、2023年就已具备,最初是为自己的光计算产品开发的。之后转折点出现在2023年底,GPT的诞生催生了巨大的市场需求——如何突破单个GPU的算力限制,在集群层面训练出更好的模型。这个契机让我们将内部的互连技术向外输出,服务更广泛的客户。

至于合作,首先是需求驱动。当英伟达等头部玩家都开始拥抱“超节点”时,其他GPU公司这是一个不得不做的选择。其次,我们的方案本身具备优势。用光纤替代铜缆,本质上并不需要修改GPU间的互连协议,只是更换了物理媒介,像是“汽车换成了火车”。我们与系统厂商一起,帮助GPU客户定义了这种新的光互连方案。

硅星人:这个复杂的长链路合作里,曦智扮演着什么样的角色?

沈亦晨:首先,我们提供底层的核心芯片能力,包括硅光芯片和配套的国产电芯片,确保了供应链的安全。

其次,仅有芯片是不够的,因为这是一个全新的系统方案。因此,我们深度参与了整个系统方案的设计,从芯片到模组,再到服务器层面。例如,我们会和GPU公司合作,在他们的板卡上为光互连预留物理空间,并参与服务器的整体系统设计。我们与头部的服务器厂商、GPU公司共同完成了方案的升级和落地。

我们的光交换方案对协议不敏感,能“润物细无声”地融入现有碎片化的协议生态,这在当前“互连为中心”的趋势下,让我们处于一个非常有利的生态位。


国内首款xPU-CPO光电共封装原型系统

硅星人:所以从大的方向上来看,其实光的方案是所有人的共识,那么在一个闭环体系,像是英伟达的体系里去做光互连,和在一个曦智现在想要建设的开放体系里面去做相比,哪个挑战更大,还是说从技术挑战角度,要求其实是一样的。

沈亦晨:这是个好问题。

其实两者各有优劣。闭环体系的优点在于内部协调高效,所有部件都由一家公司定义。而开放体系的优势在于,它能像以太网生态一样,吸引众多玩家参与,通过充分竞争来优化每一环节的成本和鲁棒性。

从技术路线上看,封闭体系在推进光电共封装(CPO)这类需要紧密协同的技术上可能更容易。但从长远来看,开放体系更加健康,对技术创新也更有利。在当前国内环境下,开放的算力体系能催生更多元的想法和路径。我们的方案就是在一个追求不同路径的开放环境中诞生的,这对于初创公司至关重要。

硅星人:这个过程里,你们已经有些建立标准和打造协议的意味了。

沈亦晨:我们认为当前国内的关键不是创造更多的新协议,而是让更多的GPU厂商能统一到一个公认的开放协议上。目前,各家GPU、客户、运营商都在推自己的协议,短期内很难看到快速收敛的趋势。

在这种背景下,曦智最大的优势在于我们的技术方案发生在物理层,与上层协议无关。我们坚信,当你能提供足够大的带宽时,上层跑的是什么协议其重要性就会大大降低。

因此,我们的策略不是去定义协议,而是提供一个能兼容所有协议的物理层解决方案,为算力公司提供强大的武器。

硅星人:黄仁勋今年GTC上反复强调“Scale Up Before Scale Out”,而曦智的方案跨越了机柜。你们如何理解这个理念?

沈亦晨:我们做的恰恰是Scale-Up网络,也就是超节点内部的互连网络,而不是Scale-Out网络(节点间的以太网)。我们和黄仁勋的理念是一致的:超节点会越来越大,Scale-Up网络也需要随之壮大。

黄仁勋语境里的Scale-Up,在过去可能受限于物理机柜。而我们的创新之处在于,通过引入光,打破了机柜的物理边界。这使得Scale-Up变成了一个逻辑上的概念,你可以将多个机柜内的GPU组成一个逻辑上的、统一的超节点。所以,我们是用一种更创新的光互连方案,去实现一个规模更大、跨越物理机柜的Scale-Up。

硅星人:客户“算账”的方法也因此变化了。

沈亦晨:对。和英伟达的计算方法不太一样。评估成本不能只看单个部件,而要算总账,尤其是研发成本和机会成本。

对于英伟达以外的公司,要从零开始自研一套类NVSwitch的电互连超节点方案,研发成本是极其高昂的,这也是为什么市场上鲜有成熟替代方案的原因。

我们的方案巧妙地规避了这一点。一是复用成熟生态: 我们方案基于成熟的服务器生态,复用了大量现有组件,大大降低了客户的早期研发投入和试错成本。二优化系统架构: 我们的光交换方案省掉了昂贵的独立交换机,直接优化了系统BOM成本。三,供应链控制:我们采用了部分国产供应链,能对光学产品的成本进行有效控制。

综合来看,通过降低研发门槛、优化系统架构和控制供应链,我们的方案在整体上提供了一个高性价比的选择。


硅星人:今天AI算力需求的爆发,相当于是曦智一直在等待的“杀手级应用”时刻来了。

沈亦晨:可以这么理解。大家也可以看到过去的两年里面,整个硅光在国际上面的热度和重视度显著地好于再往前的十年,今天甚至可能是历史上最好的时候。

包括台积电、英伟达、博通其实都真金白银投入了。台积电已经真的有成百上千个人在这个产线上,英伟达在他的GTC上也直接说了他未来的光互连,博通已经开始批量推出这些产品。

所以这些其实都说明现在随着算力的集群和需求越来越大,硅光是一个必然的解决方案。而我们原来其实起步比较早,但别人很多东西可能要从头开始做。

硅星人:这是曦智重要的转折点,公司面对的局面的变化,对于你带来哪些挑战。您从MIT毕业创业到今天,一开始有些像一个Lab一样,而今天显然商业化的味道更浓了。

沈亦晨:我们的商业化转型其实从两年前就已经开始了。公司在组织架构、人才引进和内部绩效上,都全面转向以产品和商业落地为核心。近几年,我们的业务收入每年都实现翻倍增长,今年芯片出货量也达到了几万颗的体量。

所以,我们并非今天才开始商业化,而是早已为此做好了准备。最大的挑战始终在于市场教育。任何创新技术都会面临客户的疑问:“还有谁在用?效果怎么样?”。幸运的是,我们已经有了近万卡规模的落地案例,成功解决了“从0到1”的问题。有了这些成功实践,我们相信后续的推广会越来越顺利。

硅星人:今天曦智的故事让人很容易联想到英伟达,英伟达从一个显卡公司到基础设施公司再到AI公司,总在改变自己的定位,曦智今天如何定义自己?英伟达的成长历程给你们哪些启发。

沈亦晨:公司的定义会随着阶段而演进。我们最早是一家基于硅光技术,聚焦计算创新的公司。随着AI基础设施的演变,我们现在的核心目标是“用光电融合的技术,赋能整体算力的飞跃。

英伟达的历程给我们的启发是深刻的。首先,要坚持核心信仰。黄仁勋对并行计算的坚持,与我们创始团队对硅光技术能突破摩尔定律极限的信仰是类似的。其次,要具备在不同时代都能存活和学习的能力。英伟达并非一帆风顺,它在移动计算时代也曾惨败。这告诉我们,即使是伟大的公司也无法左右时代的浪潮,但必须在恰当的时间出现在恰当的地方,并具备满足时代要求的能力。

我们认为,摩尔定律放缓后,行业需要物理底层的替代方案。而曦智所具备的光电融合技术,恰好能满足这个时代的要求。

硅星人:在光互连技术之外,曦智的光计算等其他技术将如何发展?不同技术线之间如何协同?

沈亦晨:公司主要有两条产品线:互连产品线(如Lightsphere)和计算产品线(如天枢)。

它们底层共享着曦智的核心技术平台,包括硅光IP、电芯片IP、先进封装技术等。我们的工程研发团队是统一的“中台”,不按产品线划分,以保证底层技术的通用性和前瞻性。资源分配上,约80%的资源由市场需求驱动,投入明确的产品开发;剩下20%由CTO主导,进行面向未来的前沿技术探索。

两条产品线也是相辅相成的。计算产品线是互连产品线“最激进的客户”,它对性能的极致追求,会不断推动互连技术(如片上光网络、CPO)的创新。同时,互连产品线又是一个开放的平台,可以服务所有外部的GPU和算力客户。


硅星人:如果我们最后想象一下在5年乃至更远的未来,曦智的技术将如何改变算力世界?最终的图景是怎样的?

沈亦晨我们有几个核心预判。

五年内,智算中心里硅光芯片的数量和面积,将可能与电芯片并驾齐驱,甚至超过。我们预测硅光芯片占比至少会达到30%以上。另外,成本会随着规模化而成倍下降,形成“成本降低—应用更广”的正向循环。

而且,光计算将在3年内通过一些支柱应用(如高频交易、大模型推理)实现规模化商用出货。

最终的图景是,通过光的能力,重塑计算和连接。

在互连层面,更强大的互连能力就像是为AI世界提供了更高效的通信工具,让构建更大规模、更复杂的项目成为可能,从而催生更强大、更聪明的通用人工智能。

在计算层面,如果说传统电芯片是“轮子”,英伟达的GPU是“高铁”,那么我们的光计算就是一种全新的工具——“翅膀”。

翅膀不仅能让一些对速度和延迟极度敏感的场景“飞得更快”,更重要的是,它能到达“高铁”去不了的地方。有些计算任务,受物理定律限制,用电就是做不到的,而光计算可以。这就是光计算的独特价值,它将为算力世界开辟全新的可能性。


点个爱心,再走 吧

Top

1、被误读的伤痕文学:主角大多数不是知青,农民的伤痕更戳心,伤痕文学和知青文学

2、美欧达成总价13500亿美元大单,美欧达净水机质量怎么样

3、明日起,广州地铁试点“闸机常开门”模式

小编推荐

当前文章:http://www.share.floome.cn/HJU/detail/spvctc.html

相关阅读

网友评论

我要评论

发表
取消

青铜剑客