具身智能机器人不够智能?聆动通用CEO季超:“大小脑结合” 是破局关键
本文来源:时代周报 作者:何珊珊
2025世界人工智能大会(WAIC)现场,人形机器人展台空前火热,前来观摩者络绎不绝。
这正折射着具身智能前所未有的话题热度。伴随机器人登上春晚舞台、全球首个人形机器人马拉松比赛举办,具身智能正一路成为AI领域最热门的赛道之一。
在这样的节点,2024年12月,“讯飞系”的安徽聆动通用机器人科技有限公司(以下简称为 “聆动通用”)正式成立。聆动通用是安徽省首家“大脑-小脑-本体”全链路自主可控的硬科技初创企业,同时具备多场景商业闭环的实践经验。依托讯飞星火认知大模型底层能力,该公司致力于将具身大模型和通用机器人本体深度耦合,打造新型生产力。
在本次WAIC上,聆动通用发布全新产品——具身智能采训推一体机。
聆动通用CEO、科大讯飞机器人首席科学家季超对时代周报记者介绍,公司这次展出的采训推一体机,提出了“消费级与工规级融合方案”。聚焦行业级具身数据缺失重大问题,应用于具身智能机器人面向真实场景的技能提升训练,这或将是具身智能机器人从算法实验室走向工业产线的关键第一步。
在孵化聆动通用之前,科大讯飞已有自己的机器人产品及相关技术布局。
2022年初,科大讯飞启动了“讯飞超脑2030计划”;2023年,季超团队发布业界首个集成全自主国产认知大模型的具身智能人形机器人,在国内率先打通以大模型和具身智能为代表的机器人全链路;2024年,世界机器人大会上,科大讯飞展示了一款高约1.7米,体重为60公斤的大模型+具身智能的人形机器人,整体运动性能提升2倍,复杂任务拆解成功率超95%,开放场景物体寻找成功率超过85%。此外,科大讯飞还推出过AI扫拖机器人X3、AI助教机器人X1等细分场景的机器人产品。
就机器人在工业场景中的应用,从技术逻辑看,具身智能的核心矛盾始终存在:一方面,工业生产要求机器人具备近乎100%的可靠性,任何“幻觉”都可能导致生产线停摆;另一方面,通用大模型+机器人在实际场景中的规划成功率目前还达不到工业级要求,高质量数据的稀缺与跨场景适配的复杂,让机器人难以突破“实验室好用、工厂不好用”的困境。
立足于数据缺失难题,季超与他的团队对采训推一体机的研发探索,正是试图通过“消费级与工规级融合”的硬件创新、“全栈数据链打通”的软件架构,在成本与精度、通用与专用之间找到平衡。
在WAIC现场,季超坦言,具身智能的终极战场不在舞台,而在产业应用,聆动通用和科大讯飞要让机器人对人类生产真正产生帮助。
受访者供图
重塑机器人应用:大小脑结合,探索具身智能的突围路径
时代周报:采训推一体机强调“全栈数据链打通”,关键技术节点有哪些?如何与科大讯飞的核心技术(如星火大模型、语音交互)协同?
季超:采训推一体机关键技术节点包括跨不同本体的适配(例如解决构型、协议和格式等差异)、数据清洗(高质量的数据)等。从协同来说,星火大模型是“大脑”的核心支撑,采训推一体机则是基于底层能力,开发属于自己的具身智能大模型。简而言之,聚焦机器人行业突破,是平台+赛道的逻辑。
时代周报:此次推出的采训推一体机为何采用消费级与工规级融合的方案?这与行业内其他数据采集设备有何本质区别?
季超:采训推一体机核心是为了解决高质量数据稀缺的问题。具身智能领域最稀缺的是高质量的机器人操作数据,数据采集最核心的目的是为了后续的模型训练。
众所周知,工业场景需要长时间、高强度的数据采集,需要更加严苛的工规级方案,从而保证数据稳定性,但纯工规级成本太高,因此只能在关键环节用工规级,其他部分用消费级,这样既控制成本又能满足模型训练需求。
我们的产品与其他数据采集设备的区别在于,多数设备厂商只卖硬件,很难负责后续数据的治理和使用。而我们推出的一体机则是“数据+服务的商业模式”,所产生的数据是为后端的具身大模型服务的,其采集的真机数据直接用于聆动具身VLM基座模型的微调,从而形成“数据采集—模型训练—硬件部署-场景落地”的全链条闭环。
时代周报:当前工业场景中,机器人数据采集和模型训练的痛点具体表现为什么?
季超:比如,在汽车零部件分拣场景,SKU种类成千上万种,且不同品牌机器人的数据格式、接口协议也存在不统一的情况。小模型的开发成本高,采集的数据现阶段也很难互通,模型训练时要先花大量精力做数据质量的校验和筛选转换,效率极低。
时代周报:聆动通用的一体机方案提到“大小脑结合”是核心技术路径,能否用通俗的语言解释这一模式如何解决机器人泛化性差的问题?
季超:“大脑”是指我们的视觉-语言多模态基座模型,基于互联网海量数据预训练而成,形成针对特定任务的先验知识,让机器人具备一定的推理能力;“小脑”则是通过一体机采集的真机数据,针对性微调,让机器人具备一定的规划能力。
现阶段,不同场景用小模型逐个开发成本相对较高。我们的基座模型通过少量真机数据微调,就能快速适配多SKU零件分拣,并在“类”级任务之间实现较低成本的泛化,这得益于“大小脑结合”的范式革新。
时代周报:您曾说,通用大模型的60%成功率与工业要求99.999%可靠性差距巨大。那么,如何缩小差距、解决痛点?
季超:差距的本质是模型对陌生场景的误判,工业场景天然把每一个工序的边界尽可能压缩,本质上并不需要特别长程的规划,但是对节拍效率和精度有要求。因此,大脑加小脑的预训练加微调的方案,一定程度上可以通过提高数据质量降低幻觉风险。
我们提出的解决方案核心价值在于“用真实数据对抗幻觉”,从而提升任务数据质量。在硬件层面,现在市面上大部分的人形机器人操作精度只有厘米级,但我们基本上达到毫米级。我们通过设计一体机实现高质量真机数据,具体到任务场景设计,尽可能约束和定义清楚目标场景任务。随后,在预训练模型中实现海量数据预训练,从而形成先验。这样就可以从大脑、小脑以及硬件层面,共同降低幻觉风险,提升整个工业级应用的可用性和可靠性。
时代周报记者现场摄
具身智能:机器人行业的范式革命
时代周报:聆动通用成立时,具身智能硬件领域已有众多玩家,为何选择此时入局?核心竞争力在哪?
季超:2021年,科大讯飞已内部关注并开始布局具身智能。
具身智能和大模型的发展路径比较类似,简单来说,就是在多模态大模型基础上,进一步进行模态拓展。所有能被数字化的信息都可以被Tokenize,所有 Token 都能被Transformer 拟合。具身智能接下来要走的路,就是过去几年大模型已经走过的路,这将是机器人行业的范式革命。
我们认为,具身智能前景非常广阔,足以让各家各显神通。
就聆动通用而言,我们的核心竞争力主要在于三点:一是科大讯飞在大模型领域的丰富积累,具备切入具身领域的惯性优势;二是长期以来,团队沉淀的行业场景理解和数据积累可以快速形成数据飞轮以及到模型-应用的闭环;三是AI+供应链的理解和整合能力。现阶段,具身机器人供应链虽然比较全。但是从系统集成角度看,距离真实行业落地还有距离,目前大多处在消费级、科研级。
时代周报:您认为具身智能“规模化”的标准是什么?采训推一体机能否推动行业迈过这道坎?
季超:规模化的标准,业界各有不同理解。我们认为,首先,整体技术范式要形成初步共识,才会有规模化的可能。目前看这两年基本开始收敛;再者,除了技术路线和技术架构的共识,规模化还需要在高质量的数据标准上形成一致。我们推出一体机也是希望构建未来的AI数据基建工程。
时代周报:未来10~15年,采训推一体机这类设备会带来哪些新职业,新业态?聆动通用想在其中扮演什么角色?
季超:职业上,可能会催生“机器人训练师”这类新职业。比如,用采训推一体机采集任务操作数据并训练技能模型,让机器人快速掌握新技能,从而在AI浪潮下催生的数据标注师等职业;
产业上,未来分工也会更细,有公司做通用硬件,有公司做场景化模型。我们则希望在全球竞争中,步入具身+高端制造业领域的“国家队”序列,并凭借全栈能力重塑上下游产业链,构建下一代具身智能机器人核心产业链,从而推动机器人从科研、消费层进入工业实际生产,满足千行百业需求,构建新一代生产力工具。
1、燃油车限购限行还要交燃油税,是否应同车同权,改善燃油车销量下滑的情况?
2、坐高铁节约下来的5小时,每小时要多花35元,高铁5小时还是飞机2小时