阿里达摩院发布具身智能大脑基础模型RynnBrain 在16项评测中刷新纪录超越国际顶尖模型

在真实环境中,机器人往往面临“任务被打断、场景持续变化、目标位置转移”的复杂情况:执行清洁、搬运或巡检等任务时,临时插入新的指令并不罕见。

机器人能否记住先前任务的时间与空间状态,完成插入任务后再无缝续接,直接决定其在生产与生活场景中的可用性与安全性。

业界普遍认为,具身智能从实验室走向规模化部署,关键瓶颈之一就在于复杂环境下的泛化能力与可靠决策能力不足。

达摩院此次发布的具身智能大脑基础模型RynnBrain,瞄准的正是上述痛点。

相较于传统视觉语言模型偏重“看懂、说对”的能力,具身场景需要模型在连续交互中保持对环境与目标的稳定表征,同时能够在空间中进行可执行的推理与规划。

为此,RynnBrain在训练与推理机制上引入两项关键能力:一是时空记忆,使机器人能够在历史轨迹中定位物体与目标区域,并结合时间线索对运动趋势作出预测;二是物理空间推理,通过文本与空间定位交错的推理策略,让推理过程更紧密地锚定真实场景,从而降低“看似合理但与物理环境不一致”的错误判断。

以此为基础,机器人在执行任务A时被打断转去处理任务B,完成后仍可依据既有的时间与空间线索恢复任务A的进度与位置关系,提升连续作业的稳定性。

从原因看,具身智能目前主要存在两条技术路线并行探索。

其一是以动作输出为核心的动作模型路线,强调端到端控制与操作能力,能够直接生成可执行动作,但往往受限于高质量数据稀缺与场景覆盖不足,导致跨环境、跨任务泛化较难。

其二是以“认知中枢”为核心的大脑模型路线,借助视觉语言等模型的通用理解能力来提升泛化,但在持续记忆、动态认知与物理一致性方面容易出现短板,难以支撑更复杂的人形移动与操作任务。

RynnBrain试图在大脑模型路线中补齐“记得住、推得准、能规划”的关键环节,以更接近真实部署的方式增强可靠性。

在影响层面,此次开源释放了更完整的工程能力与生态信号。

一方面,达摩院一次性开源7个全系列模型,覆盖全尺寸基础模型与后训练专有模型,并提供完整的推理与训练代码,有利于科研机构与企业基于同一技术底座进行复现、对比与二次开发。

尤其是30B MoE具身模型的推出,强调以较低的推理激活参数实现更高效果,有望在算力与实时性受限的机器人端侧部署中降低门槛,推动更快、更平滑的动作执行。

另一方面,同步开源评测基准RynnBrain-Bench,面向时空细粒度具身任务提供更可对齐的衡量尺度,有助于缓解“指标不统一、难以横向比较”的行业问题,推动研发从单点能力展示转向可量化的系统能力提升。

在对策与路径选择上,开源并不等同于“能力自然落地”。

具身系统要进入真实场景,仍需围绕安全、鲁棒与成本建立系统工程闭环:其一,强化数据与场景的持续迭代,建立覆盖不同光照、遮挡、动态人群与多物体交互的训练与测试集合;其二,将模型能力与控制系统、传感系统深度协同,确保推理结果可执行、可约束、可回退;其三,引入更严格的评测与验证流程,特别是在导航、抓取、人机协作等高风险任务中,必须用可解释的失败分析与边界条件管理来降低不确定性。

达摩院方面表示,相关工作旨在为“大小脑分层架构”下的通用具身智能迈出关键一步,并已在构建可部署、可扩展、可进化的具身智能系统框架。

面向前景,具身智能正处在从模型竞赛走向产业化验证的关键阶段。

随着开源模型、训练方法与评测体系逐步完善,行业竞争将更多转向三方面:能否在多任务连续交互中保持稳定可靠,能否在有限算力与成本约束下实现实时规划与执行,以及能否形成可复制的场景落地能力。

可以预期,具备时空记忆与空间推理的基础模型将加速在仓储物流、工业巡检、商业服务等场景的试点与迭代,同时也将推动产业对安全规范、测试标准与数据治理提出更高要求。

此次技术突破标志着我国在人工智能关键领域实现从跟跑到领跑的转变。

随着基础模型的持续优化和行业生态的不断完善,具身智能技术有望重塑人机交互范式,为智能制造、智慧城市等国家战略提供核心支撑。

这一进展也启示我们,坚持自主创新与开放协同并重,是突破技术壁垒、赢得发展主动权的关键路径。