中国团队创新具身智能研究平台 打造楼宇级数字试验场赋能机器人跨层任务

问题:从医院跨楼层运送物资、在写字楼多楼层配送、在家庭跨空间完成家务等任务,往往具有时间跨度长、空间结构复杂、状态变化多等特点,是检验具身智能能否走向真实应用的关键门槛。

然而,当前不少研究仍主要在单层、低复杂度的室内场景中验证算法,缺少楼梯、电梯、连廊等垂直交通与跨层连接结构,难以覆盖真实楼宇的组织方式与任务链路,导致实验结论与现实需求之间存在“环境鸿沟”。

原因:业内长期面临两类制约。

一方面,真实建筑扫描与标注代价高,且难以按研究需要进行可控编辑与复用;另一方面,既有合成环境往往采取房间或单层模块拼装,缺少从整栋建筑层面进行功能分区、动线组织与结构约束的生成机制,场景可用性、连贯性与物理一致性难以保证。

场景基准建设滞后,使得导航、操作、记忆与规划等能力难以在接近真实的条件下被系统评估与迭代。

影响:场景能力不足直接影响模型训练与测评的可信度。

一旦任务从“单房间短动作”扩展到“多楼层长链路”,智能体需要持续进行空间推理、路径选择、目标保持、状态记忆与失败恢复,现有方法容易出现性能下滑,暴露出长期规划与跨空间一致性等薄弱环节。

缺少统一、规模化、可交互的楼宇级平台,也限制了不同团队之间的可比性与复现实验,进而影响技术从实验室走向行业落地的节奏。

对策:针对上述痛点,研究团队提出MANSION混合框架,将多模态预训练模型的语义生成能力与几何求解器的结构约束能力结合,实现从自然语言描述到多楼层三维建筑的端到端生成。

该框架强调“先全局、再局部”的建筑逻辑:先规划整栋楼的功能分区、垂直交通组织与整体风格,再逐层生成拓扑关系与房间布局,并通过几何约束生成满足物理与尺度要求的平面图,最终输出可在仿真平台中直接运行的交互式三维场景,从源头提升楼梯、电梯等跨层结构的对齐合理性与可用性。

围绕框架落地,团队同步发布MansionWorld数据集,包含1000余栋2至10层的多楼层建筑、总计万余个房间,覆盖住宅、办公、医院、学校、商超等典型业态,并支持导出至Blender、NVIDIA Isaac Sim等工具链,便于全球研究者开展训练、评测与二次开发。

与此同时,团队对AI2-THOR仿真器进行了扩展,补齐楼梯、电梯等资产与机制,推出面向长链任务的技能接口,封装跨场景切换与状态管理能力,支持楼层间无缝跳转与精准落位;并引入任务语义场景编辑智能体,可按任务指令对环境进行快速调整,实现“一栋楼多任务”的高复用配置,降低实验构建成本、提升迭代效率。

前景:CVPR作为计算机视觉领域重要国际会议,MANSION入选体现出学界对楼宇级场景生成与测评体系创新的关注。

业内人士认为,随着服务机器人、楼宇物流与智慧医疗等需求增长,具身智能的竞争焦点将从“单点能力展示”转向“复杂环境下的稳定执行”,场景生态与评测基准的建设将成为关键基础设施。

面向未来,楼宇级数字场景有望与真实建筑运维数据、传感信息和任务流程进一步对接,推动训练与验证从“可用”走向“可信”,并为跨楼层导航、长期记忆、任务分解与安全协同等能力突破提供持续的试验条件。

MANSION框架的诞生,不仅是中国科研实力的体现,更是全球具身智能发展的重要里程碑。

这项技术突破启示我们,人工智能的进步不仅需要算法创新,更需要建立与真实世界相匹配的研究范式。

随着数字世界与物理世界的边界逐渐消弭,中国科研团队正在这一融合进程中扮演着越来越重要的引领者角色。