问题——空间智能卡“看得见但看不准”; 从服务机器人到具身智能系统,空间智能提供感知、定位、规划与操作等基础能力。现实中,机器人要完成“拿杯子”“进电梯”“避开玻璃门”等任务,不仅要识别目标,更要准确判断距离、边界和可达空间。但在大量室内场景里,透明材质、强反光表面、低纹理墙面等情况很常见,RGB-D相机在这些条件下容易出现深度缺失、噪声增大、目标粘连等问题,进而导致抓取失败、导航偏差,甚至带来安全风险。 原因——数据难采、难对齐、难覆盖,制约算法迭代。 业内普遍认为,提升空间理解能力离不开大规模、高质量的三维数据支撑。相比互联网上海量二维图像,RGB-D数据采集不仅要保证左右视角一致性与时空同步,还要处理不同硬件在成像与深度测量上的差异。更关键的是,深度传感在玻璃、镜面、金属反光等材质上先天表现不佳,导致关键难点场景的可用样本长期不足。数据不足使模型容易出现“见过的能做,没见过的就失灵”,系统往往只能通过叠加硬件、提高成本来弥补感知短板,行业迭代效率因此受限。 影响——落地成本上升,应用边界受限。 数据底座薄弱带来的连锁反应,首先体现在泛化能力不足:机器人在实验室表现稳定,进入家庭、医院、商场等开放环境后性能波动明显。其次体现在验证体系不完善:缺少统一、可复现的高质量数据与评测集,不同方案难以横向对比,也不易快速定位问题原因。最终体现在产业推进上——感知不稳定迫使产品在传感器与算力上“过度配置”,推高部署与维护成本,影响规模化落地。 对策——以开源数据基座补齐关键样本,推动形成通用能力。 针对上述痛点,蚂蚁灵波开源LingBot-Depth-Dataset数据集,总规模2.71TB,包含300万对已标注RGB-D数据。每对样本由RGB图像、传感器原始深度图与真值深度图构成,便于研究者围绕深度补全、去噪、鲁棒估计等环节开展训练与对比验证。 从数据构成看,该数据集以真实数据为主:约200万对来自真实采集,其中约140万对由多台RGB-D相机在室内真实环境采集(RobbyReal),约58万对由机器人在有关任务中采集(RobbyVla)。场景覆盖住宅、教室、博物馆、商店、医院、健身房及电梯等高频空间,有助于提升模型在复杂光照与多材质环境下的适应性。数据集还包含约100万对合成数据(RobbySim)以及约3.8万条仿真验证集(RobbySimVal)。“真实采集+仿真生成”的组合,一上补足边缘场景与难采样本,另一方面降低大规模采集成本,为持续迭代提供更可扩展的路径。 前景——从“堆硬件”转向“强数据+强算法”,空间智能有望进入快车道。 业内人士认为,开放、标准化的数据基座将降低空间感知研究门槛,促进算法复现与快速迭代,并推动形成更一致的评测体系。随着真实多场景数据持续扩充、仿真数据生成更贴近物理规律,模型在玻璃门、电梯镜面、反光金属等难点场景下的稳定性有望更提升。面向应用端,数据与模型能力增强将带来更高的任务成功率与更可控的部署成本,推动服务机器人、仓储物流与公共服务等领域加速落地。同时,开源生态也将促进产业链上下游协同,推动形成从数据处理、训练评测到部署优化的技术闭环。
从“堆硬件求稳”转向“建数据打底”,反映出空间智能发展逻辑的变化:越接近真实世界,越需要高质量、可验证、可复用的数据支撑;数据基座的开放,有助于推动技术从演示走向可靠应用,也为机器人更安全、更普惠地进入日常生活提供了新的可能。