我国企业开源高精度三维视觉模型 突破透明物体识别技术瓶颈

蚂蚁集团旗下具身智能公司灵波科技1月27日宣布开源LingBot-Depth高精度空间感知模型,这是该公司在2025年推进具身智能技术基座建设的重要举措。

该模型基于奥比中光Gemini330系列双目3D相机的芯片级原始数据开发,旨在为机器人、自动驾驶汽车等智能终端赋予更精准的三维视觉能力。

当前,机器人和自动驾驶等智能终端在复杂环境中的空间感知仍存在明显短板。

在家庭和工业场景中,玻璃器皿、镜面、不锈钢设备等透明和高反光物体广泛存在,但传统深度相机因受光学物理特性限制,在面对这类材质时往往无法接收有效回波信号,导致深度图出现数据丢失或产生噪声。

这一行业共性难题长期制约着机器人环境感知的精度和可靠性,成为具身智能发展的关键瓶颈。

为解决这一难题,灵波科技研发了掩码深度建模(MDM)技术。

该技术的核心创新在于,当深度数据出现缺失或异常时,LingBot-Depth模型能够融合彩色图像中的纹理、轮廓及环境上下文信息,对缺失区域进行智能推断与补全。

通过这一方式,模型可输出更完整、更致密、边缘更清晰的三维深度图,显著提升消费级深度相机对高难物体的处理效果。

这意味着机器人在复杂环境中的空间理解能力将得到实质性提升。

LingBot-Depth模型的开源发布具有重要的产业意义。

一方面,它为机器人制造商、自动驾驶企业等提供了更可靠的视觉感知基础,有助于加速具身智能产品的商业化进程。

另一方面,通过开源方式共享技术成果,有利于推动整个行业在三维视觉感知领域的技术进步,降低创新企业的技术门槛。

从蚂蚁集团的整体布局看,LingBot-Depth模型的推出是其加速人工智能战略的重要组成部分。

2025年以来,蚂蚁集团已发布AI医疗管家阿福、通用AI助手灵光等产品,布局了具身智能领域的灵波科技,旗下蚂蚁百灵大模型也跻身万亿参数模型阵营。

这些举措表明,蚂蚁集团正在从通用大模型、行业应用、具身智能等多个维度构建完整的AI生态体系。

灵波科技方面透露,本周还将陆续开源多款具身智能方向模型,进一步完善技术基座建设。

让机器真正理解三维世界,不只是“看见”的问题,更是“看准、看稳、看可信”的系统工程。

面向透明与反光物体的感知突破,体现了以算法与数据融合弥补硬件局限的产业共识。

随着更多关键模型与工具开放共享、评测标准逐步完善,具身智能有望在更广泛的真实场景中验证价值,也将对安全治理、工程可靠性与产业协作提出更高要求。