这事儿挺有意思,蚂蚁灵波这回把一个超级大的数据集拿出来了。规模有2.71T,里面有200万对真实场景的数据。他们选了Orbbec 335、335L这两款,还有Intel RealSense D405、D415、D435、D455这四款相机,总共6款主流设备来拍的。光是这次就拿出了300万对高质量样本,剩下那100万对其实是用渲染做出来的。 以前大家用的公开数据集吧,主要问题就是规模小,硬件设备太单一,好多数据都是假的合成的。蚂蚁灵波弄的这个正好补上了这个窟窿,特别是给空间感知和三维视觉这些方向提供了很有价值的数据。咱们看图就能看到,每一条样本里头都有RGB图像、传感器原始的深度图和真实的深度图。这种设计能直接用来练模型做评估。 更关键的是,这套数据集特别能帮助提升模型在不同设备和场景下的表现。之前他们开源的那个高精度模型LingBot-Depth,就是拿这套数据集当核心素材练出来的。跟现在业内常用的PromptDA和PriorDA比起来,这个模型在室内场景里的误差能降70%,在补全稀疏深度的时候也能降低47%。 现在市面上的深度相机如果用了这个模型,硬件都不用升级,在透明玻璃、反光镜面还有逆光这些难搞的地方,都能输出更完整、更平滑、边缘更清晰的图。而且在某些情况下,效果还能超过那种顶级的工业级相机。 对于高校和科研机构来说,这次开源降低了数据采集和标注的门槛,也能把技术更快地从研究搬到实际应用里去。毕竟现在机器人和具身智能要真的走进生活了,大家都得靠着这种高质量的真实数据集才能往前推进。