商汤开源空间智能模型SenseNova-SI-1.3综合评测登顶,多项高难任务表现突出

空间智能已成为人工智能研究的重要方向,但面临独特的技术挑战;与传统的目标识别不同,空间智能需要模型将二维视觉信息转化为三维空间理解,这个转换过程远比扩大数据规模复杂得多。最新研究发现,视角转换能力与现有多模态大模型的整体能力关联度极低,主流算法路径可能并非解决这个问题的有效方向。更棘手的是,空间智能存在反尺度效应,即模型规模增大并不必然提升任务性能。 针对这一难题,商汤科技采取了系统化的技术方案。团队将视角转换视为连接二维视觉与三维空间理解的关键环节,将其分解为递进式的能力阶段,并构造了层次分明的训练数据。更具创新意义的是,团队通过重组和再利用多个数据源,将许多未被充分挖掘的学术标注转化为视角转换训练数据,积累了丰富系统的空间理解数据集。 SenseNova-SI-1.3模型在多项高难度空间任务中验证了这一技术路线的有效性。在EASI-8综合评测中,该模型整体性能超越国际先进模型,在具体的空间理解题目中表现精准。例如,在建筑模型计数题中,模型需要理解两张图片的对应关系,避免因遮挡而漏数或重复;在书房方位判断题中,模型需要识别两张局部照片属于同一空间,通过视觉线索完成场景拼接,精准定位学习区域;在参照系理解题中,模型需要从特定人物的视角而非观察者视角判断方向。这些题目都涉及复杂的空间逻辑推理,SenseNova-SI-1.3均能给出正确答案,而Gemini-3-Pro等模型在这些题目上频频出现误判。 值得关注的是,商汤科技团队在研究中发现了智能涌现的先兆迹象。看似毫无关联但在底层能力上存在联系的任务可以协同发展,特别是视角转换任务的训练能够增强心智重建、综合空间推理等有关能力。这一发现为后续的模型优化和能力拓展提供了新思路。 从应用角度看,SenseNova-SI-1.3的开源发布意义重大。对科研人员而言,该模型提供了与现有基座模型完全兼容、但在空间智能领域具有明显优势的预训练基线,可直接用于算法创新或续训。对开发者和企业而言,开源模型降低了先进空间智能技术的应用门槛,有利于加速相关技术在机器人、自动驾驶、虚拟现实等领域的落地。

空间智能技术的突破反映了企业的创新能力,也反映了我国人工智能产业从追随到引领的战略转变。当技术创新遇上开源共享,这场关于空间认知的探索正在打开人机协同的新可能。对基础认知能力的每一次突破,都将为人类文明进步注入新的动力。