商汤开源空间智能模型SenseNova-SI-1.3综合评测登顶，多项高难任务表现突出

空间智能已成为人工智能研究的重要方向，但面临独特的技术挑战；与传统的目标识别不同，空间智能需要模型将二维视觉信息转化为三维空间理解，这个转换过程远比扩大数据规模复杂得多。最新研究发现，视角转换能力与现有多模态大模型的整体能力关联度极低，主流算法路径可能并非解决这个问题的有效方向。更棘手的是，空间智能存在反尺度效应，即模型规模增大并不必然提升任务性能。针对这一难题，商汤科技采取了系统化的技术方案。团队将视角转换视为连接二维视觉与三维空间理解的关键环节，将其分解为递进式的能力阶段，并构造了层次分明的训练数据。更具创新意义的是，团队通过重组和再利用多个数据源，将许多未被充分挖掘的学术标注转化为视角转换训练数据，积累了丰富系统的空间理解数据集。 SenseNova-SI-1.3模型在多项高难度空间任务中验证了这一技术路线的有效性。在EASI-8综合评测中，该模型整体性能超越国际先进模型，在具体的空间理解题目中表现精准。例如，在建筑模型计数题中，模型需要理解两张图片的对应关系，避免因遮挡而漏数或重复；在书房方位判断题中，模型需要识别两张局部照片属于同一空间，通过视觉线索完成场景拼接，精准定位学习区域；在参照系理解题中，模型需要从特定人物的视角而非观察者视角判断方向。这些题目都涉及复杂的空间逻辑推理，SenseNova-SI-1.3均能给出正确答案，而Gemini-3-Pro等模型在这些题目上频频出现误判。值得关注的是，商汤科技团队在研究中发现了智能涌现的先兆迹象。看似毫无关联但在底层能力上存在联系的任务可以协同发展，特别是视角转换任务的训练能够增强心智重建、综合空间推理等有关能力。这一发现为后续的模型优化和能力拓展提供了新思路。从应用角度看，SenseNova-SI-1.3的开源发布意义重大。对科研人员而言，该模型提供了与现有基座模型完全兼容、但在空间智能领域具有明显优势的预训练基线，可直接用于算法创新或续训。对开发者和企业而言，开源模型降低了先进空间智能技术的应用门槛，有利于加速相关技术在机器人、自动驾驶、虚拟现实等领域的落地。

空间智能技术的突破反映了企业的创新能力，也反映了我国人工智能产业从追随到引领的战略转变。当技术创新遇上开源共享，这场关于空间认知的探索正在打开人机协同的新可能。对基础认知能力的每一次突破，都将为人类文明进步注入新的动力。