你看过视频吗?大脑会马上分辨出“人”、“自行车”、“蓝色”和“红色”,甚至能看出“人正在骑自行车”这个动态关系。但要让电脑也做到这点就难了,计算机需要同时完成物体识别、属性标注和关系理解。这次研究团队用全新的方法,把这三个过程整合到了“视频场景图”里。他们的目标是让AI像人一样,能瞬间看懂画面中的复杂关系。现在的视频理解系统大多只能认识物体,但对动态的复杂时空关系却总是“视而不见”。比如椅子出现在桌子旁边,模型能认出这两个物体,却不明白“旁边”这个词。如果把苹果拿起,模型也只能看到苹果,而无法理解它被拿起这个动作。还有一个问题是关系本身会随着镜头变化而出现或消失,像“苹果→被拿起→手中”这样的链条,需要在非常短的时间内捕捉到。 为了训练出能理解关系的AI,研究团队打造了一个叫SVG2的数据集。里面包含63万段视频,总时长超过630天。还有660万个独立物体、5200万条属性描述和670万条关系标注。这个规模相当于把之前的数据集从“小图书馆”升级成了“国家图书馆”。为了降低人工标注成本,他们还搭建了一条三阶段自动化流水线:给每个物体发“身份证”、选关键帧生成描述、再用GPT-5推理关系。这样做平均召回率能达到60%。另外为了不让空间关系掩盖其他类型的信息,他们给空间和非空间关系设计了不同的提示模板,要求模型忽略“左右”这类2D位置词。 这次他们开发了一个叫TRASER的模型,全名是轨迹对齐场景图提取器。核心是两套重采样器:物体轨迹重采样器把物体从出生到消失的全生命周期压缩成全局向量;时间窗口重采样器把每个0.5秒的小片段拆开单独判断是否发生了事件。这样既降低了计算量又抓住了多尺度时间特性。训练时把SVG2和少量真人标注数据混合使用效果更好。最终在四个标准测试集上取得了显著提升:关系检测提升了15%到20%,物体预测提升了30%到40%,属性预测提升了15%,甚至超过了GPT-5的13%。 实验证明TRASER生成的场景图对下游任务非常有帮助。比如输入问答系统时准确率提高了1.5%到4.6%。消融实验也证明了双镜头缺一不可。规模实验显示属性任务从22.3%涨到了27.1%。端到端评估表明自动生成轨迹也能跑得赢商业模型。长视频测试表明在166秒长视频中保持物体识别几乎零跌落。 未来应用前景广阔:视频搜索用户输入“厨房切菜”就能直接找到片段;自动驾驶提前识别行人动作避免碰撞;内容审核快速标出高危场景降低人工成本。研究指出了两条明路:数据自我循环形成正反馈和提高长视频效率。当然目前还存在合成数据主导带来的偏见问题和长视频效率有待提高的问题。但正如团队所言——把问题拆成结构化小任务再让AI自己拼回去这条路已经走通了一半。