红杉中国xbench 团队联手搞了个新玩意儿，叫“babyvision”，专门用来测试那些多模态大模型到底行不行

最近，红杉中国旗下的Xbench平台和UniPatAI团队联手搞了个新玩意儿，叫“BabyVision”，专门用来测试那些多模态大模型到底行不行。这帮专家的想法挺绝，就是不给那些语言能力的加持，直接让模型裸奔，看看它到底能在视觉这块儿硬实力上有多硬。结果这一下子就把大家伙儿吓了一跳。你看这次测试，那些国际顶尖的模型在纯视觉任务上的得分，居然都集中在比3岁小孩平均水平还低的区间里。就算是表现最好的那个闭源模型Gemini 3 Pro Preview，勉强算是超过了3岁小孩的基线，但跟6岁小孩比起来，还是差了差不多20个百分点。为了搞清楚到底差在哪儿，团队还找来了3岁、6岁、10岁还有12岁的小孩一起来做题。在那个“垃圾分类连线”的任务里，小孩们一看就懂，顺着图形路径就能把东西和垃圾桶连上。反倒是那些模型，虽然写了一堆长篇大论的方向描述当推理过程，但最后给出的答案全错。这就说明它们根本不是真的看懂了空间，只是在用语言在瞎猜。后来把测试题从20题的Mini版扩展到388题的Full版之后，差距更是越来越大。那些本科以上学历的人准确率能飙到94.1%，而表现最好的那个模型准确率直接跌到了49.7%。开源模型里表现最强的也就勉强22.2%，其他的基本都在12%到19%之间晃荡。这组数据确实让人揪心。论文里也说了，模型的问题不是个别现象，而是全方位落后。它们在精细辨别、视觉追踪、空间感知还有视觉模式识别这几个基本功上都不灵。这就好比模型的基础视觉处理模块有毛病，是个系统性的大漏洞。为啥会这样？论文分析了三个主要原因。第一是“非语言细节”的缺失。人类一眼就能看出像素级别的几何差异，比如拼图块边缘的凸起。但模型喜欢把这些细节变成像“钩子”、“两条腿”这样的高度概括的符号Token，在转化的过程中细节就全没了。第二是在轨迹追踪上的事儿。人类视觉系统能锁定连续的路径一直追踪下去。模型就不行，它们得把路径拆成“左”、“右”、“上”、“下”这些零散的指令来处理。碰到交叉的地方就容易丢了连续性。第三是空间想象能力的事儿。碰到数三维方块或者视角转换的题目时，人类能在脑子里建个三维模型玩。现有大模型没有这种内在的基于物理规则的空间表征能力。 BabyVision这个评测集就像是一面镜子照出了问题。它告诉我们想让AI变得更像人不能光靠在语言模型上接个视觉编码器，得让它们能直接处理空间、几何这些非语言信息才行。这项研究给我们提供了一个非常客观的评估工具，也指明了方向：以后得从视觉感知的底层开始搞突破，还要把物理世界的规则搞明白。只有把这些地基打好了，AI才能在理解现实世界的路上走得稳当些。