最近,红杉中国旗下的Xbench平台和UniPatAI团队联手搞了个新玩意儿,叫“BabyVision”,专门用来测试那些多模态大模型到底行不行。这帮专家的想法挺绝,就是不给那些语言能力的加持,直接让模型裸奔,看看它到底能在视觉这块儿硬实力上有多硬。结果这一下子就把大家伙儿吓了一跳。你看这次测试,那些国际顶尖的模型在纯视觉任务上的得分,居然都集中在比3岁小孩平均水平还低的区间里。就算是表现最好的那个闭源模型Gemini 3 Pro Preview,勉强算是超过了3岁小孩的基线,但跟6岁小孩比起来,还是差了差不多20个百分点。为了搞清楚到底差在哪儿,团队还找来了3岁、6岁、10岁还有12岁的小孩一起来做题。在那个“垃圾分类连线”的任务里,小孩们一看就懂,顺着图形路径就能把东西和垃圾桶连上。反倒是那些模型,虽然写了一堆长篇大论的方向描述当推理过程,但最后给出的答案全错。这就说明它们根本不是真的看懂了空间,只是在用语言在瞎猜。后来把测试题从20题的Mini版扩展到388题的Full版之后,差距更是越来越大。那些本科以上学历的人准确率能飙到94.1%,而表现最好的那个模型准确率直接跌到了49.7%。开源模型里表现最强的也就勉强22.2%,其他的基本都在12%到19%之间晃荡。 这组数据确实让人揪心。论文里也说了,模型的问题不是个别现象,而是全方位落后。它们在精细辨别、视觉追踪、空间感知还有视觉模式识别这几个基本功上都不灵。这就好比模型的基础视觉处理模块有毛病,是个系统性的大漏洞。为啥会这样?论文分析了三个主要原因。第一是“非语言细节”的缺失。人类一眼就能看出像素级别的几何差异,比如拼图块边缘的凸起。但模型喜欢把这些细节变成像“钩子”、“两条腿”这样的高度概括的符号Token,在转化的过程中细节就全没了。第二是在轨迹追踪上的事儿。人类视觉系统能锁定连续的路径一直追踪下去。模型就不行,它们得把路径拆成“左”、“右”、“上”、“下”这些零散的指令来处理。碰到交叉的地方就容易丢了连续性。第三是空间想象能力的事儿。碰到数三维方块或者视角转换的题目时,人类能在脑子里建个三维模型玩。现有大模型没有这种内在的基于物理规则的空间表征能力。 BabyVision这个评测集就像是一面镜子照出了问题。它告诉我们想让AI变得更像人不能光靠在语言模型上接个视觉编码器,得让它们能直接处理空间、几何这些非语言信息才行。这项研究给我们提供了一个非常客观的评估工具,也指明了方向:以后得从视觉感知的底层开始搞突破,还要把物理世界的规则搞明白。只有把这些地基打好了,AI才能在理解现实世界的路上走得稳当些。