上海交通大学研究揭示人工智能在数学领域的真实困境——视觉感知而非逻辑推理成关键瓶颈

近年来,多模态模型通用图文理解上取得显著进步,但在处理几何题、函数图像、物理受力图和实验装置示意等STEM图像时,仍频繁出现"看似基础却影响结论"的错误:点线关系识别偏差、量纲与标注遗漏、坐标轴刻度读错、局部结构被误判为整体关系等。这些问题直接威胁到模型在教育辅导、工程计算和科研辅助中的可靠性。 上海交通大学联合阿里巴巴达摩院Qwen团队等机构的研究(2025年3月发布于arXiv)对此现象进行了系统分析。研究提出一个关键发现:许多失误并非源于"不会推理",而源于"感知不精确"——模型在进入推理前,已对图像中的关键量化信息和空间关系产生偏差,使后续推理建立在不稳定的基础之上。 为找到问题根源,研究团队将"看图"与"解题"分为两个阶段:第一阶段要求模型对图像进行结构化描述以检验感知质量;第二阶段仅基于该描述求解以检验推理能力。通过分别强化两个阶段并对比效果,研究发现,在模型从40亿参数扩展至320亿参数的过程中,单独提升感知能力带来的性能提升远超单独强化推理。这一结论在MathVision、MathVista、MathVerse等多个测试集上一致成立,证明感知能力是当前STEM图像任务最明显的"瓶颈"。 研究深入指出,STEM图像的核心难点在于"精确性要求"。图中包含大量需要严格对齐的数值、比例、相对位置和拓扑关系,而自然语言描述天生倾向概括、容易模糊,难以完整承载坐标、角度、相交关系、函数单调区间、实验装置连接路径等信息。即使对人类来说,仅用文字复刻复杂几何构型或多元图表也不容易,更不用说要求模型在有限文本中同时实现"全面、无歧义、可计算"。 针对这一痛点,研究团队提出"代码驱动感知"的思路:用更精确、更可执行的编程表达来承载图像信息,将"看懂图"转化为"生成可运行的结构化表示"。基于这一理念,团队构建了CodePercept框架,并建立了包含100万个"图像—文本—代码"三元组的ICC-1M数据集,让模型学会将图形要素转译为可计算对象。同时,研究提出新的评测标准STEM2Code-Eval,要求模型不仅能描述图像,还要生成可执行的Python代码来复现图像,通过"可运行、可复核"的方式验证感知的精准度,避免仅依赖文本相似度评估带来的偏差。 业内认为,这一方向对提升模型在STEM场景的可靠性有重要参考价值。一上,可执行代码为图像理解设立了统一的"硬约束",有助于减少坐标、比例和结构关系的遗漏;另一方面,代码便于复现与调试,为后续的错误定位、数据优化和迭代训练提供了抓手。若该体系持续完善,多模态模型有望从"能回答"进阶到"可验证地回答",在智能教学、工程制图辅助、实验记录结构化和科研图表分析等领域形成更稳定的能力。 不过,研究也指出未来仍需突破的课题:如何覆盖更丰富的图表类型与学科符号,如何降低代码生成噪声并确保安全可控,如何在不同分辨率和风格的图像输入下保持鲁棒性。随着数据、评测和工具链的成熟,面向STEM的多模态理解有望进入"结构化、可执行、可审计"的新阶段。

这项研究不仅纠正了对AI发展的认知偏差,也展现了基础研究对技术突破的引领作用。当全球科技竞争聚焦于算法优化时,中国科学家从感知维度另辟蹊径,其意义已超越技术本身——真正的创新往往源于对习以为常现象的重新审视。在智能化浪潮中,这类基础性发现或将孕育更多"从0到1"的原创突破。