上海交通大学研究揭示人工智能在数学领域的真实困境—

近年来，多模态模型通用图文理解上取得显著进步，但在处理几何题、函数图像、物理受力图和实验装置示意等STEM图像时，仍频繁出现"看似基础却影响结论"的错误：点线关系识别偏差、量纲与标注遗漏、坐标轴刻度读错、局部结构被误判为整体关系等。这些问题直接威胁到模型在教育辅导、工程计算和科研辅助中的可靠性。上海交通大学联合阿里巴巴达摩院Qwen团队等机构的研究（2025年3月发布于arXiv）对此现象进行了系统分析。研究提出一个关键发现：许多失误并非源于"不会推理"，而源于"感知不精确"——模型在进入推理前，已对图像中的关键量化信息和空间关系产生偏差，使后续推理建立在不稳定的基础之上。为找到问题根源，研究团队将"看图"与"解题"分为两个阶段：第一阶段要求模型对图像进行结构化描述以检验感知质量；第二阶段仅基于该描述求解以检验推理能力。通过分别强化两个阶段并对比效果，研究发现，在模型从40亿参数扩展至320亿参数的过程中，单独提升感知能力带来的性能提升远超单独强化推理。这一结论在MathVision、MathVista、MathVerse等多个测试集上一致成立，证明感知能力是当前STEM图像任务最明显的"瓶颈"。研究深入指出，STEM图像的核心难点在于"精确性要求"。图中包含大量需要严格对齐的数值、比例、相对位置和拓扑关系，而自然语言描述天生倾向概括、容易模糊，难以完整承载坐标、角度、相交关系、函数单调区间、实验装置连接路径等信息。即使对人类来说，仅用文字复刻复杂几何构型或多元图表也不容易，更不用说要求模型在有限文本中同时实现"全面、无歧义、可计算"。针对这一痛点，研究团队提出"代码驱动感知"的思路：用更精确、更可执行的编程表达来承载图像信息，将"看懂图"转化为"生成可运行的结构化表示"。基于这一理念，团队构建了CodePercept框架，并建立了包含100万个"图像—文本—代码"三元组的ICC-1M数据集，让模型学会将图形要素转译为可计算对象。同时，研究提出新的评测标准STEM2Code-Eval，要求模型不仅能描述图像，还要生成可执行的Python代码来复现图像，通过"可运行、可复核"的方式验证感知的精准度，避免仅依赖文本相似度评估带来的偏差。业内认为，这一方向对提升模型在STEM场景的可靠性有重要参考价值。一上，可执行代码为图像理解设立了统一的"硬约束"，有助于减少坐标、比例和结构关系的遗漏；另一方面，代码便于复现与调试，为后续的错误定位、数据优化和迭代训练提供了抓手。若该体系持续完善，多模态模型有望从"能回答"进阶到"可验证地回答"，在智能教学、工程制图辅助、实验记录结构化和科研图表分析等领域形成更稳定的能力。不过，研究也指出未来仍需突破的课题：如何覆盖更丰富的图表类型与学科符号，如何降低代码生成噪声并确保安全可控，如何在不同分辨率和风格的图像输入下保持鲁棒性。随着数据、评测和工具链的成熟，面向STEM的多模态理解有望进入"结构化、可执行、可审计"的新阶段。

这项研究不仅纠正了对AI发展的认知偏差，也展现了基础研究对技术突破的引领作用。当全球科技竞争聚焦于算法优化时，中国科学家从感知维度另辟蹊径，其意义已超越技术本身——真正的创新往往源于对习以为常现象的重新审视。在智能化浪潮中，这类基础性发现或将孕育更多"从0到1"的原创突破。

上海交通大学研究揭示人工智能在数学领域的真实困境——视觉感知而非逻辑推理成关键瓶颈