多模态人工智能面临“视觉认知鸿沟” 最新研究揭示图文识别能力存在显著差异

（问题）随着多模态大模型加速进入教育辅导、办公文档处理、代码生成等场景，业界普遍期待其实现“看图即懂、读图能算”。然而，一项发表于2026年3月的预印本研究对多款主流多模态模型开展系统测试后指出：同一题目若以纯文本形式输入，模型表现可接近高分；但将相同内容以截图等图片形式提供——部分任务得分会大幅下滑——呈现可量化的“模态差距”。这个现象意味着，多模态能力并非简单的“多加一个视觉通道”，不同输入形态仍可能触发能力断层，影响实际部署的稳定性与可信度。（原因）研究显示，不同任务的“模态差距”并不均衡。知识问答等以语义理解为主的任务，文本与图片模式差异相对有限，多在个位数分值波动；但在数学推理任务中，差距出现断崖式扩大。以某模型为例，文本模式准确率超过九成，而图片模式降至三成左右，差距可达六十余个百分点。研究认为，核心原因并非推理“智力”明显下降，而是“阅读”环节更易出错：图像输入下，数字、符号、括号层级、运算顺序等一旦识别偏差，就会在后续推导中被不断放大，导致整条推理链条崩溃。深入的误差样本分析也支持上述判断。研究团队对大量错误案例进行归因后发现：图片模式下计算与格式有关错误显著增多，而概念理解、逻辑推演等深层思考类错误并未同步大幅上升。有的模型在图片输入时还出现“解题步骤变短”现象，即输出更像是结论式回答，缺少必要的推导过程，导致错误难以及时被纠正。不同题型暴露出的盲区各有侧重：编程题更“格式敏感”，数学题更“数字敏感”，知识问答则更“概念与语境敏感”。需要指出，“真实文档”反而在部分任务中提升了表现。研究将学术论文PDF截图、百科页面截图等真实场景图片作为输入，某些模型在学术问答等任务上较纯文本模式出现明显跃升。研究认为，这与训练数据分布有关：真实文档的版式、字体与图文结构更接近模型训练时见过的样本，因而更容易触发稳定的识别与理解；相较之下，人工合成或手写风格的图片更易引入分布偏移，造成识别与推理的不稳定。尤其是手写体，准确率下滑更为突出，反映出模型在“非标准输入”上的适应性仍有短板。（影响）上述发现对多模态技术落地提出了更现实的约束条件。第一，在教育、金融审计、工程计算等高精度场景中，若输入来自截图、拍照或扫描件，模型可能因微小识别误差导致结论偏差，风险意义在于隐蔽性与放大效应。第二，在企业应用中，图像模式往往带来更高的计算开销，研究显示其成本可显著高于文本模式，且并非简单线性增长；若效果却不稳定，将影响系统吞吐与成本控制。第三，传统OCR指标与任务表现并非强相关，意味着“能认字”不等于“能理解并推理”，仅依赖识别准确率不足以判断系统可靠性，需要把视觉理解与推理链条作为整体评估。（对策）针对“读图导致推理失真”的关键矛盾，研究提出并验证了“自我蒸馏”等训练思路：先让模型在文本模式下生成较完整、可验证的推理步骤，再将同题转为图片输入，配合文本推理过程进行学习，使其在图像条件下复现正确的解题路径。结果显示，在典型数学数据集上，图片模式准确率可由低位大幅提升至接近文本模式水平，同时科学推理、知识问答与编程等任务的差距也得到缩小。研究还指出，改进并不必然依赖大幅升级视觉编码器，语言推理侧的对齐与训练策略同样能产生明显收益，这为降低改造成本、加快迭代提供了可行路线。对工程实践而言，研究给出三点启示：其一，输入界面与流程设计应依据任务类型选择最优形态，能用结构化文本的尽量避免不必要的图像化输入；其二，训练与评测数据应“合成样本+真实样本”混合配置，既覆盖规范场景，也覆盖扫描、拍照、手写等复杂条件；其三，利用自我蒸馏等方法让模型在不同模态间互相“反哺”，在不额外增加人工标注压力的前提下提升跨模态一致性。（前景）多模态能力正从“看见”走向“看懂”，从单点演示走向规模化应用。此次研究在于，把长期存在但常被忽视的性能落差加以量化，并指明问题更集中在输入理解与格式鲁棒性，而非单纯的推理能力不足。可以预期，随着训练数据更贴近真实世界、跨模态对齐方法提升，以及针对高风险任务建立更严格的验证与审计机制，多模态模型在文档理解、智能办公与辅助学习等领域的稳定性有望提升。同时，行业也需形成共识：多模态不是“万能开关”，而是一套需要因场景选择输入、因风险配置校验的工程体系。

多模态大模型的价值不在于追求全能，而在于应对现实复杂输入时保持稳定可靠。只有正视模态差距，补齐基础能力短板，才能让技术从演示走向实用，为教育、科研和产业提供真正可信的支持。