韩国企业与高校发布细微差异识别基准：多模态视觉模型离“人眼级”仍有明显差距

随着人工智能技术的飞速发展，AI视觉识别能力许多领域已达到甚至超越人类水平。然而，一项国际研究近日揭示了这个看似全能的技术存在的重大盲区：在识别图像间微妙差异上，当前最先进的AI模型与人类专家之间仍存显著差距。 KRAFTON公司与韩国科学技术院（KAIST）联合开展的这项研究成果，已在2026年国际学习表征会议（ICLR）上发表。研究团队为此专门开发了一个名为VLM-SubtleBench的新型测试平台，目的是全面评估AI模型在精细视觉比较任务中的真实表现。问题的核心在于，当前的AI视觉模型存在一个看似简单但实际复杂的挑战。在日常生活中，人类能够轻松识别两张看似相同图片中的细微差异——一个人脸上稍微不同的表情、工业零件上几乎看不见的划痕、医学影像中病灶的微小变化。这种能力对人类来说几乎是本能反应，但对AI来说却是一个系统性的难题。研究团队构建了一个包含13000组图像对的庞大测试集。这些图像对涵盖日常生活照片、工业检测图像、医学影像和航拍照片等多个领域，每组图像看起来几乎完全相同，仅在某些细节上存在微妙变化。这些变化被系统地分为十个不同类别，包括属性变化（如颜色的细微改变）、状态变化（如物体的轻微损坏）、情绪变化（如面部表情的细微差别）等。测试结果令人瞩目。即便是目前最优秀的AI视觉语言模型，其整体准确率也仅达到77.8%，远低于人类95.5%的平均准确率。这个17.7个百分点的差距看似不大，但在某些特定领域表现得尤为突出。在空间推理、时间序列判断和视角变化识别上，最好的AI模型相比人类表现低了30多个百分点，差距之大令人担忧。这一现象背后的原因值得深入思考。传统的AI视觉测试往往关注明显的差异识别，如区分大象和老鼠这样显而易见的区别。而现实应用场景中的需求远为复杂，需要更加精细的判断能力。医疗诊断医生需要比较不同时期的医学影像以发现病灶微小变化；工业生产中质检员需要识别产品表面微小缺陷；航空监测分析师需要从卫星图像中察觉地面设施的细微改变。这些应用都要求视觉系统具备人类那样的精细观察能力。当前AI模型的这种弱点并非随机出现，而是特定任务类型中反复显现。当要求AI判断两张图片中哪一张是时间上更晚的场景时，即便是最先进的模型也经常出错。这反映出AI缺乏人类基于常识和长期经验积累形成的直觉能力。研究还表明，现有的测试基准本身存在局限性。以往的测试往往是在问"红色和蓝色有什么不同"，而这项研究提出的问题更接近"深红色和浅红色有什么不同"，后者显然更加困难，也更贴近真实应用需求。这一发现的影响是深远的。在医疗、工业、安全等关键领域，精细的视觉判断能力直接关系到诊断准确性、产品质量和公共安全。如果AI模型无法掌握这种细致入微的观察能力，就很难在这些领域起到完全替代人类专家作用。这意味着，尽管AI在许多上已表现出强大能力，但人类专家需要精细视觉判断的应用中仍然不可或缺。专家普遍认为，解决这一问题需要从多个上入手。一方面，需要开发更加有针对性的训练数据和方法，使AI模型能够更好地学习微妙差异的识别。另一方面，需要建立更加全面的评估体系，像VLM-SubtleBench这样的基准测试能够帮助研究者更准确地识别AI的真实能力边界。同时，在实际应用中，应该采取人机协作的方式，发挥各自的优势。

该研究不仅揭示了人工智能的现实局限，更提醒我们在追求技术进步的同时，需要客观认识机器与人类能力的互补性。在医疗、制造等关乎民生的重要领域，保持技术研发与人文关怀的平衡，才是推动社会发展的明智之选。