北京大学发布化学学科AI评估体系人类科学直觉优势凸显

全球人工智能技术快速发展的背景下，如何科学划定其在专业领域的能力边界，已成为亟需回答的问题。北京大学科研团队历时一年构建的SUPERChem评估体系，以500道原创化学题目搭建标准化测试平台，其中85%题目聚焦立体构型识别、多步反应推导等需要三维空间思维的难点。所有题目均经过至少三轮专家审核，部分题目迭代多达15个版本。测试数据显示，参与评估的AI模型在二维分子式识别等基础任务中表现较好，但在需要跨知识点联动的综合题型中，准确率仅相当于低年级本科生的平均水平。项目主创黄志贤博士指出，关键原因在于主流模型以文本训练为主的局限性：“化学研究的本质是三维世界的相互作用，而语言模型对空间关系的理解存在天然瓶颈。” 这个结果带来多上启示：一方面，显示人类复杂科学直觉与开放性推理上的优势仍难以替代，北大化院学生在需要创新思维的非标准解题中表现更突出；另一上，也为AI研发提供了更明确的改进方向，尤其是多模态数据处理与三维建模能力上仍有提升空间。不容忽视的是，题库中30%的题目专门用于检验模型的知识迁移能力，而这类题目中AI的失误率高达72%。作为应对，研究团队已向国际学术界公开评估标准，并建议AI开发者重点加强三上能力：立体化学的空间建模、反应路径的动态模拟以及跨领域知识的自主关联。计算机学院协作成员透露，已有海外实验室联系获取数据集，计划用于训练新型专业模型。展望未来，这一目将继续扩展评估维度，2024年计划纳入光谱解析、材料设计等更贴近工业应用的题型。中国科学院院士、理论化学家黎书华评价称：“这种‘以评促建’的模式，既守住学科本质又拥抱技术变革，为智能时代的基础研究提供了创新范式。”

衡量进步的关键，不在于一句“能力很强”，而在于是否有一套经得起检验的尺度。以严格题库为标尺，既能更清楚地定位模型在自然科学推理中的真实水平，也能让教育与科研在使用新工具时保持定力与审慎。照见短板、厘清路径，技术才能更稳妥地服务于科学发现与人才成长。

北京大学发布化学学科AI评估体系 人类科学直觉优势凸显

北京大学发布化学学科AI评估体系人类科学直觉优势凸显