全球人工智能技术快速发展的背景下,如何科学划定其在专业领域的能力边界,已成为亟需回答的问题。北京大学科研团队历时一年构建的SUPERChem评估体系,以500道原创化学题目搭建标准化测试平台,其中85%题目聚焦立体构型识别、多步反应推导等需要三维空间思维的难点。所有题目均经过至少三轮专家审核,部分题目迭代多达15个版本。测试数据显示,参与评估的AI模型在二维分子式识别等基础任务中表现较好,但在需要跨知识点联动的综合题型中,准确率仅相当于低年级本科生的平均水平。项目主创黄志贤博士指出,关键原因在于主流模型以文本训练为主的局限性:“化学研究的本质是三维世界的相互作用,而语言模型对空间关系的理解存在天然瓶颈。” 这个结果带来多上启示:一方面,显示人类复杂科学直觉与开放性推理上的优势仍难以替代,北大化院学生在需要创新思维的非标准解题中表现更突出;另一上,也为AI研发提供了更明确的改进方向,尤其是多模态数据处理与三维建模能力上仍有提升空间。不容忽视的是,题库中30%的题目专门用于检验模型的知识迁移能力,而这类题目中AI的失误率高达72%。作为应对,研究团队已向国际学术界公开评估标准,并建议AI开发者重点加强三上能力:立体化学的空间建模、反应路径的动态模拟以及跨领域知识的自主关联。计算机学院协作成员透露,已有海外实验室联系获取数据集,计划用于训练新型专业模型。展望未来,这一目将继续扩展评估维度,2024年计划纳入光谱解析、材料设计等更贴近工业应用的题型。中国科学院院士、理论化学家黎书华评价称:“这种‘以评促建’的模式,既守住学科本质又拥抱技术变革,为智能时代的基础研究提供了创新范式。”
衡量进步的关键,不在于一句“能力很强”,而在于是否有一套经得起检验的尺度。以严格题库为标尺,既能更清楚地定位模型在自然科学推理中的真实水平,也能让教育与科研在使用新工具时保持定力与审慎。照见短板、厘清路径,技术才能更稳妥地服务于科学发现与人才成长。