中国科研团队突破通用人工智能逻辑推理瓶颈 自主研发系统同时具备出题解题能力

问题——逻辑推理被视为智能系统走向高水平能力的重要关口之一,而几何证明由于结构严谨、推导链条长,长期是自动化推理的“硬骨头”。

过去不少系统能够在特定题型上求解,却难以稳定处理复杂证明:一方面越接近奥赛级难度,推理步骤与辅助构造越多,计算代价随之急剧上升;另一方面可用于训练与验证的高质量数据规模有限,导致系统能力难以在更广题域上迁移。

如何在有限数据条件下让系统既能高效求解、又能生成具有价值的新题,成为国际研究的关键挑战。

原因——几何推理难,核心在两点。

其一是“组合爆炸”:几何证明常需引入点、线、圆等辅助元素,每一次构造都可能派生大量分支,若缺乏有效的搜索策略,系统很容易陷入无效尝试与重复验证。

其二是“高质量数据匮乏”:几何题目不仅数量有限,且对证明过程的规范表达、可检验性要求更高,难以像通用文本那样大规模采集标注。

数据少、分支多,使得传统依赖“多试多学”的路径成本高、上限受限。

影响——由北京通用人工智能研究院与北京大学相关机构组成的联合团队提出的“通矩模型”,针对上述瓶颈给出系统化解法:一是搭建精密的逻辑推理搜索架构,把复杂几何世界进行抽象建模,使推理节点的扩展与验证更有序、更可控,从机制上减少无效重复。

二是引入“规范化表示”技术,把旋转、翻转、缩放等导致的多种“外观差异”归并为同一类拓扑结构,实现对同构关系的自动识别与合并,从而把原本庞杂的搜索空间压缩多个数量级。

三是以价值函数引导搜索路径,通过强化学习形成“价值模型”,不仅判断推理是否可达,更评估路径是否简洁、是否具备更高证明潜力,进而提高解题效率与稳定性。

更值得关注的是,该系统不仅能解题,还能出题:当系统在构造命题时发现“构建不复杂但证明显著更难”的结构,就能捕捉到更具挑战性的题面,并通过价值引导筛选出更符合数学证明“简洁性”与“结构美”的高质量题目。

这意味着系统从以往偏重“复现答案”走向“产生新问题”,为自动化推理的能力边界打开新空间。

对策——从科研方法看,这一工作体现出“算法机制+结构归纳+价值引导”的综合思路:以规范化表示减少冗余,以搜索架构保证推理可控,以价值模型提升路径质量,从而在不依赖海量标注数据的情况下实现能力跃升。

对我国相关领域而言,下一步应在三个层面持续发力:其一,加强基础表示与推理框架的自研迭代,围绕数学证明、符号推理与可验证推导链建立更通用的技术底座;其二,推动开放、可验证的高质量题库与证明库建设,形成与算法研究相互促进的生态;其三,强化跨学科协同,结合认知科学、数学教育与计算机科学的优势,在“可解释、可验证、可迁移”的推理能力上形成持续优势。

前景——研究团队介绍,通矩模型在计算资源要求上具有一定可用性,并在特定任务上表现出较强的推理效率与准确性。

更重要的是,其“内部逻辑自我演化”的思路,为“小数据大任务”提供了可行路径。

面向未来,这类技术有望在三个方向释放更大价值:在科学研究中,推动自动化数学证明与形式化推导工具发展,提高复杂推导的验证效率;在教育场景中,支持个性化题目生成与分层讲解,帮助不同水平学习者获得更匹配的训练资源;在更广的科学发现任务中,为构建具备严谨推理链条的研究工具提供方法参考。

随着可验证推理能力的增强,智能系统在“发现规律、提出问题、给出证明”的链条上或将逐步实现更高层级的协同。

这项突破性研究不仅标志着我国在人工智能核心领域取得重要进展,更启示我们:真正的智能突破往往来自对基础问题的深刻理解。

当科研人员能够像数学家那样思考,机器就可能展现出接近人类的智慧光芒。

在建设科技强国的征程上,这样的原创性成果正是我们最需要的核心竞争力。