美团开源超级数学证明模型longcat-flash-prover

刚才3月21日,美团把他们的超大规模数学证明模型LongCat-Flash-Prover开源了,这个模型有5677亿个参数呢。这可是个大新闻!这个模型在MiniF2F-Test测试中取得了97.1%的惊人成绩,只需要72次推理尝试,和之前的记录比起来简直强多了。不仅如此,在PutnamBench任务中,它解决了41.5%的问题,都是刷新了全球最佳水平的成绩啊。这次美团给学术界和工业界都留下了深刻印象,真正让AI在数学证明领域里大显身手。 这个模型采用了先进的混合专家模型架构(MoE),给它注入了强大的能力。除了参数多,它还有一系列关键突破。美团引入了基于AST的多阶段严格验证流程,还整合了Lean4形式化语言,避免了AI在推理时胡言乱语。另外,为了解决MoE模型长程任务训练不稳的问题,美团研发了自研的HisPO算法,配合定理一致性检测机制。这些技术让模型更加严谨、稳定。 现在,这个超级数学证明模型LongCat-Flash-Prover已经在GitHub和Hugging Face平台上全面开源了。大家可以去看看这个代码和模型了。国产大模型在数学逻辑和代码验证等高阶推理领域的竞争力也因此得到了极大证明。以前复杂的定理证明需要人类头脑来解决,现在有了这个百亿级激活参数的专家模型,AI离真正的通用人工智能又近了一步啊。