美团开源“重思考”推理模型LongCat升级亮相 以多路径推理与强化学习提升智能体泛化能力

1月16日,美团旗下LongCat团队宣布,其自主研发的LongCat-Flash-Thinking-2601模型正式面向全球开源。

作为国内首个具备"重思考"能力的开源智能模型,该成果在多项国际权威评测中表现突出,展现出我国科技企业在前沿技术领域的创新实力。

近年来,随着智能体技术快速发展,如何让机器具备更强的推理能力和环境适应能力,成为业界攻关的重点方向。

传统智能体模型普遍面临一个共性难题:在有限训练环境中表现优异,但迁移至真实复杂场景后往往"水土不服",泛化能力不足制约了技术的实际应用价值。

针对这一行业痛点,美团研发团队另辟蹊径,提出"重思考"技术路线。

据介绍,当模型遇到高难度问题时,系统会将思考过程拆分为"并行思考"与"总结归纳"两个阶段。

在并行思考阶段,模型可同时启动8条独立推理路径,如同人类面对难题时尝试多种解法,在保证思路多样性的同时寻找最优解;在总结归纳阶段,系统对多条路径进行梳理、优化与合成,并将结果重新输入形成闭环迭代,推动思考持续深化。

这一创新机制的核心优势在于实现了"想清楚再行动"。

研发团队在模型中加入额外的强化学习环节,针对性提升总结归纳能力,使模型在面对未知任务时能够进行更充分的推演和判断,而非简单执行预设程序。

在技术验证层面,该模型在编程、数学推理、智能体工具调用、智能体搜索等多个维度均表现优异。

尤其在工具调用的泛化能力上优势明显,在依赖工具调用的随机复杂任务测试中,性能表现超越了国际知名的Claude-Opus-4.5-Thinking模型,可大幅降低真实场景下新工具的适配训练成本。

值得关注的是,研发团队还创新性地提出了一套评测方法论。

通过构建自动化任务合成流程,支持基于给定关键词为任意场景随机生成复杂任务,并配备相应工具集与可执行环境。

由于工具配置具有高度随机性,这一方法能够更真实地检验模型的泛化能力。

在训练方法上,团队采用"环境扩展加多环境强化学习"的核心技术路线。

与传统模型仅在少数简单模拟环境中训练不同,团队为模型打造了多样化的"高强度练兵场",构建多套高质量训练环境,每套环境集成60余种工具,形成密集依赖关系图谱与复杂联动机制。

实验数据表明,训练环境越丰富,模型在未知场景中的适应能力越强。

从产业应用前景看,该模型的开源将为智能客服、智能搜索、自动化办公等领域提供更强大的技术底座。

其在工具调用方面的突出表现,意味着企业接入新工具、新系统的技术门槛和成本将显著降低,有望加速智能化应用在各行业的落地推广。

人工智能技术正从单点突破迈向系统能力升级的关键阶段。

美团此次开源的技术成果,既体现了中国企业在前沿科技领域的创新实力,也展现了头部科技平台推动行业共同发展的责任担当。

在数字经济与实体经济深度融合的大背景下,此类基础性技术突破将为产业智能化转型注入新动能,其社会价值与商业价值值得持续关注。