美团开源“重思考”推理模型LongCat升级亮相以多路径推理与强化学习提升智能体泛化能力

1月16日，美团旗下LongCat团队宣布，其自主研发的LongCat-Flash-Thinking-2601模型正式面向全球开源。

作为国内首个具备"重思考"能力的开源智能模型，该成果在多项国际权威评测中表现突出，展现出我国科技企业在前沿技术领域的创新实力。

近年来，随着智能体技术快速发展，如何让机器具备更强的推理能力和环境适应能力，成为业界攻关的重点方向。

传统智能体模型普遍面临一个共性难题：在有限训练环境中表现优异，但迁移至真实复杂场景后往往"水土不服"，泛化能力不足制约了技术的实际应用价值。

针对这一行业痛点，美团研发团队另辟蹊径，提出"重思考"技术路线。

据介绍，当模型遇到高难度问题时，系统会将思考过程拆分为"并行思考"与"总结归纳"两个阶段。

在并行思考阶段，模型可同时启动8条独立推理路径，如同人类面对难题时尝试多种解法，在保证思路多样性的同时寻找最优解；在总结归纳阶段，系统对多条路径进行梳理、优化与合成，并将结果重新输入形成闭环迭代，推动思考持续深化。

这一创新机制的核心优势在于实现了"想清楚再行动"。

研发团队在模型中加入额外的强化学习环节，针对性提升总结归纳能力，使模型在面对未知任务时能够进行更充分的推演和判断，而非简单执行预设程序。

在技术验证层面，该模型在编程、数学推理、智能体工具调用、智能体搜索等多个维度均表现优异。

尤其在工具调用的泛化能力上优势明显，在依赖工具调用的随机复杂任务测试中，性能表现超越了国际知名的Claude-Opus-4.5-Thinking模型，可大幅降低真实场景下新工具的适配训练成本。

值得关注的是，研发团队还创新性地提出了一套评测方法论。

通过构建自动化任务合成流程，支持基于给定关键词为任意场景随机生成复杂任务，并配备相应工具集与可执行环境。

由于工具配置具有高度随机性，这一方法能够更真实地检验模型的泛化能力。

在训练方法上，团队采用"环境扩展加多环境强化学习"的核心技术路线。

与传统模型仅在少数简单模拟环境中训练不同，团队为模型打造了多样化的"高强度练兵场"，构建多套高质量训练环境，每套环境集成60余种工具，形成密集依赖关系图谱与复杂联动机制。

实验数据表明，训练环境越丰富，模型在未知场景中的适应能力越强。

从产业应用前景看，该模型的开源将为智能客服、智能搜索、自动化办公等领域提供更强大的技术底座。

其在工具调用方面的突出表现，意味着企业接入新工具、新系统的技术门槛和成本将显著降低，有望加速智能化应用在各行业的落地推广。

人工智能技术正从单点突破迈向系统能力升级的关键阶段。

美团此次开源的技术成果，既体现了中国企业在前沿科技领域的创新实力，也展现了头部科技平台推动行业共同发展的责任担当。

在数字经济与实体经济深度融合的大背景下，此类基础性技术突破将为产业智能化转型注入新动能，其社会价值与商业价值值得持续关注。

美团开源“重思考”推理模型LongCat升级亮相 以多路径推理与强化学习提升智能体泛化能力