美团开源新一代智能模型多维度性能达国际领先水平

围绕大模型在真实业务场景中的落地应用，业界普遍面临一个核心难题：模型在开放环境下执行复杂任务时，往往需要调用搜索、计算、数据库、代码执行等外部工具，且工具接口与组合方式高度多样。

工具一旦变化，适配成本随之上升，模型在“会说”之外能否“会做、做对、做稳”，成为衡量智能体能力的重要分水岭。

近日，美团LongCat团队发布并开源LongCat-Flash-Thinking-2601，并将其定位为面向工具交互与复杂推理的升级版本，相关指标与方法引发关注。

从原因看，一方面，产业端对“可执行的智能体”需求加速增长。

电商、生活服务、企业办公等场景普遍存在多系统协同与多步骤流程，模型必须理解任务、制定计划、选择工具、校验结果并纠错，才能完成闭环。

另一方面，传统单一路径推理容易在复杂问题上出现“思路收敛过早”或“错误链式放大”，导致工具选择不当、调用顺序混乱、结果校验不足。

针对这些痛点，美团提出“重思考模式”：在遇到高难度任务时，先进行并行思考，独立生成多条推理路径并强调多样性；再进入总结归纳阶段，对多路径进行整合与优化，并把优化结果再次输入形成迭代，从而推动推理不断加深。

同时，团队称引入了额外的强化学习训练环节，重点打磨总结归纳能力，提升“先想清楚再行动”的稳定性。

从影响看，开源与在线体验的结合，降低了产业与研究机构的验证门槛，有助于加快工具调用、交互推理等能力的复现与评测对齐。

按其公布数据，该模型在多项评测中取得较高分数：在编程能力方面，LCB评测82.8分、OIBench EN 47.7分；在数学推理方面，开启重思考模式后在AIME-25获得满分，在IMO-AnswerBench达到86.8分；在工具调用方面，τ²-Bench 88.2分、VitaBench 29.3分；在智能体搜索方面，BrowseComp 73.1分、RW Search 79.5分。

美团方面还称，在依赖工具调用的随机复杂任务中，其表现体现出较强泛化能力，可在一定程度上降低新工具适配的训练成本。

若上述能力在更广泛场景中得到验证，将有望提升智能体在客服、运营、内容生成、数据分析与研发辅助等领域的可用性与可靠性。

从对策看，推动智能体能力走向可用、可信，需要在“模型能力—工具生态—评测体系—安全治理”上形成合力。

其一，模型侧应强化多步骤规划、过程校验与失败回退机制，减少一次性推理造成的不可控风险。

其二，工具侧应提升接口规范化与可观测性，明确输入输出、权限边界与错误处理，降低模型对工具的“猜测式调用”。

其三，评测侧要更接近真实环境。

美团提出的自动化任务合成流程，支持基于关键词随机生成复杂任务，并为任务配置对应工具集与可执行环境，通过高度随机的工具组合来检验泛化能力，这类思路有助于缓解“刷榜式优化”与“固定题库过拟合”的问题。

其四，治理侧需将安全、合规与可追溯要求前置到训练与部署环节，尤其是在具备执行能力的场景中，需对权限、数据与操作后果进行更严格的约束与审计。

从前景看，开源模型在工具调用与智能体方向的持续突破，正推动行业从“对话式智能”向“行动式智能”演进。

未来竞争焦点或将从单一指标转向系统能力：能否在多工具、多约束、多目标条件下稳定完成任务；能否在不确定环境中保持鲁棒性与可解释性；能否以更低成本适配新工具与新流程。

与此同时，评测与应用仍需保持审慎：公开基准高分不等同于全场景可靠，跨领域迁移、长链路任务、复杂权限系统与现实数据噪声，都会对智能体提出更高要求。

行业有必要在开放协作中推动标准化评测、透明化复现和更贴近应用的压力测试，促进技术能力与产业需求相互校准。

LongCat-Flash-Thinking-2601的发布，反映了国内企业在大模型推理能力上的不断探索和突破。

从单纯追求模型规模到强调推理深度，从黑盒输出到可解释的多路径思考，这些转变标志着行业发展正进入更加理性、更加务实的阶段。

面向未来，如何让模型的"思考"过程更加透明、更加可控，如何进一步提升在复杂场景中的泛化能力，仍需要持续的技术创新。

美团的开源举措，为整个生态提供了有价值的参考，也为产学研结合提供了新的合作空间。

美团开源新一代智能模型 多维度性能达国际领先水平

美团开源新一代智能模型多维度性能达国际领先水平