美团开源新一代智能模型 多维度性能达国际领先水平

围绕大模型在真实业务场景中的落地应用,业界普遍面临一个核心难题:模型在开放环境下执行复杂任务时,往往需要调用搜索、计算、数据库、代码执行等外部工具,且工具接口与组合方式高度多样。

工具一旦变化,适配成本随之上升,模型在“会说”之外能否“会做、做对、做稳”,成为衡量智能体能力的重要分水岭。

近日,美团LongCat团队发布并开源LongCat-Flash-Thinking-2601,并将其定位为面向工具交互与复杂推理的升级版本,相关指标与方法引发关注。

从原因看,一方面,产业端对“可执行的智能体”需求加速增长。

电商、生活服务、企业办公等场景普遍存在多系统协同与多步骤流程,模型必须理解任务、制定计划、选择工具、校验结果并纠错,才能完成闭环。

另一方面,传统单一路径推理容易在复杂问题上出现“思路收敛过早”或“错误链式放大”,导致工具选择不当、调用顺序混乱、结果校验不足。

针对这些痛点,美团提出“重思考模式”:在遇到高难度任务时,先进行并行思考,独立生成多条推理路径并强调多样性;再进入总结归纳阶段,对多路径进行整合与优化,并把优化结果再次输入形成迭代,从而推动推理不断加深。

同时,团队称引入了额外的强化学习训练环节,重点打磨总结归纳能力,提升“先想清楚再行动”的稳定性。

从影响看,开源与在线体验的结合,降低了产业与研究机构的验证门槛,有助于加快工具调用、交互推理等能力的复现与评测对齐。

按其公布数据,该模型在多项评测中取得较高分数:在编程能力方面,LCB评测82.8分、OIBench EN 47.7分;在数学推理方面,开启重思考模式后在AIME-25获得满分,在IMO-AnswerBench达到86.8分;在工具调用方面,τ²-Bench 88.2分、VitaBench 29.3分;在智能体搜索方面,BrowseComp 73.1分、RW Search 79.5分。

美团方面还称,在依赖工具调用的随机复杂任务中,其表现体现出较强泛化能力,可在一定程度上降低新工具适配的训练成本。

若上述能力在更广泛场景中得到验证,将有望提升智能体在客服、运营、内容生成、数据分析与研发辅助等领域的可用性与可靠性。

从对策看,推动智能体能力走向可用、可信,需要在“模型能力—工具生态—评测体系—安全治理”上形成合力。

其一,模型侧应强化多步骤规划、过程校验与失败回退机制,减少一次性推理造成的不可控风险。

其二,工具侧应提升接口规范化与可观测性,明确输入输出、权限边界与错误处理,降低模型对工具的“猜测式调用”。

其三,评测侧要更接近真实环境。

美团提出的自动化任务合成流程,支持基于关键词随机生成复杂任务,并为任务配置对应工具集与可执行环境,通过高度随机的工具组合来检验泛化能力,这类思路有助于缓解“刷榜式优化”与“固定题库过拟合”的问题。

其四,治理侧需将安全、合规与可追溯要求前置到训练与部署环节,尤其是在具备执行能力的场景中,需对权限、数据与操作后果进行更严格的约束与审计。

从前景看,开源模型在工具调用与智能体方向的持续突破,正推动行业从“对话式智能”向“行动式智能”演进。

未来竞争焦点或将从单一指标转向系统能力:能否在多工具、多约束、多目标条件下稳定完成任务;能否在不确定环境中保持鲁棒性与可解释性;能否以更低成本适配新工具与新流程。

与此同时,评测与应用仍需保持审慎:公开基准高分不等同于全场景可靠,跨领域迁移、长链路任务、复杂权限系统与现实数据噪声,都会对智能体提出更高要求。

行业有必要在开放协作中推动标准化评测、透明化复现和更贴近应用的压力测试,促进技术能力与产业需求相互校准。

LongCat-Flash-Thinking-2601的发布,反映了国内企业在大模型推理能力上的不断探索和突破。

从单纯追求模型规模到强调推理深度,从黑盒输出到可解释的多路径思考,这些转变标志着行业发展正进入更加理性、更加务实的阶段。

面向未来,如何让模型的"思考"过程更加透明、更加可控,如何进一步提升在复杂场景中的泛化能力,仍需要持续的技术创新。

美团的开源举措,为整个生态提供了有价值的参考,也为产学研结合提供了新的合作空间。