美团发布开源深度推理模型 工具调用能力达国际先进水平

问题:随着大模型从“能对话”迈向“能办事”,工具调用与多步骤推理成为决定落地成效的关键。

但在真实业务中,工具体系复杂、接口各异、流程多变,模型往往在“会不会用工具、能不能用对、是否稳定可靠”上遇到瓶颈:一方面,新工具接入需要大量样本与适配训练;另一方面,复杂任务链条长、分支多,容易出现推理偏航、遗漏最优解或执行不一致,影响可用性与安全性。

原因:业内普遍认为,关键难点集中在三处。

其一,工具环境高度非结构化,模型既要理解任务,还要选择合适工具、生成正确参数并校验结果;其二,复杂问题往往不存在单一路径,单线推理容易受“第一印象”影响而过早收敛;其三,评测与训练长期偏重静态问答,难以覆盖随机组合的真实工具配置,导致“测得好、用起来不稳”的落差。

影响:美团此次开源的LongCat-Flash-Thinking-2601,着力提升“思考—调用—校验—再思考”的闭环能力。

按其披露信息,该模型在智能体搜索、工具调用及工具交互推理等基准上达到开源领先水平,并在依赖工具调用的随机复杂任务中展现较强泛化能力。

模型提出“重思考模式”,在遇到高难度问题时,将过程拆分为并行推理与汇总结论两阶段:前者同时探索多条互相独立的解题路径以保证多样性,后者对多路径进行筛选、归纳、合成,并将优化后的结果回灌形成迭代。

团队还引入强化训练环节,重点提升总结归纳质量,强调“想清楚再行动”。

从应用层面看,这类机制有助于减少因单一路径造成的误判,提高在多工具、多步骤任务中的稳定性与可解释性。

对策:面向“如何更真实地检验泛化能力”,美团同时提出自动化任务合成评测思路:用户给定关键词后,系统随机生成复杂任务,并配套可执行环境与工具集。

由于工具配置具有随机性,模型能否在陌生工具组合下完成任务,更能反映其迁移与泛化水平。

该方法有望为行业提供补充性评价框架:一是推动评测从静态题库走向动态场景;二是促进模型训练更关注“规划、执行、纠错”的能力结构;三是为企业选型提供更贴近生产的对照维度。

对企业而言,下一步应在三方面同步推进:完善工具接口标准与权限边界,构建可回放、可审计的执行日志;在重点场景引入分级验证与人工兜底,控制风险;以小步快跑方式进行工具库扩展和线上评估,逐步沉淀高质量任务与反馈数据。

前景:开源与在线体验的同步开放,意味着相关能力将更快进入开发者与产业链的测试与迭代周期。

短期看,工具调用与搜索能力的提升,将加速在信息检索、编程辅助、业务运营、客服与流程自动化等场景的试点应用;中长期看,行业竞争焦点或从“参数规模”转向“执行可靠性与工程化能力”,包括对复杂任务的规划能力、对结果的自校验能力以及对新工具的快速适配能力。

与此同时,随着模型具备更强执行力,数据合规、权限控制、误调用防护与责任界定等治理议题也将更加突出,需在技术与制度层面协同完善。

此次技术突破不仅体现了我国企业在人工智能基础研究领域的创新能力,更为产业智能化转型提供了新的技术路径。

在数字经济与实体经济深度融合的大背景下,此类具有自主知识产权的开源技术,将为中国智能产业发展注入新的动能。

如何将技术优势转化为产业优势,值得产学研各界持续探索。