国产大模型春节档密集上新：MiniMax M2.5以“原生Agent”抢占生产力赛道

国产AI大模型竞争春节前夕迎来新的转折点。随着多家厂商密集发布新产品，上海企业MiniMax推出的新一代文本模型M2.5正式加入这场激烈的市场竞争。与以往单纯比拼参数规模和榜单排名不同，这款产品将竞争焦点转向了Agent技术的实际应用能力，标志着国产大模型发展进入了新的阶段。在编程能力上，M2.5表现出显著的技术优势。根据权威评测数据，该模型SWE-Bench Verified上的得分达到80.2%，在Multi-SWE-Bench上的得分为51.3%，相比上一代产品实现了大幅提升。更为关键的是，M2.5在多语言复杂环境中的表现已经超越了国际同类产品，达到了行业最高水平。该成绩背后反映的是模型在代码理解和生成能力上的深层突破。有一点是，M2.5具备"原生Spec能力"，即在正式编码前能够主动拆解架构与功能规划，这种工作模式更加接近真实的软件架构师思维方式。这意味着模型不仅能够生成代码，更能够理解和规划复杂的系统设计，这对于提升开发效率至关重要。在工具调用和搜索能力上，M2.5同样表现出色。该模型能够自动处理复杂任务，在BrowseComp、Wide Search等多项Agent任务中以更低的轮次消耗取得了更优的效果，相比上一代产品性能提升了20%，达到了行业顶尖水平。这表明模型在理解用户意图、规划任务步骤、调用外部工具诸上的能力已经达到了实用化阶段。办公场景的能力提升也是M2.5的重要亮点。Word、PPT、Excel等常见办公工具以及金融建模等高阶应用中，M2.5取得了显著的能力提升。在GDPval-MM测评框架中，该模型相比主流产品的平均胜率达到了59.0%，这意味着在实际办公工作中，用户使用M2.5完成任务的效果已经可以与其他主流产品相媲美。 MiniMax内部的实际应用情况继续验证了M2.5的实用价值。在真实业务场景中，该模型已经自主完成了整体任务的30%，涵盖研发、产品、销售、人力资源、财务等多个职能部门，且这一比例仍在持续上升。特别是在编程领域，M2.5生成的代码已经占到新提交代码的80%，这充分说明了模型在实际生产环节中的可靠性和有效性。除了性能指标外，M2.5在推理速度和成本控制上也实现了突破。M2.5-lightning版本支持每秒100个Token以上的输出速度，这是主流模型的两倍左右。成本上，输入价格约为每百万Token 0.3美元，输出价格约为每百万Token 2.4美元。按照每秒输出100个Token计算，连续运行一小时的成本仅约1美元；若按每秒50个Token计算，成本则降至0.3美元。这意味着理论上1万美元可以支持4个Agent连续工作一年，这对于Agent技术的规模化部署具有革命性意义。从技术迭代的角度看，M2.5的快速进步反映了国产大模型研发的加速态势。在过去108天内，MiniMax完成了从M2到M2.1再到M2.5的三代迭代，其中SWE-Bench Verified的成绩从69.4提升至80.2，进步曲线在同业中尤为陡峭。这一快速迭代的背后是大规模Agent强化学习技术的应用。 MiniMax自研的Forge框架通过解耦训练引擎与Agent，实现了对任意Agent脚手架和工具的泛化优化。同时，通过异步调度与树状合并策略，该框架实现了约40倍的训练加速，这大幅提高了模型迭代的效率。在算法层面，团队采用了CISPO优化与过程奖励机制，有效缓解了长上下文场景中的信用分配问题，并将"任务真实耗时"纳入奖励函数，在效果与响应速度之间取得了平衡。从市场竞争的角度看，M2.5的发布标志着国产大模型竞争重心的转变。过去的竞争主要集中在模型规模、参数数量等基础指标上，而现在的竞争已经转向了实际应用能力、经济效益、用户体验等更加务实的方向。这种转变反映了大模型产业的日趋成熟，也预示着未来的竞争将更加聚焦于解决实际问题的能力。

此次突破不仅展示了我国AI创新能力，也为技术产业化提供了实践路径。未来如何在保持技术自主的同时持续提升应用效能，将成为行业发展的重要方向。（完）