国产大模型春节档密集上新:MiniMax M2.5以“原生Agent”抢占生产力赛道

国产AI大模型竞争春节前夕迎来新的转折点。随着多家厂商密集发布新产品,上海企业MiniMax推出的新一代文本模型M2.5正式加入这场激烈的市场竞争。与以往单纯比拼参数规模和榜单排名不同,这款产品将竞争焦点转向了Agent技术的实际应用能力,标志着国产大模型发展进入了新的阶段。 在编程能力上,M2.5表现出显著的技术优势。根据权威评测数据,该模型SWE-Bench Verified上的得分达到80.2%,在Multi-SWE-Bench上的得分为51.3%,相比上一代产品实现了大幅提升。更为关键的是,M2.5在多语言复杂环境中的表现已经超越了国际同类产品,达到了行业最高水平。该成绩背后反映的是模型在代码理解和生成能力上的深层突破。 有一点是,M2.5具备"原生Spec能力",即在正式编码前能够主动拆解架构与功能规划,这种工作模式更加接近真实的软件架构师思维方式。这意味着模型不仅能够生成代码,更能够理解和规划复杂的系统设计,这对于提升开发效率至关重要。 在工具调用和搜索能力上,M2.5同样表现出色。该模型能够自动处理复杂任务,在BrowseComp、Wide Search等多项Agent任务中以更低的轮次消耗取得了更优的效果,相比上一代产品性能提升了20%,达到了行业顶尖水平。这表明模型在理解用户意图、规划任务步骤、调用外部工具诸上的能力已经达到了实用化阶段。 办公场景的能力提升也是M2.5的重要亮点。Word、PPT、Excel等常见办公工具以及金融建模等高阶应用中,M2.5取得了显著的能力提升。在GDPval-MM测评框架中,该模型相比主流产品的平均胜率达到了59.0%,这意味着在实际办公工作中,用户使用M2.5完成任务的效果已经可以与其他主流产品相媲美。 MiniMax内部的实际应用情况继续验证了M2.5的实用价值。在真实业务场景中,该模型已经自主完成了整体任务的30%,涵盖研发、产品、销售、人力资源、财务等多个职能部门,且这一比例仍在持续上升。特别是在编程领域,M2.5生成的代码已经占到新提交代码的80%,这充分说明了模型在实际生产环节中的可靠性和有效性。 除了性能指标外,M2.5在推理速度和成本控制上也实现了突破。M2.5-lightning版本支持每秒100个Token以上的输出速度,这是主流模型的两倍左右。成本上,输入价格约为每百万Token 0.3美元,输出价格约为每百万Token 2.4美元。按照每秒输出100个Token计算,连续运行一小时的成本仅约1美元;若按每秒50个Token计算,成本则降至0.3美元。这意味着理论上1万美元可以支持4个Agent连续工作一年,这对于Agent技术的规模化部署具有革命性意义。 从技术迭代的角度看,M2.5的快速进步反映了国产大模型研发的加速态势。在过去108天内,MiniMax完成了从M2到M2.1再到M2.5的三代迭代,其中SWE-Bench Verified的成绩从69.4提升至80.2,进步曲线在同业中尤为陡峭。这一快速迭代的背后是大规模Agent强化学习技术的应用。 MiniMax自研的Forge框架通过解耦训练引擎与Agent,实现了对任意Agent脚手架和工具的泛化优化。同时,通过异步调度与树状合并策略,该框架实现了约40倍的训练加速,这大幅提高了模型迭代的效率。在算法层面,团队采用了CISPO优化与过程奖励机制,有效缓解了长上下文场景中的信用分配问题,并将"任务真实耗时"纳入奖励函数,在效果与响应速度之间取得了平衡。 从市场竞争的角度看,M2.5的发布标志着国产大模型竞争重心的转变。过去的竞争主要集中在模型规模、参数数量等基础指标上,而现在的竞争已经转向了实际应用能力、经济效益、用户体验等更加务实的方向。这种转变反映了大模型产业的日趋成熟,也预示着未来的竞争将更加聚焦于解决实际问题的能力。

此次突破不仅展示了我国AI创新能力,也为技术产业化提供了实践路径。未来如何在保持技术自主的同时持续提升应用效能,将成为行业发展的重要方向。(完)