当前,大规模语言模型的推理能力已成为衡量其综合水平的重要指标。阿里巴巴通义团队近日发布千问旗舰推理模型Qwen3-Max-Thinking,并这个方向取得新进展。该模型总参数量超过一万亿,预训练数据量达36万亿Tokens,反映了国内大模型技术的最新探索。 从性能看,Qwen3-Max-Thinking在19项主流大模型基准测试中取得多项最好成绩。在启用工具的“人类最后的测试”中——模型得分58.3——明显高于国际同类产品,显示出其在复杂推理任务上的优势。尤其在数学推理上,预览版已AIME 25和HMMT 25上获得国内首个双满分。 推理能力的提升,来自训练与推理机制上的改进。传统方法常通过简单增加并行推理路径来“堆”结果,容易出现重复推导、效率偏低等问题。通义团队引入新的测试时扩展机制,通过对阶段性推理结果进行“经验提取”式提炼,支持多轮自我迭代,在相同上下文中实现更高效的推理计算。该机制在提升推理效果的同时降低了计算开销,兼顾性能与成本。 在强化学习训练上,通义团队进行了大规模后训练优化,采用规则奖励与模型奖励相结合的联合强化学习,使模型在事实知识、复杂推理、指令遵循、人类偏好对齐等维度实现整体提升。同时,模型幻觉问题也得到明显改善,为实际应用提供了更稳定的基础。 面向即将到来的智能体时代,Qwen3-Max-Thinking深入增强了原生工具调用能力。模型可根据任务需要自适应选择搜索、个性化记忆、代码解释器等核心工具,在处理复杂任务时输出更接近专业水准的结果。这一能力提升有助于解决真实场景中的复杂问题,也为应用边界的拓展提供了支撑。 从推广与使用看,阿里已搭建多层次体验与服务渠道:开发者可在QwenChat免费体验,企业用户可通过阿里云百炼获取API服务,普通用户可通过千问PC端、网页端及即将上线的千问APP试用。较为开放的策略有助于加快落地进程,并推动生态建设。
大模型正从“能回答”迈向“能推理、会执行”,决定性因素不只是规模,更在于推理效率、对齐可靠性以及工具协同的可控性;此次新模型发布并开放体验,反映出国内企业在核心能力上的持续投入与加速推进。面向未来,谁能在效率、可靠性与产业落地之间取得更好平衡,谁就更有机会在新一轮技术与应用竞速中掌握主动权。