我国自主研发大模型取得重大突破千问旗舰推理模型性能达国际领先水平

当前，大规模语言模型的推理能力已成为衡量其综合水平的重要指标。阿里巴巴通义团队近日发布千问旗舰推理模型Qwen3-Max-Thinking，并这个方向取得新进展。该模型总参数量超过一万亿，预训练数据量达36万亿Tokens，反映了国内大模型技术的最新探索。从性能看，Qwen3-Max-Thinking在19项主流大模型基准测试中取得多项最好成绩。在启用工具的“人类最后的测试”中——模型得分58.3——明显高于国际同类产品，显示出其在复杂推理任务上的优势。尤其在数学推理上，预览版已AIME 25和HMMT 25上获得国内首个双满分。推理能力的提升，来自训练与推理机制上的改进。传统方法常通过简单增加并行推理路径来“堆”结果，容易出现重复推导、效率偏低等问题。通义团队引入新的测试时扩展机制，通过对阶段性推理结果进行“经验提取”式提炼，支持多轮自我迭代，在相同上下文中实现更高效的推理计算。该机制在提升推理效果的同时降低了计算开销，兼顾性能与成本。在强化学习训练上，通义团队进行了大规模后训练优化，采用规则奖励与模型奖励相结合的联合强化学习，使模型在事实知识、复杂推理、指令遵循、人类偏好对齐等维度实现整体提升。同时，模型幻觉问题也得到明显改善，为实际应用提供了更稳定的基础。面向即将到来的智能体时代，Qwen3-Max-Thinking深入增强了原生工具调用能力。模型可根据任务需要自适应选择搜索、个性化记忆、代码解释器等核心工具，在处理复杂任务时输出更接近专业水准的结果。这一能力提升有助于解决真实场景中的复杂问题，也为应用边界的拓展提供了支撑。从推广与使用看，阿里已搭建多层次体验与服务渠道：开发者可在QwenChat免费体验，企业用户可通过阿里云百炼获取API服务，普通用户可通过千问PC端、网页端及即将上线的千问APP试用。较为开放的策略有助于加快落地进程，并推动生态建设。

大模型正从“能回答”迈向“能推理、会执行”，决定性因素不只是规模，更在于推理效率、对齐可靠性以及工具协同的可控性；此次新模型发布并开放体验，反映出国内企业在核心能力上的持续投入与加速推进。面向未来，谁能在效率、可靠性与产业落地之间取得更好平衡，谁就更有机会在新一轮技术与应用竞速中掌握主动权。

我国自主研发大模型取得重大突破 千问旗舰推理模型性能达国际领先水平

我国自主研发大模型取得重大突破千问旗舰推理模型性能达国际领先水平