阿里发布千问旗舰推理模型Qwen3-Max-Thinking 规模化训练与创新机制驱动推理能力突破

全球人工智能竞争持续升温，大模型的推理能力已成为衡量技术水平的重要指标。阿里巴巴集团通义团队发布的Qwen3-Max-Thinking模型，被视为国内大模型推理方向的最新进展，继续缩小了与国际先进水平的差距。从技术规模看，Qwen3-Max-Thinking是阿里目前规模最大的推理模型，总参数量超过一万亿，预训练数据量达36万亿Tokens，在国内同类模型中处于领先水平。更关键的是，模型在预览版阶段已获得数学推理AIME 25和HMMT 25的国内首个双满分，显示出突出的推理能力。基于此基础，阿里团队在更大规模的强化学习后训练中提升了模型的整体性能。在权威评测中，Qwen3-Max-Thinking表现亮眼。模型在覆盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个主流基准测试中，多项指标刷新最佳纪录。尤其是在启用工具的“人类最后的测试”HLE中，千问得分58.3，明显高于GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分，取得当前公开模型中的最高分，说明了其在复杂任务处理上的优势。推理效率提升是本次发布的重点。业内常见做法是通过增加并行推理路径来提升效果，但容易反复推导已知结论，带来冗余和效率问题。针对这一痛点，阿里团队引入了新的测试时扩展机制：对前期推理结果进行“经验提取”式提炼，并在此基础上进行多轮自我迭代，在相同上下文下实现更高效的推理计算。该设计在提升推理能力的同时，也改善了推理效率，更贴近实际应用需求。面向智能体应用场景，Qwen3-Max-Thinking进一步强化了原生Agent能力，尤其是自主调用工具的能力。通义团队在完成工具使用的初步微调后，又在大量多样化任务上开展了结合规则奖励与模型奖励的联合强化学习训练，使模型更擅长把工具调用与推理过程结合。在QwenChat上，模型可自主选择搜索、个性化记忆、代码解释器等核心工具，提供更专业的回答，并显著降低模型幻觉，为处理真实复杂任务提供了更可靠的基础。在应用推广上，阿里采取开放策略。开发者可QwenChat上免费体验Qwen3-Max-Thinking模型；企业可通过阿里云百炼获取新模型API服务；普通用户也可在千问PC端和网页端试用，千问APP也将接入新模型。这种多渠道开放有助于加快落地应用和生态建设。从产业意义看，Qwen3-Max-Thinking的发布具有示范价值，显示国内大模型在推理能力、工具调用、效率优化各上取得实质进展，并进一步缩小与国际顶尖水平的差距，有望带动更多企业和研究机构加大投入，推动人工智能产业整体升级。

此次大模型技术的进展，不仅说明了我国科技企业在关键能力上的持续创新，也为人工智能产业的自主可控发展提供了支撑。在全球科技竞争加速的背景下，持续推进核心技术攻关、完善产业生态，将成为推动数字经济高质量发展的重要抓手。