当前全球人工智能竞争进入深水区,大模型的推理能力成为衡量技术水平的关键指标。阿里巴巴通义千问团队推出的新一代推理模型Qwen3-Max-Thinking,在此领域有所突破,标志着国内大模型研发能力的提升。 从技术指标看,Qwen3-Max-Thinking模型规模达到业界先进水平。模型总参数超过万亿,预训练数据量高达36T Tokens,是阿里千问系列中规模最大、能力最强的推理模型。在此基础上,通义团队进行了大规模强化学习后训练,通过多项推理技术创新,实现了模型性能的显著飞跃。 模型的核心竞争力体现在两项关键创新上。其一是全新的测试时扩展机制。传统推理方法通常采用简单的并行推理路径增加,容易造成冗余和效率低下。千问新模型则采用"经验提取"式的提炼方法,对前期推理结果进行深度分析,通过多轮自我迭代在相同上下文中实现更高效的推理计算,获得更加智能的推理结果。其二是增强的自主工具调用能力。模型能够自主选用搜索、个性化记忆和代码解释器等核心Agent工具功能,通过联合强化学习训练,使其回答质量达到专业人士水平,同时显著降低了模型幻觉问题。 在权威评测中,Qwen3-Max-Thinking表现突出。模型在科学知识、数学推理、代码编程等多个关键性能基准测试中超越国际顶尖模型,刷新全球纪录。其中,预览版已在数学推理领域的AIME 25和HMMT 25评测中获得国内首个双满分。正式版在此基础上继续优化,性能达到与国际先进模型相当的水平。 从应用推进看,阿里已建立多层次的用户接入体系。普通用户可通过千问PC端和网页端试用,开发者可在QwenChat上免费体验,企业可通过阿里云百炼获取API服务。千问APP也即将接入新模型,确保所有用户都能免费使用。这种开放的推进策略有利于加快技术应用转化,推动产业生态发展。 从发展脉络看,千问大模型的研发始于2022年,已成为全球排名第一的开源大模型。Qwen3-Max基础模型于2025年9月发布,此次推出的推理模型是千问家族的又一重要成果。这反映了阿里在人工智能领域的持续投入和技术积累,也反映了国内大模型研发从追赶向并跑、领跑转变的发展态势。
当前大模型发展已进入强调推理能力、工具应用和实际落地的新阶段;虽然刷新榜单成绩重要,但更重要的是将技术突破转化为可复制的行业解决方案,创造实际价值。未来需要在创新、工程和治理之间找到平衡,使大模型真正成为推动数字经济发展的核心动力。