阿里开源千问3.5大模型性能媲美国际先进水平 国产模型在新春竞逐中实现新突破

(问题)随着大模型进入应用深水区,行业关注点正从单纯追求参数规模与榜单排名,转向“真实场景可用性”:是否能在可控成本下稳定部署、是否能在长上下文与复杂任务中保持效率、是否能在多模态交互与工具调用中形成闭环能力。

尤其在移动端与企业生产环境中,显存、吞吐、时延与调用价格,直接决定产品能否规模化落地。

(原因)在此背景下,阿里巴巴于2月16日开源发布千问3.5-Plus。

与以往以文本为核心的训练范式不同,千问3.5-Plus强调“从底座开始的原生多模态”,即在视觉与文本混合token上进行预训练,并补强中英文、多语言、理工科与推理等数据结构,以提升跨模态理解、复杂推理与指令遵循能力。

与此同时,研发团队对经典架构进行关键改造,引入训练稳定性优化、多token预测等系列技术,目标是用更高的计算利用率换取更强的推理效率与更低的部署门槛。

(影响)从公开信息看,千问3.5-Plus总参数规模为3970亿,但激活参数约170亿,呈现“以小胜大”的工程取向:在保持高水平效果的同时,部署显存占用下降约60%,在32K常用上下文场景中推理吞吐提升显著,在256K超长上下文下最大吞吐提升可达19倍。

价格方面,其接口定价降至每百万Token低至0.8元,显著压低大模型调用成本。

多项评测数据显示,千问3.5-Plus在知识推理、博士级难题、指令遵循以及通用智能体与搜索智能体等基准上表现突出,并与国际同类模型展开直接对标。

更值得关注的是,千问3.5-Plus把能力外溢到“可操作的智能体”方向:在顶级视觉能力支撑下,可自主操作手机与电脑完成日常任务,移动端覆盖更多主流应用指令,PC端可处理跨应用数据整理、自动化流程执行等多步骤操作。

团队还提出可扩展的智能体异步强化学习框架,端到端训练效率提升,并将插件式智能体支持扩展至百万级规模,意在把模型能力转化为可复用、可分发、可迭代的应用资产。

(对策)业内人士认为,开源与降本的组合,将进一步倒逼产业链在三方面同步加速:一是企业侧应从“试点演示”转向“可量化收益”的工程化评估,围绕算力消耗、推理时延、调用成本、合规与安全建立统一指标体系,避免陷入只追热度不重落地的误区。

二是应用侧需强化“多模态+工具调用+流程编排”的产品能力,围绕客服、内容生产、办公协同、软件测试、数据分析等高频场景,构建可验证的业务闭环。

三是生态侧要推动标准化与可治理能力建设,特别是在长上下文信息管理、工具权限边界、数据安全与内容可靠性方面,形成可审计、可追责、可持续的治理机制。

(前景)今年以来,国内大模型更新频率加快,技术路线从“文本能力竞赛”延伸至多模态生成、智能体执行与生产级部署,竞争焦点也从“谁更大”转向“谁更省、谁更快、谁更能干活”。

千问3.5-Plus在效率、成本与智能体三条主线同时加码,释放出清晰信号:大模型产业正在从实验室指标驱动,转向以工程效率驱动的产业化阶段。

随着后续不同尺寸、不同功能的系列模型持续开源,以及旗舰版本的发布预期,模型能力的分层供给将更有利于中小企业按需选型、快速集成,进一步扩大规模化应用的覆盖面。

人工智能技术正以前所未有的速度重塑产业格局和社会形态。

中国企业在这一领域的持续突破,不仅展现了科技创新的硬实力,更体现了推动技术普惠发展的责任担当。

在全球科技竞争的大背景下,自主创新能力的提升将为高质量发展注入新动能。

未来,如何将技术优势转化为产业优势,如何实现技术与伦理的平衡发展,仍将是需要持续探索的重要课题。