千问大模型qwen3.5-plus跑赢了gpt-5.2、claude 4.5-plus

千问在2月16日给大家带来了全新的大模型Qwen3.5-Plus，把这个模型接入了APP和PC端，这次发布的数据显示，它在不少评估里面都跑赢了GPT-5.2、Claude 4.5还有Gemini 3 Pro。这次千问3.5给大模型的底层架构做了大手术，最新的Qwen3.5-Plus总共有3970亿个参数，激活的时候只用了170亿。这就把部署时的显存占用砍了60%，还能把最大的推理吞吐量提升到19倍。如果要用API服务，每百万Token只要花0.8元。千问APP和PC端已经第一时间用上了新模型，开发者可以去魔搭社区或者HuggingFace下载新模型，也可以直接在阿里云百炼那里买API服务。这次的千问3.5跟以前的纯文本大语言模型不一样，它从以前的“文盲”变成了“多眼通”。Qwen3以前只能认文字，Qwen3.5就开始看图像了。它还大笔一挥加了好多中英文、STEM方面的新数据和推理题，就像给AI打开了眼睛一样。这样一来，用不到40%的参数就能让它的性能赶上甚至超过之前那个参数多了好几倍的Qwen3-Max。在各种考试里它都拿了高分：MMLU-Pro知识推理考了87.8分超过GPT-5.2；博士级难题GPQA考了88.4分比Claude 4.5高；指令遵循IFBench拿了76.5分打破了纪录；在通用Agent评测BFCL-V4和搜索Agent评测Browsecomp上也超过了Gemini 3 Pro。还有它的视觉能力也在往上涨：MathVison、RealWorldQA、CC_OCR这些评测里都拿了第一名。这背后的功劳在于技术创新。千问团队搞了个自研的门控技术拿了NeurIPS最佳论文奖，把这技术放进了混合架构里。他们还用了线性注意力机制和稀疏混合专家MoE模型架构，把3970亿的参数搞成了只需要170亿就能用。再加上训练稳定优化和多 token 预测这些招数，Qwen3.5就跟Qwen3-Max一样好用了。在32K长文本的场景下推理速度快了8.6倍；256K的超长文本时速度能提到19倍。因为有这么好的视觉能力，千问3.5还能自己操控手机和电脑干家务活儿。它在手机上能跟主流APP配合干活；在电脑上能处理复杂的多步骤操作。团队还搞了个异步强化学习框架把Agent应用搞大了好几倍，支持插件式的智能体Agent扩展到了百万级别。