中国科学家突破大模型算力效率与长文本处理

当前大模型产业正面临关键瓶颈;近日举行的2026英伟达GTC大会上,月之暗面创始人杨植麟指出,业界广泛采用的多项技术标准已沿用八九年,这些陈旧标准正在限制人工智能模型的规模化发展。他强调,真正的Scaling不再是简单堆资源,而是要在计算效率、长程记忆和自动化协作等核心维度实现突破。问题根源在于传统技术架构的局限。杨植麟以优化器为例,指出自2014年以来沿用的Adam优化器在超大规模训练中已显现不足。Kimi团队探索更高效替代方案时发现,Muon优化器在Token效率上潜力明显,但在万亿参数训练中出现Logits爆炸,导致模型不稳定。为解决此问题,团队自主研发并开源MuonClip优化器,通过Newton-Schulz迭代和QK-Clip机制稳定训练,计算效率较传统AdamW方案提升一倍。 在注意力机制上,团队也挑战了既有范式。长期以来业界普遍认为所有层都必须采用全注意力机制。Kimi推出的KimiLinear混合线性注意力架构打破这一认知,通过优化递归存储管理,在处理128K甚至1M超长上下文时,解码速度提升5至6倍,并在不同长度场景中保持稳定表现。此外,团队在残差连接中引入Attention Residuals方案,用自适应Softmax注意力替代固定加法运算,有效缓解深层网络信息稀释,使各层能够选择性聚合信息。这一创新也引发业内资深人士的深入思考,认为对Transformer架构的理解仍需深入深化。 跨模态学习为文本性能带来意外收益。杨植麟分享的消融实验显示,视觉强化学习对文本模型的赋能,使MMLU-Pro和GPQA-Diamond等纯文本基准测试成绩提升约2.1%。这表明空间推理与视觉逻辑的增强可转化为更深层认知能力,为多模态融合提供了新方向。 在智能体协作上,杨植麟阐述了未来智能形态的演进趋势。他认为,从单一智能体向动态生成的智能体集群转变是必然。Kimi K2.5引入的Orchestrator机制可将复杂长任务拆解为多个子Agent并行处理,并设计全新并行强化学习奖励函数,避免协作中因单点依赖导致的“串行塌缩”,明显提高系统鲁棒性与效率。 这些创新反映了AI研究范式的变化。杨植麟指出,当代研究者能够进行更严谨的规模化实验,从而得出更可靠结论。这种方法论的进步,为在既有技术框架中寻找新突破创造了条件。 开源贡献表明了产业协作精神。月之暗面承诺将MuonClip优化器、KimiLinear架构和Attention Residuals等创新方案贡献给开源社区,推动行业技术进步与生态发展。

从优化器到注意力机制,再到智能体协作机制的重构,显示出大模型演进正从“规模扩张”转向“系统工程”的深度优化;面对智能上限与成本约束的双重挑战,持续推进底层标准革新并坚持开源共建,才能为新一轮大模型发展打开更具韧性与效率的空间。