中国科学家突破大模型算力效率与长文本处理

当前大模型产业正面临关键瓶颈；近日举行的2026英伟达GTC大会上，月之暗面创始人杨植麟指出，业界广泛采用的多项技术标准已沿用八九年，这些陈旧标准正在限制人工智能模型的规模化发展。他强调，真正的Scaling不再是简单堆资源，而是要在计算效率、长程记忆和自动化协作等核心维度实现突破。问题根源在于传统技术架构的局限。杨植麟以优化器为例，指出自2014年以来沿用的Adam优化器在超大规模训练中已显现不足。Kimi团队探索更高效替代方案时发现，Muon优化器在Token效率上潜力明显，但在万亿参数训练中出现Logits爆炸，导致模型不稳定。为解决此问题，团队自主研发并开源MuonClip优化器，通过Newton-Schulz迭代和QK-Clip机制稳定训练，计算效率较传统AdamW方案提升一倍。在注意力机制上，团队也挑战了既有范式。长期以来业界普遍认为所有层都必须采用全注意力机制。Kimi推出的KimiLinear混合线性注意力架构打破这一认知，通过优化递归存储管理，在处理128K甚至1M超长上下文时，解码速度提升5至6倍，并在不同长度场景中保持稳定表现。此外，团队在残差连接中引入Attention Residuals方案，用自适应Softmax注意力替代固定加法运算，有效缓解深层网络信息稀释，使各层能够选择性聚合信息。这一创新也引发业内资深人士的深入思考，认为对Transformer架构的理解仍需深入深化。跨模态学习为文本性能带来意外收益。杨植麟分享的消融实验显示，视觉强化学习对文本模型的赋能，使MMLU-Pro和GPQA-Diamond等纯文本基准测试成绩提升约2.1%。这表明空间推理与视觉逻辑的增强可转化为更深层认知能力，为多模态融合提供了新方向。在智能体协作上，杨植麟阐述了未来智能形态的演进趋势。他认为，从单一智能体向动态生成的智能体集群转变是必然。Kimi K2.5引入的Orchestrator机制可将复杂长任务拆解为多个子Agent并行处理，并设计全新并行强化学习奖励函数，避免协作中因单点依赖导致的“串行塌缩”，明显提高系统鲁棒性与效率。这些创新反映了AI研究范式的变化。杨植麟指出，当代研究者能够进行更严谨的规模化实验，从而得出更可靠结论。这种方法论的进步，为在既有技术框架中寻找新突破创造了条件。开源贡献表明了产业协作精神。月之暗面承诺将MuonClip优化器、KimiLinear架构和Attention Residuals等创新方案贡献给开源社区，推动行业技术进步与生态发展。

从优化器到注意力机制，再到智能体协作机制的重构，显示出大模型演进正从“规模扩张”转向“系统工程”的深度优化；面对智能上限与成本约束的双重挑战，持续推进底层标准革新并坚持开源共建，才能为新一轮大模型发展打开更具韧性与效率的空间。