月之暗面创始人杨植麟披露Kimi技术路线图 坚持开源创新推动大模型底层架构重构

在人工智能技术快速发展的背景下,底层架构创新正成为行业突破的关键。

3月18日,月之暗面创始人杨植麟在英伟达年度开发者大会上发表演讲,系统阐述了新一代智能模型KimiK2.5的技术路线图,引发行业广泛关注。

当前,大模型发展面临计算效率、长程记忆和自动化协作等核心挑战。

杨植麟指出,行业普遍采用的优化器、注意力机制等底层技术标准多形成于2014至2017年间,已逐渐成为制约模型性能提升的瓶颈。

以广泛使用的Adam优化器为例,其在超大规模训练中已显现出效率不足的问题。

针对这些技术痛点,研究团队进行了系统性创新。

在优化器方面,开发并开源了MuonClip优化器,通过创新算法解决了传统优化器在超大规模训练中的稳定性问题,计算效率较传统方法提升2倍。

在注意力机制领域,研发的KimiLinear架构突破了"全注意力"的固有模式,在超长上下文处理中实现5-6倍的解码速度提升。

这些技术创新带来了显著效果。

实验数据显示,新型优化器使模型训练更加稳定高效,混合注意力架构大幅提升了长文本处理能力。

特别值得注意的是,团队在跨模态研究中发现,视觉强化学习训练可提升模型在纯文本任务上约2.1%的表现,表明多模态训练能有效增强模型的通用认知能力。

在应用前景方面,杨植麟重点介绍了智能体集群技术。

KimiK2.5引入的Orchestrator机制可将复杂任务智能分解,由多个子智能体并行处理。

为防止协作效率下降,团队设计了新型并行强化学习奖励函数,确保系统在任务分解和执行过程中保持高效。

值得关注的是,团队宣布将这些底层技术创新成果开源。

杨植麟表示,当前人工智能发展已进入新阶段,研究者拥有更充足的算力资源进行规模化实验验证,这使得技术创新的可靠性和普适性得到更好保障。

开源策略将有助于加速行业整体技术进步。

大模型迈向更高水平,拼的不仅是规模,更是基础能力的长期打磨与体系化创新。

围绕优化器、注意力与残差等“看不见的底座”进行重构,并将成果以开源方式接受检验与迭代,有助于形成更加透明、可复用的技术积累。

面向未来,谁能在效率、长记忆与协作执行之间建立可持续的规模效应,谁就更可能在新一轮竞争中赢得主动。