小米mimo大模型“悄无声息的伏击”

小米方面终于承认了这次炒作——3月19日凌晨，公司把传闻中的神秘模型“Hunter Alpha”正式揽入怀中。当天的API聚合平台OpenRouter上，这款模型曾一度冲上排行榜首，许多网友猜测它是DeepSeek V4的早期测试版本。对于“Hunter Alpha”，小米用新的面孔重新进行了包装，推出了MiMo-V2-Pro、Omni和TTS这三款新的大模型。作为福利，用户可以在一周内免费体验它们。随后，小米MiMo大模型的负责人罗福莉发了一篇长文，说这是公司首款真正为智能体时代量身定制的全栈产品系列。她用“悄无声息的伏击”来形容这次的进展，其实并不是因为之前有周密的计划，而是因为智能体模式的发展速度太快了。几个月前就已经启动了1T规模的基础模型训练，主要是为了提升长文本的推理效率。混合注意力机制被证明是个很好的创新点，既新颖又不过分夸张，非常适合智能体时代的发展。为了实现超低延迟和低成本的推理，这次采用了MTP架构，还有1M的上下文窗口长度。这些决策可不是心血来潮做出来的，而是在需要之前就搭建好的结构性优势。真正让她觉得不同的是那种复杂的智能体框架——她称之为“精心编排的语境”。第一天体验到的时候，她都震惊了，想说服团队采用却没成功，于是给了他们一个强硬的命令：第二天对话次数不到100次的人可以走人。这招果然见效，大家的想象力被激发出来后，研究速度也变快了。大家问起为什么进展这么快？她举了DeepSeek R1的例子说明：训练后敏捷性确实是种不同的能力。战略决心能带来长期的回报，而产品直觉能让评估更准、迭代更快、范式转变也更早发生。除此之外还离不开好奇心、技术直觉、执行力和全身心的投入，还有一点常被忽视：对自己创造的世界要有真挚的热爱。最后罗福莉承诺，等新的MiMo-V2系列模型足够稳定、值得开源时就会公布代码。