小米mimo大模型“悄无声息的伏击”

小米方面终于承认了这次炒作——3月19日凌晨,公司把传闻中的神秘模型“Hunter Alpha”正式揽入怀中。当天的API聚合平台OpenRouter上,这款模型曾一度冲上排行榜首,许多网友猜测它是DeepSeek V4的早期测试版本。对于“Hunter Alpha”,小米用新的面孔重新进行了包装,推出了MiMo-V2-Pro、Omni和TTS这三款新的大模型。作为福利,用户可以在一周内免费体验它们。 随后,小米MiMo大模型的负责人罗福莉发了一篇长文,说这是公司首款真正为智能体时代量身定制的全栈产品系列。她用“悄无声息的伏击”来形容这次的进展,其实并不是因为之前有周密的计划,而是因为智能体模式的发展速度太快了。几个月前就已经启动了1T规模的基础模型训练,主要是为了提升长文本的推理效率。混合注意力机制被证明是个很好的创新点,既新颖又不过分夸张,非常适合智能体时代的发展。 为了实现超低延迟和低成本的推理,这次采用了MTP架构,还有1M的上下文窗口长度。这些决策可不是心血来潮做出来的,而是在需要之前就搭建好的结构性优势。真正让她觉得不同的是那种复杂的智能体框架——她称之为“精心编排的语境”。第一天体验到的时候,她都震惊了,想说服团队采用却没成功,于是给了他们一个强硬的命令:第二天对话次数不到100次的人可以走人。这招果然见效,大家的想象力被激发出来后,研究速度也变快了。 大家问起为什么进展这么快?她举了DeepSeek R1的例子说明:训练后敏捷性确实是种不同的能力。战略决心能带来长期的回报,而产品直觉能让评估更准、迭代更快、范式转变也更早发生。除此之外还离不开好奇心、技术直觉、执行力和全身心的投入,还有一点常被忽视:对自己创造的世界要有真挚的热爱。 最后罗福莉承诺,等新的MiMo-V2系列模型足够稳定、值得开源时就会公布代码。