sarvam在印度搞了个大动作,直接发布了两款新的moe 架构的llm

最近,印度那边有个叫Sarvam的AI实验室,他们搞了个大动作,直接发布了两款新的MoE架构的LLM。虽然声称是从0开始造的,不过他们挺接地气,不仅要把这两款模型开源给大家,还说API访问和仪表盘啥的马上就来了。IT之家这边也注意到了,Sarvam当地时间18号在一次峰会上发了言,把这两款重磅产品亮了出来。 在设计上,Sarvam给小的那个型号定了个30B-A1B的指标,训练数据堆到了16T,而且能扛住32K的上下文长度,这就挺适合那些对速度有要求的实时应用。至于那个大家伙,用的是105B-A9B的参数规模,支持的上下文更长,达到了128K,给那些特别挑刺的任务用正合适。 Sarvam觉得自家的105B-A9B在印度本地的语言测试里表现最好,把谷歌的Gemini 2.5 Flash给比下去了。不过跟DeepSeek R1还有Gemini Flash比起来,Sarvam也没吃亏,大部分时候都能赢,个别情况还能再强一点。