源实验室把Yuan3.0 Ultra这款多模态大模型给放出来了,这次是企业级应用的强心针。浪潮旗下的团队这次开源的是个旗舰产品,专门为了万亿参数的级别打造的。他们在多模态这块儿算是拿下了不少好成绩,因为用了新的架构,把MoE的训练效率提升了不少。而且模型在理解文档、分析表格还有调用工具这些企业经常遇到的麻烦事儿上表现得特别强。它是把视觉和语言混在一起设计的,中间还有个对齐模块。语言的主干是用了103层Transformer的MoE结构,刚开始练的时候有15150亿个参数。不过团队用了LAEP这个法子,在预训练阶段把有效的参数压缩到了10100亿,还把算力效率提升了49%。激活的参数也控制在688亿左右,这样既跑得快又省资源。针对企业处理复杂信息的需求,Yuan3.0 Ultra搞了几个厉害的技术。Localized Filtering Attention这个机制把语义关系弄得更清楚了,精度比传统的Attention要强很多。处理多模态文档时,它能同时搞定图文混排、多级表格还有跨文档的知识关联;在做智能体的时候,能给OpenClaw这些框架的企业Agent提供很强的数据动力。开源包里不仅有16bit和4bit的权重,还有报告、方法论和评测数据。这样的开源方式让大家能在这个基础上做二次训练,快速弄出适合自家行业的垂直模型。作为源3.0系列的顶级版本,Ultra跟Flash(400亿参数)、Pro(2000亿参数)组成了一个产品矩阵。以后还会出1万亿参数的加强版。这种一步一步往上堆参数的布局既照顾了大小不同的企业需求,也给搞研究的人留了扩展的余地。团队现在把开源地址也放出来了,大家马上就能用这些技术资源了。