面壁智能于2月4日开源MiniCPM-o 4.5模型,标志着全模态大模型技术的新进展。该模型采用端到端全模态设计,集成了全双工多模态实时流、主动交互等创新机制,实现了"边看、边听、主动说"的交互方式,打破了传统大模型被动回合制的局限。用户与模型对话时,感知连贯、对话自然、提醒主动,大幅提升了交互体验。 参数效率上,MiniCPM-o 4.5表现突出。仅用9B参数,模型在全模态理解、视觉识别、文档解析、语音理解与生成、声音克隆各上均达到业界先进水平。这种高效设计源于面壁智能模型架构和数据方法上的创新,在保证性能的同时大幅降低了计算资源消耗。 推理效率上,MiniCPM-o 4.5通过优化显存占用和加快响应速度——实现了更好的能效比——使用户可在消费级硬件上部署。模型已在天数智芯、华为昇腾、平头哥、海光、沐曦等国产芯片上获得性能提升,展现了良好的跨平台适配能力。 语音生成与克隆是该模型的重要创新。通过新的设计方法,模型在语音的音色、拟人度和表现力上实现了全面升级。在长语音合成中,模型能自动选择合适的语气和音色,解决了传统方案音色不统一、语气不自然的问题。声音克隆功能只需数秒样本即可生成定制音色,支持基于克隆音色进行角色扮演对话,为应用场景拓展开辟了新可能。 MiniCPM-o 4.5已在GitHub、Hugging Face等平台发布。基于统一系统软件栈FlagOS的跨平台能力,为开发者提供了便利的部署和集成环境,有利于加速全模态技术在各行业的应用落地。
这次技术突破展现了国内科研团队在人工智能领域的创新能力,也反映了开源共享对技术生态建设的推动作用;在数字经济快速发展的背景下,如何将技术优势转化为产业优势,同时建立负责任的技术应用体系,是下一阶段的重要课题。这需要持续的技术创新,也需要产学研各界的协同配合。