面壁智能开源MiniCPM-o 4.5旗舰模型 9B参数实现高效对话与跨平台部署

面壁智能于2月4日开源MiniCPM-o 4.5模型，标志着全模态大模型技术的新进展。该模型采用端到端全模态设计，集成了全双工多模态实时流、主动交互等创新机制，实现了"边看、边听、主动说"的交互方式，打破了传统大模型被动回合制的局限。用户与模型对话时，感知连贯、对话自然、提醒主动，大幅提升了交互体验。参数效率上，MiniCPM-o 4.5表现突出。仅用9B参数，模型在全模态理解、视觉识别、文档解析、语音理解与生成、声音克隆各上均达到业界先进水平。这种高效设计源于面壁智能模型架构和数据方法上的创新，在保证性能的同时大幅降低了计算资源消耗。推理效率上，MiniCPM-o 4.5通过优化显存占用和加快响应速度——实现了更好的能效比——使用户可在消费级硬件上部署。模型已在天数智芯、华为昇腾、平头哥、海光、沐曦等国产芯片上获得性能提升，展现了良好的跨平台适配能力。语音生成与克隆是该模型的重要创新。通过新的设计方法，模型在语音的音色、拟人度和表现力上实现了全面升级。在长语音合成中，模型能自动选择合适的语气和音色，解决了传统方案音色不统一、语气不自然的问题。声音克隆功能只需数秒样本即可生成定制音色，支持基于克隆音色进行角色扮演对话，为应用场景拓展开辟了新可能。 MiniCPM-o 4.5已在GitHub、Hugging Face等平台发布。基于统一系统软件栈FlagOS的跨平台能力，为开发者提供了便利的部署和集成环境，有利于加速全模态技术在各行业的应用落地。

这次技术突破展现了国内科研团队在人工智能领域的创新能力，也反映了开源共享对技术生态建设的推动作用；在数字经济快速发展的背景下，如何将技术优势转化为产业优势，同时建立负责任的技术应用体系，是下一阶段的重要课题。这需要持续的技术创新，也需要产学研各界的协同配合。