国内首款开源高质量音视频生成模型mova 上线

好消息！国内首款开源高质量音视频生成模型MOVA正式上线啦，能把画面和声音同步生成。邱锡鹏教授作为这个项目的负责人，也是上海创智学院的全时导师，专门给咱们解读一下MOVA和Seedance2.0这两个大模型到底有啥不一样。这次上海经信委主办的活动上，咱们上海创智学院联合模思智能，推出了国内首个开源高质量音视频同步生成模型MOVA。要知道，在这个领域，大家以前要么用闭源的Seedance2.0，要么就啥也干不成。Seedance2.0在2023年2月发布后可是火了一把，就连马斯克都忍不住在X上发评论说发展太快了。不过咱们MOVA偏学院派风格，跟商用化的Seedance2.0还是有些不一样的地方。Seedance2.0支持15秒时长和2K高清分辨率，而MOVA最长能生成8秒、720p分辨率的视频。从单段效果来看，Seedance2.0确实要强一些。但是别忘了，Seedance2.0不开放下载、不允许本地部署，MOVA就不一样了，它完全开源！邱锡鹏教授说，完全开源是咱们的最大特色，这样才能吸引更多人参与研究。除了全链路开源360p、720p两个基础模型外，咱们还提供了微调、推理、生成工作流在内的所有组件。不管你是想做动漫还是游戏，都可以拿MOVA当底座，自己动手优化成自己想要的风格。这种低成本落地的模式特别适合中小团队和垂直场景使用。这已经不是邱教授团队第一次搞开源啦！还记得2023年2月复旦大学发布的那个类ChatGPT对话式大模型MOSS吗？刚过两个月就正式开源了，成了国内首个支持搜索、画图、计算插件的开源对话模型。现在咱们MOVA也是走全栈开源这条路子。邱教授把自己定位成一个挑战者角色。毕竟Seedance2.0是商用导向和工业级投入的产品，而MOVA更注重开源生态建设。要知道做音视频模型可比文本模型难多了，数据量超大不说，底层基础设施还不完善呢。好在上海创智学院提倡“研创学”融合的育人文化，给学生机会深度参与重大项目实战锻炼。就算是新手小白进来半年时间也能打磨出好能力。而且学院孵化的模思智能凭借企业优势攻克了数据工程难题。听说MOVA1.5马上就要在3月底推出了！这次会有性能上的大提升哦！邱教授说这次把完整技术路线公开出来就是想给大家一个参考标准。毕竟现在全球音视频生成模型还在起步阶段嘛。最关键的是这个赛道才刚刚开始！未来的竞争肯定会越来越激烈。行业想突破核心命题还得靠提升模型智能水平呢！文本领域有规模定律嘛但是视频这块还没找到类似规律呢！未来视频智能模型应该能像人类一样通过理解视频感知世界嘛！“视频思考”新范式就是我们团队提出的方向：借助动态推理和多模态融合来挖掘视频的智能潜力。视频生成本身只是个基础任务啦！核心价值在于让模型变得更聪明更智能嘛！最终肯定会指向通用人工智能呀！