国内首款开源高质量音视频生成模型mova 上线

好消息!国内首款开源高质量音视频生成模型MOVA正式上线啦,能把画面和声音同步生成。邱锡鹏教授作为这个项目的负责人,也是上海创智学院的全时导师,专门给咱们解读一下MOVA和Seedance2.0这两个大模型到底有啥不一样。 这次上海经信委主办的活动上,咱们上海创智学院联合模思智能,推出了国内首个开源高质量音视频同步生成模型MOVA。要知道,在这个领域,大家以前要么用闭源的Seedance2.0,要么就啥也干不成。Seedance2.0在2023年2月发布后可是火了一把,就连马斯克都忍不住在X上发评论说发展太快了。 不过咱们MOVA偏学院派风格,跟商用化的Seedance2.0还是有些不一样的地方。Seedance2.0支持15秒时长和2K高清分辨率,而MOVA最长能生成8秒、720p分辨率的视频。从单段效果来看,Seedance2.0确实要强一些。但是别忘了,Seedance2.0不开放下载、不允许本地部署,MOVA就不一样了,它完全开源!邱锡鹏教授说,完全开源是咱们的最大特色,这样才能吸引更多人参与研究。 除了全链路开源360p、720p两个基础模型外,咱们还提供了微调、推理、生成工作流在内的所有组件。不管你是想做动漫还是游戏,都可以拿MOVA当底座,自己动手优化成自己想要的风格。这种低成本落地的模式特别适合中小团队和垂直场景使用。 这已经不是邱教授团队第一次搞开源啦!还记得2023年2月复旦大学发布的那个类ChatGPT对话式大模型MOSS吗?刚过两个月就正式开源了,成了国内首个支持搜索、画图、计算插件的开源对话模型。现在咱们MOVA也是走全栈开源这条路子。 邱教授把自己定位成一个挑战者角色。毕竟Seedance2.0是商用导向和工业级投入的产品,而MOVA更注重开源生态建设。要知道做音视频模型可比文本模型难多了,数据量超大不说,底层基础设施还不完善呢。 好在上海创智学院提倡“研创学”融合的育人文化,给学生机会深度参与重大项目实战锻炼。就算是新手小白进来半年时间也能打磨出好能力。而且学院孵化的模思智能凭借企业优势攻克了数据工程难题。 听说MOVA1.5马上就要在3月底推出了!这次会有性能上的大提升哦!邱教授说这次把完整技术路线公开出来就是想给大家一个参考标准。毕竟现在全球音视频生成模型还在起步阶段嘛。 最关键的是这个赛道才刚刚开始!未来的竞争肯定会越来越激烈。行业想突破核心命题还得靠提升模型智能水平呢!文本领域有规模定律嘛但是视频这块还没找到类似规律呢! 未来视频智能模型应该能像人类一样通过理解视频感知世界嘛!“视频思考”新范式就是我们团队提出的方向:借助动态推理和多模态融合来挖掘视频的智能潜力。 视频生成本身只是个基础任务啦!核心价值在于让模型变得更聪明更智能嘛!最终肯定会指向通用人工智能呀!