mova和seedance2.0的对比

国内的音视频生成领域出现了一些有意思的动态。2023年2月,复旦大学计算与智能创新学院教授邱锡鹏就带领团队发布了类ChatGPT的对话式大模型MOSS,并且很快就把它开源了。随后上海创智学院联合模思智能又推出了国内首个开源的高质量音视频同步生成模型MOVA,填补了国内在这个领域的空白。这回字节跳动发布的Seedance2.0也吸引了不少眼球,甚至连马斯克都在X平台评论说发展速度太快。 就在这个月,大家都在讨论Seedance2.0给15秒时长的视频带来的2K高清效果。相比之下,MOVA则支持最长8秒、720p分辨率的视频生成。其实Seedance2.0本身并不对外提供模型文件、不允许下载和部署。所以邱锡鹏教授接受采访时说,“完全开源”是MOVA和这些商用模型最大的不同。只有开源才能吸引更多人参与研究,推动技术进步和国内开源生态的建设。 这次复旦大学的团队不仅把360p、720p两个基础模型开源了,还提供了微调、推理、生成工作流等全链路组件。这让它具备了端到端的高质量音视频生成能力,支持二次开发和本地部署。不管是做动漫还是游戏,都能用MOVA当“底座”按自己的需求来优化,很适合中小团队低成本落地。 其实在学术界做音视频模型挺难的,数据规模大得吓人,而且训练基础设施还不够完善。所以邱锡鹏教授把自己定位成了一个挑战者的角色。虽然Seedance2.0是商用导向和工业级投入的产品,“我们的目标是构建开放社区”,他这么说。好在上海创智学院提倡“研创学”融合的育人文化,给学生提供了深度参与重大项目的机会。 学院孵化的模思智能也攻克了数据工程领域的难题。虽然做这件事在过去的学术界几乎是不可能完成的任务,“但我们还是通过实战快速成长起来”。即便学生原本没有人工智能基础,经过半年的锻炼也能展现出优秀的创新能力。 这种实战经验也让他们在技术路线上做出了创新选择——采用混合专家架构来兼顾生成质量和推理效率。 现在全球的音视频生成技术已经成为了新一轮科技竞争的焦点。这次有了MOVA和Seedance2.0的对比分析,大家也能更清楚地看到不同之处了。