新技术突破引发行业变革思考 专家呼吁理性看待多模态模型发展

多模态视频生成技术最近再次成为焦点。内容创作者和业内人士展示的新模型视频质感、分镜连贯性、镜头运动和音画协同上表现突出,在社交平台和海外市场都引发了热烈讨论。这项技术让视频生成从单点特效发展到更完整的生产流程,被从业者视为重要进展。 但技术进步也带来了新的问题。有用户发现,仅凭一张面部照片,系统就能生成高度相似的声音效果。这种"看图生音"的能力让人担忧身份冒用、深度伪造和恶意传播的风险。与以往主要针对图像视频的伪造不同,声纹相似加上形象相近会大大降低伪造门槛,使识别和追责变得更加困难。 这种能力从何而来?多模态模型的核心在于理解文字、图像、视频和声音之间的对应关系,并在生成时保持一致性。为了获得稳定效果,行业普遍依赖大规模数据训练,其中公开内容是重要来源。公众人物和头部创作者的作品传播广、易获取,被纳入训练数据集很常见。同时,技术进步使模型能更精准地捕捉面部结构与声学特征之间的关联,从而在只提供图像的情况下生成相似音色。 这项技术的影响是双面的。从产业角度看,视频生成可以在脚本预演、分镜验证、广告制作、游戏动画和教育等领域大幅提效,降低创作门槛,催生新的岗位和内容形态。但从社会治理角度看,如果缺乏约束,这项技术可能被用于伪造公众人物言行、制造虚假舆情、侵犯个人肖像和声纹权益,冲击传播秩序和公共安全。在短视频高频传播的环境下,虚假内容扩散快、影响大,传统辟谣和取证机制面临挑战。 应对这些风险需要多方协作。企业应在产品设计阶段嵌入安全机制,包括实名验证、活体认证、敏感主体生成限制、风控审核和可追溯水印等,对高风险功能设置更严格的调用门槛。平台应落实内容管理责任,对疑似深度伪造内容进行标识、限制传播、快速处置和证据保全。法律层面应深入明确声纹、肖像等人格权益的边界,完善侵权认定和跨平台协查机制,降低维权成本,提高违法成本。同时需要提升公众的媒介素养,引导用户对高度逼真的内容保持警惕,对涉及转账、求助或重大舆情的音视频信息进行多渠道核验。 ,该模型目前仍在小范围测试阶段,对应的企业已对部分功能设置限制,在生成真人内容时引入更严格的身份和活体校验。专家认为,用户不必过度担忧"训练使用公开数据"会导致个人被精准复刻,但也应认识到,随着模型能力增强,隐私保护和内容安全将成为长期课题,需要监管部门、企业、平台、研究机构和社会各界共同推动解决。

AI视频生成技术的发展代表了人工智能应用的重要进步,为内容创作带来了新机遇;但技术进步与隐私保护、安全防范之间的平衡需要各方共同努力。在运用技术优势的同时,建立完善的伦理规范和法律框架,才能确保AI技术安全、可控地造福人类。这既是技术创新的必然要求,也是负责任科技发展的重要体现。