视频到音频生成技术突破

视频到音频研究:利用视频像素和文本提示生成丰富音轨

视频生成模型正在以惊人速度发展,但许多现有系统只能生成无声输出。为这些无声视频创建音轨是实现生成电影生命力的下一个重要步骤。

目前正在分享视频到音频(V2A)技术的进展,该技术使得同步视听生成成为可能。V2A将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的音景。

该技术可与视频生成模型配对使用,创建具有戏剧性配乐、逼真音效或与视频角色和色调匹配的对话。它还能为各种传统素材生成音轨,包括档案材料、无声电影等,开辟更广泛的创意机会。

增强创意控制

重要的是,V2A可为任何视频输入生成无限数量的音轨。可选地,可以定义"正面提示"来引导生成所需声音,或使用"负面提示"来避免不需要的声音。这种灵活性让用户能更好地控制音频输出,使其能够快速尝试不同音频结果并选择最佳匹配。

技术原理

通过实验自回归和扩散方法,发现基于扩散的音频生成方法在同步视频和音频信息方面能产生最逼真和令人信服的结果。

V2A系统首先将视频输入编码为压缩表示。然后,扩散模型从随机噪声中迭代优化音频。这个过程由视觉输入和自然语言提示引导,生成与提示紧密同步的逼真音频。最后,音频输出被解码为音频波形并与视频数据结合。

为了生成更高质量的音频并增加引导模型生成特定声音的能力,在训练过程中添加了更多信息,包括包含详细声音描述的人工智能生成注释和口语对话转录。

通过视频、音频和额外注释的训练,该技术学会将特定音频事件与各种视觉场景关联,同时响应注释或转录中提供的信息。

持续研究进展

这项研究区别于现有视频到音频解决方案之处在于它能理解原始像素,且文本提示是可选的。此外,该系统不需要手动调整生成声音与视频的同步,这涉及繁琐地调整声音、视觉和时间的不同元素。

然而,仍存在一些需要解决的限制,进一步研究正在进行中。由于音频输出质量取决于视频输入质量,视频中超出模型训练分布的伪影或失真会导致音频质量显著下降。

同时正在改进涉及语音视频的唇形同步。V2A尝试从输入转录生成语音并将其与角色唇部动作同步。但配对的视频生成模型可能没有以转录为条件,这会造成不匹配,通常导致不自然的唇形同步。

安全与透明承诺

致力于负责任地开发和部署人工智能技术。为确保V2A技术能对创意社区产生积极影响,正在收集来自领先创作者和电影制作人的多样化观点和见解,并利用这些宝贵反馈指导持续研发。

还将SynthID工具包集成到V2A研究中,为所有人工智能生成的内容添加水印,帮助防止该技术的潜在滥用。

在考虑向更广泛公众开放访问之前,V2A技术将经过严格的安全评估和测试。初步结果显示这项技术将成为实现生成电影生命力的有前景方法。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-22 15:10  CodeShare  阅读(15)  评论(0)    收藏  举报