AI资讯新闻榜单内容搜索-视频生成音频

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

8874 点击 2025-10-31 15:00

Meta AI推出FoleyGen，用视频生成音频

FoleyGen利用现成的神经音频编解码器在波形和离散标记之间进行双向转换。音频标记的生成由单个变换器模型完成，该模型以从视觉编码器中提取的视觉特征为条件。

来自主题: AI技术研报

8364 点击 2023-09-21 09:42