AI资讯新闻榜单内容搜索-VAFlow

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

8874 点击 2025-10-31 15:00

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

9342 点击 2025-10-13 11:02