AI资讯新闻榜单内容搜索-VAFlow

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VAFlow
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

来自主题: AI技术研报
6942 点击    2025-10-31 15:00
机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控

机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控

机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人,是机器人学领域一个长期追逐的圣杯。近年来,随着大型语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,许多研究者将希望寄托于视觉 - 语言 - 动作(VLA)模型,期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报
7457 点击    2025-10-13 11:02