重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。
在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。
扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。
让智能体自己摸索新方法,还模仿自己的成功经验。腾讯优图实验室开源强化学习算法——SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。
近年来,NeRF、SDF 与 3D Gaussian Splatting 等方法大放异彩,让 AI 能从图像中恢复出三维世界。但随着相关技术路线的发展与完善,瓶颈问题也随之浮现:
在三维重建不断走向工程化的今天,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化。 然而,现有的前馈3DGS方法主要采用“像素对齐”(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上。
Lessie 的定位简单直接:People Search AI Agent。一句话描述它的能力:帮你从互联网与数据库里快速找到任何人,并自动化完成初步联络。创始人、投资人、KOL、潜在客户、行业专家、合作伙伴……只要你能用自然语言描述需求,Lessie 就能迅速在全球范围内挖掘到合适的人选。
探测宇宙深处的时空涟漪引力波,AI也派上用场了。谷歌DeepMind、LIGO(激光干涉仪引力波探测器)团队和GSSI(格兰萨索科学研究所)合作开发的Deep Loop Shaping技术,将引力波探测的低频降噪能力拉到了新高度。
全球第一家被收购的AI浏览器公司诞生了! 刚刚,拥有Arc和Dia两款AI浏览器的The Browser Company,被企业协作软件公司Atlassian以6.1亿美元(约为43亿人民币)重金收购。
9 月 4 日消息,Atlassian 宣布已同意以 6.1 亿美元现金收购初创企业 The Browser Company。后者是最近知名的 AI 浏览器 Dia,以及 Arc 浏览器的母公司。