众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基
6623点击    2025-06-25 10:29

视频是信息密度最高、情感表达最丰富的媒介之一,高度还原现实的复杂性与细节。正因如此,视频也是编辑难度最高的一类数字内容。在传统的视频编辑流程中,若要调整或替换主体、场景、色彩或是移除一个物体,往往意味着无数帧的手动标注、遮罩绘制和精细调色。即使是经验丰富的后期团队,也很难在复杂场景中保持编辑内容的时间一致性。


近年来,生成式 AI 尤其是扩散模型与多模态大模型的快速迭代,为视频编辑带来了全新的解题思路。从早期基于规则的特效工具,到目标识别与自动分割,再到基于文本指令的视频生成与重绘,尽管 AI 已经为视频编辑带来了效率与可控性的双重提升,但在精度要求较高的场景中仍存在一系列挑战,例如当前很多零样本方法在处理连续视频帧时容易造成画面闪烁;对于背景复杂或多目标场景,可能会出现错位、模糊或语义偏差。


针对于此,北京大学相机智能实验室(施柏鑫团队)联合 OpenBayes贝式计算,以及北京邮电大学人工智能学院模式识别实验室李思副教授团队,共同提出了一种结合草图与文本引导的视频实例重绘方法 VIRES,支持对视频主体的重绘、替换、生成与移除等多种编辑操作。该方法利用文本生成视频模型的先验知识,确保时间上的一致性,同时还提出了带有标准化自适应缩放机制的 Sequential ControlNet,能够有效提取结构布局并自适应捕捉高对比度的草图细节。更进一步地,研究团队在 DiT(diffusion transformer) backbone 中引入草图注意力机制,以解读并注入细颗粒度的草图语义。实验结果表明,VIRES 在视频质量、时间一致性、条件对齐和用户评分等多方面均优于现有 SOTA 模型。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


VIRES 与 5 种现有方法在不同数据集上的多类指标得分


相关研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」为题,已入选 CVPR 2025。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


  • 论文主页:https://hjzheng.net/projects/VIRES/


  • 项目开源地址:https://github.com/suimuc/VIRES


  • Hugging Face地址:https://huggingface.co/suimu/VIRES


  • 研究所用数据集下载地址:https://go.hyper.ai/n5pgy


大规模视频实例数据集 VireSet


为了实现精准的可控视频实例重绘,研究团队标注了大量视频实例的 Sketch 序列、Mask 以及文本描述,提出了一个配备详细注释的大规模视频实例数据集 VireSet。其中包含了 86k 视频片段、连续的视频 Mask、详细的草图序列,以及高质量的文本描述。


此前,Meta 曾开源了一个大规模视频分割数据集 Segment Anything Video dataset(SA-V 数据集),提供了 51k 个视频以及 643k 个实例 Mask。然而,其中实例 Mask 的标注是间隔 4 帧标注一次,因此 FPS 为 6,导致 Mask 非常不连贯。为了得到连贯的视频实例 Mask,研究团队利用预训练的 SAM-2 模型,对中间帧进行标注,从而将 Mask 的 FPS 提高到 24。效果对比如下所示:


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


原视频


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

SA-V 提供的 Mask


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

研究团队标注的 Mask


随后,研究团队采用预训练的 PLLaVA 模型为每个视频片段生成文本描述,并利用边缘检测算法 HED 提取每个视频实例的 Sketch 序列,为每个实例提供结构上的指导信息。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

The video shows a small, dark-colored goat with a blue and white striped cloth draped over its back. The goat is seen walking across a grassy area with patches of dirt. The background includes green vegetation and some sunlight filtering through the trees, creating a serene outdoor setting. The goat appears to be moving at a steady pace.


结合草图与文本引导的视频实例重绘方法 VIRES


VIRES 主要由 3 大模块组成:带有标准化自适应缩放的 Sequential ControlNet,带有草图注意力机制的 DiT backbone,以及用于改进解码过程的草图感知编码器,VIRES 的工作流程如下图所示。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


VIRES 的工作流程


如图 a 所示,输入视频首先被 VAE 压缩 64 倍空间纬度和 4 倍时间纬度,变成潜码,噪声会根据 Mask 序列被选择性地添加到潜码中。随后,该噪声潜码被送入去噪网络(Denoising network)进行去噪,如图 b 所示。该网络由多个具有时间和空间注意力机制的 Transformer 块堆叠组成。


为了实现对实例属性的精确控制,研究团队提出了 Sequential ControlNet,从 Sketch 序列中提取结构布局,如图 c 所示。为了自适应地捕捉 Sketch 序列中的细节,团队引入了 Standardized self-scaling 来增强 Sketch 序列中黑色边缘线与白色背景之间的高对比度过渡。此外,为了确保稳定且高效的训练,其根据视频潜码特征的均值,对齐处理后的 Sketch 特征与视频潜码特征,确保 Sketch 特征和视频潜码特征具有相似的数据分布。


为了在潜在空间中解释和注入细粒度的草图语义,研究团队设计了 Sketch Attention 来增强去噪网络的空间注意力块,如图 d 所示,Sketch Attention 结合了一个预定义的二进制矩阵 A ,以指示视频潜码与 Sketch 序列之间的对应关系。


最后,为了在潜空间内将编辑结果与 Sketch 序列进一步对齐,团队引入了草图感知编码器,提取多级 Sketch 特征来指导解码过程,如图 e 所示。


VIRES 的 4 个应用场景:

重绘,替换,生成与消除


文本指令可以传达一般的视频编辑目标,但在用户意图解释方面仍留有相当大的进步空间。因此,最近的研究引入了额外的引导信息(例如,草图)以实现更精确的控制。


部分现有的方法,如 RAVE,利用 Zero-Shot 的方式,将图片编辑模型扩展成视频编辑模型,但由于依赖预训练的文本到图像模型,该方法在时间一致性上表现不佳,不可避免地导致画面闪烁。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

A light orange and white fish swimming in an aquarium


VIRES 通过利用文本到视频模型的生成先验,保持了时间一致性并生成了令人满意的结果。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


A light orange and white fish swimming in an aquarium


另外一些方法,如 VideoComposer,在文本到图像模型中引入时间建模层并微调,但该方法对组合性的关注限制了编辑视频与提供的 Sketch 序列之间的准确对齐,导致细粒度编辑效果不佳,如下图所示效果,人物衣服的袖子消失。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

A players wears a light green jersey with the white number 1 on the back


VIRES 提出 Sequential ControlNet 和定制的模块来有效处理 Sketch 序列,将编辑视频与提供的 Sketch 序列准确对齐,实现细粒度编辑。效果如下图所示:


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

A players wears a light green jersey with the white number 1 on the back


对于每个视频实例,提供重绘的控制条件,包括 Sketch 序列、Mask 序列和相应的文本描述,VIRES 能够生成与条件一致的编辑视频。


如下所示,VIRES 有 4 个主要应用场景,首先是视频实例重绘,例如更换人物身着衣服的材质和颜色;其次是视频实例替换,例如将视频中的红色皮卡替换成黑色 SUV。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

第三是定制实例生成,如演示视频中在户外雪地增加一只柯基;最后一个场景是指定实例消除,例如删除视频中的足球。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


VIRES 在多项指标上超越现有 SOTA 模型


研究团队将 VIRES 与 5 种目前最先进的方法进行了比较,包括 Rerender(SIGGRAPH Asia’23),VidToMe(CVPR’24),Text2Video-zero(ICCV’23),RAVE(ICCV’23),VideoComposer(NeurIPS’24)。


为了确保详细的比较,其不仅在 VireSet 数据集上进行测试,还在业内广泛使用的 DAVIS(CVPR’16)数据集上进行了测试。实验结果显示,VIRES 在客观评价指标:视觉感知质量(PSNR)、空间结构一致性(SSIM)、帧运动准确性(WE)、帧间一致性(FC)和文本描述一致性(TC)方面均取得了最佳结果。


此外,团队还进行了两项用户调研,其一是视觉质量评估(VQE),参与者会看到由 VIRES 和对比编辑方法生成的编辑结果,需要选择最具视觉吸引力的视频片段。其二是文本对齐评估(TAE),给定一个对应的文本描述,要求参与者从同一组编辑后的结果中选择最符合该描述的视频片段。在用户调研中,VIRES 均取得了最佳结果。


VIRES 与 5 种现有方法在外观编辑上的表现对比:


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


VIRES 与 5 种现有方法在结构编辑上的效果对比:


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


另外值得一提的是,在 Sketch 引导视频生成方面,VIRES 还支持根据文本描述直接从 Sketch 序列生成完整视频。在稀疏帧引导视频编辑方面,VIRES 支持只提供第一帧的 Sketch 来编辑视频。效果如下所示。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


可控视频生成领域的持续探索


总结来看,VIRES 在草图与文本引导下实现了实例结构一致性,而从某种角度来看,其也是面向「如何让空间结构信息在视频生成中稳定传递」这一重要挑战,给出了一种可靠的解决方案。与此同时,该研究团队步履不停,在突破这一类目标级控制之后,还将目光投向了全景级别的可控视频生成。


该研究团队提出了一种能够以最小改动,有效将预训练文本生成视频模型扩展至全景领域的方法,并将其命名为 PanoWan。该方法采用了纬度感知采样(latitude-aware sampling)以避免纬度方向的图像畸变,同时引入旋转语义去噪机制(rotated semantic denoising)和像素级填充解码策略(padded pixel-wise decoding),以实现经度边界的无缝过渡。实验结果表明,PanoWan 在全景视频生成任务中的表现达 SOTA 级别,并在零样本下游任务中展现出良好的泛化能力。相关论文现已发布于 arXiv:https://arxiv.org/abs/2505.22016。


聚焦该研究团队,北京大学相机智能实验室(http://camera.pku.edu.cn),负责人施柏鑫,北京大学计算机学院视频与视觉技术研究所副所长,长聘副教授(研究员)、博士生导师;北京智源学者;北大 - 智平方具身智能联合实验室主任。日本东京大学博士,麻省理工学院媒体实验室博士后。研究方向为计算摄像学与计算机视觉,发表论文 200 余篇(包括 TPAMI 论文 30 篇,计算机视觉三大顶级会议论文 92 篇)。论文获评 IEEE/CVF 计算机视觉与模式识别会议(CVPR)2024 最佳论文亚军(Best Paper, Runners-Up)、国际计算摄像会议(ICCP)2015 最佳论文亚军、国际计算机视觉会议(ICCV)2015 最佳论文候选,获得日本大川研究助成奖(2021)、中国电子学会青年科学家奖(2024)。科技部人工智能重大专项首席科学家,国家自然科学基金重点项目负责人,国家级青年人才计划入选者。担任国际顶级期刊 TPAMI、IJCV 编委,顶级会议 CVPR、ICCV、ECCV 领域主席。APSIPA 杰出讲者、CCF 杰出会员、IEEE/CSIG 高级会员。


众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基


主要合作者 OpenBayes贝式计算作为国内领先的人工智能服务商,深耕工业研究与科研支持领域,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,进而为工业企业及高校科研机构等提供更加快速、易用的数据科学计算产品,其产品已被数十家大型工业场景或头部科研院所采用。


双方共同在可控视频生成领域的探索已经取得了阶段性成果,相信在这一校企合作模式下,也将加速推进高质量成果早日落地产业。


文章来自于微信公众号“机器之心”。


关键词: AI , 模型训练 , 施柏鑫 , VireSet
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner