一种基于结构-外观信息融合的可控视频编辑方法

申请号：CN202510083547

申请日期：2025-01-20

公开号：CN120017907A

公开日期：2025-05-16

类型：发明专利

摘要

本发明涉及计算机视觉领域，具体公开了一种基于结构‑外观信息融合的可控视频编辑方法。引入ControlNet作为结构条件控制网络，从输入视频中提取并注入各种结构信息，随后，引入了一个外观条件控制网络，用于结合一张用户编辑之后的图像作为视频编辑过程中的外观控制信息，基于AnimateDiff搭建视频编辑主框架，对多尺度的结构信息特征图以及多尺度的外观信息特征图进行融合，并且结合输入的文本信息，生成编辑后的视频。与现有技术相比，本发明通过协调外观信息和结构信息，提供了一种灵活的编辑工具。用户可以结合预先训练的各种个性化文本‑图像生成模型，根据具体需求对视频进行编辑，生成多种风格、结构和外观的视频。

技术关键词

视频编辑方法网络文本生成图像自动编码器编码器模块文本编码器多尺度图像编辑工具交叉注意力机制图像生成模型解码器计算机视觉视频编码