一种基于结构-外观信息融合的可控视频编辑方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于结构-外观信息融合的可控视频编辑方法
申请号:CN202510083547
申请日期:2025-01-20
公开号:CN120017907A
公开日期:2025-05-16
类型:发明专利
摘要
本发明涉及计算机视觉领域,具体公开了一种基于结构‑外观信息融合的可控视频编辑方法。引入ControlNet作为结构条件控制网络,从输入视频中提取并注入各种结构信息,随后,引入了一个外观条件控制网络,用于结合一张用户编辑之后的图像作为视频编辑过程中的外观控制信息,基于AnimateDiff搭建视频编辑主框架,对多尺度的结构信息特征图以及多尺度的外观信息特征图进行融合,并且结合输入的文本信息,生成编辑后的视频。与现有技术相比,本发明通过协调外观信息和结构信息,提供了一种灵活的编辑工具。用户可以结合预先训练的各种个性化文本‑图像生成模型,根据具体需求对视频进行编辑,生成多种风格、结构和外观的视频。
技术关键词
视频编辑方法 网络 文本生成图像 自动编码器 编码器模块 文本编码器 多尺度 图像编辑工具 交叉注意力机制 图像生成模型 解码器 计算机视觉 视频编码