一种零样本文本驱动视频编辑的全局局部帧联合建模方法

申请号：CN202510339145

申请日期：2025-03-21

公开号：CN120186412A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了一种零样本文本驱动视频编辑的全局局部帧联合建模方法，属于计算机视觉、视频编辑领域。应用于视频编辑的潜在扩散模型的逆过程，所述的逆过程是将加噪后的视频帧在潜在空间中采用U‑Net结构的扩散模型进行去躁，并在去躁过程中将文本编码后的特征作为条件信息引入，逐步生成符合文本描述的编辑后视频帧；所述的U‑Net结构包含Transformer块，且其中的自注意力块联合全局帧特征和局部帧特征进行计算，自注意力块计算时，分别生成基于全局帧建模后的键和值、以及基于局部帧建模后的键和值，在时空域特征维度上合并全局帧建模和局部帧建模结果，更新原始键和原始值，利用更新后的键、值与原始查询计算自注意力值。

技术关键词

联合建模方法视频帧特征注意力视频编辑方法文本编码器图像编码器聚类算法空域特征样本噪声图像图像解码器 EM算法计算机视觉线性