摘要
本申请提供一种视频修复方法、装置、设备、存储介质,该方法包括:获取原始视频帧序列和掩码;对原始视频帧序列进行帧级压缩,将其映射为紧凑的潜在空间表示;根据原始视频帧序列生成与场景相关的描述文本;将各时间步的噪声和描述文本的编码进行融合;将潜在空间表示和描述文本的编码进行融合;根据掩码和融合结果,生成修复后的视频帧序列。本申请的方法通过原始视频帧序列生成的与场景相关的描述文本可以保证修复区域的自然与协调,同时将各时间步的噪声和描述文本的编码进行融合,将潜在空间表示和描述文本的编码进行融合,根据掩码及两个融合结果得到的修复区域更加自然与协调。