摘要
本申请公开了一种转场视频生成方法及系统,属于图像生成技术领域。本申请方法将首尾两帧图像分别输入变分自动编码器,以提取其潜在特征,并在正序和倒序的潜在特征之间引入预设帧数的噪声。接着,对首尾两帧图像进行描述,使用文本特征提取器提取相应的文本特征,并通过球面线性插值获得与帧数对应的图像描述特征。随后,这些描述与潜在特征共同输入预训练的文本和图像引导的视频生成扩散模型进行去噪处理。在去噪过程中,生成包含中间帧信息的噪声特征,并通过高斯过程对正序和倒序噪声特征施加时序约束。接下来,进行高低频分离与加权融合,再次进行去噪处理。最终,利用视频生成模型的解码器生成首尾两帧之间连贯流畅的转场视频。