摘要
本发明公开了基于扩散模型的动态场景重运镜视频生成方法和系统,属于计算机视觉与视频生成技术领域。采用一个带控制分支的扩散生成架构,核心由嵌入层、一个主分支和一个控制分支组成。在控制分支中,每个子块的输出经过零初始线性层处理后会与主分支对应块的输出相加,其和再输入主分支的下一个块。训练时,利用同一场景下目标视频和参考视频生成渲染视频;将加噪后的目标视频潜变量输入控制分支,而目标视频、参考视频及渲染视频潜变量的拼接结果输入主分支,同时向两分支提供参考视频的文本潜变量作为条件。生成时,模型通过逐步去噪最终生成目标视频潜变量并解码为目标轨迹视频,确保生成视频与参考视频在相同时间下场景中运动物体动作一致。