摘要
本发明涉及计算机视觉技术领域,公开了一种基于动态全局局部记忆机制的长视频生成方法和系统。方法包括:获取参考图像、线稿序列及文本的特征;通过混合特征提取器融合视觉特征和文本特征,得到混合多模态特征;提取已生成的历史视频片段的全局记忆表示及前一视频片段的局部上下文特征,并与混合多模态特征进行跨注意力融合,将得到的全局视觉特征以跳层注入方式输入视频生成模型,或者将混合多模态特征以跳层注入方式输入视频生成模型,生成视频片段;在去噪过程中设定的后期阶段,对相邻视频片段的重叠区域进行潜空间融合。本发明提升线稿上色过程中的控制精度,并有效保证视频中各元素在时间维度上的色彩属性一致性。