摘要
本说明书提供一种视频处理方法及系统、模型的训练方法及系统。视频处理方法包括:基于原始视频生成视频特征,原始视频包括展示有原始对象的多个视频帧。获得原始视频对应的替换要求信息,并基于替换要求信息生成条件特征,替换要求信息表征将原始视频中的原始对象替换为目标对象。将视频特征和条件特征输入至预先训练好的目标模型,以通过目标模型生成目标视频,目标视频是将原始视频中的原始对象替换为目标对象得到的视频。其中,可以通过模型的训练方法,将目标模型训练为采用全3D注意力机制从视频特征中捕捉时空依赖关系,并以时空依赖关系和条件特征作为约束生成目标视频。