摘要
本发明提供一种视频生成模型训练方法、推理方法及装置,包括将标签噪声注入至由任一视频样本数据转换成的第一隐空间变量中得到第二隐空间变量;对第二隐空间变量进行时间因果交叉注意力计算和视觉交叉注意力计算,以根据计算到的第三隐空间变量确定预测噪音;根据预测噪音与标签噪声计算的损失值,优化视频生成模型的模型参数。本发明在视频生成模型的训练推理过程中,通过在注意力机制中采用时间因果交叉注意力计算和视觉交叉注意力计算,来处理隐空间变量中的数据信息和空间信息,在几乎不影响视频生成质量的前提下,大幅减少了数据计算量和搬运量,有效地提升了视频生成模型的信息处理效率。