摘要
本申请实施例提供了一种视频生成方法和装置、电子设备及存储介质,属于金融科技和人工智能技术领域。该方法包括:通过双向注意力层对分词文本序列进行视频帧预测,得到初始视频帧;对初始视频帧进行分词,得到分词视频序列;通过自回归层对分词文本序列及分词视频序列进行视频序列预测,得到目标视频序列;根据目标视频序列生成目标视频。本申请首先通过对分词文本序列进行视频帧预测,提高了视频生成内容的相关性;其次,对初始视频帧进行分词,为后续的视频预测提供了丰富的信息表示;最后,对分词序列进行视频序列预测,并生成目标视频,能够实现通过多次迭代逐步构建视频,确保生成的视频在时间上的连贯性,有效提高了视频生成的准确性。