视频生成方法和装置、电子设备及存储介质

申请号：CN202411527484

申请日期：2024-10-29

公开号：CN119364144A

公开日期：2025-01-24

类型：发明专利

摘要

本申请实施例提供了一种视频生成方法和装置、电子设备及存储介质，属于金融科技和人工智能技术领域。该方法包括：通过双向注意力层对分词文本序列进行视频帧预测，得到初始视频帧；对初始视频帧进行分词，得到分词视频序列；通过自回归层对分词文本序列及分词视频序列进行视频序列预测，得到目标视频序列；根据目标视频序列生成目标视频。本申请首先通过对分词文本序列进行视频帧预测，提高了视频生成内容的相关性；其次，对初始视频帧进行分词，为后续的视频预测提供了丰富的信息表示；最后，对分词序列进行视频序列预测，并生成目标视频，能够实现通过多次迭代逐步构建视频，确保生成的视频在时间上的连贯性，有效提高了视频生成的准确性。

技术关键词

视频生成模型序列双向注意力视频生成方法视频帧特征文本分词模型分词训练视频生成装置电子设备可读存储介质人工智能技术模块元素处理器编码索引