摘要
本发明公开了一种基于视觉标识符的视频生成方法,属于视频生成技术领域。该方法包括以下步骤:获取输入的视频数据,提取初始的时空特征;初始化可学习的基向量作为视觉标识符,并将其与初始的时空特征各自进行调制;将调制后的视觉标识符和时空特征拼接形成扩展特征序列并对其进行优化,生成视频帧或视频序列后再与视频数据拼接,形成新的视频数据,不断迭代重复,最终输出高质量的视频序列。本发明通过引入视觉标识符,能够在视频生成过程中有效捕捉和利用视频的全局信息,精确调节时空特征,使得生成的视频在空间和时间维度上具有更好的连贯性和一致性。本发明能够提升视频生成质量,优化时空特征的建模,降低视频生成模型的开发成本。