摘要
本公开关于一种视频生成方法、装置、电子设备及存储介质,方法包括:获取当前特征序列;在当前输出帧为首个视频帧,将当前特征序列输入至大语言模型,获得当前输出帧的隐式视频特征;以及,将当前输出帧的隐式视频特征输入至扩散模型,输出当前输出帧的视频帧编码,并根据当前输出帧的视频帧编码,生成当前输出帧的视频帧图像;在当前输出帧为任一非首个视频帧,将扩散模型输出的,当前输出帧的上一个输出帧的视频帧编码,作为当前输出帧的视频帧特征,并将当前输出帧的视频帧特征添加至当前特征序列中,得到更新后特征序列,将更新后特征序列作为当前特征序列;重复前述步骤,生成当前输出帧的视频帧图像,提高了视频生成质量。