摘要
本申请公开了一种文生视频生成方法、产品、设备及存储介质,涉及人工智能技术领域,包括:将文本描述和噪声向量输入至按照预设蒸馏策略训练的第一文生视频模型,以生成与文本描述匹配的视频和相应的视频隐向量;预设蒸馏策略为利用学生模型和基于注意力机制的扩散模型依次对历史高分辨率视频进行去噪,并基于去噪结果对应的损失对预设学生模型的模型参数进行更新;对视频隐向量进行上采样,并对得到的采样后向量和噪声向量进行拼接;将拼接后向量输入至基于多路状态空间模型的第二文生视频模型,以生成目标文生视频。本申请在基于注意力机制的基础上结合多路状态空间模型,通过多次推理,可提高文生视频的分辨率以及文生视频的生成效率。