摘要
本说明书实施例提供一种视频生成方法及装置,该方法包括:获取包含不同人脸的多个人脸图像以及用于指示生成视频内容的第一文本;基于各人脸图像,通过编码加噪处理,得到第一特征,其中,第一特征基于噪声特征和各人脸图像中各人脸的人脸编码特征确定;分别对各人脸图像进行特征提取,确定各人脸对应的人脸视觉特征;融合第一文本对应的文本特征和各人脸视觉特征,得到第二特征;基于第一特征、第二特征以及各人脸对应的人脸视觉特征,生成包含各人脸的目标视频,其中,各人脸对应的人脸视觉特征用于确定各人脸在目标视频中的位置,以实现生成包含多人脸的视频。