摘要
本发明提供一种数字人视频生成方法、装置、电子设备及存储介质,涉及数字人视频生成技术领域,该方法采用的数字人视频生成模型中初始预测器和初始预测模型均基于SANA框架构建,可以借助于SANA框架,可以使生成的数字人视频更加稳定、细节丰富,并且降低生成数字人视频所需的计算资源,提高了数字人视频的生成速度,保证该方法可以在消费级硬件上实时运行,进而降低部署成本和应用门槛,并扩大应用场景。此外,采用风格预测器能够从参考音频中预测目标风格码,可以生成多样化的情感表达,从而生成具有丰富情感的数字人视频。