数字人视频生成方法、装置、电子设备及存储介质

申请号：CN202510924453

申请日期：2025-07-04

公开号：CN120935428A

公开日期：2025-11-11

类型：发明专利

摘要

本发明提供一种数字人视频生成方法、装置、电子设备及存储介质，涉及数字人视频生成技术领域，该方法采用的数字人视频生成模型中初始预测器和初始预测模型均基于SANA框架构建，可以借助于SANA框架，可以使生成的数字人视频更加稳定、细节丰富，并且降低生成数字人视频所需的计算资源，提高了数字人视频的生成速度，保证该方法可以在消费级硬件上实时运行，进而降低部署成本和应用门槛，并扩大应用场景。此外，采用风格预测器能够从参考音频中预测目标风格码，可以生成多样化的情感表达，从而生成具有丰富情感的数字人视频。

技术关键词

视频生成模型视频生成方法风格音频编码器面部生成数字人音频特征运动噪声变形特征样本视频生成技术图像云端服务器应用程序编程接口注意力