数字人语音生成方法、装置、设备、存储介质及程序产品

申请号：CN202410707210

申请日期：2024-06-03

公开号：CN118741175A

公开日期：2024-10-01

类型：发明专利

摘要

本申请提供一种数字人语音生成方法、装置、设备、存储介质及程序产品。该方法包括：获取目标数字人的目标面部图像；将所述目标面部图像输入至第一阶段模型进行所述目标面部图像的特征编码提取，获得目标面部编码特征；获取与目标文本内容对应的目标音素数据，将所述目标音素数据和所述目标面部编码特征输入至第二阶段模型进行融合解码，获得目标音频数据；响应于用户的试听请求，播放所述目标音频数据。本申请的方案无需为每个数字人进行录音，提高数字人生成的实时性。

技术关键词

编码特征语音生成方法人面部图像文本音频特征解码语义特征处理器可读存储介质计算机程序产品数据编码生成装置