数字人语音生成方法、装置、设备、存储介质及程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
数字人语音生成方法、装置、设备、存储介质及程序产品
申请号:CN202410707210
申请日期:2024-06-03
公开号:CN118741175A
公开日期:2024-10-01
类型:发明专利
摘要
本申请提供一种数字人语音生成方法、装置、设备、存储介质及程序产品。该方法包括:获取目标数字人的目标面部图像;将所述目标面部图像输入至第一阶段模型进行所述目标面部图像的特征编码提取,获得目标面部编码特征;获取与目标文本内容对应的目标音素数据,将所述目标音素数据和所述目标面部编码特征输入至第二阶段模型进行融合解码,获得目标音频数据;响应于用户的试听请求,播放所述目标音频数据。本申请的方案无需为每个数字人进行录音,提高数字人生成的实时性。
技术关键词
编码特征 语音生成方法 人面部图像 文本 音频特征 解码 语义特征 处理器 可读存储介质 计算机程序产品 数据编码 生成装置