一种基于语音驱动人工智能的交互数字人合成方法

申请号：CN202411446325

申请日期：2024-10-16

公开号：CN118969009B

公开日期：2025-02-18

类型：发明专利

摘要

本发明涉及数字人合成技术领域，具体公开了一种基于语音驱动人工智能的交互数字人合成方法，所述方法包括：S1：通过数据采集单元采集不同的渠道和平台提交的语音数据，并对输入的音频原始数据进行预处理，包括语音过滤、语音特征数值化，通过基于Audio2DHuman深度学习模型，通过输入的语音信号提取出音频特征，预测面部关键点运动权重和手势、头部动画参数，进而生成与数字人语言播报内容精确同步的面部表情及流畅手势、头部动作，实现对数字人的高效驱动与自然交互，从而实现将语音中蕴含的语义和情感表达同步映射到虚拟人3D模型面部、手势、肢体动作渲染中，从而极大地增强了数字人情感的真实性和专业性。

技术关键词

手势音频特征深度学习模型因子权重语音特征网络结构模型训练模块数据采集单元数据处理单元语音信号提取线性预测编码数值指标面部关键点溯源标识随机梯度下降