摘要
本发明涉及数字人合成技术领域,具体公开了一种基于语音驱动人工智能的交互数字人合成方法,所述方法包括:S1:通过数据采集单元采集不同的渠道和平台提交的语音数据,并对输入的音频原始数据进行预处理,包括语音过滤、语音特征数值化,通过基于Audio2DHuman深度学习模型,通过输入的语音信号提取出音频特征,预测面部关键点运动权重和手势、头部动画参数,进而生成与数字人语言播报内容精确同步的面部表情及流畅手势、头部动作,实现对数字人的高效驱动与自然交互,从而实现将语音中蕴含的语义和情感表达同步映射到虚拟人3D模型面部、手势、肢体动作渲染中,从而极大地增强了数字人情感的真实性和专业性。