一种基于语音驱动人工智能的交互数字人合成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于语音驱动人工智能的交互数字人合成方法
申请号:CN202411446325
申请日期:2024-10-16
公开号:CN118969009B
公开日期:2025-02-18
类型:发明专利
摘要
本发明涉及数字人合成技术领域,具体公开了一种基于语音驱动人工智能的交互数字人合成方法,所述方法包括:S1:通过数据采集单元采集不同的渠道和平台提交的语音数据,并对输入的音频原始数据进行预处理,包括语音过滤、语音特征数值化,通过基于Audio2DHuman深度学习模型,通过输入的语音信号提取出音频特征,预测面部关键点运动权重和手势、头部动画参数,进而生成与数字人语言播报内容精确同步的面部表情及流畅手势、头部动作,实现对数字人的高效驱动与自然交互,从而实现将语音中蕴含的语义和情感表达同步映射到虚拟人3D模型面部、手势、肢体动作渲染中,从而极大地增强了数字人情感的真实性和专业性。
技术关键词
手势 音频特征 深度学习模型 因子权重 语音特征 网络结构 模型训练模块 数据采集单元 数据处理单元 语音信号提取 线性预测编码 数值 指标 面部关键点 溯源标识 随机梯度下降