一种通过人类语音匹配数字人偶形像手部动作的方法和系统

申请号：CN202510403452

申请日期：2025-04-01

公开号：CN120544594A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开一种通过人类语音匹配数字人偶形像手部动作的方法和系统，包括步骤：S1，采集包含不同语音指令的语音数据以及相对应的数字人偶手部动作数据，进行配对标注处理；S2，对语音数据和手部动作数据进行特征提取，转换为特征向量；S3，将数据集划分为训练集、验证集和测试集进行模型训练得到语音‑动作匹配模型；S4，接收用户的语音输入，对输入的语音进行特征提取，使用训练好的语音‑动作匹配模型预测与该语音输入相匹配的手部动作，并将预测的手部动作应用于数字人偶形象，在数字人偶形像上实时展示预测的手部动作。本发明通过深度学习模型和多模态特征提取技术，实现了语音与手部动作的高精度匹配，显著提升了动作生成的流畅性和自然度。

技术关键词

人偶语音特征提取语音采集模块模型训练模块特征提取模块人类训练集特征提取技术高维特征向量实时数据传输特征提取方法分布式架构深度学习模型音频控制系统信号样本