一种实时高保真语音驱动数字人系统

申请号：CN202510101536

申请日期：2025-01-22

公开号：CN119920253A

公开日期：2025-05-02

类型：发明专利

摘要

本发明涉及数字人技术领域，公开了一种实时高保真语音驱动数字人系统，该系统集成了语音采集、语音识别、语义分析、情感分析、动画生成和渲染生成六大模块。本发明中，通过与输入语音对比分析，前期确定口音和语言风格，将语音转换为文本，利用先进的机器学习和深度学习技术进行分词与词性标注，深入理解用户意图和需求，驱动数字人系统各模块协同，运用情感分析模块一系列信号处理和特征提取方法，结合机器学习或深度学习模型，准确识别用户语音中的情感极性，这使系统能根据情感分析结果做出相应反馈，例如在智能客服场景中，根据用户情感调整回复策略，提供更个性化、人性化的服务，增强用户与数字人交互的情感共鸣。

技术关键词

分析模块语音采集模块虚拟人交互系统情感分类模型准确识别用户线性预测编码音频特征提取动画特征提取方法离散余弦变换人脸信号深度学习技术麦克风阵列深度学习模型文本智能客服渲染技术