基于语音识别的数字人驱动方法、设备及系统

申请号：CN202411533753

申请日期：2024-10-31

公开号：CN119049476B

公开日期：2025-03-28

类型：发明专利

摘要

本发明涉及语音识别技术领域，具体涉及一种基于语音识别的数字人驱动方法、设备及系统，该方法包括：获取目标区域的各声源的音频数据；确定属于交互用户的语音的目标独立成分语音；确定相似语音组；根据第一目标独立成分语音的第一采集时刻、第二目标独立成分语音的第二采集时刻以及声音传播速度，确定交互用户到第一位置的第一参考位置以及交互用户到第二位置的第二参考位置之间的距离差；根据第一参考位置与第二参考位置之间的距离以及距离差确定交互用户的目标位置；利用交互用户在目标区域内的目标位置驱动数字人面向交互用户。如此，本发明提高了数字人与观众的交互灵活性，保证了观众在交互的过程中的参与感，提高了观众的互动体验感。

技术关键词

声音采集设备声音传播速度驱动方法音频频率独立成分分析序列有效性驱动设备语音识别技术数据极值连线文本模块存储器分词线段处理器

系统为您推荐了相关专利信息

基于深度学习构建噪音模型的噪音过滤方法、装置及介质

语音噪音过滤方法神经网络结构重构噪音过滤装置

多元参数驱动的同步器结构自适应优化方法

结构设计参数测试场景同步器结构指标仿真模型

一种XR设备间的音视频传输方法

音视频传输方法接收端视频块画面信令

一种数字人课件自动生成系统

音频采集模块教师视频图像采集模块数据处理模块

网络带宽估计方法、电子设备和存储介质

初始带宽估计历史会话估计方法计算机可执行指令视频通话信息