一种基于深度学习的VAD方法在语音识别系统中的应用

申请号：CN202411122608

申请日期：2024-08-15

公开号：CN119091932A

公开日期：2024-12-06

类型：发明专利

摘要

本申请涉及语音识别技术领域，公开了一种应用于VAD模块的语音识别方法，包括以帧为单位获取音频流数据，并将音频流数据升采样或者降采样成需要的格式；通过多头注意力模型对每帧音频流数据进行特征提取，得到每帧音频流数据的特征数据；设置滑动窗口记录多帧音频流数据的特征数据；对单个滑动窗口内的特征数据进行说话状态或其他状态的整体判断，并剔除被判断为其他状态的音频流数据；本申请有效提升语音转文字的准确率，减少计算资源消耗，提高语音转文字的转换效率。

技术关键词

滑动窗口语音识别方法音频数据注意力模型人声短时傅里叶变换语音识别系统语音识别技术模块格式信号