一种基于深度学习的VAD方法在语音识别系统中的应用
申请号:CN202411122608
申请日期:2024-08-15
公开号:CN119091932A
公开日期:2024-12-06
类型:发明专利
摘要
本申请涉及语音识别技术领域,公开了一种应用于VAD模块的语音识别方法,包括以帧为单位获取音频流数据,并将音频流数据升采样或者降采样成需要的格式;通过多头注意力模型对每帧音频流数据进行特征提取,得到每帧音频流数据的特征数据;设置滑动窗口记录多帧音频流数据的特征数据;对单个滑动窗口内的特征数据进行说话状态或其他状态的整体判断,并剔除被判断为其他状态的音频流数据;本申请有效提升语音转文字的准确率,减少计算资源消耗,提高语音转文字的转换效率。
技术关键词
滑动窗口
语音识别方法
音频
数据
注意力模型
人声
短时傅里叶变换
语音识别系统
语音识别技术
模块
格式
信号