一种基于深度学习的VAD方法在语音识别系统中的应用

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于深度学习的VAD方法在语音识别系统中的应用
申请号:CN202411122608
申请日期:2024-08-15
公开号:CN119091932A
公开日期:2024-12-06
类型:发明专利
摘要
本申请涉及语音识别技术领域,公开了一种应用于VAD模块的语音识别方法,包括以帧为单位获取音频流数据,并将音频流数据升采样或者降采样成需要的格式;通过多头注意力模型对每帧音频流数据进行特征提取,得到每帧音频流数据的特征数据;设置滑动窗口记录多帧音频流数据的特征数据;对单个滑动窗口内的特征数据进行说话状态或其他状态的整体判断,并剔除被判断为其他状态的音频流数据;本申请有效提升语音转文字的准确率,减少计算资源消耗,提高语音转文字的转换效率。
技术关键词
滑动窗口 语音识别方法 音频 数据 注意力模型 人声 短时傅里叶变换 语音识别系统 语音识别技术 模块 格式 信号