一种基于非自回归网络的transformers的方言语音识别方法

申请号：CN202510072156

申请日期：2025-01-16

公开号：CN119943029A

公开日期：2025-05-06

类型：发明专利

摘要

本发明涉及一种基于非自回归网络的transformers的方言语音识别方法，包括方言语音识别，方言语音识别模型主要由特征编码，位置编码，encoder，decoder，非自回归网络组成，特征编码主要负责将语音信息转为模型能理解的数字编码信息，位置编码将语音帧的位置作特定的三角函数编码，使得模型能理解语音的时序特征，编码器Encoder与解码器Decoder用于提取并理解语音所包含的语义信号，非自回归网络解决上下文理解与方言错字的匹配。本发明提出的贵州方言语音识别技术在贵州方言上有较低的错误率和较快的识别速率，并且在不需要更改模型的基础上能快速适配其它方言的语音识别。

技术关键词

方言语音识别方法语音识别模型时序特征位置编码信息注意力机制语音识别技术前馈神经网络发音系统数据上下文特征抽头信号矩阵梯度下降法语音编码解码器声学特征