一种基于非自回归网络的transformers的方言语音识别方法
申请号:CN202510072156
申请日期:2025-01-16
公开号:CN119943029A
公开日期:2025-05-06
类型:发明专利
摘要
本发明涉及一种基于非自回归网络的transformers的方言语音识别方法,包括方言语音识别,方言语音识别模型主要由特征编码,位置编码,encoder,decoder,非自回归网络组成,特征编码主要负责将语音信息转为模型能理解的数字编码信息,位置编码将语音帧的位置作特定的三角函数编码,使得模型能理解语音的时序特征,编码器Encoder与解码器Decoder用于提取并理解语音所包含的语义信号,非自回归网络解决上下文理解与方言错字的匹配。本发明提出的贵州方言语音识别技术在贵州方言上有较低的错误率和较快的识别速率,并且在不需要更改模型的基础上能快速适配其它方言的语音识别。
技术关键词
方言语音识别方法
语音识别模型
时序特征
位置编码信息
注意力机制
语音识别技术
前馈神经网络
发音系统
数据
上下文特征
抽头
信号
矩阵
梯度下降法
语音编码
解码器
声学特征