摘要
本发明属于人工智能与语音识别领域,具体说是基于改进Transformer架构的语音识别系统,包括:自定位模块,用于接收原始音频信号,并行输出自监督语音特征向量与传统音频特征向量,并发送至特征归一化转换模块;特征归一化转换模块,用于将自监督语音特征向量与传统音频特征向量映射至标准说话人特征空间,输出归一化特征;感知建模模块通过改进型Transformer结构进行多尺度时序编码,输出语音语义概率分布序列;CTC损失模块,用于根据语音语义概率分布序列优化声学模型;协同单元用于接收多路原始音频特征,对得到的同步特征进行筛选可信通道,输出修正特征;融合滤波模块,用于接收本地特征与修正特征,通过注意力权重融合生成全局概率分布,并解码为最终文本序列。