基于改进Transformer架构的语音识别系统

申请号：CN202511002362

申请日期：2025-07-21

公开号：CN120748383A

公开日期：2025-10-03

类型：发明专利

摘要

本发明属于人工智能与语音识别领域，具体说是基于改进Transformer架构的语音识别系统，包括：自定位模块，用于接收原始音频信号，并行输出自监督语音特征向量与传统音频特征向量，并发送至特征归一化转换模块；特征归一化转换模块，用于将自监督语音特征向量与传统音频特征向量映射至标准说话人特征空间，输出归一化特征；感知建模模块通过改进型Transformer结构进行多尺度时序编码，输出语音语义概率分布序列；CTC损失模块，用于根据语音语义概率分布序列优化声学模型；协同单元用于接收多路原始音频特征，对得到的同步特征进行筛选可信通道，输出修正特征；融合滤波模块，用于接收本地特征与修正特征，通过注意力权重融合生成全局概率分布，并解码为最终文本序列。

技术关键词

语音识别系统融合滤波序列多尺度注意力机制语义语言模型得分定位模块音频特征网络单元识别方法字符标签更新模型参数语音特征处理单元通道时序