一种语音识别方法及相关装置、设备和存储介质

申请号：CN202411461438

申请日期：2024-10-18

公开号：CN119541495A

公开日期：2025-02-28

类型：发明专利

摘要

本申请公开了一种语音识别方法及相关装置、设备和存储介质，语音识别方法包括：获取当前轮次的第一解码特征；其中，当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息；获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率，并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合，得到第二解码特征；基于第二解码特征进行解码，得到当前轮次所输出的解码字符，并返回获取当前轮次的第一解码特征的步骤进行迭代，直至最新输出的解码字符表征语音识别结束为止，基于各个轮次的解码字符，得到待识别语音的识别文本。上述方案，能够提升语音识别的效率和准确性，特别是流式语音识别的效率和准确性。

技术关键词

语音识别模型编码特征样本解码网络语音识别方法多头注意力机制文本字符语音识别装置网络结构解码模块滑动窗口基准处理器输入端