一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品

申请号：CN202510749396

申请日期：2025-06-06

公开号：CN120431933A

公开日期：2025-08-05

类型：发明专利

摘要

本申请涉及语音识别技术领域，具体提供了一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品，该方法可以包括：对用户的原始语音信号进行预处理，得到处理后语音信号；将处理后语音信号对应的语音编码数据和历史对话数据输入到大语言模型中，得到处理后语音信号对应的文本向量；对处理后语音信号进行特征提取，得到语音特征向量；利用预先训练的语音识别模块对语音特征向量和文本向量拼接后的目标向量序列进行处理，得到文本序列；其中，语音识别模块包括预先训练的多个编码器层和多个解码器层；对文本序列进行清洗和格式化处理，得到原始语音信号对应的文本数据。本申请的一些实施例可以提升语音识别的精准度。

技术关键词

语音识别模块线性变换矩阵文本序列解码器语音识别方法编码器信号格式化计算机程序产品频域特征语音识别技术前馈神经网络电子设备处理器可读存储介质滤波数据时序