一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品
申请号:CN202510749396
申请日期:2025-06-06
公开号:CN120431933A
公开日期:2025-08-05
类型:发明专利
摘要
本申请涉及语音识别技术领域,具体提供了一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品,该方法可以包括:对用户的原始语音信号进行预处理,得到处理后语音信号;将处理后语音信号对应的语音编码数据和历史对话数据输入到大语言模型中,得到处理后语音信号对应的文本向量;对处理后语音信号进行特征提取,得到语音特征向量;利用预先训练的语音识别模块对语音特征向量和文本向量拼接后的目标向量序列进行处理,得到文本序列;其中,语音识别模块包括预先训练的多个编码器层和多个解码器层;对文本序列进行清洗和格式化处理,得到原始语音信号对应的文本数据。本申请的一些实施例可以提升语音识别的精准度。
技术关键词
语音识别模块
线性变换矩阵
文本
序列
解码器
语音识别方法
编码器
信号
格式化
计算机程序产品
频域特征
语音识别技术
前馈神经网络
电子设备
处理器
可读存储介质
滤波
数据
时序