一种基于多模态语音识别模型预测语音内容的方法及装置
申请号:CN202510222311
申请日期:2025-02-27
公开号:CN120108387A
公开日期:2025-06-06
类型:发明专利
摘要
本发明公开一种基于多模态语音识别模型预测语音内容的方法及装置,多模态语音识别模型包括语音转文本大模型、模态适应层、Embedding层和大语言模型,多模态语音识别模型的训练流程包括:第一训练阶段:使用自动语音识别数据训练多模态语音识别模型,大语言模型和Embedding层的模型参数保持固定,对语音转文本大模型和模态适应层进行训练;第二训练阶段:第一训练阶段完成之后,将第一训练阶段训练得到的语音转文本大模型的模型参数保持固定,对大语言模型采用优化微调策略,使用与第一阶段相同的自动语音识别数据训练多模态语音识别模型。本发明的一种基于多模态语音识别模型预测语音内容的方法,解决了固定语言模型参数不能很好适配实际场景需求的技术问题。
技术关键词
多模态语音
自动语音识别
大语言模型
文本
计算机可执行程序
适配器
阶段
模型训练模块
计算机可读记录介质
矩阵
参数
策略
音频特征
数据
场景