摘要
本申请公开了一种跨模态跨语言的语音大模型训练方法及其系统,方法包括:收集多语言语音文本平行数据集及文本指令数据集,获得语音识别与语音合成数据;合并数据集,进行大语言模型的预训练及词表扩展;采用连接时序分类的对齐方法,在同语言之内将语音和文本进行跨模态对齐,不同语言之间通过文本进行跨语言对齐,构造生成单语言或跨语言语音指令数据集,训练得到完成单语言或跨语言的语音对话任务的语音大模型;采用语音对话指令数据进行有监督微调,并推理应用预训练的语音大模型。本发明方法及其系统在语音大模型上达成了跨模态和跨语言的对齐,使语音大模型输出的语言上出错更少,同时有更好性能。