基于大语言模型的对话生成方法及装置、存储介质、终端

申请号：CN202510386688

申请日期：2025-03-28

公开号：CN120316219A

公开日期：2025-07-15

类型：发明专利

摘要

本发明公开了一种基于大语言模型的对话生成方法及装置、存储介质、终端，涉及自然语言处理技术领域及智能对话应用领域，主要目的在于解决现有智能对话解决方案对语音问题的理解能力不足，生成音频回答的准确性较低的问题。主要包括获取对话提问信息和答复类型；在对话提问信息为音频，且答复类型包含语音答复的情况下，通过完成训练的音频编码器将对话提问信息转换为离散的提问音频特征表示，并通过完成训练的大语言模型，依据提问音频特征表示生成答复音频特征表示；通过完成训练的音频解码器对答复音频特征表示进行音频解码得到答复语音，并将包含答复语音的答复内容输出至发起对话的客户端。主要用于生成智能对话的多模态答复。

技术关键词

音频编码器音频特征音频解码器大语言模型对话生成方法文本无监督多模态对话语音训练样本集阶段对话生成装置数据客户端通信接口指令