一种基于自然语言理解的多模态大语言模型对话生成方法

申请号：CN202510071190

申请日期：2025-01-16

公开号：CN119989268A

公开日期：2025-05-13

类型：发明专利

摘要

本发明适用于人工智能技术领域，提供了一种基于自然语言理解的多模态大语言模型对话生成方法，包括以下步骤：通过多模态大型语言模型接收用户输入的多模态信息，所述多模态信息包括若干个模态数据；对多模态信息中的模态数据进行预处理，提取得到多模态特征；基于多头注意力机制的动态加权融合策略，将提取的多模态特征进行统一的融合特征表示；基于长上下文处理算法来确定长上下文的对话状态，确保生成的回复内容与对话历史相关联；根据统一的融合特征表示和对话状态，通过RAG检索增强生成技术生成自然语言进行回复。本发明能够处理并理解多种模态的输入，提高了对用户意图的理解能力，且维护上下文的连贯性，生成的回复更加自然。

技术关键词

对话生成方法自然语言理解大语言模型多模态信息融合特征多模态特征生成自然语言多头注意力机制梅尔频率倒谱系数生成技术数据融合策略识别用户意图编码器多任务权重机制词袋模型表情特征