一种基于自然语言理解的多模态大语言模型对话生成方法
申请号:CN202510071190
申请日期:2025-01-16
公开号:CN119989268A
公开日期:2025-05-13
类型:发明专利
摘要
本发明适用于人工智能技术领域,提供了一种基于自然语言理解的多模态大语言模型对话生成方法,包括以下步骤:通过多模态大型语言模型接收用户输入的多模态信息,所述多模态信息包括若干个模态数据;对多模态信息中的模态数据进行预处理,提取得到多模态特征;基于多头注意力机制的动态加权融合策略,将提取的多模态特征进行统一的融合特征表示;基于长上下文处理算法来确定长上下文的对话状态,确保生成的回复内容与对话历史相关联;根据统一的融合特征表示和对话状态,通过RAG检索增强生成技术生成自然语言进行回复。本发明能够处理并理解多种模态的输入,提高了对用户意图的理解能力,且维护上下文的连贯性,生成的回复更加自然。
技术关键词
对话生成方法
自然语言理解
大语言模型
多模态信息
融合特征
多模态特征
生成自然语言
多头注意力机制
梅尔频率倒谱系数
生成技术
数据
融合策略
识别用户意图
编码器
多任务
权重机制
词袋模型
表情特征