基于多模态大语言模型的对话生成方法及装置

申请号：CN202510436346

申请日期：2025-04-09

公开号：CN119938874B

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了一种基于多模态大语言模型的对话生成方法及装置，涉及对话生成领域，包括：获取查询语句和图像并输入到经微调的多模态大语言模型，图像输入到预训练的图像编码器中，得到多尺度编码特征和选定图像特征，多尺度编码特征经过多层聚合模块，提取得到低级图像特征和高级图像特征；将查询语句输入到文本编码器中，得到文本特征；将以上特征输入到模内及模间增强模块中进行增强，得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影，得到视觉符元；将查询语句输入到预训练的分词器中进行分词，得到文本符元；将视觉符元和文本符元输入到经训练的大语言模型，生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。

技术关键词

编码特征大语言模型对话生成方法图像编码器多尺度多层感知机文本编码器多模态查询特征语句矩阵模块 Softmax函数 Sigmoid函数对话生成装置视觉处理器