基于多模态大语言模型的对话生成方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大语言模型的对话生成方法及装置
申请号:CN202510436346
申请日期:2025-04-09
公开号:CN119938874B
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的对话生成方法及装置,涉及对话生成领域,包括:获取查询语句和图像并输入到经微调的多模态大语言模型,图像输入到预训练的图像编码器中,得到多尺度编码特征和选定图像特征,多尺度编码特征经过多层聚合模块,提取得到低级图像特征和高级图像特征;将查询语句输入到文本编码器中,得到文本特征;将以上特征输入到模内及模间增强模块中进行增强,得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影,得到视觉符元;将查询语句输入到预训练的分词器中进行分词,得到文本符元;将视觉符元和文本符元输入到经训练的大语言模型,生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。
技术关键词
编码特征 大语言模型 对话生成方法 图像编码器 多尺度 多层感知机 文本编码器 多模态 查询特征 语句 矩阵 模块 Softmax函数 Sigmoid函数 对话生成装置 视觉 处理器