多模态大语言模型的免训练视觉提示方法、电子设备和存储介质

申请号：CN202411002420

申请日期：2024-07-25

公开号：CN119090003A

公开日期：2024-12-06

类型：发明专利

摘要

本发明公开一种多模态大语言模型的免训练视觉提示方法、电子设备和存储介质，无需训练即可将视觉提示集成到多模态大语言模型中。首先，对于给定图像和文本，图像通过视觉编码器和多层感知机得到视觉特征，文本通过文本编码器得到文本特征，同时定义一个与视觉特征相同尺寸的可学习潜在变量；接着，将潜在变量与视觉特征相结合，并与文本特征一起通过大语言模型部分计算得到多个注意力权重矩阵，这些矩阵经过平均池化处理以形成最终的注意力权重矩阵；根据输入的视觉提示，使用相应的能量函数计算并更新潜在变量的值，此过程重复多次以优化潜在变量；最终，更新后潜在变量与视觉特征相结合，并与文本特征一起通过大语言模型产生模型响应。

技术关键词

大语言模型提示方法视觉特征变量注意力文本编码器矩阵多模态多层感知机策略滑动平均值电子设备图像指数计算机超参数可读存储介质存储器