多模态大语言模型的免训练视觉提示方法、电子设备和存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
多模态大语言模型的免训练视觉提示方法、电子设备和存储介质
申请号:CN202411002420
申请日期:2024-07-25
公开号:CN119090003A
公开日期:2024-12-06
类型:发明专利
摘要
本发明公开一种多模态大语言模型的免训练视觉提示方法、电子设备和存储介质,无需训练即可将视觉提示集成到多模态大语言模型中。首先,对于给定图像和文本,图像通过视觉编码器和多层感知机得到视觉特征,文本通过文本编码器得到文本特征,同时定义一个与视觉特征相同尺寸的可学习潜在变量;接着,将潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型部分计算得到多个注意力权重矩阵,这些矩阵经过平均池化处理以形成最终的注意力权重矩阵;根据输入的视觉提示,使用相应的能量函数计算并更新潜在变量的值,此过程重复多次以优化潜在变量;最终,更新后潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型产生模型响应。
技术关键词
大语言模型 提示方法 视觉特征 变量 注意力 文本编码器 矩阵 多模态 多层感知机 策略 滑动平均值 电子设备 图像 指数 计算机 超参数 可读存储介质 存储器