一种基于视觉提示的视觉语言大模型感知增强方法及系统

申请号：CN202510648607

申请日期：2025-05-20

公开号：CN120472173A

公开日期：2025-08-12

类型：发明专利

摘要

一种基于视觉提示的视觉语言大模型感知增强方法及系统，涉及视觉语言大模型领域。解决了现有的如何能够在资源受限条件下部署的小规模大语言模型成为亟待要解决的问题。所述方法包括：采用分割组件对原始图像进行分割，生成掩码和物体的分割列表；使用视觉编码器来分别处理原始图像和语义分割器产生的图像掩码，用于提取突出物体位置和边界的多层次视觉特征；并进行层归一化和MLP层处理，形成视觉特征；将所生成掩码和物体的分割结果列表作为文本指令、提取的突出物体位置和边界的多层次视觉特征以及视觉特征输入到视觉语言大模型中进行自回归语义生成，还适用于在不增加额外训练参数时提升视觉语言大模型对物体的感知与问答能力技术领域中。

技术关键词

视觉特征分割器物体多层次大语言模型列表语义图像构建算法文本阶段输入模块可读存储介质处理器存储器指令跨模态计算机设备参数

系统为您推荐了相关专利信息

话题物料的检测方法、装置、设备、存储介质及产品

话题热点标签大语言模型图片

法律意图识别模型的训练方法、识别方法及系统

意图识别模型树形结构大语言模型样本标识符

一种使用动态规划和Logistic拟合的线光谱轮廓拐点检测方法

拐点检测方法 Logistic函数光谱轮廓光谱共焦位移传感器轮廓传感器

一种基于映射激光的被遮挡目标的确定方法

点云分布特征代表物流机器人激光雷达

一种语音转化方法、装置、设备及可读存储介质

音频连续特征大语言模型交叉注意力机制转化方法