一种基于视觉提示的视觉语言大模型感知增强方法及系统
申请号:CN202510648607
申请日期:2025-05-20
公开号:CN120472173A
公开日期:2025-08-12
类型:发明专利
摘要
一种基于视觉提示的视觉语言大模型感知增强方法及系统,涉及视觉语言大模型领域。解决了现有的如何能够在资源受限条件下部署的小规模大语言模型成为亟待要解决的问题。所述方法包括:采用分割组件对原始图像进行分割,生成掩码和物体的分割列表;使用视觉编码器来分别处理原始图像和语义分割器产生的图像掩码,用于提取突出物体位置和边界的多层次视觉特征;并进行层归一化和MLP层处理,形成视觉特征;将所生成掩码和物体的分割结果列表作为文本指令、提取的突出物体位置和边界的多层次视觉特征以及视觉特征输入到视觉语言大模型中进行自回归语义生成,还适用于在不增加额外训练参数时提升视觉语言大模型对物体的感知与问答能力技术领域中。
技术关键词
视觉特征
分割器
物体
多层次
大语言模型
列表
语义
图像
构建算法
文本
阶段
输入模块
可读存储介质
处理器
存储器
指令
跨模态
计算机设备
参数