通过嵌入式视觉压缩实现的紧凑多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
通过嵌入式视觉压缩实现的紧凑多模态大模型
申请号:CN202510176202
申请日期:2025-02-18
公开号:CN120181220A
公开日期:2025-06-20
类型:发明专利
摘要
本发明公开一种通过嵌入式视觉压缩实现的紧凑多模态大模型,旨在通过嵌入式视觉压缩策略,减少模型在高分辨率输入下的计算开销,同时保持图像细节的充分表达。紧凑多模态大模型包括:通过视觉编码器提取其视觉特征;通过分词器得到文本特征;由空间注意力池化模块将视觉特征处理为紧凑型视觉特征;投影器对紧凑型视觉特征、文本特征进行线性投影后,将两者一起输入到多模态大模型中,并在序列末尾填充个可学习的查询特征;紧凑型视觉特征、文本特征和查询特征在多模态大模型的第层之前参与多模态交互,在第层通过嵌入式查询模块捕获与指令相关的图像信息,以补充在注意力池化过程中丢失的图像细节。
技术关键词
视觉特征 嵌入式视觉 查询特征 紧凑型 文本 多模态交互 图像 交叉注意力机制 序列 多层感知机 模块 答案 矩阵 指令 非线性 定义