一种标记压缩框架的图文处理方法及装置

申请号：CN202510715518

申请日期：2025-05-30

公开号：CN120235250B

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种标记压缩框架的图文处理方法及装置，包括：视觉特征提取步骤；视觉标记筛选处理步骤；文本特征提取步骤；多模态融合与模型处理步骤。本发明的有益效果是：本发明的视觉标记压缩框架在无需额外训练的情况下，显著提升了MLLMs的推理效率；通过DVTS模块的全局与局部信息融合，以及TGVC模块的文本引导补充，大幅减少了视觉标记数量，同时保留关键视觉信息并增强视觉‑文本对齐；实验表明，本框架在多种图像和视频基准测试中，相较于现有方法，在大幅降低计算成本的同时，保持甚至提升了模型性能，具有显著的技术优势和应用潜力。

技术关键词

标记局部注意力机制视觉特征提取图文文本编码器融合特征关键视觉信息框架大语言模型多模态聚类序列中间层语义需求处理器可读存储介质

系统为您推荐了相关专利信息

病理图像分类方法及装置

组织切片图像图像块病理图像分类方法掩膜样本

一种弯道行驶的控制方法、控制系统、存储介质及电子设备

车道中心线车辆偏差策略控制系统

菜谱推荐方法和装置

图像搜索多模态菜谱推荐方法检测器图文

一种与玉米抗旱性相关的SNP分子标记及其应用

鉴定玉米抗旱性玉米品系核苷酸引物染色体

重建混合策略的三维医学图像视觉语言模型预训练方法

语言模型预训练方法三维医学图像数据生成图像特征文本编码器图像编码器