摘要
本发明公开了一种标记压缩框架的图文处理方法及装置,包括:视觉特征提取步骤;视觉标记筛选处理步骤;文本特征提取步骤;多模态融合与模型处理步骤。本发明的有益效果是:本发明的视觉标记压缩框架在无需额外训练的情况下,显著提升了MLLMs的推理效率;通过DVTS模块的全局与局部信息融合,以及TGVC模块的文本引导补充,大幅减少了视觉标记数量,同时保留关键视觉信息并增强视觉‑文本对齐;实验表明,本框架在多种图像和视频基准测试中,相较于现有方法,在大幅降低计算成本的同时,保持甚至提升了模型性能,具有显著的技术优势和应用潜力。