一种标记压缩框架的图文处理方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种标记压缩框架的图文处理方法及装置
申请号:CN202510715518
申请日期:2025-05-30
公开号:CN120235250B
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开了一种标记压缩框架的图文处理方法及装置,包括:视觉特征提取步骤;视觉标记筛选处理步骤;文本特征提取步骤;多模态融合与模型处理步骤。本发明的有益效果是:本发明的视觉标记压缩框架在无需额外训练的情况下,显著提升了MLLMs的推理效率;通过DVTS模块的全局与局部信息融合,以及TGVC模块的文本引导补充,大幅减少了视觉标记数量,同时保留关键视觉信息并增强视觉‑文本对齐;实验表明,本框架在多种图像和视频基准测试中,相较于现有方法,在大幅降低计算成本的同时,保持甚至提升了模型性能,具有显著的技术优势和应用潜力。
技术关键词
标记 局部注意力机制 视觉特征提取 图文 文本编码器 融合特征 关键视觉信息 框架 大语言模型 多模态 聚类 序列 中间层 语义需求 处理器 可读存储介质
系统为您推荐了相关专利信息
组织切片图像 图像块 病理图像分类方法 掩膜 样本
车道中心线 车辆 偏差 策略 控制系统
图像搜索 多模态 菜谱推荐方法 检测器 图文
鉴定玉米抗旱性 玉米品系 核苷酸 引物 染色体
语言模型预训练方法 三维医学图像数据 生成图像特征 文本编码器 图像编码器