一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统

申请号：CN202511225510

申请日期：2025-08-29

公开号：CN120976556A

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统，涉及计算机视觉、图像篡改定位以及自然语言处理交叉技术领域；利用LLaMA模型生成与待检测图像相关的文本提示，通过视觉特征提取器和文本特征提取器分别获取图像与文本的特征表示；随后，通过多模态交互提示模块实现跨模态特征的深度融合与对齐；最后，结合空间特征金字塔网络和多层感知器输出精准的篡改区域定位结果。本发明通过跨模态自注意力与交叉注意力机制实现视觉特征与文本语义的深度对齐，显著提升模型对篡改区域的语义关联理解；同时结合空间特征金字塔网络与轻量化SegFormer解码器，有效增强对多尺度篡改区域的捕捉能力，尤其在微小篡改和大区域伪造场景下表现更优。

技术关键词

图像篡改定位方法特征金字塔网络文本语义特征多模态交互交叉注意力机制篡改区域定位预训练语言模型多层感知器跨模态多模态特征融合视觉特征提取生成高分辨率边缘检测模块