通过大型语言模型生成文本提示来增强图像操作定位方法

申请号：CN202510261555

申请日期：2025-03-06

公开号：CN120182561A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了通过大型语言模型生成文本提示来增强图像操作定位方法，将图像和指令输入到大型语言模型(LLMs)中，生成与图像篡改区域相关的提示文本；将所述提示文本输入到文本编码器(BERT)中，提取文本特征，所述文本特征用于补充图像视觉特征中缺失的语义信息；对图像进行数据增强处理；将数据增强后的图像输入到图像编码器(PVTv2)中，提取图像的篡改特征；本发明通过引入大型语言模型(LLMs)生成的文本提示，补充了图像视觉特征中缺失的深层语义关系和逻辑联系，弥补了传统图像操作定位(I ML)方法仅依赖视觉线索的不足，使模型能够更好地理解图像内容的语义背景，从而显著提高了对复杂场景和篡改区域的定位精度。

技术关键词

定位方法图像篡改区域图像视觉特征文本编码器图像编码器多头注意力机制图像篡改定位语义分析能力物体解码器输出特征数据多模态指令模块鲁棒性