摘要
本发明为一种基于特征增强的多模态图文篡改检测与定位方法,包括以下内容:获得篡改图文对,分别对输入图像和输入文本进行预处理,构建数据集;构建多模态图文篡改模型,包括文本编码器、图像编码器、图像频域增强模块、文本增强模块、多交叉注意力融合模块和一个多任务的篡改检测和定位头;图像频域增强模块用于选出最优的频段送出模块;将图像频域增强模块的输出的频域特征和图像编码器输出的图像域特征进行特征融合,获得图像增强特征;使用多交叉注意力融合模块对对齐后的图像增强特征、文本增强特征进行融合;利用数据集训练多模态图文篡改模型,对多模态图文篡改检测与定位。本发明增强了网络的特征提取能力,提高了篡改检测与定位能力。