一种基于特征增强的多模态图文篡改检测与定位方法

申请号：CN202411622933

申请日期：2024-11-14

公开号：CN119513743A

公开日期：2025-02-25

类型：发明专利

摘要

本发明为一种基于特征增强的多模态图文篡改检测与定位方法，包括以下内容：获得篡改图文对，分别对输入图像和输入文本进行预处理，构建数据集；构建多模态图文篡改模型，包括文本编码器、图像编码器、图像频域增强模块、文本增强模块、多交叉注意力融合模块和一个多任务的篡改检测和定位头；图像频域增强模块用于选出最优的频段送出模块；将图像频域增强模块的输出的频域特征和图像编码器输出的图像域特征进行特征融合，获得图像增强特征；使用多交叉注意力融合模块对对齐后的图像增强特征、文本增强特征进行融合；利用数据集训练多模态图文篡改模型，对多模态图文篡改检测与定位。本发明增强了网络的特征提取能力，提高了篡改检测与定位能力。

技术关键词

图像编码器图像增强分块DCT变换文本编码器频域特征图文频率模块定位方法矩阵多模态全局平均池化调频注意力机制多任务检测损失 Sigmoid函数

系统为您推荐了相关专利信息

一种基于多维特征融合和傅里叶变换的明文检测报警系统

检测报警系统明文检验单元机器学习算法采集单元

一种图像处理方法、装置、计算机设备及存储介质

图像增强图像块策略图像处理方法计算机设备

一种任务适应关联学习的小样本学习方法

样本学习方法图像增强手段视觉特征训练特征模板

基于人工智能算法的腹腔镜肝脏切除手术配准方法及系统

腹腔镜手术肝脏切除手术人工智能算法肝脏模型配准方法

基于自然语言描述和协同全局-局部视角学习的目标追踪方法

自然语言追踪方法视觉特征交叉注意力机制前馈神经网络