一种基于特征增强的多模态图文篡改检测与定位方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于特征增强的多模态图文篡改检测与定位方法
申请号:CN202411622933
申请日期:2024-11-14
公开号:CN119513743A
公开日期:2025-02-25
类型:发明专利
摘要
本发明为一种基于特征增强的多模态图文篡改检测与定位方法,包括以下内容:获得篡改图文对,分别对输入图像和输入文本进行预处理,构建数据集;构建多模态图文篡改模型,包括文本编码器、图像编码器、图像频域增强模块、文本增强模块、多交叉注意力融合模块和一个多任务的篡改检测和定位头;图像频域增强模块用于选出最优的频段送出模块;将图像频域增强模块的输出的频域特征和图像编码器输出的图像域特征进行特征融合,获得图像增强特征;使用多交叉注意力融合模块对对齐后的图像增强特征、文本增强特征进行融合;利用数据集训练多模态图文篡改模型,对多模态图文篡改检测与定位。本发明增强了网络的特征提取能力,提高了篡改检测与定位能力。
技术关键词
图像编码器 图像增强 分块DCT变换 文本编码器 频域特征 图文 频率 模块 定位方法 矩阵 多模态 全局平均池化 调频 注意力机制 多任务 检测损失 Sigmoid函数
系统为您推荐了相关专利信息
检测报警系统 明文 检验单元 机器学习算法 采集单元
图像增强 图像块 策略 图像处理方法 计算机设备
样本学习方法 图像增强手段 视觉特征 训练特征 模板
腹腔镜手术 肝脏切除手术 人工智能算法 肝脏模型 配准方法
自然语言 追踪方法 视觉特征 交叉注意力机制 前馈神经网络