一种基于多模态模型的非法集资图像描述生成方法及系统
申请号:CN202510057759
申请日期:2025-01-14
公开号:CN120107981A
公开日期:2025-06-06
类型:发明专利
摘要
本发明提供了一种基于多模态模型的非法集资图像描述生成方法及系统,具体包括如下步骤:S1,图像特征提取;划分图像块,将图像数据输入到ViT模型中,提取出图像特征向量;S2,OCR提取文本信息;利用OCR技术从非法集资图像中提取文本信息,并将这些文本信息编码为高维特征;S3,跨模态信息交互;将文本特征和图像特征输入到ViLBERT模型中,进行跨模态信息交互,生成融合两者信息的联合表示;以及S4,图像描述生成;基于联合表示生成图像描述文本,揭示更多非法集资要素。
技术关键词
文本
注意力机制
生成方法系统
解码器
前馈神经网络
图像块
跨模态
多模态
交互注意力
图像特征提取
双向长短期记忆网络
图像特征向量
序列特征
区域特征提取
线性变换矩阵