一种基于多模态模型的非法集资图像描述生成方法及系统

申请号：CN202510057759

申请日期：2025-01-14

公开号：CN120107981A

公开日期：2025-06-06

类型：发明专利

摘要

本发明提供了一种基于多模态模型的非法集资图像描述生成方法及系统，具体包括如下步骤：S1，图像特征提取；划分图像块，将图像数据输入到ViT模型中，提取出图像特征向量；S2，OCR提取文本信息；利用OCR技术从非法集资图像中提取文本信息，并将这些文本信息编码为高维特征；S3，跨模态信息交互；将文本特征和图像特征输入到ViLBERT模型中，进行跨模态信息交互，生成融合两者信息的联合表示；以及S4，图像描述生成；基于联合表示生成图像描述文本，揭示更多非法集资要素。

技术关键词

文本注意力机制生成方法系统解码器前馈神经网络图像块跨模态多模态交互注意力图像特征提取双向长短期记忆网络图像特征向量序列特征区域特征提取线性变换矩阵