基于多模态模型CLIP的隐空间净化的图像分类方法及装置

申请号：CN202411558624

申请日期：2024-11-04

公开号：CN119418123B

公开日期：2025-12-12

类型：发明专利

摘要

本发明提出一种基于多模态模型CLIP的隐空间净化的图像分类方法和装置，包括：将待分类图片输入图文多模态对比预训练模型的图像编码器，得到待分类图片在隐空间上的表示向量；使用图文多模态对比预训练模型的文本编码器，得到空类别文本所表示的空类别文本嵌入向量；计算表示向量和空类别文本嵌入向量的概率似然值；提取表示向量的向量长度与方向矢量，计算似然概率值对方向矢量的梯度，采用梯度上升方法对方向矢量进行更新同时保持向量长度不变，得到净化向量；通过选择与最终净化向量相似度最高的类别文本嵌入向量，将类别文本嵌入向量对应的图像类别作为类别文本嵌入向量的分类结果。

技术关键词

图像分类方法多模态预训练模型图像分类装置文本编码器图像编码器信息显示设备图像类别图文图片人工智能模型模块计算机程序产品噪声电子设备可读存储介质理论处理器