基于多模态模型CLIP的隐空间净化的图像分类方法及装置
申请号:CN202411558624
申请日期:2024-11-04
公开号:CN119418123B
公开日期:2025-12-12
类型:发明专利
摘要
本发明提出一种基于多模态模型CLIP的隐空间净化的图像分类方法和装置,包括:将待分类图片输入图文多模态对比预训练模型的图像编码器,得到待分类图片在隐空间上的表示向量;使用图文多模态对比预训练模型的文本编码器,得到空类别文本所表示的空类别文本嵌入向量;计算表示向量和空类别文本嵌入向量的概率似然值;提取表示向量的向量长度与方向矢量,计算似然概率值对方向矢量的梯度,采用梯度上升方法对方向矢量进行更新同时保持向量长度不变,得到净化向量;通过选择与最终净化向量相似度最高的类别文本嵌入向量,将类别文本嵌入向量对应的图像类别作为类别文本嵌入向量的分类结果。
技术关键词
图像分类方法
多模态
预训练模型
图像分类装置
文本编码器
图像编码器
信息显示设备
图像类别
图文
图片
人工智能模型
模块
计算机程序产品
噪声
电子设备
可读存储介质
理论
处理器