基于持续学习的开放词汇多任务图像分类方法

申请号：CN202511096243

申请日期：2025-08-06

公开号：CN120599385A

公开日期：2025-09-05

类型：发明专利

摘要

本发明涉及图像处理技术领域，公开基于持续学习的开放词汇多任务图像分类方法，包括步骤：对原始图像数据进行预处理得到对应的文本信息，将文本信息输入文本编码器，得到文本特征；将原始图像数据输入图像编码器，得到图像特征；将文本特征和图像特征共同输入引导注意力模块，对图像特征进行加权整合，得到多模态特征；将多模态特征输入随机投影模块进行随机投影，通过非线性激活函数得到激活特征；通过预测模块对每个类别的激活特征取均值生成类原型向量，将非线性激活函数输入到Gram矩阵，得到图像类别。本发明对图像编码器的微调增分类强模型的特征提取能力，引入引导注意力模块实现图文特征的深度融合，提升了对关键语义特征的识别能力。

技术关键词

原始图像数据图像编码器图像分类方法文本编码器多任务图像块注意力非线性编码块投影模块原型矩阵序列特征提取能力多模态特征

系统为您推荐了相关专利信息

一种快速足弓检测方法

图像分割技术语义分割模型图像嵌入后续图像处理轮廓

一种基于点云距离公差的岩体脱落识别算法

识别算法 Delaunay三角剖分实景三维模型公差构建不规则三角网

一种视觉语言大模型的参数对齐方法、装置及存储介质

文本特征向量图像特征向量多模态三元组损失函数视觉

一种文本合成图像的训练方法及训练系统

融合特征生成对抗网络随机噪声生成合成图图像生成器

相似个体间知识迁移无线传感器网络覆盖多任务优化方法

无线传感器多任务高斯概率模型高斯分布模型覆盖率