摘要
本发明涉及图像处理技术领域,公开基于持续学习的开放词汇多任务图像分类方法,包括步骤:对原始图像数据进行预处理得到对应的文本信息,将文本信息输入文本编码器,得到文本特征;将原始图像数据输入图像编码器,得到图像特征;将文本特征和图像特征共同输入引导注意力模块,对图像特征进行加权整合,得到多模态特征;将多模态特征输入随机投影模块进行随机投影,通过非线性激活函数得到激活特征;通过预测模块对每个类别的激活特征取均值生成类原型向量,将非线性激活函数输入到Gram矩阵,得到图像类别。本发明对图像编码器的微调增分类强模型的特征提取能力,引入引导注意力模块实现图文特征的深度融合,提升了对关键语义特征的识别能力。