一种基于自适应视觉残差聚合网络的提示学习方法

申请号：CN202510018964

申请日期：2025-01-07

公开号：CN119851033B

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了一种基于自适应视觉残差聚合网络的提示学习方法，属于深度学习技术领域。本发明通过在CLIP模型中引入视觉残差聚合模块以及语义一致性模块根据大模型实际应用场景存在的问题对新类进行分类检测，首先，使用残差聚合模块可实现自适应融合类无关特征，从而有效保留泛化知识。然后，通过语义一致性模块引入一个可学习的线性层，并将残差聚合模块获得的自适应特征输入到语义一致性模块中，加入语义一致性损失和真实标签对泛化性文本提示进行训练。最后通过对比学习，得到最终的分类结果。本发明提出的方法在进行分类任务时，特别是对新类检测，能够有效利用模型遗忘的泛化特征和语义特征对文本提示进行训练，实现了模型的泛化能力和语义识别能力之间的动态平衡，使模型更适配下游任务，有效提高模型在新型上的准确率。

技术关键词

图像块学习方法文本编码器语义特征模块视觉深度学习技术标签线性残差网络信息编码数据图片融合特征样本多模态