摘要
本申请提供一种基于CLIP的单阶段零样本语义分割方法和装置,属于计算机视觉和深度学习相关技术领域,引入特征自校准模块,通过对图像编码器的特征重新校准,提升模型对前景对象局部细节的关注能力,从而解决局部细节丢失的问题,使模型能够更好地处理精细化任务;通过设计独立的文本‑图像解码器对齐中间层的视觉特征与文本嵌入,从而充分利用中间层的丰富特征,提升模型的表达能力;通过采用级联式特征融合方法,实现中间层和最后一层视觉特征的有效融合,避免了特征相关性被破坏的问题,并显著提升模型的跨模态对齐能力;通过深度交叉视觉提示调整缓解过拟合问题,利用交叉注意机制促进预训练标记与提示标记的交互以增强对未见类别的适应能力。