一种基于CLIP的单阶段零样本语义分割方法和装置

申请号：CN202510205619

申请日期：2025-02-25

公开号：CN119693649B

公开日期：2025-04-25

类型：发明专利

摘要

本申请提供一种基于CLIP的单阶段零样本语义分割方法和装置，属于计算机视觉和深度学习相关技术领域，引入特征自校准模块，通过对图像编码器的特征重新校准，提升模型对前景对象局部细节的关注能力，从而解决局部细节丢失的问题，使模型能够更好地处理精细化任务；通过设计独立的文本‑图像解码器对齐中间层的视觉特征与文本嵌入，从而充分利用中间层的丰富特征，提升模型的表达能力；通过采用级联式特征融合方法，实现中间层和最后一层视觉特征的有效融合，避免了特征相关性被破坏的问题，并显著提升模型的跨模态对齐能力；通过深度交叉视觉提示调整缓解过拟合问题，利用交叉注意机制促进预训练标记与提示标记的交互以增强对未见类别的适应能力。

技术关键词

语义分割方法图像编码器校准解码器框架文本视觉特征邻域模块补丁分类特征样本阶段注意力机制加权特征图像解码器多模态信息