一种基于自适应文本提示的zero-shot图像识别方法

申请号：CN202411458089

申请日期：2024-10-18

公开号：CN119625481A

公开日期：2025-03-14

类型：发明专利

摘要

尽管大规模预训练模型在自然语言处理和计算机视觉领域表现出色，但在零样本图像识别等特定下游任务中表现有限，亟需优化。本发明公开了一种基于数据集标签的前后缀自适应文本提示方法，提升模型在零样本识别中的表现。首先，通过在数据标签前后引入可学习的前后缀向量，动态地调整文本提示，有效利用了大模型的语义理解能力，进而提升了模型对新类别的适应性和泛化能力。其次，利用自注意力机制提取并融合数据集标签特征，从而生成更加有效的自适应文本提示。实验结果表明，该方法显著提升了模型的零样本识别能力，尤其是在复杂视觉任务中的应用，为大规模预训练模型的进一步发展和应用提供了有力支持。

技术关键词

提示方法预训练模型数据标签图像识别方法前馈神经网络文本编码器标签特征计算机视觉注意力机制自然语言样本动态地阶段关系语义参数