一种基于自适应文本提示的zero-shot图像识别方法
申请号:CN202411458089
申请日期:2024-10-18
公开号:CN119625481A
公开日期:2025-03-14
类型:发明专利
摘要
尽管大规模预训练模型在自然语言处理和计算机视觉领域表现出色,但在零样本图像识别等特定下游任务中表现有限,亟需优化。本发明公开了一种基于数据集标签的前后缀自适应文本提示方法,提升模型在零样本识别中的表现。首先,通过在数据标签前后引入可学习的前后缀向量,动态地调整文本提示,有效利用了大模型的语义理解能力,进而提升了模型对新类别的适应性和泛化能力。其次,利用自注意力机制提取并融合数据集标签特征,从而生成更加有效的自适应文本提示。实验结果表明,该方法显著提升了模型的零样本识别能力,尤其是在复杂视觉任务中的应用,为大规模预训练模型的进一步发展和应用提供了有力支持。
技术关键词
提示方法
预训练模型
数据标签
图像识别方法
前馈神经网络
文本编码器
标签特征
计算机视觉
注意力机制
自然语言
样本
动态地
阶段
关系
语义
参数