一种基于自适应文本提示的zero-shot图像识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于自适应文本提示的zero-shot图像识别方法
申请号:CN202411458089
申请日期:2024-10-18
公开号:CN119625481A
公开日期:2025-03-14
类型:发明专利
摘要
尽管大规模预训练模型在自然语言处理和计算机视觉领域表现出色,但在零样本图像识别等特定下游任务中表现有限,亟需优化。本发明公开了一种基于数据集标签的前后缀自适应文本提示方法,提升模型在零样本识别中的表现。首先,通过在数据标签前后引入可学习的前后缀向量,动态地调整文本提示,有效利用了大模型的语义理解能力,进而提升了模型对新类别的适应性和泛化能力。其次,利用自注意力机制提取并融合数据集标签特征,从而生成更加有效的自适应文本提示。实验结果表明,该方法显著提升了模型的零样本识别能力,尤其是在复杂视觉任务中的应用,为大规模预训练模型的进一步发展和应用提供了有力支持。
技术关键词
提示方法 预训练模型 数据标签 图像识别方法 前馈神经网络 文本编码器 标签特征 计算机视觉 注意力机制 自然语言 样本 动态地 阶段 关系 语义 参数