一种基于图像文本语义对齐的零样本目标检测方法及应用

申请号：CN202411744699

申请日期：2024-12-01

公开号：CN119963798A

公开日期：2025-05-09

类型：发明专利

摘要

本发明提供一种基于图像文本语义对齐的零样本目标检测方法及应用，构建描述数据集的语料库，将数据集输入网络模型的视觉分支，获得视觉特征并映射到语义空间，与文本分支的动态语义向量对齐；将语料库输入到ELMo模型中预训练，并对语料库中的多义词区分，得到动态语义向量；设定损失函数，利用分类层将视觉特征映射到语义特征空间；利用分类层得到的视觉‑语义对应结果，对数据集中的未知类进行目标检测；方法应用于在零样本情境下实现目标检测。本发明使模型对于图像中未见过的物体类别进行检测，得到的文本语义准确性提高，通过两个网络分支完成对未知类的识别，提高对于未知类的视觉语义对齐准确性，以达到对未知类更好的分类检测准确度。

技术关键词

视觉特征语义向量文本样本嵌入特征分支多特征加权融合图像多义词语义特征 LSTM模型动态数据网络索引输出端香草坐标