基于属性对比的密集场景多模态目标检测方法

申请号：CN202511231827

申请日期：2025-09-01

公开号：CN120747845B

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及目标检测技术领域，公开了基于属性对比的密集场景多模态目标检测方法，包括：将图像和自然语言描述分别输入至预设的特征提取模型提取初始视觉特征和初始语言特征；根据预设的多个属性类型，将初始视觉特征和初始语言特征解耦为多个视觉属性级特征和对应的多个语言属性级特征；将多个视觉属性级特征和对应的多个语言属性级特征输入至细粒度属性对比模型，增大不同属性值对应的属性级特征间的区分度，得到增强的多模态属性特征；融合增强的多模态属性特征以生成最终特征谱，并输出自然语言描述所指定的目标对象在图像中的位置信息。本发明旨在解决现有技术在密集场景下因无法分辨相似目标而导致的检测性能不佳的问题。

技术关键词

视觉特征多模态自然语言特征提取模型双向长短期记忆网络场景特征金字塔网络联合损失函数图像分支检测器对象级联坐标编码