一种基于细粒度锚点指导的语义信息融合网络

申请号：CN202410911685

申请日期：2024-07-09

公开号：CN118862962A

公开日期：2024-10-29

类型：发明专利

摘要

本发明致力于解决复杂背景下的人与物体交互检测难题。本发明对基于多尺度上下文聚合的多重关系复用网络进行了改进，具体技术方案包括：空间感知合并模块、人体姿态融合模块以及细粒度锚点解码。针对空间感知合并模块，它充分利用了编码后多尺度特征中包含的空间结构和层级信息，通过与内容嵌入的深度融合与对齐，确保模型能够精确捕捉不同空间层级间的关联及交互细节。针对人体姿态融合模块，本发明引入人体姿态信息作为交互意图的补充表示，使模型自适应学习并关注关键的人体关节特征而无需额外标注。针对细粒度锚点解码，细粒度锚点作为位置先验，引导解码器关注特定的兴趣区域，并直接将语义信息融入内容嵌入中，后者用于预测HOI实例。

技术关键词

锚点解码器关节特征模块空间结构语义层级网络匈牙利算法人体姿势多尺度特征意图关系感兴趣编码场景基础