摘要
本发明致力于解决复杂背景下的人与物体交互检测难题。本发明对基于多尺度上下文聚合的多重关系复用网络进行了改进,具体技术方案包括:空间感知合并模块、人体姿态融合模块以及细粒度锚点解码。针对空间感知合并模块,它充分利用了编码后多尺度特征中包含的空间结构和层级信息,通过与内容嵌入的深度融合与对齐,确保模型能够精确捕捉不同空间层级间的关联及交互细节。针对人体姿态融合模块,本发明引入人体姿态信息作为交互意图的补充表示,使模型自适应学习并关注关键的人体关节特征而无需额外标注。针对细粒度锚点解码,细粒度锚点作为位置先验,引导解码器关注特定的兴趣区域,并直接将语义信息融入内容嵌入中,后者用于预测HOI实例。