摘要
本申请适用于人物交互检测技术领域,提供了一种基于内容查询和位置查询的人物交互检测方法,包括:首先通过主干网络提取图像特征,并用目标检测器DETR检测人和物体实例,然后配对人物与物体实例,提取外观、空间和物体类别语义特征并计算交互性分数,选出交互提议,接着将多模态特征深度融合,生成内容和位置嵌入,传入Transformer解码器进行交叉注意力计算,得到交互特征,最后将交互特征输入分类器,结合置信度分数,输出人物交互三元组的分数。该方法通过深度融合多模态特征和交叉注意力机制,有效提高人物与物体交互的检测精度,能够准确识别复杂场景中的人物交互关系。