摘要
本发明提供一种协同文本身份和视觉线索的人物交互检测的方法,设计了一个视觉模态分支和文本模态分支组成的双分支多模态人物交互检测网络;使用文本特征编码人物对中的物体身份,并且充分发掘人物交互检测数据集中的标签分布知识,显式地构建起物体身份和交互动作类别之间的约束关系,明确发挥出物体身份在交互推理中的作用;对于视觉模态和文本模态之间的特征差异,通过迁移视觉语言模型中的特征知识解决任务交互检测任务中的多模态特征融合问题,在此基础上,设计多模态特征融合模块,以物体身份的两种模态表征作为引导,对齐并融合同一人物对的视觉和文本模态表征进行人与物体之间交互行为的推理。