摘要
本发明属于动作识别技术领域,提供了一种基于上下文信息的连续视频人体行为定位方法。将候选动作分为开始、执行和结束三个阶段,依次对应候选框上文信息、候选框信息和候选框下文信息;利用卷积网络模型生成连续视频的帧级特征;以候选框的起止点为中心分别定义开始框和结束框,将候选框作为节点,通过注意力机制网络聚合节点邻域信息生成候选框上下文信息图谱。基于候选框上下文信息图谱形成行为定位网络模型,实现对视频的有效分割。本发明融合了动作阶段划分、特征提取、上下文图谱生成与模型构建,提升了候选框质量,实现了上下文信息的自适应聚合,细化了边界,克服了传统方法边界模糊的缺陷,进一步提高了候选框精度。