摘要
本发明提供一种建筑边缘场景的人体小目标检测与动作识别一体化方法,包括设置人体小目标检测器并进行预训练;构建建筑边缘场景专用的目标数据集,通过自适应尺度匹配策略调整预训练数据集的目标尺寸分布,并采用二段微调策略优化目标数据集;在检测器主干网络末端插入时序ROI对齐算子;通过序列级语义聚合头生成人体候选框;采用双通道视频主干网络提取视频片段的时空特征,从全局特征图中提取人体时空特征;通过人‑物时间编码模块生成人‑物关系特征图;通过人‑物‑人时空编码模块,将人‑物关系特征图转换并用堆叠的非局部块捕捉不同人体间的交互关系,生成高阶时空特征,同步输入边界框回归分支和动作分类分支,同步输出人体位置及动作类别。