摘要
本公开提供了一种肢体冲突行为的识别方法、装置及存储介质,包括:在监控场所布置监控模块,监控模块至少包括:动态视觉传感器、深度相机和语音采集单元;根据动态视觉传感器采集的事件流,采用事件时空金字塔卷积提取肢体动作速度特征;根据深度相机采集的三维数据,采用三维姿态估计网络模型提取肢体姿态特征;根据语音采集单元采集的语音数据,采用语音识别模型和大语言模型提取情绪特征;将肢体动作速度特征、肢体姿态特征和情绪特征输入到多模态注意力融合网络,确定是否存在肢体冲突行为。本公开突破传统单一视觉模态局限,融合动态视觉、三维姿态与语音情绪多维度信息,减少强光、遮挡等环境因素对单一模态的干扰,降低漏报、误报率。