基于跨特征交互Transformer的群体行为识别方法和系统
申请号:CN202510884080
申请日期:2025-06-30
公开号:CN120388335A
公开日期:2025-07-29
类型:发明专利
摘要
本发明公开了一种基于跨特征交互Transformer的群体行为识别方法和系统,首先提取视频片段的外观和姿态双分支特征,输入跨特征校正模块进行编码交互,经池化拼接和MLP生成校正向量实现特征优化;校正结果输入跨特征交互Transformer模块:通过位置编码整合空间信息,门控瓶颈块动态校准特征,再利用交叉注意力机制生成交互感知特征;该特征经非对称卷积融合模块整合时空信息,替代标准对称卷积以增强局部细节与全局上下文;最后通过全连接层维度变换,Softmax层输出群体行为类别的概率分布。通过特征校正、交互式Transformer和非对称融合三重创新,有效挖掘多模态特征的互补信息,显著提升识别精度。
技术关键词
感知特征
姿态特征
交叉注意力机制
校正模块
特征提取网络
分支
瓶颈
多层感知器
编码
识别方法
关节点
通道
前馈神经网络
全局平均池化
校准特征
多模态特征
视频帧