摘要
本发明公开了一种基于音视频模态信息协同感知的时序动作检测方法,属于计算机视觉中的时序动作检测领域;该方法采用双分支级联结构,同时建模每个模态内多尺度时序信息之间的内在关系。该方法以视频序列及其对应的音频信息作为输入,利用预训练的主干网络提取音视频模态信息对应的多级多尺度基础特征。单模态多尺度时序特征交互模块针对每个模态的多尺度时序特征,分别采用多粒度卷积和池化操作,将长短时动作的时序信息进行拼接,实现每个模态内部不同尺度特征语义上下文信息和时间信息之间的关系交互。多模态跨尺度空间特征感知模块引入交叉注意力机制及特征拆分机制,有效对齐不同模态跨尺度空间信息,同时获取强判别力跨模态多尺度动作线索。