一种基于音视频模态信息协同感知的时序动作检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于音视频模态信息协同感知的时序动作检测方法
申请号:CN202510603201
申请日期:2025-05-12
公开号:CN120766174A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种基于音视频模态信息协同感知的时序动作检测方法,属于计算机视觉中的时序动作检测领域;该方法采用双分支级联结构,同时建模每个模态内多尺度时序信息之间的内在关系。该方法以视频序列及其对应的音频信息作为输入,利用预训练的主干网络提取音视频模态信息对应的多级多尺度基础特征。单模态多尺度时序特征交互模块针对每个模态的多尺度时序特征,分别采用多粒度卷积和池化操作,将长短时动作的时序信息进行拼接,实现每个模态内部不同尺度特征语义上下文信息和时间信息之间的关系交互。多模态跨尺度空间特征感知模块引入交叉注意力机制及特征拆分机制,有效对齐不同模态跨尺度空间信息,同时获取强判别力跨模态多尺度动作线索。
技术关键词
时序动作检测方法 时序特征 交叉注意力机制 视频特征提取 音频特征提取 多模态 多尺度池化 模块 深度卷积神经网络模型 多尺度特征 线索 上下文语义信息 音视频交互 跨模态