一种密集视听事件定位方法、装置、设备及存储介质

申请号：CN202510932338

申请日期：2025-07-07

公开号：CN120953655A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及人工智能技术领域，尤其是指一种密集视听事件定位方法、装置、设备及计算机存储介质。本发明包括：将待定位的视频数据预处理，对预处理后的视频数据进行特征提取；基于单模态注意力机制、音频视觉引导机制及跨模态金字塔机制进行时间建模，利用多阶段语义引导方法进行分类损失函数约束，基于多模态时间聚合方法和多事件依赖提取方法细化处理，获得综合特征数据；基于解码器对综合特征数据进行处理，获得预测事件类别和时间边界。通过多模态早期融合与多阶段语义引导，逐步弥合中间层跨模态语义鸿沟；利用混合依赖专家模块自适应捕捉复杂场景中的多事件依赖关系，实现精准的事件类别预测与时间边界定位。

技术关键词

事件定位方法多模态视听注意力机制数据视觉特征金字塔音频特征跨模态语义多阶段解码器视频融合特征计算机存储介质可读存储介质存储计算机程序