摘要
本发明涉及人工智能技术领域,尤其是指一种密集视听事件定位方法、装置、设备及计算机存储介质。本发明包括:将待定位的视频数据预处理,对预处理后的视频数据进行特征提取;基于单模态注意力机制、音频视觉引导机制及跨模态金字塔机制进行时间建模,利用多阶段语义引导方法进行分类损失函数约束,基于多模态时间聚合方法和多事件依赖提取方法细化处理,获得综合特征数据;基于解码器对综合特征数据进行处理,获得预测事件类别和时间边界。通过多模态早期融合与多阶段语义引导,逐步弥合中间层跨模态语义鸿沟;利用混合依赖专家模块自适应捕捉复杂场景中的多事件依赖关系,实现精准的事件类别预测与时间边界定位。