一种密集视听事件定位方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种密集视听事件定位方法、装置、设备及存储介质
申请号:CN202510932338
申请日期:2025-07-07
公开号:CN120953655A
公开日期:2025-11-14
类型:发明专利
摘要
本发明涉及人工智能技术领域,尤其是指一种密集视听事件定位方法、装置、设备及计算机存储介质。本发明包括:将待定位的视频数据预处理,对预处理后的视频数据进行特征提取;基于单模态注意力机制、音频视觉引导机制及跨模态金字塔机制进行时间建模,利用多阶段语义引导方法进行分类损失函数约束,基于多模态时间聚合方法和多事件依赖提取方法细化处理,获得综合特征数据;基于解码器对综合特征数据进行处理,获得预测事件类别和时间边界。通过多模态早期融合与多阶段语义引导,逐步弥合中间层跨模态语义鸿沟;利用混合依赖专家模块自适应捕捉复杂场景中的多事件依赖关系,实现精准的事件类别预测与时间边界定位。
技术关键词
事件定位方法 多模态 视听 注意力机制 数据 视觉特征 金字塔 音频特征 跨模态 语义 多阶段 解码器 视频 融合特征 计算机存储介质 可读存储介质 存储计算机程序