一种基于语义一致片段选择的视听事件识别与定位方法、系统、设备及介质

申请号：CN202510542666

申请日期：2025-04-28

公开号：CN120448912A

公开日期：2025-08-08

类型：发明专利

摘要

一种基于语义一致片段选择的视听事件识别与定位方法、系统、设备及介质，其方法包括：构建基于语义一致片段选择的视听事件识别与定位模型；设计损失函数，通过损失函数不断训练和优化基于语义一致片段选择的视听事件识别与定位模型，当损失函数最小时，得到最优的基于语义一致片段选择的视听事件识别与定位模型；将目标视频输入到最优的基于语义一致片段选择的视听事件识别与定位模型中，得到最优的目标事件识别准确度和目标事件的定位信息；系统、设备及介质用于实现该方法；本发明提出了一种多模态相似性学习模型和全局语义感知与增强模块来解决音频和视频片段之间的语义不平衡的问题，提高视听模态的语义一致性。

技术关键词

事件识别视觉特征听觉语义视听门控循环神经网络定位方法校准特征注意力视频音频特征融合特征多模态关系卷积神经网络提取识别模块输出特征标签