一种基于语义一致片段选择的视听事件识别与定位方法、系统、设备及介质
申请号:CN202510542666
申请日期:2025-04-28
公开号:CN120448912A
公开日期:2025-08-08
类型:发明专利
摘要
一种基于语义一致片段选择的视听事件识别与定位方法、系统、设备及介质,其方法包括:构建基于语义一致片段选择的视听事件识别与定位模型;设计损失函数,通过损失函数不断训练和优化基于语义一致片段选择的视听事件识别与定位模型,当损失函数最小时,得到最优的基于语义一致片段选择的视听事件识别与定位模型;将目标视频输入到最优的基于语义一致片段选择的视听事件识别与定位模型中,得到最优的目标事件识别准确度和目标事件的定位信息;系统、设备及介质用于实现该方法;本发明提出了一种多模态相似性学习模型和全局语义感知与增强模块来解决音频和视频片段之间的语义不平衡的问题,提高视听模态的语义一致性。
技术关键词
事件识别
视觉特征
听觉
语义
视听
门控循环神经网络
定位方法
校准特征
注意力
视频
音频特征
融合特征
多模态
关系
卷积神经网络提取
识别模块
输出特征
标签