一种基于多模态交互的异常特征增强的视频异常检测方法
申请号:CN202511013712
申请日期:2025-07-23
公开号:CN120913122A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种基于多模态交互的异常特征增强的视频异常检测方法,包括以下步骤:S1、获取监控区域视频、公共区域视频及预标注异常数据集,作为输入视频数据;S2、处理输入视频数据:S21、将输入视频数据分割为视频帧;S22、根据输入视频数据得到视频的语言文本描述,将其作为后续的文本特征信息;S3、将上述视觉特征信息与文本特征信息处理为同维度的特征,并输入到CLIP中进行特征空间模态匹配;S4、通过CLIP对异常视觉特征进行两次提取,得到特征更具有增强性与关键异常性,本发明通过视觉与语言两种模态交互的方式提取视频中具有异常的信息,使模型检测时更多关注于关键的异常特征,并且通过二次提取得到具有增强的、全面的关键异常。
技术关键词
视频异常检测方法
多模态交互
文本
视频帧
特征信息处理
视觉特征信息
相似性匹配方法
异常数据
注意力
有效性
字幕
动态
语义
机制
指标
网络