一种基于多模态交互的异常特征增强的视频异常检测方法

申请号：CN202511013712

申请日期：2025-07-23

公开号：CN120913122A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种基于多模态交互的异常特征增强的视频异常检测方法，包括以下步骤：S1、获取监控区域视频、公共区域视频及预标注异常数据集，作为输入视频数据；S2、处理输入视频数据：S21、将输入视频数据分割为视频帧；S22、根据输入视频数据得到视频的语言文本描述，将其作为后续的文本特征信息；S3、将上述视觉特征信息与文本特征信息处理为同维度的特征，并输入到CLIP中进行特征空间模态匹配；S4、通过CLIP对异常视觉特征进行两次提取，得到特征更具有增强性与关键异常性，本发明通过视觉与语言两种模态交互的方式提取视频中具有异常的信息，使模型检测时更多关注于关键的异常特征，并且通过二次提取得到具有增强的、全面的关键异常。

技术关键词

视频异常检测方法多模态交互文本视频帧特征信息处理视觉特征信息相似性匹配方法异常数据注意力有效性字幕动态语义机制指标网络

系统为您推荐了相关专利信息

基于NLP语义分析的多维警务数据智能搜索系统

数据智能搜索语义分析系统多模态数据融合预处理系统优化搜索算法

一种用于长文本大语言模型的层次辅助稀疏注意方法

大语言模型分支注意力机制文本多层感知机

基于大模型的制造业合同评审方法、装置、设备及介质

合同评审方法可视化模板光学字符识别技术实体自然语言

半生成式人工智能

计算机辅助绘图嵌入件人工智能设计真实世界图像图像重建

一种适用于复杂环境的钢板喷码识别方法

喷码识别方法字符识别模型检测模型训练图像 ONVIF协议