一种基于细粒度层级事件特征的视频语义理解模型及生成方法

申请号：CN202410804488

申请日期：2024-06-21

公开号：CN118537861A

公开日期：2024-08-23

类型：发明专利

摘要

本发明包括视觉编码器、图像特征压缩器、预训练的BERT模型、事件特征编码层和大语言模型。视觉编码器将视频帧编码为帧特征；事件特征编码层提取和筛选事件特征；事件特征提取器通过自适应滑动窗口从视频中提取耦合的细粒度事件特征，事件特征感知器根据用户输入的问题筛选相关的事件特征。本发明使用层级放置的事件特征提取器充分考虑视频帧之间的关联，将视频信息编码为细粒度的层级事件特征，解决了现有模型存在的粗粒度特征提取问题，使用事件特征感知器从每一层事件特征提取器输出的事件特征中选择与用户查询最相关的特征，大幅减少了视频的特征令牌数量，辅以相似帧融合模块和图像特征压缩器，解决了长视频理解困难问题。

技术关键词

事件特征语义理解模型特征提取器视频帧特征压缩器大语言模型生成方法层级滑动窗口图像交叉注意力机制编码视频帧 BERT模型微调技术线性参数

系统为您推荐了相关专利信息

一种基于蒸馏扩散模型的开放集高光谱图像实例图构建方法

分类器样本教师蒸馏神经网络参数

一种转场视频生成方法及系统

视频生成方法噪声特征变分自动编码器视频生成系统高频特征

一种目标检测模型训练方法、目标检测方法、装置及设备

图像特征提取检测模型训练方法文本样本大语言模型

一种基于MAE的航空图像目标检测方法

航空图像块编码器超参数解码器

一种实验室智能综合管理方法及系统