一种基于细粒度层级事件特征的视频语义理解模型及生成方法
申请号:CN202410804488
申请日期:2024-06-21
公开号:CN118537861A
公开日期:2024-08-23
类型:发明专利
摘要
本发明包括视觉编码器、图像特征压缩器、预训练的BERT模型、事件特征编码层和大语言模型。视觉编码器将视频帧编码为帧特征;事件特征编码层提取和筛选事件特征;事件特征提取器通过自适应滑动窗口从视频中提取耦合的细粒度事件特征,事件特征感知器根据用户输入的问题筛选相关的事件特征。本发明使用层级放置的事件特征提取器充分考虑视频帧之间的关联,将视频信息编码为细粒度的层级事件特征,解决了现有模型存在的粗粒度特征提取问题,使用事件特征感知器从每一层事件特征提取器输出的事件特征中选择与用户查询最相关的特征,大幅减少了视频的特征令牌数量,辅以相似帧融合模块和图像特征压缩器,解决了长视频理解困难问题。
技术关键词
事件特征
语义理解模型
特征提取器
视频帧特征
压缩器
大语言模型
生成方法
层级
滑动窗口
图像
交叉注意力机制
编码视频帧
BERT模型
微调技术
线性
参数