一种基于细粒度层级事件特征的视频语义理解模型及生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于细粒度层级事件特征的视频语义理解模型及生成方法
申请号:CN202410804488
申请日期:2024-06-21
公开号:CN118537861A
公开日期:2024-08-23
类型:发明专利
摘要
本发明包括视觉编码器、图像特征压缩器、预训练的BERT模型、事件特征编码层和大语言模型。视觉编码器将视频帧编码为帧特征;事件特征编码层提取和筛选事件特征;事件特征提取器通过自适应滑动窗口从视频中提取耦合的细粒度事件特征,事件特征感知器根据用户输入的问题筛选相关的事件特征。本发明使用层级放置的事件特征提取器充分考虑视频帧之间的关联,将视频信息编码为细粒度的层级事件特征,解决了现有模型存在的粗粒度特征提取问题,使用事件特征感知器从每一层事件特征提取器输出的事件特征中选择与用户查询最相关的特征,大幅减少了视频的特征令牌数量,辅以相似帧融合模块和图像特征压缩器,解决了长视频理解困难问题。
技术关键词
事件特征 语义理解模型 特征提取器 视频帧特征 压缩器 大语言模型 生成方法 层级 滑动窗口 图像 交叉注意力机制 编码视频帧 BERT模型 微调技术 线性 参数
系统为您推荐了相关专利信息
分类器 样本 教师 蒸馏 神经网络参数
视频生成方法 噪声特征 变分自动编码器 视频生成系统 高频特征
图像特征提取 检测模型训练方法 文本 样本 大语言模型
航空 图像块 编码器 超参数 解码器
亚健康 综合管理方法 事件特征 异常事件 实验室仪器设备