基于多模态信息增强的弱监督视频片段检索方法,设备及介质
申请号:CN202411901195
申请日期:2024-12-23
公开号:CN119829797A
公开日期:2025-04-15
类型:发明专利
摘要
本发明涉及一种基于多模态信息增强的弱监督视频片段检索方法,设备及介质,将未剪辑视频和查询文本输入到输入表示模块,得到视频特征和查询文本特征;同时将未剪辑视频输入场景分布检测模块中对视频帧进行聚类,得到场景特征。将视频特征、查询文本特征和场景特征输入提议片段生成模块,得到预测的候选提议片段。将候选提议片段输入提议片段增强模块中,得到多模态增强的片段特征。在提议片段评估模块中计算片段特征的查询文本重建损失和查询文本标签相似性损失,选取损失最小的片段作为检索结果,输出片段的开始和结束时间。与现有技术相比,本发明具有准确性高、时效性强和有效性强等优点。
技术关键词
视频片段检索方法
多模态信息
文本
场景特征
样本
标签特征
上下文语义信息
卷积神经网络提取
对象检测模型
模块
层次聚类算法
跨模态
时序结构
多层感知器
视频帧
运动检测