基于深度神经网络模型及多示例学习的视频检索方法

申请号：CN202411831100

申请日期：2024-12-12

公开号：CN119862305B

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及计算机视觉处理领域，具体的说是一种基于深度神经网络模型及多示例学习的视频检索方法，包括，对查询文本预训练得到初始特征，对视频提取I 3D‑RGB特征及ROI特征及连接特征；更新得到帧级视觉特征及字级文本特征；构造训练用图，图注意力网络学习得到词级文本特征；计算词级文本和字级文本特征残差，残差均值为句子级文本特征；对帧级视觉特征进行段维度平均运算得到管道级视觉特征；计算句子级文本特征、管道级视觉特征的对齐分数，构建正样本对和负样本对，训练视频检索网络；本发明通过深度学习特征获取多查询文本中的鉴别力特征来构造图神经网络，以在弱监督设定下提供更具有表征含义的文本特征及多模态对齐监督信号。

技术关键词

视频检索方法深度神经网络模型视觉特征文本 RGB特征定义排序损失管道 Softmax函数顶点样本深度学习特征注意力节点特征 ReLU函数前馈神经网络视频帧梯度下降法

系统为您推荐了相关专利信息

用于汽车金融业务平台的处理方法及系统

金融业务信息车辆识别模型风险评估模型视觉特征图像

一种信息安全传输的图像识别与文本还原方法及装置

文本还原方法还原装置数据图片视频录制设备

一种面向模态缺失场景的动态解耦提示生成与调优方法

文本动态视觉多模态融合策略

一种人机协同的地理空间推理认知框架方法及系统

框架方法人机协同大语言模型动态语义

一种数据脱敏方法、装置、电子设备、存储介质及程序产品

数据脱敏方法计算机执行指令深度神经网络模型策略数据脱敏装置