基于多模态的视频定位方法和装置、电子设备及介质

申请号：CN202510622147

申请日期：2025-05-14

公开号：CN120510550A

公开日期：2025-08-19

类型：发明专利

摘要

本申请实施例提供了一种基于多模态的视频定位方法和装置、电子设备及介质，属于人工智能技术领域。该方法包括：通过获取和识别目标视频的视频查询文本及其所属的任务类别，提取任务类别特征和视频查询文本特征，并对连续的目标视频帧进行视觉时空特征提取，得到目标视觉特征，融合视频查询文本特征、任务类别特征及目标视觉特征，得到目标融合特征，基于目标融合特征定位目标视频，得到包括起始时间和终止时间的目标定位视频信息。本申请实施例基于融合的文本、视觉和任务特征对目标视频进行视频定位，能够基于视频全局信息直接预测定位视频的起始和终止时间，提高了视频定位的准确率。

技术关键词

视觉特征文本视频定位方法融合特征视频帧特征时序特征多模态语义特征特征提取模块注意力视频定位装置掩码矩阵图像电子设备对象可读存储介质

系统为您推荐了相关专利信息

基于大模型的样本数据确定方法、装置和存储介质

文本答案生成规则样本关键词

一种融合多场景随机场的遥感图像目标检测方法

融合多场景输电杆塔像素点种子节点

一种基于自适应谱扩散模型的胎儿心率信号生成方法及系统

胎儿心率信号生成方法信号生成系统融合特征局部特征提取

一种面向合同大模型隐私保护与性能优化的系统及方法

拉普拉斯噪声隐私保护模块特征提取模块动态映射机制性能优化系统

一种用于牙科治疗的医疗器械管理方法

医疗器械管理方法牙科器械牙科治疗 Copula函数粒子群优化算法