摘要
本申请实施例提供了一种基于多模态的视频定位方法和装置、电子设备及介质,属于人工智能技术领域。该方法包括:通过获取和识别目标视频的视频查询文本及其所属的任务类别,提取任务类别特征和视频查询文本特征,并对连续的目标视频帧进行视觉时空特征提取,得到目标视觉特征,融合视频查询文本特征、任务类别特征及目标视觉特征,得到目标融合特征,基于目标融合特征定位目标视频,得到包括起始时间和终止时间的目标定位视频信息。本申请实施例基于融合的文本、视觉和任务特征对目标视频进行视频定位,能够基于视频全局信息直接预测定位视频的起始和终止时间,提高了视频定位的准确率。