摘要
本申请公开一种文本视频检索方法、装置、设备和存储介质,通过获取视频帧序列及其对应的初始文本,对视频帧序列进行采样,得到各段视频帧;生成与初始文本对应的各个文本特征;针对每一段视频帧,对该段视频帧进行视觉编码,生成序列视觉特征集合;对序列视觉特征集合进行全局特征提取,得到全局视觉特征集合;基于序列视觉特征集合、全局视觉特征集合和每一个文本特征,计算相似性分数;根据相似性分数,选取一段或多段视频帧作为目标视频帧。本申请生成与初始文本对应的各个文本特征,同时对各段视频帧进行视觉编码,生成序列视觉特征集合和全局视觉特征集合,即计算相似性分数相比于现有检索方式简单单一的检索方式能够提高检索准确度。