摘要
本申请实施例提供一种多模态组合视频检索方法及装置,包括:获取文字信息和视觉信息;从所述文字信息中提取文字特征;从所述视觉信息中提取视觉特征;根据所述文字特征,从所述视觉信息中提取视觉语义特征;从所述文字特征和视觉语义特征中提取所述文字特征和视觉语义特征之间的共同特征和差异特征;根据所述视觉特征和共同特征,查询预设的视频信息库,得到与所述视觉特征和共同特征匹配的多个视频检索结果;根据差异特征对多个视频检索结果进行筛选,得到筛选后的视频检索结果。本申请能够融合多模态信息的有效信息,准确理解用户的真实意图,提高多模态组合式视频检索的准确性。