摘要
本发明涉及视频理解技术领域,具体公开一种跨模态电力视频定位方法、系统、电子设备和存储介质,包括:对每个样本电力视频依次进行视觉边界分割、语义边界分割与上下文动态聚合,得到每个样本电力视频对应的至少一个目标伪监督对;每个目标伪监督对包括:对应的样本电力视频、伪查询文本以及伪查询文本对应在样本电力视频中的起止时间;基于每个样本电力视频对应的目标伪监督对,对预设的跨模态电力视频定位模型进行训练,得到训练好的跨模态电力视频定位模型;将待测电力视频与查询文本输入训练好的跨模态电力视频定位模型,得到视频定位结果。本发明实现了稳健且高效的零样本跨模态电力异常行为定位,提高了跨模态电力视频定位的准确性和效率。