摘要
本发明公开了一种灾害救援场景下的无人机航拍视频语言定位方法,包括:获取多个连续帧图像的无人机航拍视频以及待定位目标的自然语言描述文本,共同输入无人机航拍视频语言定位系统中,得到语言定位结果;其中,无人机航拍视频语言定位系统包括视频文本特征提取器、多模态多尺度时空特征编码模块、查询调制模块、多尺度感知的坐标动态推理解码模块;最终通过多尺度感知的坐标动态推理解码模块输出更新后的目标边界框坐标用于表征自然语言描述文本指代的目标在图像中的空间位置。本发明可以对航拍视频内容进行深入的语义分析和上下文理解,显著提高无人机在安防救援任务中的实用性和效率。