一种基于强化终点对齐改进VLN-BERT的视觉语言导航方法

申请号：CN202410919184

申请日期：2024-07-10

公开号：CN118820785A

公开日期：2024-10-22

类型：发明专利

摘要

本发明属于深度学习和机器人控制技术领域，提供了一种基于强化终点对齐改进VLN‑BERT的视觉语言导航方法，用于机器人的视觉语言导航任务；首先从VLN数据集中提取路径‑指令对，并分别将路径中的全景图序列和自然语言指令进行嵌入操作，得到预处理后的数据集；在VLN‑BERT三阶段预训练的基础上通过强化终点对齐任务预训练模型，强化模型对路径终点的视觉语言对齐，预训练顺序为通用语言基础、视觉基础、动作基础、强化终点对齐；通过路径选择任务来微调经过四阶段预训练的模型，使模型具备路径选择的能力；本发明通过将强化终点对齐任务加入到VLN‑BERT的三阶段预训练过程中，强化了模型对路径终点的视觉语言对齐，提高了智能体在真实环境中的导航成功率。

技术关键词

导航方法终点视觉动作基础全景图语言编码器自然语言信息处理方式 BERT模型编码器结构预训练模型文本指令阶段机器人控制技术数据图像注意力