一种基于强化终点对齐改进VLN-BERT的视觉语言导航方法
申请号:CN202410919184
申请日期:2024-07-10
公开号:CN118820785A
公开日期:2024-10-22
类型:发明专利
摘要
本发明属于深度学习和机器人控制技术领域,提供了一种基于强化终点对齐改进VLN‑BERT的视觉语言导航方法,用于机器人的视觉语言导航任务;首先从VLN数据集中提取路径‑指令对,并分别将路径中的全景图序列和自然语言指令进行嵌入操作,得到预处理后的数据集;在VLN‑BERT三阶段预训练的基础上通过强化终点对齐任务预训练模型,强化模型对路径终点的视觉语言对齐,预训练顺序为通用语言基础、视觉基础、动作基础、强化终点对齐;通过路径选择任务来微调经过四阶段预训练的模型,使模型具备路径选择的能力;本发明通过将强化终点对齐任务加入到VLN‑BERT的三阶段预训练过程中,强化了模型对路径终点的视觉语言对齐,提高了智能体在真实环境中的导航成功率。
技术关键词
导航方法
终点
视觉
动作基础
全景图
语言编码器
自然语言
信息处理方式
BERT模型
编码器结构
预训练模型
文本
指令
阶段
机器人控制技术
数据
图像
注意力