一种基于强化终点对齐改进VLN-BERT的视觉语言导航方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于强化终点对齐改进VLN-BERT的视觉语言导航方法
申请号:CN202410919184
申请日期:2024-07-10
公开号:CN118820785A
公开日期:2024-10-22
类型:发明专利
摘要
本发明属于深度学习和机器人控制技术领域,提供了一种基于强化终点对齐改进VLN‑BERT的视觉语言导航方法,用于机器人的视觉语言导航任务;首先从VLN数据集中提取路径‑指令对,并分别将路径中的全景图序列和自然语言指令进行嵌入操作,得到预处理后的数据集;在VLN‑BERT三阶段预训练的基础上通过强化终点对齐任务预训练模型,强化模型对路径终点的视觉语言对齐,预训练顺序为通用语言基础、视觉基础、动作基础、强化终点对齐;通过路径选择任务来微调经过四阶段预训练的模型,使模型具备路径选择的能力;本发明通过将强化终点对齐任务加入到VLN‑BERT的三阶段预训练过程中,强化了模型对路径终点的视觉语言对齐,提高了智能体在真实环境中的导航成功率。
技术关键词
导航方法 终点 视觉 动作基础 全景图 语言编码器 自然语言 信息处理方式 BERT模型 编码器结构 预训练模型 文本 指令 阶段 机器人控制技术 数据 图像 注意力