深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
6015点击    2025-12-10 14:34

让机器人听懂指令,精准导航再升级!


深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo


深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026


通过多模态世界模型分层预测反馈机制,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪明的决策。


相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在长轨迹导航中表现突出。


目前,该论文已入选AAAI2026。


深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026


以下是更多详细内容。


语言推理与视觉导航的“脱节困境”


作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭视觉图像自然语言指令,在未知环境中自主完成目标导航。


而随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈:


  • 推理模态单一:现有方法仅依赖语言推理,缺乏对视觉环境状态的预判能力,难以应对复杂场景的动态变化;
  • 优化目标冲突:推理模块与导航策略分开训练,导致两者适配性差,无法实现动态协同优化,存在性能瓶颈。


双模块协同打造“预判+决策”闭环


于是研究团队提出了UNeMo框架,其核心突破在于构建了“多模态世界模型(MWM)+分层预测反馈导航器(HPFN)的双向协同架构,将视觉状态推理与导航决策深度绑定,从根本上解决现有方法的脱节问题。


基于多模态世界模型的未来视觉状态预测


MWM基于条件变分自编码器构建,核心是精准预判未来视觉状态。


它能够接收当前视觉特征、语言指令与候选导航动作,通过跨注意力机制融合多模态信息,填补现有方法”只看当下”的局限。


而且无需额外标注数据,就能通过导航决策结果反向反馈,持续优化预测精度,形成自适应进化循环。


深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026


高效分层预测反馈导航器的实现


HPFN采用两阶段分层机制兼顾效率与精度:


先基于当前视觉-语言特征生成粗粒度候选动作(a’)锁定导航方向,再融合MWM预测的未来视觉状态优化出细粒度动作(a’’)修正偏差,让智能体在复杂场景中稳健导航。


深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026


推理与决策的动态闭环赋能


UNeMo这一通用导航架构最核心的突破在于构建了“推理-决策”相互赋能的闭环优化。


MWM的视觉预判为导航提供前瞻信息,提升决策精准度;导航的实际执行结果则实时反馈给MWM,优化其预测准确性。


这种双向促进让智能体在导航中持续迭代,解决传统LLM-based VLN方法中推理与决策分离的痛点。


实验表现


为全面验证UNeMo框架的核心价值,团队设计了全面的实验评估方案:


从核心场景的性能与效率双优验证,到复杂场景的鲁棒性突破,再到跨基线、跨数据集的可拓展性验证,层层递进展现架构优势。


1、核心场景突破:R2R数据集上LLM-based方法的效率与性能双优


在VLN领域核心数据集R2R的实验中,UNeMo在轻量化配置高性能决策的平衡上实现了关键突破。


其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30%,但在资源消耗上实现了大幅优化——


训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40%。


这种 “降参不降能” 的特性,对VLN方法的工程化落地意义重大。


同时,UNeMo在核心性能指标上仍实现了对主流方法的超越。


在模型未见过的测试环境(test unseen)中,其导航成功率(SR)达到72.5%,较NavGPT2的71% 提升1.5个百分点;路径效率(SPL)从60%提升至61.3%。


深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026


2、复杂场景鲁棒性:长路径导航的显著优势


为验证UNeMo在复杂场景的适应能力,团队重点测试其预探索机制对长距离导航鲁棒性的提升,在val-unseen数据集上对比UNeMo与NavGPT2在不同路径长度下的表现。


结果显示,UNeMo的优势在长轨迹导航中尤为突出:


短路径(长度<7)的导航成功率(SR)仅微增1.2%(从71.1%至72.3%);而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍


这证明UNeMo的多模态预判与分层决策机制,能有效缓解长距离导航中的累积误差,解决传统方法在长轨迹任务中性能衰减的痛点。


3、跨场景可拓展性:多基线与多数据集的全面验证


为进一步验证UNeMo协同训练架构的通用性与可拓展性,团队将其迁移至不同类型的导航基线(DUET)与目标导向导航数据集REVERIE,开展跨场景验证。


深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026


实验结果显示,其在unseen场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提升。


这表明UNeMo的协同训练架构并非局限于LLM-based基线,而是能灵活适配不同类型的导航系统,在不同任务场景中释放价值,验证了其强可拓展性。


总的来说,UNeMo针对传统VLN方法推理与决策脱节、资源消耗高的问题,以 “多模态世界模型+分层预测反馈导航器” 协同架构破解痛点。


其轻量化配置具备高性能长路径导航稳健跨场景适配性强的优势,为VLN提供高效可行方案,助力服务机器人等实际场景落地,推动VLN领域发展。


论文链接:https://arxiv.org/abs/2511.18845


文章来自于微信公众号 “量子位”,作者 “量子位”

关键词: 模型训练 , 人工智能 , AI , UNeMo
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md