在复杂的开放环境中,让足式机器人像人类一样自主完成「先跑到椅子旁,再快速接近行人」这类长程多目标任务,一直是 robotics 领域的棘手难题。传统方法要么局限于固定目标类别,要么难以应对运动中的视觉抖动、目标丢失等实时挑战,导致机器人在真实场景中常常「迷路」或「认错对象」。
香港科技大学广州联合北京人形创新中心重磅推出的 LOVON(Legged Open-Vocabulary Object Navigator)框架,为这一难题带来了创新性的解决方案。它首次将大语言模型(LLMs)的任务规划能力、开放词汇视觉检测的泛化能力,以及精准的语言 - 运动映射模型融合在一起,让足式机器人在动态、非结构化环境中也能高效完成长程目标导航,实现了足式机器人在开放世界中对动态目标的长视野精准追踪,兼容 Unitree Go2、B2、H1-2 等主流平台,用「即插即用」的特性打破了传统机器人导航的场景限制。
开放世界环境中的目标导航,对于机器人系统而言是一项艰巨且普遍存在的挑战。尤其是执行长视野任务时,不仅需要机器人具备开放世界物体检测能力,还需进行高级任务规划。传统方法往往难以有效整合这些关键组件,这极大地限制了它们应对复杂、长距离导航任务的能力。
LOVON 框架应运而生,它巧妙地将大型语言模型用于分层任务规划,并与开放词汇视觉检测模型深度融合,专为在动态、非结构化环境中实现高效的长距离目标导航而打造。面对真实世界中诸如视觉抖动、复杂环境以及目标临时丢失等棘手问题,LOVON 设计了专门的解决方案,例如用于视觉稳定的拉普拉斯方差滤波技术。同时,为机器人开发了一套功能性执行逻辑,确保 LOVON 在自主导航、任务适应以及稳健完成任务等方面具备强大的能力。
LOVON 创新性地整合了三大核心模块,打通了「语言 - 视觉 - 运动」的闭环。
足式机器人在运动过程中,机身的抖动常常导致获取的视觉画面模糊不清,这使得目标检测频繁失效,成为影响机器人导航性能的一大障碍。为了解决这一「看不清楚」的老大难问题,LOVON 提出了基于拉普拉斯方差滤波技术。通过对图像清晰度特征进行深入分析,该技术能够自动识别并过滤掉模糊的图像帧,同时用最近的清晰帧进行替换。再配合滑动平均滤波,有效地将机器人有效检测帧的比例提升了 25%。
这一技术的应用,使得机器人在奔跑、上下楼梯等运动状态下,依然能够稳定地锁定目标,为后续的导航决策提供可靠的视觉信息。
在复杂多变的真实世界中,机器人可能会面临各种突发情况,如目标突然丢失、指令发生更新或者受到外力干扰等。LOVON 的自适应执行逻辑为机器人应对这些情况提供了有力支持。当目标丢失时,机器人会自动切换至「搜索模式」,通过左右旋转扫描周围环境,迅速重新定位目标;当接收到新的指令时,能够无缝衔接并执行新任务,确保任务的连贯性;即便在受到外力碰撞等干扰时,也能快速重新规划路径,继续朝着目标前进。
这种「随机应变」的能力,让机器人在真实世界的复杂场景中能够保持稳定的任务执行能力,极大地提升了其适应性和可靠性。
经过严格测试,LOVON 在仿真与真实环境中均展现出超越传统方法的性能:
GymUnreal 仿真环境:在停车场、城市街道、雪地村庄等多种复杂仿真场景中,LOVON 展现出了令人瞩目的性能。其成功率(SR)高达 1.00,大幅超越了传统方法,例如 EVT 的 0.94。而且,LOVON 在训练效率上也具有显著优势,仅需 1.5 小时即可完成训练,相比同类最优模型 TrackVLA 的 360 小时,效率提升了惊人的 240 倍。这表明 LOVON 不仅在任务执行的准确性上表现出色,还能在更短的时间内完成模型训练,为实际应用节省了大量的时间和资源。
真实世界:在 Unitree Go2、B2、H1-2 等不同足式机器人上,LOVON 实现了四大突破:
更为重要的是,LOVON 具备出色的「即插即用」特性,无需进行复杂的定制化改造,即可轻松部署于 Unitree Go2、B2、H1 - 2 等多种主流足式机器人平台,为家庭服务、工业巡检、野外科研等多个领域的实际应用提供了坚实的技术支撑。
LOVON 框架的出现,犹如为足式机器人导航领域注入了一股强大的创新力量。它不仅填补了足式机器人开放词汇长视野导航的技术空白,更通过「通用框架 + 轻量化部署」的创新设计理念,为先进机器人技术从实验室走向广泛实际应用搭建了一座坚实的桥梁。
随着 LOVON 的不断推广和应用,我们有理由相信,足式机器人将在更多领域发挥重要作用,为人们的生活和工作带来更多便利和创新。无论是在智能家居环境中协助人们完成日常任务,还是在工业生产中实现高效的巡检和操作,亦或是在野外科研探索中提供可靠的支持,LOVON 都有望成为推动足式机器人应用变革的关键技术,开启智能服务的崭新篇章。
想了解更多关于 LOVON 的详细信息,可访问 LOVON 项目主页:https://daojiepeng.github.io/LOVON/ ,一同探索足式机器人导航的未来新趋势。
文章来自于微信公众号“机器之心”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI