给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动
7767点击    2026-06-17 09:52

当大模型开始控制机械臂、家用机器人时,“安全”这件事也变得不一样了。


过去,一个大语言模型输出了不安全内容,风险主要停留在文本层面;但一个机器人如果误执行了风险动作,危险后果将直接发生在物理世界:打碎物品、损坏设备,甚至伤害人。


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


更麻烦的是,危险并不总是写在指令表面,而是与智能体的执行情境和状态密切相关。


具身智能体的安全风险很难靠一句提示词“不要做危险的事”解决,因为机器人面对的是动态环境、连续动作和变化的执行上下文,很多安全风险都是隐式的。


针对这一问题,来自北航、360 AI安全实验室、牛津大学、北京大学等机构的研究团队提出了RoboSafe框架,以补足现有防御方法在隐式风险识别上的不足。该研究荣获ICLR 2026 ESR研讨会杰出论文奖(Outstanding Paper Award,CCF-A)。


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


具身智能体的安全问题,不只是“拒绝坏指令”


研究团队指出,现有具身智能体防护方法大多依赖两类思路:一种是在提示词里加入安全约束,另一种是提前写好规则过滤危险动作。它们面对显式危险指令时有一定效果,例如“打碎杯子”这类明显风险较容易被识别。


真正困难的是那些隐式风险


  • 一种是情境风险:同一个动作在不同环境中安全性完全不同。比如“开启微波炉”是否危险,取决于微波炉里有什么:如果只是普通食物,动作是安全的;如果有金属餐具,那就是危险的。
  • 另一种是时序风险:单个动作看起来都没问题,但组合起来就会产生危险。比如智能体打开炉灶后继续做别的事,长时间没有关闭,就可能导致炉灶过热并引发火灾。


RoboSafe:让机器人行动前多一道安全护栏


RoboSafe为具身智能体加上了一层运行时安全护栏,其核心是论文提出的可执行安全逻辑


简单来说,RoboSafe 会把安全判断转化成可执行、可验证的逻辑代码。例如:这个动作是否会在当前环境中造成破坏?之前是否打开过某个危险的设备?


如果检测到风险,RoboSafe就会进行明确的安全干预:阻止执行,或者要求重新规划生成更安全的执行序列


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


向前看:识别潜藏在当前环境中的情境危险


RoboSafe的第一个模块叫前向预测推理。它关注的是“即将发生的下一步动作”。比如智能体打算执行指令:“把叉子放进微波炉。”


这一步危险不只来自动作本身,还来自情境上下文:动作目标是什么、在哪里、当前状态如何。


RoboSafe会结合当前视觉场景、任务指令和智能体状态,从长期安全记忆中检索相关安全知识,再生成可执行的情境安全逻辑。如果情境逻辑判断当前动作会造成风险,系统就阻止执行。


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


这里的关键不在于“看到微波炉就拒绝”,而在于理解“叉子+微波炉”这个组合在当前场景下危险。


向后看:从动作序列中挖掘正在累积的时序风险


RoboSafe的第二个模块叫后向反思推理。它关注的是“过去发生了什么”。


很多物理风险不是瞬间出现的,而是在动作序列中逐渐形成的。比如智能体先打开了炉灶,然后去做别的任务,迟迟没有关闭。


RoboSafe维护了一个短期安全记忆,用来记录当前任务中最近发生的动作,并持续反思是否违反了时序安全逻辑


如果发现必要的安全动作还没有发生,它不会简单终止任务,而是触发重新规划,把安全纠正动作插入原计划中。


例如发现炉灶已经打开太久,就临时执行纠正动作“关闭炉灶”,再返回到原任务去。


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


这让RoboSafe不只是一个安全拦截器,更像一个会反思执行轨迹的安全监督员。


实验结果:识别危险动作,保障安全任务


研究团队在AI2-THOR仿真环境中对多种多模态具身智能体进行实验,并在SafeAgentBench上进行全面评估。


结果显示,在情境风险任务中,原始智能体几乎不会拒绝危险行为。在RoboSafe的防护下,危险执行率被压低到4.78%。


在长时序风险任务中,RoboSafe也显著优于当前基线方法。实验数据显示,RoboSafe相比现有防护方法整体降低了36.8%的危险执行率。


值得注意的是,在安全任务上它仍能保持较高的执行成功率。这说明它并非简单粗暴地拦截所有动作,而是在区分正常行为和真正风险。


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


面对越狱攻击:RoboSafe仍能守住执行前的最后一道关


论文进一步测试了RoboSafe面对越狱攻击时的防御效果。这类攻击会通过上下文诱导等方式说服智能体生成危险动作计划。


实验结果显示,RoboSafe在越狱攻击下依然保持较强鲁棒性。即使前端提示词被扰动,它仍然可以在动作落地前进行安全检查。


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


不局限于仿真:真机系统验证可落地性


仿真测试外,研究团队还进一步在真实机械臂上验证了RoboSafe的防护效果,团队采用了两个真实世界中的危险任务用来测试。


在多轮测试下,RoboSafe都成功阻止了危险动作。


给机器人装安全护栏,北航联合团队提出RoboSafe,让具身智能体在物理世界中安全行动


这说明RoboSafe是能够迁移到真实物理世界的实用防御框架。


从“能做什么”到“不该做什么”


具身智能体的发展,正在把大模型从屏幕内搬到物理世界,其安全风险日益显著。


这意味着我们不能只关心智能体能否完成任务,也必须关心它在什么情况下应该停下来、改计划,或者拒绝执行。


RoboSafe的意义正在于此:它没有把安全问题简化为“多写几条约束规则”,而是提出了一种更适用于物理世界的运行时安全机制,把安全判断转化为动作执行前的一道实际护栏。


当机器人逐渐走近真实家庭、工厂和公共空间,这样的安全机制将会成为具身智能体落地前不可或缺的一环。


论文链接:https://openreview.net/pdf?id=wyKCkQ2GyO


文章来自于"量子位",作者 "RoboSafe团队"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0