随着 AI 智能体(Agent)能力日益强大,其自主行为带来的安全风险也愈发复杂。现有安全工具往往只能给出「安全 / 不安全」的简单判断,无法告知我们风险的根源。为此,上海人工智能实验室正式开源 AgentDoG (Agent Diagnostic Guardrail),一个专为 AI 智能体设计的诊断式安全护栏框架。它不仅能精准判断 Agent 行为的安全性,更能诊断风险来源、追溯失效模式、解释决策动因,为 AI 智能体的安全发展保驾护航。


AI 智能体(Agent)正在从实验室走向现实,它们能自主规划、调用工具、与环境交互,在科研、金融、软件工程等领域展现出巨大潜力。然而,这枚硬币的另一面是前所未有的安全挑战。
一个能够操作文件、调用 API、访问网络的 Agent,其行为风险不再仅仅是「说错话」。它可能因为一条隐藏在网页中的恶意指令而泄露你的隐私文件,可能因错误理解工具的参数而造成经济损失,甚至可能在多步操作中「悄无声息」地偏离正轨,执行危险动作。
面对这些「智能体式」的风险(Agentic Risks),现有的 guard model 显得力不从心。它们主要为语言模型的内容安全而设计,存在两大局限:
1. 缺乏智能体风险意识:它们无法理解由工具调用、环境交互等动态过程产生的复杂风险。
2. 缺乏根源诊断与透明度:简单地给出「安全 / 不安全」的二元标签,无法解释为什么一个行为是危险的,也无法识别那些「看似安全,实则荒谬」的决策。
为了解决这一难题,我们需要一个全新的框架,不仅能扮演「守门员」的角色,更能担当「诊断医生」,深入剖析 Agent 的行为逻辑。
为了真正理解并控制智能体的复杂风险,我们首先需要一个科学的「地图」。AgentDoG 的第一个核心贡献,就是提出了一个创新的三维智能体安全风险分类法,从三个维度系统性地解构风险:
这个三维分类法提供了一个结构化、层次化的视角,告别了以往那种「枚举式」、「扁平化」的风险定义。

基于这一分类法,项目团队构建了 AgentDoG (Agent Diagnostic Guardrail) 框架。AgentDoG 的核心思想是:对 Agent 的完整行为轨迹进行细粒度、情景感知的监控与诊断。
AgentDoG 会审查从用户输入到最终输出的每一个步骤,包括 Agent 的思考过程(Thought)、工具调用(Action)和环境反馈(Observation)。当检测到不安全行为时,AgentDoG 不仅能给出「安全 / 不安全」的二元标签,还可以依据三维分类法给出更细粒度的诊断,例如:
这种诊断能力,为后续的 Agent 对齐和模型迭代提供了宝贵的、可操作的依据。
一个顶尖的安全护栏模型,离不开高质量的数据。为了让 AgentDoG 能够全面学习和理解复杂的智能体风险,项目团队构建了一套自动化的数据合成 pipeline,用以生成海量的、带有精细标注的 Agent 交互轨迹。
这个 pipeline 是一个多智能体协作系统(见下图),具有以下三大核心特点:

为了验证 AgentDoG 的实力,项目团队在多个权威的 Agent 安全基准测试(R-Judge、ASSE-Safety)以及全新构建的、更具挑战性的 ATBench 上进行了全面评测,其包含平均近 9 个交互轮次的复杂轨迹和超过 1500 个未见过的工具。
实验结果表明,AgentDoG 在所有测试集上均达到了 State-of-the-Art,其安全检测的准确率和 F1 分数远超现有的一系列专用 guard model,并能与参数量远大于自身的顶级通用大模型(如 GPT-5.2、Gemini-3)一较高下。

如果说安全检测是基础,那么细粒度的风险诊断才是 AgentDoG 真正的「杀手锏」。在这项任务上,通用大模型们暴露了短板,它们的诊断准确率普遍在 20%-40% 之间徘徊。
而经过专门训练的 AgentDoG,其诊断能力实现了碾压性的优势。例如,在「风险来源」识别任务上,AgentDoG-Qwen3-4B 的准确率高达 82.0%,是通用模型的 2 倍以上。

AgentDoG 的能力不止于此。当智能体在现实场景中作出关键决策时,仅知道「哪里不安全」还不够,更需理解它「为何这样做」。
为此,项目团队集成了一个智能体可解释性 AI(Agentic XAI)归因模块,能够进一步深入 Agent 的「思维链」,剖析其决策背后的具体动因。
简单来说,当 Agent 做出一个关键行为时,AgentDoG 可以追溯并定位到是历史轨迹中的哪一步、甚至是哪一句话,对其决策起到了决定性作用。
案例 1:简历筛选中的「指令注入」
案例 2:金融分析中的「阴阳怪气」陷阱

这些案例表明,AgentDoG 不仅能够「诊断症状」,更能「剖析病因」。通过层次化的归因分析,它将智能体决策过程变得透明可追溯,帮助开发者和审计者定位风险根源,从而有针对性地优化模型行为与安全训练。未来,随着智能体在复杂场景中的广泛应用,这种深度可解释性有望成为实现安全、可靠人机协同的关键基石。
AgentDoG 通过创新的三维风险分类法、强大的诊断式护栏框架和深入的 XAI 归因技术,为 AI 智能体安全领域建立了一个全新的范式。它不再简单地判断是否有风险,而是致力于「理解」和「诊断」风险,为构建更安全可靠的 AI 智能体系统奠定基础。
目前,AgentDoG 系列模型、ATBench 评测基准以及相关评测代码已经全面开源,希望能与社区共同推动 AI 智能体安全技术的发展。
文章来自于微信公众号 “机器之心”,作者: “机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0