AgentAuditor: 让智能体安全评估器的精确度达到人类水平

7320点击 2025-06-27 15:39

LLM 智能体（LLM Agent）正从 “纸上谈兵” 的文本生成器，进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动，向着通用人工智能（AGI）大步迈进。然而，这份 “自主权” 也带来了新的问题：智能体在自主交互中，是否安全？

研究者们为这一问题提出了许多基准（benchmark），尝试评估现有智能体的安全性。然而，这些基准却面临着一个共同的问题：没有足够有效、精准的评估器（evaluator）。传统的 LLM 安全评估在单纯的评估生成内容上表现优异，但对智能体的复杂的环境交互和决策过程却 “鞭长莫及”。现有的智能体评估方法，无论是基于规则还是依赖大模型，都面临着 “看不懂”、“看不全”、“看不准” 的困境：难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方法往往仅依靠环境中某个变量的变化来判断是否安全，难以正确识别智能体在交互过程中引入的微妙风险；而基于大模型的评估方法，无论使用最为强大的通用大模型还是专门为安全判断任务微调的专用模型，在精确度上均不如人意。

为了解决这一难题，来自纽约大学、南洋理工大学、伊利诺伊大学香槟分校、KTH 皇家理工学院、悉尼大学、新加坡国立大学的研究者们，推出 AgentAuditor—— 一个通用、免训练、具备记忆增强推理能力的框架，让 LLM 评估器达到了人类专家的评估水平，精准识别智能体的安全风险。

论文题目：

AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents

论文链接：

https://arxiv.org/abs/2506.00641

代码 / 项目主页：

https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概览：AgentAuditor 如何解决精确度难题

AgentAuditor 将结构化记忆和 RAG（检索强化推理）结合在一起，赋予了 LLM 评估器类似人类的学习和理解复杂的交互记录的能力，最终极大地增强了 LLM 评估器的性能。它通过三个关键阶段实现：

1. 特征记忆构建 (Feature Memory Construction)：将原始、杂乱的智能体交互记录，转化为结构化、向量化的 “经验数据库”。这里不仅有交互内容，更有场景、风险类型、智能体行为模式等深度语义信息。

2. 推理记忆构建 (Reasoning Memory Construction)：从特征记忆中筛选出最具代表性的 “案例”，并由 LLM（AgentAuditor 内部使用的同一个 LLM，确保自洽性）生成高质量的思维链（CoT）推理过程。这些 CoT 就像人类专家的 “判案经验”，为后续评估提供指导。

3. 记忆增强推理 (Memory-Augmented Reasoning)：面对新的智能体交互案例，AgentAuditor 通过多阶段、上下文感知的检索机制，从推理记忆中动态调取最相关的 “判案经验”（CoT），辅助 LLM 评估器做出更精准、更鲁棒的判断。

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

数据集：ASSEBench 的构建

为了全面验证 AgentAuditor 的实力，并填补智能体安全（Safety）与安全（Security）评估基准的空白，研究团队还精心打造了 ASSEBench (Agent Safety & Security Evaluator Benchmark)。这一基准：

规模宏大：包含 4 个子集，共 2293 条精心标注的真实智能体交互记录。

覆盖广泛：涵盖 15 种风险类型、528 个交互环境、横跨 29 个应用场景以及 26 种智能体行为模式。

标注精细：采用创新的人机协同标注流程，并对模糊风险情况引入 “严格” 和 “宽松” 两种判断标准，评估更细致。

双管齐下：同时关注智能体的 “Safety”（避免无意犯错）和 “Security”（抵御恶意攻击）两大方面。

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

实验效果：AgentAuditor 让 LLM 评估器的精确度达到人类水平

在 ASSEBench 及 R-Judge 等多个基准上的广泛实验表明：

普遍提升显著： AgentAuditor 能显著提升各种 LLM 评估器在所有数据集上的表现。例如，Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分数提升了高达 48.2%！

直逼人类水平：搭载 AgentAuditor 的 Gemini-2-Flash-Thinking 在多个数据集上取得了 SOTA 成绩，其评估准确率（如在 R-Judge 上达到 96.1% Acc）已接近甚至超越单个人类标注员的平均水平。

强大的自适应能力：面对 ASSEBench-Strict 和 ASSEBench-Lenient 这两个针对模糊场景设计的不同标准子集，AgentAuditor 能自适应调整其推理策略，显著缩小不同模型在不同标准下的性能差距。

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

上图分别展示了 AgentAuditor 与现有方法及人类评估水平的对比。左图比较了 AgentAuditor 与直接使用 LLM 的评估方法在 R-Judge 基准上的准确率（Acc）和 F1 分数；右图则比较了 AgentAuditor 的准确率与在无讨论情况下单个人类评估者在多个benchmark中的的平均准确率。

AgentAuditor 的核心贡献

系统性分析挑战：深入剖析了当前自动化评估 Agent 安全面临的核心难题。

创新框架：通过自适应代表性样本选择、结构化记忆、RAG 和自动生成 CoT，显著增强 LLM 评估能力。

首个专用基准： ASSEBench 填补了领域空白，为人机协同标注提供了新范式。

人类级表现：实验证明其评估准确性和可靠性已达到专业人类水准。

结语

AgentAuditor 和 ASSEBench 的提出，为构建更值得信赖的 LLM 智能体提供了强有力的评估工具和研究基础。这项工作不仅推动了 LLM 评估器的发展，也为未来构建更安全、更可靠的智能体防御系统指明了方向。

文章来自于微信公众号“机器之心”。

关键词: AI , 模型训练 , AgentAuditor: , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner