斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

10756点击 2026-06-11 14:59

分布式系统的 “圣杯”—— 共识协议（Consensus Protocols），长久以来都是顶级基础设施工程师的 “Bug 地狱”。由于其状态极其复杂、多节点交织，传统测试和单体 LLM 对硬核的 Deep Bug（深层逻辑漏洞）几乎束手无策。

近日，最新 ICML 2026 中稿论文，来自 0G Labs 以及新加坡国立大学、北京大学、北京邮电大学等顶尖学术与产业团队的研究人员提出首个将领域知识与大模型多 Agent 协同深度融合的自动化测试框架 ——Agora。

该框架通过创新的架构，直击协议痛点，在 Raft、EPaxos、HotStuff、BullShark 等工业级和学术界核心协议中，一口气狂砍 15 个前所未知的协议级 Deep Bug！相比之下，强如 GPT-5.2、Claude 4.5 等原生大模型纷纷折戟，挂了零蛋。在多智能体（Multi-Agent）系统与” 智能体化安全审计”（Agentic Quality Control）双双成为 2026 年最热赛道的当下，Agora 给出的不只是一篇论文，更是一套可落地的工业级解法。

论文：《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》
链接：https://arxiv.org/abs/2605.29910v1

1. 背景

0G 与 NUS 强强联手，长期系统知识积累与 Multi-Agent 范式的跨界跨代融合

分布式共识协议的演进，既是天才的创新史，又是无数顶尖工程师血淋淋的踩坑史。正如图灵奖得主 Lamport 所言，保证分布式协议实现的正确性，其难度不亚于在一座不断晃动的迷宫中蒙眼穿行。而就在这条” 地狱级” 赛道上，市场正悄然转向：据 Gartner 观察，多智能体系统的企业咨询量在一年多内暴涨逾十倍，多智能体平台市场也步入每年近翻倍的高速扩张期 —— 把” 多 Agent 协同” 用于最硬核的底层系统验证，正从前沿设想变成产业刚需。

面对这一地狱级赛道，头顶光环的科技巨头们率先展开了重资产式的探索。例如行业顶尖的 Anthropic 近期在 Claude Code 中内部推进的 Glasswing 项目，虽然尝试用 Agent 触碰底层基础设施测试，但其架构依然极度依赖最高规格的头部商业大模型，项目细节语宛不详，且仅定向与极少数大科技机构和跨国巨头开展闭门合作。更致命的是，这类巨头方案可能在运行中展现出恐怖的 Token 吞噬量，这种高昂的算力壁垒和重资产路线，直接将预算有限的初创公司和中小企业拒之门外。

难道小公司、开源社区就注定用不起顶级的自动化漏洞审计工具吗？

来自 0G Labs 的工程师们和新加坡国立大学的刘祥、北京邮电大学的宋飒，孙勇老师联合北京大学智能学院的博士生张钊为和研究员张策尧将自己 Agent 领域的深厚知识赋能系统，展开了一场 “以小博大” 的颠覆式创新，其工作已经中稿 2026AI 顶会 ICML。

学术界的 “长期系统知识沉淀”，遇到了产业界的 “痛点与敏锐嗅觉”，如何才能引爆下一代系统安全革命？

0G 团队在区块链共识协议落地中积累了极为丰富的生产级攻防经验；而团队在高性能分布式系统、底层并发控制以及系统形式化验证领域有着极为深厚的学术沉淀。他们深知传统方法（如 Fuzzing 模糊测试）在面对工业级代码库时常常受限于状态空间爆炸。多方研究人员决定，将长期积累的分布式系统全局 invariants（不变性）逻辑推演知识作为 “灵魂”，注入到最前沿的多智能体协同范式与自动化 Harness 架构之中，推出了开源平权的 Agora 框架。

与此同时，作为行业前沿的模块化 AI 基础设施与高性能去中心化数据可用性网络，0G 团队在区块链共识协议、高并发 BFT（拜占庭容错）架构的产业落地中，积累了极为丰富的生产级攻防经验与真实世界的协议缺陷样本。

这种跨界融合彻底改变了游戏规则：它既不是盲目的暴力测试，也不是缺乏领域常识的大模型 “盲人摸象”，而是通过专业化的 Agent 分工，将老道系统专家几十年的逻辑推演直觉，转化为 Agent 之间的博弈与协同，从而具备了降维打击传统测试工具的硬核实力。

与 Glasswing 动辄吞噬巨额顶级 Token 的重资产路线不同，Agora 带来了一种对中小企业极其友好的平替方案 —— 它证明了即使在基座模型 “差一点”、性价比更高的情况下，通过精妙的领域感知多 Agent 协同架构，依然能够把硬核的 Deep Bug 揪出来！

2. 痛点

单体 LLM 难越雷池，分布式系统高悬 “深层逻辑达摩克利斯之剑”

在大数据、区块链与分布式数据库只手遮天的今天，共识协议（如 Paxos、Raft、PBFT 等）就是整个数字世界的底层地基。然而，共识协议的实现是出了名的 “地狱级难度”。哪怕是像 etcd 这样经过全球无数顶尖工程师锤炼、运行多年的工业级标杆项目，依然隐藏着让人冷汗直流的 Deep Bug（深层逻辑漏洞）。

这类漏洞不同于内存泄漏、整数溢出等普通的低级实现漏洞（Implementation Bugs），它们横跨多个执行阶段、依赖复杂的并发状态。一旦被恶意触发，不仅会导致核心数据损坏，甚至会引发灾难性的金融级损失。

近年大火的大语言模型（LLM）虽然在普通代码分析上表现亮眼，但面对分布式共识时却显得 “智商捉急”。它们顶多能找出局部代码的浅层缺陷，而面对依赖全局状态的协议级逻辑漏洞，单体 LLM 往往陷入局部代码的泥潭，完全无法进行全局时序推理。

3. 破局

Agora 的三 Agent 乾坤大挪移与核心 Harness 架构

为了打破这一僵局，Agora 首次将学术界经典的假说驱动测试（Hypothesis-Driven Testing, HDT）范式引入到大模型 Agent 系统中。为了实现高效的全局推理，Agora 彻底摒弃了传统的 “单兵作战” 模式，将工作流精妙地解耦为三个各司其职的高度专业化 Agent：

Orchestrator Agent（协调者）：负责全局状态维护与已知漏洞举一反三的 “漏洞剥削”；
Strategy Agent（策略家）：负责注入分布式领域知识，针对 CFT 和 BFT 协议生成极具攻击性的异常场景。
TestGen Agent（代码官）：实干派。而让 Agora 真正能够落地、闭环生成有效测试的关键，在于其核心的自动化测试架构。

其架构如图所示：

斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

在 Agora 的整体设计中，这种 “以小博大” 的平权魔法并非凭空而来，而是源于其精妙的智能体交互机制与测试 Harness 架构的深度融合。

研究团队在系统框架内部专门设计了一套极简、高效的通信与内存机制（Succinct Memory & Communication），在保证各 Agent 专注于自身核心任务的同时，将冗余的上下文传输开销降到了最低。在这种极致的通信约束下，Orchestrator Agent（负责全局协调与状态控制）、Strategy Agent（负责分布式异常环境与场景生成）以及 TestGen Agent（负责代码测试与动态评估 Evaluation）完美交织，共同驱动并满足了 Harness 架构：

双剑合璧的自动化闭环：当 Strategy Agent 推演出抽象的分布式攻击场景后，依托于高度解耦的交互框架，TestGen Agent 能够立刻拉起底层的测试。该架构不仅具备强大的环境自适应能力，能够跨越 Go、Rust 等不同编程语言环境，将攻击假说转化为真实可运行的单元测试，更内置了高效的反射循环（Reflection-Loop）技术。
一旦测试在环境中运行报错，系统会精准、实时地捕捉调用栈和执行日志，并将其精简地回传给 Agent 进行定向自我修正。这种 “多 Agent 极简交互 + 动态 Harness 闭环” 的有机结合，不仅让 Agora 能够以极低的 Token 成本精准捕捉到最隐蔽的深层逻辑 Bug，更产出了误报率极低的详尽分析报告。

其最终运行的 overview 如图所示：

斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

4. 战果

斩获 15 个顶级零日 Deep Bug，大模型 baseline 全线挂零

评估结果令人震撼。研究团队在四个大名鼎鼎的共识协议库（包括生产级的 etcd 和新兴公链核心 Sui 的底层组件）上展开了全方位的大阅兵，并对比了 GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5 以及 Qwen3 Coder 等地表最强模型。

结果不仅仅使得 0G 本身运行的共识系统更加安全，而且呈现出压倒性的降维打击：

15 个全新 Logic Deep Bug 浮出水面：Agora 成功发现了 15 个先前无人知晓的协议级深层逻辑漏洞。这些漏洞横跨执行分歧、单调性违反、拓扑缺陷、签名漏洞等高危领域。
原生大模型全线剃光头：反观基线模型（哪怕配备了先进的 ReAct 动态工具链），在面对这类深层逻辑漏洞时全部开天窗（0/15）。它们消耗了大量的 Token，却只能在低级代码实现 Bug 上打转。
极低的误报率与超高性价比：在 Agora 产出的所有 Bug 报告中，真实逻辑漏洞占比高达 73.9%（误报率仅 26.1%）。更令人惊叹的是，平均每挖出一个让资深架构师掉光头发的顶级逻辑 Bug，仅需消耗约 5.32M tokens（约合 40 美元），性价比极高。

在多个 LLM 上的结果如下所示：

斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

5. 未来

高可推广性，进军更多底层硬核 “无人区”

Agora 的成功，不仅给分布式系统的安全性打了一剂强心针，更为大模型落地垂直工业级应用指明了方向。

尤为关键的是，Agora 的架构设计展现出了极高的可推广性与通用性。研究团队强调，Agora 还可以以插件或者 skill 的形式迅速被广大用户复现使用，我们的代码中(github.com/0gfoundation/agora)提供了相应的 skills 帮助复现。不仅仅如此Agora 的 “大模型 + 多 Agent 协同 + 假说驱动 “范式并非仅能用于共识协议。由于其底层工作流控制与上层领域知识库、测试实现了深度解耦。这意味着该架构不仅仅可以帮助众多用户迅速利用进行共识协议 debug，还可以以 “插拔式”（Plug-and-Play）的方式快速推广到其他同样饱受 “深层逻辑漏洞地狱” 折磨的硬核领域：

数据库并发控制（Concurrency Control）：用于测试分布式数据库在极端隔离级别（如串行化 Serializable）下的复杂事务冲突缺陷。
操作系统内核 / 并发系统：深入发现多线程基础设施中隐蔽的死锁与竞态条件。
Web3 智能合约审计：针对涉及复杂经济模型的跨链协议和 DeFi 逻辑进行深度安全边界探查。区块链安全市场预计 2026 年规模已达约 85 亿美元，且已出现以” 多智能体安全系统” 做智能合约审计、将审计周期从数周压缩到数小时的商业产品，市场需求正在爆发。

工业级底层基础设施的 AI 自动化安全时代，或许正由 Agora 和它的 Harness 架构正式开启。

我们有理由相信，Agora 可以通过在各个领域发现的更多地 deep bug 帮助更好地测试 coding LLM 的能力，其发现的 deep bug 用例也可以帮助 coding LLM 提升代码理解能力。

gora 可以大大提升共识协议、并发控制、智能合约等等作为金融安全交易的基础的代码仓库的安全。而且 Agora 也可以帮助更多的科技公司发现更深的 logic bug, 但是消耗更少的 tokens, 节约资金却更加高效！

更重要的是，这恰好踩中了当下最热的两条赛道：一是多智能体系统正从实验走向生产——Gartner 预计到 2028 年将有超过三成企业软件内置 agentic AI，多智能体平台市场规模数年内将从百亿美元级别冲向数百亿美元；二是” 用智能体审查智能体” 的智能体化质量管控（Agentic Quality Control）正成为 2026 年的行业标配。

在 Veracode 2025 报告指出约 45% 的 AI 生成代码含有安全漏洞、agentic AI 安全市场以约 42% 年复合增速狂奔的背景下，Agora 让科技公司能以更低的 token 成本挖出更深的 Logic Bug，把安全审计从” 按周计费的人力活” 升级为” 按小时交付的自动化能力”。

而当这条赛道的格局逐渐清晰，真正占住先机的，往往不是声量最大的巨头，而是那支最早把方法论跑通、并能持续复制的团队。

文章来自于"机器之心"，作者 "机器之心"。

AI新闻模型训练 Agora 自动化测试框架

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT