刚刚，全球最难考试惊天大反转！AI黑马 Symbolica冲破36%，顶流模型集体翻车

9289点击 2026-03-27 15:24

惊天大反转！

就在昨天，给AI的最难测试ARC-AGI-3横空出世，全球大模型一夜被血洗。

最强的顶流模型Opus 4.6，都只拿了0.2%分，简直惨不忍睹。与此同时，人类却大大领先，拿到了满分的好成绩。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

这让围观群众们大吃一惊：无论是老黄，还是提出AGI概念发明人，都认为如今我们已经到达了AGI，难道我们真的离AGI如此遥远？

出人意料的是，短短一天内，ARC-AGI-3就被破解了！

就在刚刚，一家名为Symbolica的公司宣布称：

使用Agentica框架，我们在ARC-AGI-3测试中首日就取得了36.08%成绩，全面碾压CoT模型基线。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

182个关卡中，他们已经顺利通关了113个。25个可用游戏中，他们完成了7个。

全球最难考试，被一把撕开缺口！

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

Symbolica首日爆冷，冲上36%

就在人们还在为Opus 4.6那可怜的0.2%得分唏嘘不已，甚至开始怀疑「AGI是否只是大厂编织的幻梦」时，转机就以惊喜的方式降临了。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

Symbolica的Agentica框架，为什么在ARC-AGI-3发布首日就能交出36.08%的惊人成绩单？

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

Agentica（Symbolica）基于Symbolica构建的ARC-AGI-3专用智能体系统。

要知道，在ARC-AGI-3那个近乎变态的评分公式——(人类步数 / AI步数)^2——面前，大模型领头羊们还都在迷雾里原地打转呢。36.08%这个分数，简直是降维打击。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

要理解Symbolica为什么能赢，首先要明白Opus 4.6和GPT-5.4是怎么输的。

ARC-AGI-3与前两代最大的不同，就在于它不是「静态看图说话」，而是一个交互式黑盒游戏。

当一个基于纯粹LLM的智能体进入游戏，它最致命的弱点是：试图用联想代替逻辑，用模式匹配代替实验。

大模型在面对未知环境时，会利用庞大的预训练知识库进行「脑补」。看到红色方块和蓝色线条，可能就会联想到「推箱子」或者「水位平衡」，然后基于这个错误的假设疯狂输出CoT。

如果假设错了，它也不会停下来反思，而是会在错误的道路上越跑越远，直到步数耗尽，得分归零。

ARC-AGI-3恰好针对AI的这些弱点，在100%可由人类解决的环境中，衡量AI的三大能力：

随时间推移的技能获取效率
稀疏反馈下的长程规划能力
跨多步、由经验驱动的适应能力

而Symbolica的Agentica框架，走出了一条完全不同的技术路径！

Agentica原生支持多智能体架构，并具备设计上的可并行性。它会自动将复杂任务拆解为子问题，并将工作委派给子智能体并行完成。

这意味着智能体能够保持高效推进，开箱即用地更快完成任务！

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

Agentica是一个类型安全的AI框架，能够让LLM智能体与代码无缝集成：包括函数、类、活动对象，乃至整个SDK。

此前，凭借强大的长程推理任务，Symbolica就曾在ARC-AGI-2上取得SOTA成绩，Agentica SDK为此立下了汗马功劳。

核心秘诀：Arcgentica RLM harness

从GitHub页面中，我们在IDEA.md这个文件中，发现了Agentica框架的绝技——ARC-AGI-3智能体框架（Agent Harnesses）。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

GitHub地址：https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnesses，是最近的绝对热词了，在Anthropic的官方博客和业内各位大咖的讨论中，它一直在被不断提及。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

如果说2025年是智能体黄金时代的起点，那么2026年将聚焦于智能体框架（Agent Harnesses）。

智能体框架是一种围绕AI模型构建的基础设施，用于管理长时间运行的任务，但它本身并不是智能体。

这次，Agentica从零开始理解游戏机制，而且在没有任何特定游戏提示的情况下，解决多个关卡谜题。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

这个基于Agentica SDK构建的Arcgentica RLM框架，有何特别之处？

首先，是游戏无关性。

ARC-AGI-3之所以难，是因为它剥离了所有自然语言提示。人类能过关，是因为我们拥有物理直觉。

为此，Agentica采取了最极端的「游戏无关性」（Game-agnostic）策略。

智能体不知道颜色代表什么，动作的作用是什么，或者获胜条件是什么，仅通过与游戏互动并观察变化来推断一切。

这种空白状态，反而成就了它。

第二，是「统筹者 + 专业子智能体」的模式。

顶级统筹者，从不直接操作游戏，它将任务委派给子智能体，积累知识，并决定下一步的行动。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

专业子智能体包含：探索器、理论家、测试器和解题机（explorers，theorists，testers，solvers）

如果它开始查看网格，其上下文就会被像素数据填满，从而失去战略思考能力。子智能体以简短的文本摘要形式汇报，而不是原始数据。

这种非中心化计策结构的精妙设计，让它规避了Opus 4.6等模型中「同一个大脑既要看像素、又要记规则、还要指挥动作」的严重缺陷。

第三，是它的「共享记忆」机制。

游戏期间，所有智能体共享一个 memories 数据库。子智能体在工作过程中会记录已确认的事实（场景布局、机制、获胜条件）和假设（并明确标记）。

新智能体在启动前会查询记忆，因此它们可以继承集体知识。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

第四，是「关卡切换」机制。

关卡切换：当一个关卡被解出后，下一个关卡会在同一次操作中直接加载，返回的画面已经是新关卡。

只有当所有关卡都通关时，才会触发state=WIN；单个关卡的完成则通过观察 levels_completed 的增加来判断。

第五点，Agentica有严苛的行动预算管理，每一枚token都要花在刀刃上。

所有关卡的总操作次数是有限的（约 800 次）。调度器会通过 make_bounded_submit_action(limit) 为各个子智能体分配操作额度。系统会要求智能体避免重复操作，除非确实卡住。

而且，会优先进行有针对性的尝试，而不是暴力式的穷举探索。

另外，还有子智能体需要按需分配工具、调度器需要在复用与重启之间权衡等规定。

要知道ARC-AGI-3的官方定位，正是强调「需要探索、感知 → 规划 → 行动、记忆、目标获取与对齐等能力」。

而Agentica的分工与控制策略，几乎是对这些能力的「工程化拆解」：

探索（Exploration）：由子智能体探索器（explorers）在动作预算下执行，尽量用差分观测提取「机制线索」。

计划/推理（Planning/rule inference）：由子智能体理论家（theorists）在「不允许submit_action」的约束下推导规则，降低无意义动作消耗。

记忆（Memory）： memories 数据库的显式化让跨关卡策略复用更直接，降低「重复学习」的动作与token 成本。

长程适配：关卡过渡由 levels_completed 检测，统筹者（orchestrator）决定沿用策略还是重新进入探索循环。

显然，这套机制与ARC-AGI-3的评分结构（后期关权重更高、效率平方惩罚）十分适配——它鼓励系统把动作花在「信息增益最高」的实验上，并尽快把策略迁移到更高权重关卡。

36.08%的高分，是否有水分？

不过，36%的成绩无疑是耀眼的，但在经过ARC Prize官方验证之前，Symbolica的「爆冷」依然笼罩着几层迷雾。

Symbolica也承认，这一成绩，目前没有得到ARC-AGI-3组委会的官方认证。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

材料中有一句非常关键的话：「unverified competition score」（未经验证的成绩）

Symbolica目前的成绩是基于其自行搭建的环境，还是严格复刻了官方的评估流程？这需要打一个问号。

而且，公布的得分明细表中，也有一些不寻常的细节。

比如，Symbolica指出「通过ARC-AGI-3 API获取的人类基线分数表明，游戏cn04总共有6个关卡。这与通过API获取的相应游戏的关卡数量不符。」

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

如果官方数据存在版本混乱，那分数的有效性也就令人质疑。

另外，在得分明细图中可以看出，像LP85、AR25等游戏得分极高（80%-97%），而SP80、BP35等游戏得分极低（0.2%-0.7%）。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

这种严重的两极分化，是否是过拟合导致的？

毕竟，如果是真正的通用智能，应该在所有游戏上表现都相对均衡。

人心所向：AGI的终极测试

昨天，ARC-AGI-3一出，就获得了万众瞩目，得到OpenAI、谷歌、xAI等多位AI大佬的认可。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

昨日，ARC-AGI-3正式发布时，奥特曼更是到现场力挺。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

这个新的基准测试，被公认为始终通向AGI的「北极星」。

长期以来，AI界的度量衡被锁死在静态基准的框架里。

然而，当OpenClaw这类「暴力进化」的AI智能体出现，行业显然急需一把解剖刀，去切开「主动式智能」的黑盒：比如深不见底的探索欲，毫秒级的感知决策，复杂的路径规划，以及近乎直觉的目标对齐。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

赛题：https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

ARC-AGI-3祭出的考题，是在逼问AI：在完全陌生的规则面前，你是否具备人类那种抽象与推理的本能？

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

ARC AGI 3技术报告见下列链接：

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

在这里，每款游戏都需要智能体进行探索、理解并解决。满分（100%）意味着AI智能体能够像人类一样高效地通关所有游戏。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

目前，最好成绩为0.25，也就是相当于人类基线的25%。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

ARC-AGI-3更重要的意义，不是发布新的AI测试，不是草根逆袭AI巨头的爽文，而是开启了新智能体类型——智能体思考。

巧合的是，几乎于ARC-AGI-3发布同时，林俊旸发表了对过去两年的总结，指出了相同的趋势：

自主性思考（agentic thinking）将成为主流的思考方式。

……

即使面对极其困难的数学或编程任务，一个真正先进的（AI）系统也应有权进行搜索、模拟、执行、检查、验证和修正。

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

本质上，智能体式思考，是模型通过行动来进行推理，关注的是模型在与环境交互的过程中能否持续取得进展。

他指出AI推理能力核心问题从「模型能否思考足够长时间」转变为「模型能否以维持有效行动的方式进行思考」。

ARC-AGI-3的背后宗旨，和林俊旸的思考，无疑不谋而合了。

巧合之处，恐怕就是行业的下一个方向。

参考资料：

https://x.com/JustinLin610/status/2037116325210829168

https://github.com/symbolica-ai/ARC-AGI-3-Agents

https://www.symbolica.ai/blog/arc-agi-3

文章来自于微信公众号 "新智元"，作者 "新智元"

关键词: AI新闻 , AI测试 , ARC-AGI-3 , Symbolica

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT