刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车
8462点击    2026-03-27 15:24


惊天大反转!


就在昨天,给AI的最难测试ARC-AGI-3横空出世,全球大模型一夜被血洗。


最强的顶流模型Opus 4.6,都只拿了0.2%分,简直惨不忍睹。与此同时,人类却大大领先,拿到了满分的好成绩。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


这让围观群众们大吃一惊:无论是老黄,还是提出AGI概念发明人,都认为如今我们已经到达了AGI,难道我们真的离AGI如此遥远?


出人意料的是,短短一天内,ARC-AGI-3就被破解了!


就在刚刚,一家名为Symbolica的公司宣布称:


使用Agentica框架,我们在ARC-AGI-3测试中首日就取得了36.08%成绩,全面碾压CoT模型基线。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


182个关卡中,他们已经顺利通关了113个。25个可用游戏中,他们完成了7个。


全球最难考试,被一把撕开缺口!


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


Symbolica首日爆冷,冲上36%


就在人们还在为Opus 4.6那可怜的0.2%得分唏嘘不已,甚至开始怀疑「AGI是否只是大厂编织的幻梦」时,转机就以惊喜的方式降临了。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


Symbolica的Agentica框架,为什么在ARC-AGI-3发布首日就能交出36.08%的惊人成绩单?


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


Agentica(Symbolica)基于Symbolica构建的ARC-AGI-3专用智能体系统。


要知道,在ARC-AGI-3那个近乎变态的评分公式——(人类步数 / AI步数)^2——面前,大模型领头羊们还都在迷雾里原地打转呢。36.08%这个分数,简直是降维打击。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


要理解Symbolica为什么能赢,首先要明白Opus 4.6和GPT-5.4是怎么输的。


ARC-AGI-3与前两代最大的不同,就在于它不是「静态看图说话」,而是一个交互式黑盒游戏。


当一个基于纯粹LLM的智能体进入游戏,它最致命的弱点是:试图用联想代替逻辑,用模式匹配代替实验。


大模型在面对未知环境时,会利用庞大的预训练知识库进行「脑补」。看到红色方块和蓝色线条,可能就会联想到「推箱子」或者「水位平衡」,然后基于这个错误的假设疯狂输出CoT。


如果假设错了,它也不会停下来反思,而是会在错误的道路上越跑越远,直到步数耗尽,得分归零。


ARC-AGI-3恰好针对AI的这些弱点,在100%可由人类解决的环境中,衡量AI的三大能力:


  • 随时间推移的技能获取效率
  • 稀疏反馈下的长程规划能力
  • 跨多步、由经验驱动的适应能力


而Symbolica的Agentica框架,走出了一条完全不同的技术路径!


Agentica原生支持多智能体架构,并具备设计上的可并行性。它会自动将复杂任务拆解为子问题,并将工作委派给子智能体并行完成。


这意味着智能体能够保持高效推进,开箱即用地更快完成任务!


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


Agentica是一个类型安全的AI框架,能够让LLM智能体与代码无缝集成:包括函数、类、活动对象,乃至整个SDK。


此前,凭借强大的长程推理任务,Symbolica就曾在ARC-AGI-2上取得SOTA成绩,Agentica SDK为此立下了汗马功劳。


核心秘诀:Arcgentica RLM harness


从GitHub页面中,我们在IDEA.md这个文件中,发现了Agentica框架的绝技——ARC-AGI-3智能体框架(Agent Harnesses)。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


GitHub地址:https://github.com/symbolica-ai/ARC-AGI-3-Agents


Agent Harnesses,是最近的绝对热词了,在Anthropic的官方博客和业内各位大咖的讨论中,它一直在被不断提及。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


如果说2025年是智能体黄金时代的起点,那么2026年将聚焦于智能体框架(Agent Harnesses)。


智能体框架是一种围绕AI模型构建的基础设施,用于管理长时间运行的任务,但它本身并不是智能体。


这次,Agentica从零开始理解游戏机制,而且在没有任何特定游戏提示的情况下,解决多个关卡谜题。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


这个基于Agentica SDK构建的Arcgentica RLM框架,有何特别之处?


首先,是游戏无关性。


ARC-AGI-3之所以难,是因为它剥离了所有自然语言提示。人类能过关,是因为我们拥有物理直觉。


为此,Agentica采取了最极端的「游戏无关性」(Game-agnostic)策略。


智能体不知道颜色代表什么,动作的作用是什么,或者获胜条件是什么,仅通过与游戏互动并观察变化来推断一切。


这种空白状态,反而成就了它。


第二,是「统筹者 + 专业子智能体」的模式。


顶级统筹者,从不直接操作游戏,它将任务委派给子智能体,积累知识,并决定下一步的行动。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


专业子智能体包含:探索器、理论家、测试器和解题机(explorers,theorists,testers,solvers)


如果它开始查看网格,其上下文就会被像素数据填满,从而失去战略思考能力。子智能体以简短的文本摘要形式汇报,而不是原始数据。


这种非中心化计策结构的精妙设计,让它规避了Opus 4.6等模型中「同一个大脑既要看像素、又要记规则、还要指挥动作」的严重缺陷。


第三,是它的「共享记忆」机制。


游戏期间,所有智能体共享一个 memories 数据库。子智能体在工作过程中会记录已确认的事实(场景布局、机制、获胜条件)和假设(并明确标记)。


新智能体在启动前会查询记忆,因此它们可以继承集体知识。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


第四,是「关卡切换」机制。


关卡切换:当一个关卡被解出后,下一个关卡会在同一次操作中直接加载,返回的画面已经是新关卡。


只有当所有关卡都通关时,才会触发state=WIN;单个关卡的完成则通过观察 levels_completed 的增加来判断。


第五点,Agentica有严苛的行动预算管理,每一枚token都要花在刀刃上。


所有关卡的总操作次数是有限的(约 800 次)。调度器会通过 make_bounded_submit_action(limit) 为各个子智能体分配操作额度。系统会要求智能体避免重复操作,除非确实卡住。


而且,会优先进行有针对性的尝试,而不是暴力式的穷举探索。


另外,还有子智能体需要按需分配工具、调度器需要在复用与重启之间权衡等规定。


要知道ARC-AGI-3的官方定位,正是强调「需要探索、感知 → 规划 → 行动、记忆、目标获取与对齐等能力」。


而Agentica的分工与控制策略,几乎是对这些能力的「工程化拆解」:


探索(Exploration):由子智能体探索器(explorers)在动作预算下执行,尽量用差分观测提取「机制线索」。 


计划/推理(Planning/rule inference):由子智能体理论家(theorists)在「不允许submit_action」的约束下推导规则,降低无意义动作消耗。 


记忆(Memory): memories 数据库的显式化让跨关卡策略复用更直接,降低「重复学习」的动作与token 成本。 


长程适配:关卡过渡由 levels_completed 检测,统筹者(orchestrator)决定沿用策略还是重新进入探索循环。


显然,这套机制与ARC-AGI-3的评分结构(后期关权重更高、效率平方惩罚)十分适配——它鼓励系统把动作花在「信息增益最高」的实验上,并尽快把策略迁移到更高权重关卡。


36.08%的高分,是否有水分?


不过,36%的成绩无疑是耀眼的,但在经过ARC Prize官方验证之前,Symbolica的「爆冷」依然笼罩着几层迷雾。


Symbolica也承认,这一成绩,目前没有得到ARC-AGI-3组委会的官方认证。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


材料中有一句非常关键的话:「unverified competition score」 (未经验证的成绩)


Symbolica目前的成绩是基于其自行搭建的环境,还是严格复刻了官方的评估流程?这需要打一个问号。


而且,公布的得分明细表中,也有一些不寻常的细节。


比如,Symbolica指出「通过ARC-AGI-3 API获取的人类基线分数表明,游戏cn04总共有6个关卡。这与通过API获取的相应游戏的关卡数量不符。」


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


如果官方数据存在版本混乱,那分数的有效性也就令人质疑。


另外,在得分明细图中可以看出,像LP85AR25等游戏得分极高(80%-97%),而SP80BP35等游戏得分极低(0.2%-0.7%)。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


这种严重的两极分化,是否是过拟合导致的?


毕竟,如果是真正的通用智能,应该在所有游戏上表现都相对均衡。


人心所向:AGI的终极测试


昨天,ARC-AGI-3一出,就获得了万众瞩目,得到OpenAI、谷歌、xAI等多位AI大佬的认可。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


昨日,ARC-AGI-3正式发布时,奥特曼更是到现场力挺。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


这个新的基准测试,被公认为始终通向AGI的「北极星」。


长期以来,AI界的度量衡被锁死在静态基准的框架里。


然而,当OpenClaw这类「暴力进化」的AI智能体出现,行业显然急需一把解剖刀,去切开「主动式智能」的黑盒:比如深不见底的探索欲,毫秒级的感知决策,复杂的路径规划,以及近乎直觉的目标对齐。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


赛题:https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data


ARC-AGI-3祭出的考题,是在逼问AI:在完全陌生的规则面前,你是否具备人类那种抽象与推理的本能?


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


ARC AGI 3技术报告见下列链接:


https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf


在这里,每款游戏都需要智能体进行探索、理解并解决。满分(100%)意味着AI智能体能够像人类一样高效地通关所有游戏。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


目前,最好成绩为0.25,也就是相当于人类基线的25%。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


ARC-AGI-3更重要的意义,不是发布新的AI测试,不是草根逆袭AI巨头的爽文,而是开启了新智能体类型——智能体思考。


巧合的是,几乎于ARC-AGI-3发布同时,林俊旸发表了对过去两年的总结,指出了相同的趋势:


自主性思考(agentic thinking)将成为主流的思考方式。


…… 


即使面对极其困难的数学或编程任务,一个真正先进的(AI)系统也应有权进行搜索、模拟、执行、检查、验证和修正。


刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车


本质上,智能体式思考,是模型通过行动来进行推理,关注的是模型在与环境交互的过程中能否持续取得进展。


他指出AI推理能力核心问题从「模型能否思考足够长时间」转变为「模型能否以维持有效行动的方式进行思考」。


ARC-AGI-3的背后宗旨,和林俊旸的思考,无疑不谋而合了。


巧合之处,恐怕就是行业的下一个方向。


参考资料:


https://x.com/JustinLin610/status/2037116325210829168


https://github.com/symbolica-ai/ARC-AGI-3-Agents


https://www.symbolica.ai/blog/arc-agi-3


文章来自于微信公众号 "新智元",作者 "新智元"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT