刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车
刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车就在昨天,ARC-AGI-3刚把全球顶尖大模型按在地上摩擦,结果一家名不见经传的公司却给出惊天消息:他们的AI在首日就取得了36.08%的成绩!这匹黑马究竟靠什么撕开全球最难AI考试的铁幕?是真突破,还是另有玄机?
搜索
就在昨天,ARC-AGI-3刚把全球顶尖大模型按在地上摩擦,结果一家名不见经传的公司却给出惊天消息:他们的AI在首日就取得了36.08%的成绩!这匹黑马究竟靠什么撕开全球最难AI考试的铁幕?是真突破,还是另有玄机?
我最近实测阿里Qoder「专家团模式(Experts Mode)」后,发出了上述感慨。在「专家团模式」下,Qoder直接给我组织了一支赛博工程团队,我就负责看,专家团负责干。它帮我自动解析需求,分配任务,调配前端、后端、测试、运维等不同职责的“工程师”,驱动多个智能体同时推进任务,直接让我躺着当了回CTO。
今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关,最强模型Opus 4.6得分仅0.2%,还不到1%。AI这是一夜被打回「原始人」了。
Cursor套壳Kimi这事还没完…… 最新消息,Cursor放出Composer 2技术报告,力证自己还是有在“自研”。(doge) 不是纯套,而是有技术地套、循序渐进地套。用的方法,还是他们一开始就强调的预训练+强化学习。
OpenClaw 又开始日更了:Skills 安装终于不用自己猜缺什么了,系统会手把手告诉你下一步;控制台界面也大改,找东西不再像在迷宫里转。另外堵上了一个文件访问的安全漏洞,Telegram、Discord、WhatsApp 的频道 bug 也扫了一轮。
看过 HBO 神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为 Pied Piper(魔笛手)的虚构公司念念不忘。
就在刚刚,阿里AI助手千问被接入红旗汽车智能座舱!这是通用AI助手首次以「完整形态」登陆车载场景。随着逐步打通PC、手机、智能眼镜与汽车等终端,阿里正在把千问打造为AI时代的超级入口,而不仅仅是一款超级APP。
软硬协同决定成败。
过去几年,多模态模型在理解任务上快速演进,图像问答、OCR、视觉推理、跨模态对话等能力不断提升;与此同时,图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是:能否用同一个模型,同时做好理解与生成?这正是统一多模态模型(Unified Multimodal Models, UMMs)正在回答的问题。
一次只持续了不到1小时的投毒事件,撕开了AI基础设施「信任链」的致命裂缝。更魔幻的是,全行业逃过一劫,居然靠黑客自己写出bug。