GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

11111点击 2026-01-11 10:10

刚刚，GPT-5.2刷新了一项新纪录！

OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上，表现超过了人类基线水平。

在基准测试时技能爆表，但一到实际应用就「掉链子」，OpenAI前首席科学家Ilya Sutskever提到的这种大模型「性能悖论」我们并不陌生。

这也是AGI评估领域一个长期存在的难题——如何区分大模型「真正的推理能力」与「刷题型能力」。

而ARC-AGI-2的出现正好打破了这一难题。

ARC-AGI-2的全称为「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」，是ARC系列基准的最新升级版本。

该基准由François Chollet（Keras之父、前Google Brain研究员）及其团队在2025年推出，其设计初衷十分明确：

测试AI是否具备AGI所必需的抽象、归纳与迁移推理能力，而非记忆或统计模式匹配。

ARC系列与传统NLP或多模态benchmark最大的不同在于：它没有大规模训练集，每道题目都是从未见过的新任务，因此不存在通过「刷数据」获得高分的可能。

它要求AI像人类一样具备真正的推理和举一反三的能力。

Chollet曾多次公开表示，如果一个系统只能在见过的数据分布上表现良好，那它并不具备AGI所需的能力。

因此，ARC基准测试刚好直击大模型的「软肋」。

从「及格」到「优等生」

一次关键跨越

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

新纪录的刷新者，并非单一模型，而是一个名为Poetiq（GPT-5.2X-High）的系统。

Poetiq是一家专注于元系统（Meta-System）架构的AI公司。

其核心理念并不是训练一个更大的模型，而是通过软件层面的系统设计，自动构建「会调用模型的系统」。

Poetiq（GPT-5.2X-High）在ARC-AGI-2数据集上实现了75%准确率，每问题成本不到8美元，超越前SOTA 15个百分点。

在Poetiq（GPT-5.2X-High）系统出现之前，GPT-5.2(X-High)已经非常接近人类平均水平。

ARC-AGI-2榜单中，人类平均准确率约为60%，GPT-5.2X-High的成绩与之几乎持平，代表了当时AI在该基准上的最强推理能力。

但Poetiq的加入，使GPT-5.2(X-High)的得分从60%直接拉升到了75%，从勉强及格（人类平均水平）迈入了优等生的行列（显著超越人类平均水平）。

在同一榜单上，还能看到Gemini 3 Deep Think（Preview）的身影。

该模型主打「深度思考（Deep Think）」技术，在ARC-AGI-2上的成绩约为46%，明显落后于GPT-5.2系列，并且成本相对后者也略高。

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

Poetiq表示，整个过程没有对GPT-5.2进行任何训练或者特定优化。

这正是Poetiq元系统的初衷，旨在自动构建完整的系统，通过调用任何现有的前沿模型来解决特定任务。

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

从15%的提升数据来看，Poetiq对于基础模型性能的提升幅度还是非常明显的。

它的存在证明了不需要堆算力，通过优秀的软件架构也能大幅提升AI性能。

从这个角度上，它也验证了接下来OpenAI的一个判断——

当前大模型，正逐渐进入「能力过剩」阶段。

大模型「能力过剩」时代

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

就在同一天，OpenAI官方也在X平台发布了一项关于2026年的预测。

在这条推文中，OpenAI明确提到一个关键词：Capability Overhang（能力过剩）。

核心意思是：

当前模型「能够做到的事情」，与人们「实际使用AI的方式」（产生效果）之间，存在巨大的断层。

OpenAI认为，未来AGI的进展将不再仅取决于模型本身的突破，还将取决于：

人们是否知道如何有效使用AI
AI是否真正融入现实工作与生活
系统是否能将模型能力转化为实际价值

因此，在2026年，OpenAI将继续前沿研究，同时重点投入于应用层、系统层、人机协同，尤其强调医疗、商业和日常生活场景。

人机协同

AGI的另一半拼图

OpenAI这篇官方推文涉及一个人机协同的问题。

实现AGI，是需要模型和人协同发挥作用：AGI不只靠模型升级，更要「教人用AI」。

通过正确的使用AI，充分发挥出AI的潜能，这样才能让AI开始从「炫技」转向「普惠」，真正影响亿万人生活。

这一观点也得到了社区的强烈回应。

于是，乐观的网友称「直接把我整个人自动化吧」！

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

也有网友提到，真正的挑战在于如何将AI融入工作流程中：见过太多组织买了「AI」，却从未改变任何一个流程。

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

大模型真的「能力过剩」了吗？

那么，是不是真如OpenAI所说的，大模型的能力已经过剩了呢？

通过上面Poetiq所公布的Poetiq（GPT-5.2X-High）在ARC-AGI-2上的表现，75%的得分超过了人类平均水平（60%）15个百分点。

此前OpenAI官方在介绍GPT-5时强调其在解决复杂跨学科问题上达到了专家级基准，后被外界引申为「博士级智能」。

这说明GPT-5等大模型在某些专业任务中表现类似于人类博士的专业水平。

从模型本身来说，也许并未完全过剩，但从「未被充分释放的能力」角度来看，已经严重过剩。

其中，有模型设计者方的原因，比如他们没有紧跟用户的使用场景，「不再与用户并肩同行了」。

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

也可能由于前沿模型在推理和创新上缺乏根本性的突破。

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

还有模型本身迭代得太快，用户不得不在日常生活中不断弃用已经「成功上手」的模型。

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

Poetiq 的出现，以及OpenAI对「能力过剩」的判断，共同指向了未来AI领域的一个新方向：

下一阶段的AI竞争，不再只是模型参数之争，而是系统、流程与人机协同的竞争。

参考资料：

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

文章来自于微信公众号 “新智元”，作者 “新智元”

关键词: AI新闻 , OpenAI , GPT-5.2 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）