腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人
6008点击    2025-08-16 15:09

AI领域一度陷入“上下文窗口”的军备竞赛,从几千token扩展到数百万token。这相当于给了AI一个巨大的图书馆。但这些“百万上下文”的顶级模型,它究竟是真的“理解”了,还是只是一个更会“背书”的复读机?最近,一篇由腾讯微信AI团队主导的研究论文,给我们提供了一个相当犀利的视角来审视这个问题。这篇论文介绍了一个名为PRELUDE的评测基准,它像一面镜子,照出了当前大模型能力的真相,或许我们一直以来,都在用“开卷考试”的方式来评估我们的AI,从而高估了它们的真实智力。


腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人


现有长文本基准测试的局限性


现在很多流行的评测AI的方法,其实漏洞百出。研究者们一针见血地指出了五个核心问题,这些问题让我们的评测变得像一场场精心安排的表演,而不是真正的能力检验。


腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人


  • 超越记忆 (Beyond Memorization):很多任务(比如基于《哈利·波特》提问)可以被GPT-4这样的模型轻易“破解”,不是因为它真的理解了上下文,而是因为它在预训练时已经“背”下了整本书以及大量的相关分析。这使得评测无法区分模型是在“推理”还是在“回忆”。


  • 全局依赖 (Global Dependency):一些所谓的长文本任务,其答案往往只存在于某个孤立的段落中。这实际上把任务降级为了一个简单的“信息检索”,模型根本不需要通读全文,只要找到那个“知识点”就行,这哪里是在测试长文本理解,分明是在考信息检索。


  • 推理深度 (Depth of Reasoning):许多任务的推理链条很浅,比如“数一数文中提到了几次某个角色”或者简单的多跳问答。这无法挑战模型进行复杂的、多步骤的因果、归纳或演绎推理的能力,就像只让学生做选择题和填空题,却不考论述题一样。


  • 人机差距 (Human-Machine Gap):一个好的基准应该能清晰地展示出当前AI与人类智能的差距。如果一个任务机器能轻易满分,或者反过来,任务本身太主观以至于人类专家都无法达成共识,那么这个基准的价值就相当有限了。


  • 超越总结 (Beyond Summarization/Salience):如果一个任务只需要对文本进行高层概括就能回答,那么它实际上是在评测模型的总结能力,而非对细微、非核心但又至关重要的细节的理解能力。


PRELUDE设计一场无法作弊的考试


那么,怎么才能设计一场无法作弊的闭卷考试呢?研究者们想出了一个绝妙的主意,就是进行“钓鱼执法”,让模型去判断一段为小说人物虚构的“前传”故事,是否与原著逻辑自洽。这些前传是全新的,模型不可能在训练数据里见过,这就杜绝了靠记忆作弊的可能。https://huggingface.co/datasets/ttchungc/PRELUDE


腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人


核心任务:判断虚构前传与原著的逻辑一致性


说白了,任务就是给模型一段“同人”设定,看它能不能发现和“官设”的冲突。研究者们将判断结果分为两大类:矛盾 (Contradict)一致 (Consistent),并且还做了更细致的划分,非常有意思:


腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人


  • 矛盾 (Contradict)局部矛盾 (Local):这是最直接的事实错误。比如,为《纳尼亚传奇》的角色尤斯塔斯设计一个“出生在伦敦”的前传,但原著白纸黑字写着他出生在剑桥。


  • 全局矛盾 I (Global I):这种矛盾更隐蔽,它不直接与某个词句冲突,而是让整个情节或人物动机变得不合理。比如,为《基督山伯爵》中的法利亚神父设计一个“精通印度毒理学”的前传,但这与原著中他从未展现相关知识、甚至不会说印地语的设定构成了深层矛盾。


  • 全局矛盾 II (Global II):这种矛盾关乎“风格”和“世界观”。比如,在一部写实风格的历史小说《三国演义》中,给夏侯渊加上一段“偶遇神仙学了法术”的前传,这虽然不与任何具体情节冲突,但它破坏了整个故事的现实主义基调。


腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人


  • 一致 (Consistent)核心一致 (Core):这种前传是对原著留白部分的合理补充。比如,为《哈利·波-特》中的小天狼星布莱克添加一段“在入学前就因厌恶纯血精英主义而亲近麻瓜”的背景,这很好地解释了他后来的行为动机。


  • 不相关一致 (Irrelevant):这种前传与主线剧情关系不大,但也不矛盾,像是一个角色的支线小故事。


这种设计迫使模型做什么?


通过这种精巧的设计,PRELUDE真正地迫使模型必须做到以下几点,才能拿到高分:


  • 通读并理解全文:模型必须建立对角色、情节和世界观的整体认知,而不是只记住几个孤立的知识点。


  • 进行反事实和因果推理:模型需要思考“如果这个前传为真,那么原著中的某某情节还会合理吗?”


  • 关注细节和风格:模型不能仅仅依赖模糊的摘要信息,必须能捕捉到细微的设定和整体的文学风格。


数据构建:一份“纯天然、无污染”的考卷


为了保证这场考试的公平性和高质量,研究者们下了不少功夫。他们先用LLM(比如GPT-4o和DeepSeek-R1)为13本中英文小说里的40个角色生成了近800个前传故事片段。然后,再由四位人类专家(其中两位还是文学专业的研究生)逐一进行人工标注,判断这些前传与原著是否存在矛盾,并对矛盾的类型进行了细致的分类,整个过程确保了这份“考卷”不仅题目新颖,而且答案(标签)也足够可靠。


实验结果与核心发现


研究者们测试了市面上几乎所有的顶尖模型,包括Qwen系列、DeepSeek-R1、GPT-4o以及Gemini 2.5家族。结果揭示了当前LLM几个非常深刻的局限性:


  • 巨大的人机差距:即使是表现最好的Gemini-2.5-Pro模型,其综合表现也比人类专家差了一大截,足足有超过15%的差距。这说明在真正的深度理解和推理上,AI还有很长的路要走。


  • 答案正确,但推理过程一塌糊涂:这是最关键的发现。模型的推理准确率比人类低了30%还多!比如,在《三国演义》的例子中,模型正确判断“太史慈偶遇吴国安并获赠兵法书”的前传是矛盾的,但它的理由是“吴国安只在虎牢关出现过”,这是一个基于表面文本的错误推理。而真正的矛盾在于,前传中赠送的兵法《六韬》与原著中角色们“重武勇轻谋略”的形象格格不入,这才是深层的逻辑硬伤。


腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人


  • 现有增强方法效果有限:无论是给模型提供原文片段的RAG技术,还是进行领域内微调,都未能显著提升模型的性能。有意思的是,对于最强的Gemini-2.5-Pro,RAG反而还拉低了分数,研究者推测这可能是因为外部的文本片段反而成了“噪音”,干扰了强模型已经很高效的内部知识。


为什么全局理解与长上下文推理如此重要?


从应用层面讲,这是许多高级 AI 应用实现突破的必要条件:


  • 复杂的分析任务:无论是律师分析一个案件的所有卷宗、医生整合一个病人的完整病史,还是金融分析师评估一家公司的多年财报,这些任务都需要系统能够整合、对比和推理散布在大量文档中的信息,而不仅仅是找到单个事实。


  • 真正有用的个人助理:一个能记住并理解你们过去数周乃至数月对话历史的助理,才能提供真正个性化、有深度、不出错的建议和帮助 。否则,它就像一个只有几秒钟记忆的客服,每次都要从头开始。


  • 自主智能体 (Autonomous Agents):一个要完成复杂任务(例如“帮我规划并预订一个为期一周的欧洲家庭旅行”)的智能体,必须在整个过程中维持一个长期的计划和记忆,理解前一步行动对后一步的影响。


PRELUDE的核心正在于此,它通过其巧妙的设计,揭示了几个关于当前 AI 局限性的深刻洞见


1.拥有长记忆 ≠ 善于利用长记忆


AI领域一度陷入“上下文窗口”的军备竞赛,从几千token扩展到数百万 token。这相当于给了AI一个巨大的图书馆。但PRELUDE的实验结果表明,能访问图书馆(拥有长上下文窗口)和懂得如何在图书馆里做研究(进行有效的长程推理)是两回事。


  • 上述实验显示,即便是为模型提供了所有相关原文的检索增强生成(RAG)系统,它们的表现依然不佳


  • 更引人注目的是,像Gemini-2.5-Pro和DeepSeek-R1这样的顶尖模型,在提供了额外上下文后,性能反而下降了。这表明过多的信息不仅没有帮助,反而成了“噪音”,干扰了模型本已脆弱的推理链条,导致它们无法有效利用这些信息。


腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人


这打破了“上下文越长,模型就越智能”的简单想象。真正的瓶颈不在于能“看”多远,而在于能否在长距离上建立起有意义的逻辑联系。


2.模型倾向于“路径依赖”,而非“忠于事实”


PRELUDE 揭示了强模型的一个认知偏差:它们倾向于依赖自己预训练时形成的内部知识(即参数化知识),而不是严格遵循当前提供的上下文信息。


PRELUDE的任务设计是关键。因为它提出的“前传”是全新的、虚构的,在互联网上或模型的训练数据中根本不存在 。这就迫使模型不能依赖“我好像记得《基督山伯爵》里是这样的……”这种模糊的内部记忆,而必须当场阅读和推理。


模型的失败(比如在 RAG 模式下性能变差)表明,当内部知识和外部上下文同时存在时,模型很难有效地将它们结合,甚至会优先相信自己“知道”的东西,从而忽略了上下文中的关键证据


这指出了通往更可靠、更可信AI的一个核心障碍。一个真正智能的系统必须能够在新信息出现时更新自己的认知,并以当前事实为准绳,而不是固执于过往的“经验”。


终极问题:我们到底在测量什么?


这篇论文最有冲击力的观点,论文中也指出PRELUDE是首个在自然语言空间中衡量“流体智力”(即基于规则进行推理并生成新知识的能力)的尝试,是它提出了我们或许可以测量AI的“流体智力”。心理学上,智力被分为两种:


  • 晶体智力 (Crystallized Intelligence):指后天习得的知识和技能,比如历史知识、词汇量。这类似于LLM通过预训练“背诵”下来的知识。


  • 流体智力 (Fluid Intelligence):指不依赖于已有知识,在全新情境中进行逻辑推理、识别模式和解决问题的原生能力。


PRELUDE这个任务,恰恰就是要求模型在一个全新的情境(前传故事)下,运用已知的规则(原著设定)进行推理判断,这真的非常接近对“流体智力”的考验。它评估的不是模型“知道多少”,而是模型“多会思考”,这对于我们衡量通用人工智能(AGI)的进展,意义非凡。


文章来自于微信公众号“AI修猫Prompt”。


关键词: AI , 模型训练 , PRELUDE , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微信飞书AI机器人

【开源免费】茴香豆是一个能够让AI接入第三方的免费开源项目。更可贵的是,即使你不会编程,也可以根据它的教程,将AI接入到微信或者飞书当中使用。

项目地址:https://github.com/InternLM/HuixiangDou

在线使用:https://openxlab.org.cn/apps/detail/tpoisonooo/huixiangdou-web

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

6
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0