你的AI Agent越用越蠢？港中大、浙大戳破「记忆」的谎言

8856点击 2026-05-19 15:00

你是否在使用Agent工作或者写代码时，总感觉上下文不够用？或者感觉反复使用Agent时并没有变得更聪明？感觉目前的记忆方案仍然不够用？今日，香港中文大学联合浙江大学发布的一篇论文关注了这个问题，并引起了学术界广泛讨论：你以为Agent在「记忆」，其实只是在记备忘录。

你有没有遇到过这种情况：

给Agent配了向量数据库，上传了大量历史对话，结果它下次还是答不上来；或者用Cursor、Claude写了几十轮代码，感觉它对你项目的理解并没有随着时间真正加深，每次都像是在重新认识你。

这不是模型的问题，也不是RAG配置的问题。

香港中文大学与浙江大学的研究者在一篇新论文中给出了一个更根本的答案：我们根本就没有给Agent真正的记忆。我们只是给了它一个备忘录（Memo）。

你的AI Agent越用越蠢？港中大、浙大戳破「记忆」的谎言

论文链接：https://arxiv.org/pdf/2604.27707

论文于2026年4月30日在arXiv发布预印本，约10天之内便在国际学术社区引发大量讨论。AI领域知名账号 @dair_ai 在X（Twitter）的转发获得超过26,100次浏览与700余次点赞，多位YouTuber亦自发制作了介绍视频，小红书上也有多篇转载。

Agent为什么越用越蠢？

当前主流的Agent记忆方案，大体可以分为四类：向量存储、检索增强生成（RAG）、便签本（Scratchpad）与上下文窗口管理。

它们有一个共同点：都是「查找」，而非「记忆」。

论文作者将这类机制统称为「备忘录（Memo）」，而非真正意义上的记忆（True Memory）。

备忘录的逻辑是：把信息存起来，用的时候再检索出来。这和人类把一件事「记在心里」，是完全不同的两件事。

你的AI Agent越用越蠢？港中大、浙大戳破「记忆」的谎言

这个区别的核心在于泛化机制的本质差异：

基于检索的记忆：通过与存储案例的相似性进行泛化。如果你存的案例里没有类似的情境，Agent就不会处理。
基于权重的记忆：将经验抽象成规则，并将规则应用于从未见过的输入。

人类在学习一门语言时，不是把每一个句子都背下来，而是内化了语法规则，然后能造出从没说过的新句子。

目前的Agent「记忆」，更像是基于检索的记忆。

三大结构性缺陷

作者归纳出当前上下文代理记忆系统的三个关键局限，且每一个都可以在理论层面被证明，而非仅凭直觉。

缺陷一：信息量不等于能力

Agent会无限积累笔记，却无法发展出真正的专业知识。

认知科学早已证明（Chi et al., 1981），人类专家与新手的根本区别不在于掌握了更多信息，而在于知识的组织方式发生了质变：专家的知识按照深层原则重新结构化，而非简单堆积。

当前Agent做不到这一步。每次会话结束，模型的权重完全不变，下一次依然是从同一个「新手」起点出发，只是多了几条备忘录。

缺陷二：泛化天花板——数学分析

研究者用样本复杂度理论，证明了可量化的泛化鸿沟：

检索式记忆系统，要处理组合式新颖任务，需要存储Ω(k²) 个案例
而参数化学习（权重记忆），只需 O(d) 个示例（d为算子的复杂度维度）

更关键的是：增大上下文窗口无法突破这个上限。 限制不来自容量，而来自组合覆盖度。如果Agent从没见过「A规则+B规则同时适用」的情形，它就无法处理这种组合，无论你塞进多少备忘录。

用一个直观的例子：假设Agent学会了「摄氏度转华氏度」和「时区换算」两项技能，如果它只是把案例存在向量库里，那遇到「把北京时间的温度转换到纽约同等时刻」这类组合问题，它很可能就卡壳了。而人类学会了规则之后，这种组合是自然而然的。

缺陷三：记忆投毒——结构性安全漏洞

持久化记忆存储在结构上对记忆投毒攻击（Memory Poisoning）具有固有脆弱性。论文引用的实证数据触目惊心：

MINJA攻击：在最小化功能损耗的前提下，注入成功率高达98.2%
PoisonedRAG攻击：仅用5条对抗性文本，即可实现90%的攻击成功率

更危险的是，一旦注入成功，恶意内容会通过持久记忆在所有后续会话中持续循环，单次攻击转化为永久性入侵。

海马体＋新皮层

缺一不可

论文的理论基础来自神经科学中的互补学习系统理论（Complementary Learning Systems, CLS）。

哺乳动物大脑通过两套系统的协作解决了记忆问题：

海马体（Hippocampus）：快速记录情景，高保真存储新经验
新皮层（Neocortex）：缓慢整合，将情景记忆提炼为抽象规则，写入权重

这两套系统缺一不可。人类睡眠时，大脑会将白天的情景记忆向新皮层「回放」，完成从「记住这件事」到「学会这件事」的转化。

当前AI Agent只实现了海马体，即快速写入，相似性召回，没有抽象步骤。

你的AI Agent越用越蠢？港中大、浙大戳破「记忆」的谎言

论文作者将当前的Agent比作一个永远不睡觉的人——不断记笔记，却从不整理，永远无法将零散的经验升华为真正的专业知识。

学界怎么看？

X上的真实讨论

论文发布后，@dair_ai 的转发帖迅速引发国际学术社区的热议，以下是部分代表性讨论的翻译：

你的AI Agent越用越蠢？港中大、浙大戳破「记忆」的谎言

双系统并存

不是推倒重来

论文并非只是「批判」，而是提出了双系统共存的架构路径。

核心思路是：在保留现有检索式情景记忆（海马体等价物）的同时，增加一条异步巩固通道，将情景记忆逐步整合进模型权重（新皮层等价物）。

具体技术早已存在，从LoRA（轻量微调）和MEMIT（记忆编辑），到TTT层（测试时训练）和SSR（自我蒸馏）等。

论文为三类受众发出具体的行动呼吁：

系统构建者：实现从情景存储到权重的巩固通道，而非无限扩大向量库
基准设计者（Benchmark）：引入「跨时间组合泛化（CGT）」指标，真正衡量Agent是否在学习
持续学习研究社区：重新关注Agent场景，它天然提供了连续经验流、奖励信号与真实的部署环境

总结

这篇论文本质上是一篇立场论文（Position Paper），没有庞大的实验堆砌，但论证框架清晰，理论证明严格，

它引发如此广泛的讨论，或许恰恰说明：这个问题，几乎每一个认真使用过长期Agent的工程师和研究者都曾隐约感受到，只是暂时没有人把它说清楚。

如果你正在构建长期运行的Agent系统，这篇论文提供了一个重要的概念校准：你存的那些「记忆」，到底是备忘录，还是真正的学习？

参考资料：

Xu, B., Dai, X., & Zhang, K. (2026). Contextual Agentic Memory is a Memo, Not True Memory. arXiv:2604.27707v1

@dair_ai Twitter/X 讨论：https://x.com/dair_ai/status/2050694339165335754

Chi, M. T. H., et al. (1981). Categorization and representation of physics problems by experts and novices. Cognitive Science.

MINJA & PoisonedRAG 相关攻击研究（见论文参考文献）

文章来自于"新智元"，作者 "LRST"。

关键词: AI新闻 , 模型训练 , AI记忆 , 智能体记忆

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner