当AI不再只是“即兴发挥”的对话者,而开始拥有“记忆力”——我们该如何重新定义智能?
来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述,旨在在大模型时代背景下,重新审视并系统化理解智能体的记忆构建与演化路径。
大语言模型(LLMs)正快速从纯文本生成工具演化为具有长期交互能力的智能体。
这一转变对模型的“记忆能力”提出了更高的要求——不仅要能即时理解上下文,还需具备跨轮对话、多模态输入、个性化偏好等长期记忆机制。
然而,目前关于AI记忆系统的研究尚未形成统一清晰的框架,特别是缺乏对记忆机制底层原子操作的系统化理解。
本综述首次从操作与表示两个维度出发,系统构建AI记忆的研究框架。
作者将AI中的记忆表示划分为参数化记忆与上下文记忆两大类,并提出六种基本记忆操作:巩固(Consolidation)、更新(Updating)、索引(Indexing)、遗忘(Forgetting)、检索(Retrieval)与压缩(Compression)。
这些原子操作不仅揭示了AI记忆系统的内部机制,也为系统性能优化和长期一致性提供理论支持。
作者进一步将这些操作映射到四类关键研究主题:长期记忆(long-term memory)、长上下文建模(long-context modeling)、参数记忆修改(parametric memory modification)与多源记忆融合(multi-source memory integration)。
通过这一结构化视角,本综述系统梳理了相关的研究方向、评测数据集与工具,明确了LLMs智能体中的记忆功能协同机制,并为未来研究提供了清晰的路径指引。
参数化记忆 (Parametric Memory)指的是隐含存储于模型内部参数中的知识。这些知识通过预训练或后训练过程获得,嵌入在模型权重中,在推理阶段通过前向传播访问。
它作为一种即时、长期且持续存在的记忆形式,使模型能够快速、无需上下文地检索事实性和常识性知识。
然而,这类记忆缺乏可解释性,也难以针对新经验或特定任务场景进行选择性更新。
上下文记忆 (Contextual Memory)是指显式的、外部的信息,用于补充语言模型内部的参数知识,可进一步划分为两种形态:
为了使AI系统中的记忆超越静态存储、实现动态演化,模型必须具备一系列管理与利用记忆的基本操作能力。这些操作可划分为两大类功能模块:记忆管理(Memory Management)与记忆利用(Memory Utilization)。
记忆管理(Memory Management)
记忆管理操作控制信息的存储、维护与裁剪,是确保系统记忆随着时间推移合理演化的核心机制,包括以下四类操作:
记忆利用(Memory Utilization)
记忆利用指模型如何在推理过程中调用和使用已存储的信息,包括以下两类操作:
这些操作既是记忆系统动态运行的基础,也引入了数据中毒、误更新等潜在风险,提示未来在记忆生命周期安全性方面的研究必要性。
为了进一步落实记忆操作与表示框架,作者探讨了实际系统中这些操作如何协同运行,进而支持多样化、动态化的记忆使用模式。
例如,在多轮对话系统中,检索增强生成(RAG)框架广泛采用更新、索引、检索和压缩等操作,以维持跨会话记忆并提升响应质量 。
而另一些系统则将长期记忆显式编码为超长上下文输入,对检索与压缩操作尤为依赖。
基于这些实际用例,作者将AI记忆研究划分为以下四个核心主题,分别从时间,空间,模型内部状态,模态四个纬度体现出特定操作组合的模式与挑战:
为系统梳理AI记忆研究的演化趋势,作者基于统一的分类框架构建了一套大规模文献评估流程,覆盖2022至2025年间 NeurIPS、ICLR、ICML、ACL、EMNLP 和 NAACL 的三万余篇论文。
通过GPT驱动的主题相关性打分系统,初步筛选出近四千篇潜在相关研究,并结合人工审核进一步精炼文献集。
为衡量文献影响力,作者提出了相对引用指数(RCI, Relative Citation Index),借鉴医学领域的 RCR 思路,对引用量进行时间归一化,衡量论文在同期中的相对被引水平,从而避免“早发表多引用”带来的偏差。
RCI 有助于识别阶段性重要成果,并支撑代表性研究与发展趋势的深入分析。这一体系不仅揭示了当前记忆研究的重点分布,也为构建更强大、可控的记忆增强型系统提供了系统性理论支持与路径指引。
作者不仅展示了这些主题与记忆类型之间的对应关系,也进一步总结了每类研究中典型的记忆操作模式。
作者同时在文中附录总结了各类主题研究的代表方法、基准数据与评估指标,涵盖操作支持范围、实验评估标准与实际应用场景,为研究者提供完整的参考框架。
长期记忆(Long-term Memory)是支撑AI系统进行跨轮推理、个性化生成与动态决策的关键能力。
相比于短期上下文窗口,长期记忆能够跨越会话边界,持续积累与调取历史交互、环境观察和用户偏好等信息,从而构建更具一致性和适应性的智能行为模式。
本节围绕长期记忆的运行机制,系统梳理了其关键操作与利用路径,覆盖“记忆管理—压缩—生成”的完整流程。
在记忆管理层面,作者总结了四类基础操作。
巩固(Consolidation)用于将短期交互转化为长期存储内容,支撑记忆的可持续使用;
索引(Indexing)构建结构化、可查询的访问路径以提升检索效率;
更新(Updating)通过融合新知与重构结构实现记忆内容的迭代演化;
遗忘(Forgetting)则以内容剔除或抽象压缩的方式清除冗余、无效或敏感信息,保障系统稳定性和资源可控性。
当前主流系统已开始通过图谱建模、时间标注与用户反馈机制等方式模拟上述操作,以支持更为动态和人类类比的记忆演化过程。
在记忆利用层面,作者提出“检索–压缩–生成”三阶段联动机制。
其中,记忆检索(Retrieval)旨在从长期存储中筛选与当前输入最相关的信息,可基于查询改写、结构匹配或事件时间线进行匹配优化。
紧接其后的记忆压缩(Compression)作为连接检索与生成的桥梁,不仅承担内容筛选与信息重构任务,更统摄了两个关键子过程:
记忆集成(Integration):即将多个检索片段整合为统一上下文表征,以供模型高效解码;
记忆驱动生成(Grounded Generation):即在推理过程中借助已整合的记忆引导语言生成,确保输出与历史上下文保持一致。
无论是静态拼接、多轮追踪,还是跨模态融合,这一系列操作都可归入压缩机制下的结构优化与信息筛选框架中。
尽管检索性能在多个任务中已趋近饱和,但压缩过程仍是系统性能的主要瓶颈,尤其在多轮对话、任务迁移和一致性建模等方面面临挑战。
个性化是长期记忆的重要应用方向。作者将现有方法归为两大类:
一类是模型级适配(Model-level Adaptation),通过轻量调参或模块化组件将用户偏好编码进模型参数中;
另一类是外部记忆增强(External Memory Augmentation),通过调用结构化知识图谱、用户画像或非结构化历史对话,在推理时动态集成用户相关信息。
两类方法各具优势,前者强调高效部署与任务泛化,后者突出可解释性与个体一致性,正逐步走向融合。
在评估层面,当前主流基准仍多聚焦于检索准确率或静态问答性能,对动态记忆操作(如更新、遗忘、巩固)及其时间适应能力的评估仍显不足。
为此,作者提出了相对引用指数(RCI)这一新型指标,对2022至2025年间的高相关研究进行时间归一化的影响力分析。
通过结合RCI得分与研究主题,作者进一步揭示了不同记忆类型、任务范式与操作机制在AI长期记忆研究中的关注分布和演化趋势。
长上下文机制是大语言模型中记忆系统的重要组成部分,尤其在缺乏长期外部存储的场景下,承担着临时信息保持与动态推理的记忆功能。
它通过在超长输入序列中存储与调取历史交互、外部文档或用户信息,为AI系统提供跨段、跨轮的记忆支撑。
尽管当前模型架构和训练技术已使得输入长度延伸至百万级tokens,如何有效管理这些上下文并确保信息可用性,仍是关键挑战。
这些挑战主要体现在两个方面:
一是参数记忆效率(Parametric Efficiency),即如何优化KV缓存以支持高效长文本处理;
二是上下文记忆利用(Contextual Utilization),即如何在有限窗口中选择、压缩并集成多源信息,发挥“上下文记忆”的推理作用。
具体来说,KV缓存优化涉及裁剪、压缩与检索策略,力图在最小化计算开销的同时保留必要信息。
而上下文利用则涵盖检索、压缩、集成与生成等核心记忆操作,广泛应用于多轮对话、长文阅读与多模态推理任务。
作者指出,这些上下文机制本质上是构建“即时记忆”与“短期推理缓存”的技术路径,是当前AI记忆系统中不可或缺的一环。
结合RCI引用指数的分析,作者发现KV缓存压缩优化在ML社区尤为活跃,而上下文压缩与检索则是NLP领域的研究重点。
尽管相关工作已有初步成果,但在面对多源、跨模态、任务特定的复杂记忆场景时,长上下文记忆的组织与调用方式仍显不足,值得作为未来AI记忆系统构建的重要方向加以深入探索。
参数化记忆作为大语言模型中隐式编码的知识载体,是实现长期知识保持与快速调用的核心形式。
随着大模型逐步走向开放世界环境与个性化应用场景,如何在不重新训练模型的前提下,动态调控内部知识表征成为关键挑战。
本节从“编辑(Editing)、遗忘(Unlearning)、持续学习(Continual Learning)”三类操作出发,系统梳理了近期关于参数化记忆修改的研究进展。
编辑类方法旨在对模型中的特定记忆进行精准定位与修改,主流策略包括定位再编辑、元学习驱动、提示引导与外参模块等,应用广泛于实体更正与知识纠错任务;
遗忘方法则聚焦于选择性地移除敏感或错误知识,实现记忆擦除的同时保留其他无关内容,方法涵盖额外模块插入、目标函数设计与输入操控等路径;
持续学习方法通过正则化或回放机制,实现新知识的渐进融合与灾难遗忘的缓解,适用于动态任务和多阶段训练设置。
作者进一步在三个方面进行了深入讨论:
综上,作者强调:
参数记忆不仅是模型知识调控的关键接口,也是未来智能体学习能力延展的基础模块,值得围绕“表达粒度、多轮积累、语义泛化”等方向持续深入探索。
多源记忆是构建现实世界智能体的核心机制。
现代AI系统需融合内在的参数化知识与多样化的外部记忆,包括结构化数据(如知识图谱、数据库)与非结构化多模态信息(如文本、图像、语音、视频),以支撑复杂任务中的推理一致性、响应可信度与信息可追溯性。
本节围绕两大核心挑战——跨文本整合与多模态协调,系统梳理了当前主流方法与研究趋势。
在跨文本整合方面,研究主要聚焦于两类任务:
其一是多源融合,通过符号–神经混合推理、结构与非结构协同召回以及链式推理机制,推动参数化记忆与外部知识之间的深度对接;
其二是冲突处理,强调在整合异构信息时进行显式的来源归因与一致性验证,避免事实漂移与语义冲突。代表性工作涵盖上下文冲突检测、知识可信度调控与冲突消解等策略。
在多模态协调方面,研究路径沿三大方向逐步拓展:
模态融合策略从联合嵌入与提示级融合发展到基于图结构的可控对齐;
模态检索从静态相似度匹配演进为时间感知与意图驱动的动态召回;
时间建模则成为支撑多轮交互与任务延续的关键,涌现出如 WorldMem 与 E-Agent 等具备自维护能力的系统,能够实现多模态记忆的持续压缩、索引与更新,从而完成从“被动调用”向“主动演化”的范式转变。
RCI 统计显示,跨文本推理仍是当前多源记忆研究的主要阵地,尤其在结构化与非结构化知识整合方面方法体系日益成熟;
与此同时,多模态协调研究也快速兴起,在融合、检索与时序建模方向表现出显著影响力。
尽管如此,当前系统在冲突检测与跨源一致性建模方面仍存显著空缺。
未来的研究应致力于构建具备冲突感知、动态演化与时间一致性控制能力的统一多源记忆体系,以支撑真实环境中长期、多模态、多任务的智能交互。
随着AI系统从静态对话走向动态交互、长期适应与多模态融合,记忆集成正成为支撑各类现实应用的核心机制。
无论是编码通用知识的参数化模型(如编程助手、医学/法律问答)、追踪用户偏好的上下文系统(如健康陪伴与个性化推荐)、还是执行复杂任务的结构化智能体(如会议助理、代码伴侣)——都依赖于对结构化、非结构化与多模态记忆的统一调用。
代表性产品如ChatGPT、GitHub Copilot、Replika、Amazon推荐系统与腾讯 ima.copilot,体现了记忆驱动AI从“任务工具”向“长期伙伴”的范式转变。
在工具层面,记忆增强系统逐步构建出从底层组件(向量数据库、检索器、LLM)到操作框架(LangChain、LlamaIndex、Graphiti)再到完整服务平台(Mem0、Zep、Memary)的生态体系。
它们支撑长期上下文管理、个体状态建模、知识保持与行为调节等关键能力,并正推动“记忆即服务”的工程化实现。
作者在附录中详尽的分析了记忆相关的组件,框架,服务以及产品。
作者进一步详细分析了人类与人工智能系统的记忆的相似点和不同点。
具体来说,二者在机制虽然在功能上高度趋同——都支持学习、推理与决策,并在多时间尺度上组织信息——但其底层实现却体现出本质本别。
但在人类大脑中,记忆由神经网络隐式编码,依赖情绪、语境和联想触发,更新常常间接且带有偏误。
而在AI系统中,记忆可以是显式存储的结构化数据或模型参数,通过检索、重写或压缩策略高效更新,具有可追踪与可编程性。
两者在以下关键维度上差异显著:
要构建真正具备长期适应、跨模态理解与个性化推理能力的AI系统,记忆机制必须迈向新一轮突破。
本研究基于RCI分析与最新趋势,系统梳理了记忆增强AI的未来关键方向:
在该文提及的主题层面,当前AI系统仍面临一些关键挑战:长期记忆缺乏统一评估,导致检索内容与生成输出脱节;长上下文建模难以兼顾效率与表达能力;参数化记忆的修改与擦除机制缺乏控制力与可扩展性;多源记忆融合中普遍存在冲突、不一致与压缩瓶颈。
在前沿视角上,研究者正积极探索更具人类认知特征的机制:如何构建支持时间感知的时空记忆?如何实现从模型参数中直接“检索知识”?如何融合结构化、非结构化与向量记忆实现持续学习?作者也从类脑架构中获得启示——双通道巩固、层级抽象、有限容量与再激活机制为AI提供了新的记忆组织范式。
此外,统一表示体系、群体记忆架构与安全可控的忘忆机制也日益重要。AI系统正从“有记忆”走向“会使用记忆”,而未来的智能体必须具备自我维护、可解释、可协同的全链条记忆能力。
论文地址:https://arxiv.org/abs/2505.00675
Github地址:https://github.com/Elvin-Yiming-Du/Survey_Memory_in_AI
文章来自微信公众号 “ 量子位 ”,作者 AI记忆机制团队
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI