AI用3年时光，来了解你！首个AI Clone长期记忆基准

11036点击 2026-01-22 10:11

现有AI记忆评测存在局限，如数据源单一、忽视变化本质、注入成本高等。CloneMem通过层次化生成框架构建合成人生，设计贴近真实场景的评测任务，涵盖多种问题类型。实验发现简单方法在检索上更有效，复杂系统会丢失关键细节，记忆系统应保留细节和时间脉络，还原而非压缩信息，以更好地理解人。

AI数字分身正在从科幻走向现实：帮你回邮件、管理日程，甚至可以直接替你和别人coffee chat。

但问题是：AI如何深度了解你并与你保持同步？

不仅要「知道」你叫什么，住在哪里，喜欢听什么音乐，喜欢吃什么，更要「持续了解」：这几年你经历了什么、你的想法是如何一步步转变的、为什么去年你想要跳槽，但今年却想要留下。

这些，才真正定义了你是谁。

针对这一问题，开源学术社区QuantaAlpha 联合国内外知名高校团队提出了CloneMem——首个专门评估AI Clone长期记忆能力的基准测试，并提供了中英文双语版本。

AI用3年时光，来了解你！首个AI Clone长期记忆基准

论文链接：https://arxiv.org/pdf/2601.07023

代码数据：https://github.com/AvatarMemory/CloneMemBench

AI用3年时光，来了解你！首个AI Clone长期记忆基准

AI Clone 应用场景示意图

人生的关键变化

往往不发生在聊天框里

现有AI记忆评测主要考察模型能否记住用户与AI之间说过的话。但这套评测范式存在三个根本局限：

数据源单一。

仅依赖用户与AI的对话记录，而这些记录往往只反映了生活中的某些片段。更关键的是，对话内容高度依赖用户主动表达，本身就已经经过个人的二次叙述，很难还原一个人真实而连续的生活轨迹。

忽视「变化」的本质。

现有基准关注的是「AI 能否记住某个事实」，而非「AI 能否理解这个人是怎么一步步变成现在这样的」——经历如何塑造情绪，情绪如何影响观点，观点又如何左右选择。

注入成本高。

想让AI了解你，你得不断主动和它聊。但谁有时间每天给AI写日记？这种机制难以长期维持。

AI用3年时光，来了解你！首个AI Clone长期记忆基准

CloneMem与现有记忆评测基准对比

数据怎么造？

层次化生成一个合成人生

真实用户数据涉及隐私，研究团队设计了一套层次化生成框架：

宏观层面，基于大五人格初始化人物设定，构建职业、家庭、情绪、价值观等长期人生弧线；中观层面，将每个重大事件拆分为多个阶段，维护内部状态快照（能量、压力、情绪、关注焦点），状态在阶段间传递以保证连贯性；微观层面，为每个阶段生成具体事件，并同步产出日记、帖子、消息等多种媒介内容。

这种自顶向下的设计确保了经历、情绪、观点在长时间跨度上保持一致。

AI用3年时光，来了解你！首个AI Clone长期记忆基准

CloneMem 完整的数据构建流程

面向真实交互场景的评测任务设计

CloneMem设计了一系列贴近真实使用场景的评测任务。所有问题都从「与AI Clone聊天的朋友」视角出发，而不是系统自问自答。

提问者像现实中的熟人一样，会在不同时间点向AI Clone询问你的近况和想法。

更关键的是，这些问题不是集中在某一个时间段，而是贯穿在你完整的人生时间线上，这也就意味着模型需要在横跨数年的日记、社交媒体、聊天记录和邮件等多源记录里，找到关键信息，并理解经历如何影响情绪，情绪如何塑造观点，观点又如何推动选择，才能做出正确的判断。

AI用3年时光，来了解你！首个AI Clone长期记忆基准

CloneMem评测任务示例

CloneMem设计了7种问题类型，涵盖了事实回忆、规律识别、变化对比、长期轨迹理解、因果推理、反事实推理，以及无法回答的情况。

而考虑到在真实场景下的开放式问答难度不低，CloneMem也为每道简答题设计了对应的选择题版本，用来降低难度。

实验发现

简单方法反超，复杂系统压缩掉关键细节

研究团队从检索能力、记忆有效性和回答一致性等多个维度，对Flat Retriever、A-MEM和Mem0三种记忆系统进行了评估，结果却有些出人意料。

在检索层面，简单方法反而更有效

在多数指标上，最简单的Flat Retriever表现最好。原因是抽象和总结虽然有助于搜索，但会损失细节保真度。而AI Clone任务高度依赖时间顺序、原始表述、事件间的细微关联，而这些信息往往在摘要的过程中被压缩掉了。

AI用3年时光，来了解你！首个AI Clone长期记忆基准

不同记忆系统的 QA 性能与记忆效用对比（Oracle 为使用真实上下文的上界）

在表征层面，记忆系统只记事件，而不记状态

以老沈为例，他正在经历中年危机，连续两周在凌晨浏览招聘网站，搜索各种岗位信息。记忆系统非常诚实的记下了这些行为，但无法表征他还在犹豫，一份简历都没投出去的状态。

因此当被问到老沈有没有看重的公司时，模型面对一堆求职相关的行为记录，自然会脑补出老沈看重了几家公司，然而实际上，他什么都没有决定。

在生成层面，模型容易被叙事惯性所带偏

即使检索到了正确的信息，模型仍然倾向于套用高概率叙事模板，而并没有依据事实证据。比如当问老沈为什么愿意向妻子敞开心扉，正确答案是他意识到长期强撑正在伤害家庭，模型却回答女儿的一幅画触动了他，这听起来很合理，但证据完全对不上。

对记忆系统设计的启示

CloneMem的实验结果指向一个核心问题：当前的记忆系统把记住当成了目标，但AI Clone真正需要的是还原。

这意味着记忆系统不能只做信息压缩，而要保留原始表述和时间脉络；不能只记发生了什么事，还要能表征一个人正在经历什么阶段；不能总是给出答案，而要在证据不足时学会说不知道。

换句话说，AI Clone的记忆不应该是一个越压越小的知识库，而应该是一个保留完整证据链的底座，因为理解一个人，靠的不是摘要，而是细节。

QuantaAlpha

QuantaAlpha成立于2025年4月，由来自国内外知名院校的老师和学生组成，使命是探索智能的「量子」，引领智能体研究的「阿尔法」前沿，从CodeAgent到自进化智能，再到金融与跨领域专用智能体，致力于重塑人工智能的边界。

2026年，研究团队将在CodeAgent、DeepResearch、Agent Memory、Agentic Reasoning/Agentic RL、自进化与协同学习等方向持续产出高质量研究成果，欢迎对我们方向感兴趣的同学加入我们！

AI用3年时光，来了解你！首个AI Clone长期记忆基准

团队主页：https://quantaalpha.github.io/

参考资料：

https://arxiv.org/pdf/2601.07023

文章来自于“新智元”，作者 “LRST”。

关键词: 模型训练 , AI记忆 , CloneMem , AI Clone长期记忆能力基准测试

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT