AI终于有了「永久记忆」!今天,超级记忆系统ASMR重磅登场,在业界公认最难AI记忆考试中,刷爆SOTA拿下99%成绩。全网直呼太疯狂。
AI记忆难题,已彻底被解决?

今天,一个Supermemory团队爆火出圈,向全世界扔出了一颗核弹——
超级记忆系统「ASMR」问世,把AI记忆界最难考试LongMemEval,刷到了99%准确率。

全球数十亿Agent都需要记忆,而如今,AI「健忘症」几乎被攻克了。
是的,你没有听错!
ASMR以近乎无敌的姿态刷爆SOTA,一时间登上了今天X的热榜。


它抛弃了传统的「向量数据库」,抛弃了嵌入(embedding)模式,完全在内存中运行。
这一次,ASMR全程采用「多Agent并行推理」的流水线,具体分工如下:
3个「观察者Agent」并行读取原始数据,提取个人信息、偏好、时间线等六大维度信息;
当用户提问时,再派出3个「搜索Agent」进行主动推理检索。
如今,全网被「太疯狂了」刷屏了。




值得一提的是,ASMR将于4月初开源全部代码,AI记忆的「大航海时代」正式开启!
首先,还是要mark下这篇博客第一句话——
AI Agent的记忆问题现在可能已经完全解决了。

几个月前,Supermemory祭出首份研究报告,便在LongMemEval-s测试中拿下了85%的成绩。
这一分数,早就领先于当时所有公开的记忆系统。
而今天,超级记忆系统「ASMR」(智能体搜索与记忆检索)的出世,再一次刷新了纪录。
它的技术实现,非常简单。
不需要向量数据库、嵌入(embeddings),直接完全在内存中运行。
这意味着,它可以被内嵌到其他系统中,甚至是机器人等硬件中。
那么,ASMR具体是如何被打造出来的?
ASMR:多Agent并行干活
要知道,LongMemEval是目前公开可见的、最严苛的长期记忆基准测试之一。
很多基准测试只考量短上下文中的简单检索,但LongMemEval不同,它旨在模拟真实生产环境中的各种混乱情况:
在超11.5万智元(Token)的对话历史、相互矛盾的信息、跨越多个会话的零散事件,还需进行时间推理的复杂问题。

大多数记忆系统表现不佳,问题往往出在「检索」上,而不是推理上。
即便召回率很高,如果检索过程中伴随着大量噪音,LLM同样很难利用这些信息。
首要难题在于,如何只将正确的信息放入上下文窗口;更困难的是——如何判断检索到的事实已经过时,并已经被更新的版本所取代。
不仅如此,标准的向量搜索在多数情况下都很好用。
但在处理信息密度高、跨越多会话的时序数据细节时,它就力不从心了。语义相似度匹配无法可靠地区分某个事实是「旧信息」还是「新修正」。
为了应对LongMemEval的复杂性,必须从头开始重新构思信息摄取与检索管道,用主动的Agent推理来取代向量数学计算。
由此,团队跳出了传统RAG框架,构建了一个「多Agent协同编排」的管道。
就像ASMR一样,这项技术简单直白,且让人极度舒适。
观察者Agent:并行摄取
首先,部署一个由3个并行读取器——观察者Agent,组成的智能体编排器。
它们背后由Gemini 2.0 Flash加持,不用针对用户对话进行分块和嵌入就能执行任务。
这些Agent会并发地阅读原始会话,比如,Agent 1负责会话 1、3、5;Agent 2负责 2、4、6。
观察者Agent目标是围绕「六个维度」进行定向的知识提取:个人信息、偏好、事件、时序数据、信息更新、助手信息。
然后,这些结构化的发现会被「原生存储」,并映射回它们的源会话中。
搜索Agent:主动检索
当接收到问题时,ASMR不会去查询向量数据库。
通过部署的3个并行的「搜索Agent」,这些AI会主动阅读并推理已存储的发现,每个Agent都有专属的侧重点:
Agent 1:搜索直接事实和明确陈述;
Agent 2:寻找相关的上下文、社交线索和暗示;
Agent 3:重建时间线和关系图谱。
编排器会汇总所有三个「搜索Agent」的发现,并提取原文会话的逐字片段来进行细节验证。
这种机制使得系统能够基于真实的认知理解来进行智能检索,而不仅仅是依赖关键词或数学上的相似度。
一旦上下文整合完成,单一的提示词无法应对LongMemEval中种类繁多的问题。
有些问题需要推断细节,而有些则要求给出极其具体的答案。
接下来,Supermemory尝试了两种截然不同的AI Agent回答工作流。

8变体集群(98.6%准确率)
将检索到的上下文路由给并行运行的8个高度专业化的提示词变体。
比如,精准计数器、时间专家、Context Deep Dive等,每个变体都会独立评估上下文并生成答案。
如果这8条截然不同的推理路径中,有任何一条成功得出了正确答案(Ground Truth),该问题就会被标记为正确。
这种并行的多重判断方法,让ASMR达到了惊人的98.60%整体准确率,完美覆盖了盲区。

12变体决策森林(97.2%准确率)
为了测试一个旨在产出单一、权威答案,而依赖多次独立尝试的系统,团队又将ASMR扩展为了一个包含12个变体的决策森林。
在这里,12个高度专业化的AI Agent(由GPT-4o-mini驱动)独立回答提示词。
并且, 还引入了一个「聚合大模型」作为最终的裁判。
聚合器通过多数投票、领域信任度和冲突解决机制来综合这12个答案。
这种单一的共识模型,同样取得了高达97.2%的惊人准确率。

需要说明的是,ASMR目前还没有用在Supermemory的核心生产环境中。

这次实验不仅刷新了数据,更验证了几个关键观点:
但如果你以为ASMR只是一个刷榜实验,那就太小看这个团队了。
ASMR背后,是一个叫Supermemory的完整记忆引擎——一套面向所有AI应用的记忆与上下文基础设施。
Your AI forgets everything between conversations. Supermemory fixes that.
你的AI在对话之间什么都记不住,Supermemory来修。

GitHub地址:https://github.com/supermemoryai/supermemory
记忆≠RAG,这是两件事
前面说的ASMR,解决的是「怎么从海量对话里精准找到正确信息」。
但Supermemory要解决的问题更大:让AI真正拥有记忆,而不只是检索。

区别在于,RAG不认人,今天给张三返回的结果和明天给李四的一模一样;而Supermemory会从对话中主动提取事实,追踪变化,处理矛盾,甚至自动遗忘。
举个例子,你上个月跟AI说「我住在北京」,这个月又说「我刚搬到上海」。RAG会把两条信息都丢给大模型,让它自己猜。Supermemory知道后者覆盖了前者,只返回「上海」。
更狠的是「自动遗忘」机制。你说「我明天有个考试」,等日期过了,这条记忆自动失效。临时事实不会变成永久噪音。
Supermemory默认把RAG和记忆合并在同一次查询里跑,知识库检索和个性化上下文一次返回。
50毫秒,一个API调用搞定用户画像
记忆之外,Supermemory把用户画像也一并接管了。
传统方案里,你想让AI「认识」一个用户,需要自己搭建用户画像系统,手动维护标签、偏好、历史行为。Supermemory把这件事全自动化了。
它会把用户信息拆成两层:
一次API调用,延迟约50毫秒,你的Agent就知道对面坐的是谁。
把这个画像注入system prompt,Agent瞬间从「陌生人模式」切换到「老朋友模式」。
「全家桶式」的连接能力
记忆光靠对话还不够,Supermemory还接通了一整套外部数据源。
Google Drive、Gmail、Notion、OneDrive、GitHub,全部通过实时Webhook自动同步。

文档上传后自动处理,PDF解析、图片OCR、视频转录、代码AST级分块。传上去就能搜,零配置。
对开发者来说,集成成本被压到了最低。
npm装一个包,几行代码就能给自己的Agent加上完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK、Mastra,主流AI开发框架全部有现成的封装。

内置Claude Code、OpenCode、OpenClaw插件
甚至不写代码也行。
Supermemory提供了MCP服务器,一行命令安装,Claude Desktop、Cursor、Windsurf、VS Code直接用。
从实验到产品,Supermemory团队做的事情其实可以用一句话概括:把AI的「工作记忆」从一个附加功能,变成一层基础设施。
过去几年,大模型的竞争集中在参数规模、推理速度、上下文窗口长度。
但一个128K上下文窗口再大,对话结束就清空,下次见面还是陌生人。
记忆才是让AI从「工具」变成「搭档」的最后一块拼图。
当每一个Agent都能记住你是谁、你在做什么、你上次说到哪里,人机交互的体验会出现一次静悄悄的质变。
不是AI变聪明了,而是它终于不再失忆了。
参考资料:
https://x.com/DhravyaShah/status/2035517012647272689?s=20
文章来自于“新智元”,作者 “桃子 好困”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0