具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆
6441点击    2025-11-08 11:11

每次跟AI开聊都像重新认识一个陌生人,还得从头开始了解。


现在不用重新教了,新记忆系统让具身智能体秒变熟人。


智源研究院(BAAI)、Spin Matrix、乐聚机器人与新加坡南洋理工大学等联合提出了一个全新的终身记忆系统——RoboBrain-Memory


RoboBrain-Memory是全球范围内首个专为全双工、全模态模型设计的终身记忆系统,旨在解决具身智能体在真实世界的复杂交互问题,不仅支持实时音视频中多用户身份识别与关系理解,还能动态维护个体档案与社会关系图谱,从而实现类人的长期个性化交互。


下面具体来看。


模型架构:异步进程、两级系统,让“记忆”可存、可联、可用


RoboBrain-Memory的核心架构以三大异步进程与两级记忆体系为基础,实现“记忆”的可存、可联、可用。


三大异步进程:支撑用户建档、识别、个性化对话全流程


RoboBrain-Memory的记忆单元(Memory Unit)以文本形式存储每个用户的档案信息,包括姓名、相关事实、对话历史、性格偏好信息等。


除此之外,用户之间的社交关系图或其他文本参考信息也可以作为可选项进行存储。这些记忆单元的内容会作为上下文实时地插入主对话的多模态 token 流的固定区段内,从而实现个性化对话。


具体说,RoboBrain-Memory 的设计围绕三大异步进程展开,模拟了人类的记忆形成机制:


  • 检索进程(Retrieval Process)
  • 检索进程赋予了模型卓越的感知能力。通过视觉(人脸)与听觉(声纹)检索用户档案库,让系统能实时“认出”对话的你;同时,文本检索则根据聊天内容,从用户档案库中捞取相关事实与关系。
  • 全模态交互进程(Omnimodal Interaction Process) 对话进程结合对话上下文与检索到的用户档案,调用主模型生成个性化、实时的语音回复。团队使用RoboEgo作为主模型。它不仅具备全模态交互能力,其原生全双工架构更是实现了“毫秒级”的响应延迟。这意味着与模型的对话可以像真人交流一样自然流畅。该模型在日常对话中的回复内容质量也与Qwen-2.5-Omni等顶尖模型持平。
  • 记忆管理进程(Memory Management Process) 记忆管理进程主要承担两项记忆管理功能:(1)从历史视听流中自动检测对话边界,并提取关键信息,形成事件记忆(Episodic Memory),结合该信息与当前用户已有的档案,对记忆单元进行更新。(2)在后台整合已有的记忆内容,提炼出新的记忆,通过自我更新实现记忆重塑(Memory Reconsolidation)。


两级记忆系统:从个人档案到社交图谱


RoboBrain-Memory将记忆信息划分为Level-1和Level-2两个层级。


  • Level-1:个人档案记忆,记住“你是谁”


具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆


它如同每位用户的专属资料库,精准记录从历史对话中获知的用户姓名、喜好等关键信息,确保AI能识别并理解每一个独立的你。其运行机制如下:


  1. 身份识别:对话过程中定期通过匹配人脸和声纹,确定当前对话用户。
  2. 人格注入:在对话用户切换时,将新用户的档案置入模型的固定内存区(Level-1 MemChunk)。
  3. 个性化回复:模型结合实时视听流和当前用户档案,生成个性化回复。
  4. 档案更新:定期通过总结用户的对话内容,异步更新其个人档案。


  • Level-2:关系驱动记忆,理解“你们的关系”


具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆


在Level-1基础上,它进一步构建了用户之间的社交记忆网络。这使得AI不仅能看懂个体,更能洞察群体,并能在对话中主动调用个体间关系信息,让交流更符合社交情境。其运行机制如下:


  1. 继承与扩展:完全继承Level-1所有功能,并新增以三元组形式存储的用户关系图。
  2. 主动检索:模型可根据对话上下文,主动生成查询来检索关系图和相关用户档案。
  3. 增强回复:检索到的关系信息被置入另一个固定内存区(Level-2 MemChunk)。
  4. 综合生成:模型结合实时视听流、个人档案和关系信息,生成更合理的回复。
  5. 图谱更新:记忆管理系统在更新个人档案的同时,也会相应更新用户关系图。


核心创新:面向视听流的全模态检索、记忆管理、模型训练


为了支持异步进程+两级记忆系统这一核心架构,团队开发了三个关键子模块:


全模态检索系统


通过高效的人脸识别(Retinaface+Facenet512)与声纹识别(微调 WavLM),系统可实时精准地识别用户身份,并自动为新用户创建档案。文本检索采用BM25和BGE-small向量模型,实现关系查询和事实检索的两阶段融合,显著提升了多用户、多关系场景下的信息检索效率与准确率。


视听流终身记忆管理


引入RQ-Transformer触发器,实现对音视频流的序列标注,精准定位每一轮对话的起止。结合大模型能力,系统可自动完成事件总结、档案与关系图谱的动态更新,实现记忆的持续进化和自我修正。


基于监督mask的统一训练框架


通过合成多用户“听、说、文本”三轨token流,系统进行大规模数据增强。在训练阶段,采用分时区监督mask对多种任务的数据组织结构进行统一,赋予模型个性化对话生成、主动查询和对话边界识别三大能力。


具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆


能力验证


系统能力通过多项权威评测全面验证:


  • 检索性能:在人脸识别(LFW)、声纹识别(VoxCeleb)及自建多用户文本检索测试集上,分别取得98.4%准确率、<1% 等错误率(EER)及96%以上文本pass@5,响应延迟低于0.2秒,满足实时需求。
  • 对话边界识别:在自建多用户数据集上,触发器模块在0.4秒容错下识别率超98%,且具备出色的抗噪声能力。
  • 个性化对话能力:经RoboEgo主模型微调,在噪声环境下实现87.6%事实正确性和8.82/10回答质量,系统吞吐速率>20fps,远超实时语音对话需求。


这些结果表明,RoboBrain-Memory不仅在标准评测下表现优异,更在真实多用户、复杂环境下实现了稳定、可靠的终身记忆与个性化交互。


构筑人机协作的新基石


RoboBrain-Memory 为具身智能理解人类意图与社会关系提供了一个新的起点。系统已在实现个性化、社会化的长期人机协作方面展现出潜力,并具备以下关键场景的应用前景:


  • 融入家庭环境:系统能够识别并利用家庭成员间的社会关系模型,支持执行高阶、非结构化的语义指令,例如“将药物递给奶奶”、“下午提醒爸爸买菜”。
  • 提升专业协作效能:在高协作要求的专业环境(如实验室、工厂、医院等),系统能够基于身份和角色的指令(“把报告交给张主任”)精准响应,优化人机协作,提升工作效率。
  • 支持认知辅助:该系统的长期记忆框架有望作为认知辅助技术的基础,帮助有需要的人群更有效地进行社会连接和任务管理,也让更自然、更有温度的长期伙伴关系成为可能。


作为智源研究院探索具身智能如何融入人类社会环境的一次重要尝试,RoboBrain-Memory也开启了一个重要的研究前沿:如何将这种基于社会记忆和关系的理解能力,转化为可泛化、可信赖的长期人机伙伴关系?


团队期待与学界及产业伙伴一道,在家庭、医疗、科研等更广泛的场景中,深化对RoboBrain-Memory系统的探索,推动技术扎实落地,让机器真正融入生活,读懂你我。


感兴趣的朋友可阅读技术报告了解更多内容~


技术报告:https://arxiv.org/abs/2509.11914


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales