谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

10011点击 2025-12-08 14:41

最近，Google Research 发布了一篇 Blog《Titans + MIRAS：帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存，从而更快地工作并处理海量上下文。这篇 Blog 虽然没有提及 Gemini 3.0，但发布的时间和 Gemini 3.0 重合，业界认为这是“底层研究技术 vs. 上层产品模型”：它向业界宣告——Gemini 3.0 之所以强大，不仅仅是因为堆了更多 GPU，而是因为在底层架构上（Titans）和理论框架上（MIRAS）取得了质的突破。

过去：Transformer 时代（Gemini 1.0 / 1.5）

现在：Titans 时代（Gemini 3.0 及未来模型）

接下来，在这篇blog的基础上简要介绍一下这两篇论文。

Transformer 架构 ^[1]引入了注意力 ^[2]机制，彻底革新了序列建模。 ^[3] 注意力机制使模型能够回顾早期输入，从而优先处理相关的输入数据。然而，计算成本会随着序列长度的增加而急剧上升，这限制了基于 Transformer 的模型扩展到超长上下文的能力，例如全文档理解或基因组分析所需的上下文。

研究界探索了多种解决方案，例如高效的线性循环神经网络 ^[4] （RNN）和状态空间模型 ^[5] （SSM），如 Mamba-2 ^[6] 。这些模型通过将上下文压缩到固定大小来实现快速线性扩展。然而，这种固定大小的压缩无法充分捕捉超长序列中丰富的信息。

在两篇新论文 Titans ^[7] 和 MIRAS ^[8] 中，我们提出了一种架构和理论蓝图，它结合了循环神经网络 (RNN) 的速度和 Transformer 的精度。Titans 是具体的深度记忆架构（工具），而 MIRAS 是统一长序列模型设计的理论框架（蓝图）。两者共同推进了“测试时记忆”(test-time memorization)：模型在推理时像在线元学习器一样更新记忆，无需离线再训练即可持续吸收新信息，并用“惊喜度”作为写入/遗忘的核心信号。

如 Titans 所展示的，MIRAS 框架实现了向实时自适应的重要转变。该架构并非将信息压缩成静态状态，而是随着数据流的流入主动学习并更新自身参数。这一关键机制使模型能够即时将新的、具体的细节融入其核心知识中。

泰坦：快速学习新知识

有效的学习系统需要独立但相互关联的记忆模块，这反映了人脑短期记忆和长期记忆的分离 ^[9] 。

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

虽然注意力机制擅长精确的短期记忆，但 Titans 引入了一种新型的神经长期记忆模块 ^[10] 。与传统循环神经网络（RNN）中固定大小的向量或矩阵记忆不同，该模块以深度神经网络（具体来说，是一个多层感知器 ^[11] ）的形式运行。这种记忆模块显著提升了模型的表达能力，使其能够在不丢失重要上下文的情况下概括大量信息。该模型并非简单地记录信息，而是理解并综合整个故事。

至关重要的是，Titans 并非被动地存储数据。它会主动学习如何识别并保留连接整个输入数据中各个标记的重要关系和概念主题。这种能力的关键在于我们称之为“惊喜指标”的东西。在人类心理学中，我们知道我们很容易忘记那些例行的、预期的事件，但却会记住那些打破常规的事情——意料之外的、令人惊讶的或情绪激动的事件。

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

Titans（MAC）架构概述。它使用长期记忆来压缩历史数据，然后将摘要整合到上下文中并传递给注意力机制。注意力机制随后可以决定是否需要关注历史摘要。

在 Titans 的背景下，“惊喜指标”是指模型检测到它当前记忆的内容与新输入告诉它的内容之间存在较大差异。

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

低惊喜度：如果新词是“猫”，而模型的记忆状态已经预期会有一个动物词，那么梯度（惊喜度）就很低。它可以安全地跳过将“猫”这个词记忆到其永久长期记忆状态。

高惊喜度：如果模型的记忆状态正在总结一份严肃的财务报告，而新的输入是一张香蕉皮的图片（惊喜事件），则梯度（惊喜度）将非常高。模型非常惊喜，这表明新的输入很重要或异常，必须优先将其永久存储在长期记忆模块中。

该模型使用这种内部误差信号（梯度）作为数学上的等价物，表示“这是出乎意料且重要的！”这使得 Titans 架构能够选择性地仅使用最新颖和打破上下文的信息来更新其长期记忆，从而保持整个过程的快速和高效。

Titans 通过融入两个关键要素来改进这一机制：

动量：该模型同时考虑“瞬时惊喜”（当前输入）和“过去惊喜”（近期上下文流）。这确保了即使后续信息本身并不令人惊喜，也能被捕捉到相关的后续信息。
遗忘（权重衰减）：为了在处理极长序列时管理有限的内存容量，Titan 模型采用了一种自适应权重衰减机制。该机制如同一个遗忘门，允许模型丢弃不再需要的信息。

论文还给出了三种将长期记忆融入主干的具体形态（对应论文中的 MAC / MAG / MAL）：

MAC（Memory-as-Context）：长期记忆生成摘要并直接拼接到注意力上下文；
MAL（Memory-as-Layer）：把长期记忆作为独立层插入网络；
MAG（Memory-as-Gate）：为注意力分支添加可学习的门控，与核心记忆动态融合。

MIRAS：序列建模的统一视图

序列建模的每一次重大突破——从现代的 Transformer 到速度极快的新型线性 RNN——其底层本质上都是同一件事：一个高度复杂的联想记忆 ^[12]模块。

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

因此，MIRAS 之所以独特且实用，在于它看待人工智能建模的方式。它不把不同的架构视为不同的问题解决方法，而是将其视为解决同一问题的不同途径：高效地将新信息与旧信息相结合，同时又不遗漏关键概念。

MIRAS 通过四个关键设计选择定义了序列模型：

内存架构：存储信息的结构（向量、矩阵或 Titans 所用的深度多层感知器），决定容量与表达力。
注意力偏差：内部的“记忆目标函数”，不局限于 MSE/点积，也可以是 Huber、Lp 等以提升鲁棒性或选择性。
记忆保持闸门：遗忘/保留的正则或门控，调节新旧信息的平衡。
内存算法：更新记忆的优化方式，可用梯度下降、带动量的 GD，甚至 Newton 或非参数方案。

在 MIRAS 框架中，我们的目标是学习一个关联记忆，建立键值对之间的映射关系。对于每个词元，记忆模块会在内部优化其注意力偏差，同时利用其保持门来确保其不会偏离过去的状态。优化过程通过基于梯度的优化器完成。

超越均方误差范式

几乎所有现有的成功序列模型都依赖均方误差 ^[13] (MSE) 或点积相似性 ^[14]来确定偏差和保留率。这种依赖性会使模型对异常值敏感，并限制其表达能力。

MIRAS 突破了这一局限，提供了一个生成式框架，用于探索更丰富的、受优化和统计学文献启发的设计空间。这使得创建具有非欧几里得目标 ^[15]和正则化的新型架构成为可能。

利用 MIRAS，我们创建了三个特定的无注意力模型：

YAAD ：我们设计的这款 MIRAS 变体对重大错误或“异常值”（例如大型文档中的单个拼写错误）的敏感度较低。它采用更温和的数学惩罚（ Huber 损失 ^[16] ）来处理错误，因此不会对个别问题反应过度。这使得模型在输入数据混乱或不一致的情况下也更加稳健。

MONETA ：该模型探索了使用更复杂、更严格的数学惩罚（称为广义规范 ^[17] ）的方法。它研究了对于模型关注的内容和遗忘的内容，使用这些更严格的规则是否能够构建一个更强大、更稳定的长期记忆系统。

MEMORA ：该模型致力于通过强制其内存像严格的概率映射一样运行，来实现最佳的内存稳定性。通过这种约束，它确保每次更新内存状态时，变化都得到控制和平衡，从而在长序列写入时保持平滑且稳定的演化。上述三种变体共同说明，偏差/正则的组合可以跳出传统的 MSE + 点积假设，获得更稳健的长程记忆。

实验及结果

我们对 Titans 以及 MIRAS 的变体（YAAD、MONETA、MEMORA）与包括 Transformer++ ^[18] 、 Mamba-2 ^[19] 和 Gated DeltaNet ^[20] 在内的领先架构进行了严格的比较。我们还通过在基因组建模（DNA）和时间序列预测上测试 Titans 来进一步验证其通用性，证明该架构能够有效地泛化到文本以外的领域。

在标准语言建模数据集（ C4 ^[21] 、 WikiText ^[22] ）和零样本推理任务 ^[23] （ HellaSwag ^[24] 、PIQA）中，我们的模型始终表现出更高的准确率和困惑度 ^[25] （衡量语言建模模型在查看一段文本时感到惊讶的程度）。

深度记忆的力量

消融实验清楚地表明，记忆架构的深度至关重要。比较相同大小但深度不同的长期记忆模块时，记忆深度更深的模块在语言建模中始终表现出更低的困惑度。此外，它们还展现出更好的扩展性，即使序列长度显著增加，也能保持性能。

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

记忆深度对 360M 和 760M 参数尺度下的困惑度的影响。

语言建模和效率

在语言建模和常识推理任务中，Titans 架构的性能优于目前最先进的线性循环模型（例如 Mamba-2 和 Gated DeltaNet）以及规模相近的 Transformer++基线模型。新型 MIRAS 变体（MONETA、YAAD 和 MEMORA）的性能也优于这些基线模型，验证了探索稳健的非均方误差（MSE）优化机制的优势。更重要的是，这些模型保持了高效的并行训练和快速的线性推理速度。

极强的长期回忆能力

这些新架构最显著的优势在于它们能够处理极其长的上下文。BABILong 基准测试突显了这一点，该测试要求对分布在极长文档中的事实进行推理。在这种极具挑战性的环境下 27 ^[26]，Titans 的性能优于所有基线模型，包括像 GPT-4 这样规模庞大的模型，尽管其参数量要少得多。Titans 还进一步证明了其能够有效地扩展到超过 200 万个 token 的上下文窗口大小。

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

泰坦在极端长上下文推理中的表现。

结论

Titans 和 MIRAS 框架的引入标志着序列建模领域的重大进步。这些方法采用深度神经网络作为记忆模块，使其能够在数据输入过程中学习记忆，从而克服了固定大小循环状态的局限性。此外，MIRAS 提供了一个强大的理论统一框架，揭示了在线优化、联想记忆和架构设计之间的联系。通过超越标准的欧几里得范式，这项研究为新一代序列模型打开了大门，这些模型将循环神经网络的高效性与长上下文人工智能时代所需的表达能力相结合。

需要注意的是Titans 的核心在于TTL“测试时学习”，即模型上线后，在与用户对话的过程中，它的记忆参数是可以实时更新的。而Gemini 3.0 的一大卖点是“动态推理”和“个性化记忆”。这意味着当你纠正 Gemini 3.0 后，它能在当前的对话流中真的“学会”并记住这个纠正，而不是仅仅把它放在上下文窗口里。这正是 Titans 架构带来的核心能力。或许，AI记忆每一个人的时代伴随着Titans开启了。

Google Research Blog ^[27]

References

引用链接

[1] Transformer 架构:https://en.wikipedia.org/wiki/Transformer_(deep_learning)

[2]注意力:https://en.wikipedia.org/wiki/Attention_%28machine_learning%29

[3]序列建模。:https://medium.com/machine-learning-basics/sequence-modelling-b2cdf244c233

[4]循环神经网络:https://www.d2l.ai/chapter_recurrent-modern/index.html

[5]状态空间模型:https://huggingface.co/blog/lbourdois/get-on-the-ssm-train

[6]Mamba-2:https://arxiv.org/pdf/2405.21060

[7]Titans:https://arxiv.org/abs/2501.00663

[8]MIRAS:https://arxiv.org/pdf/2504.13173

[9]人脑短期记忆和长期记忆的分离:https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

[10]长期记忆模块:https://arxiv.org/abs/2306.07174#:~:text=LongMem%20can:%20*%20Memorize%20long%20past%20context,Yan%20*%20Jianfeng%20Gao%20*%20Furu%20Wei

[11]多层感知器:https://en.wikipedia.org/wiki/Multilayer_perceptron

[12]联想记忆:https://www.geeksforgeeks.org/computer-organization-architecture/associative-memory/

[13]均方误差:https://en.wikipedia.org/wiki/Mean_squared_error

[14]点积相似性:https://medium.com/advanced-deep-learning/understanding-vector-similarity-b9c10f7506de

[15]非欧几里得目标:https://en.wikipedia.org/wiki/Non-Euclidean_geometry

[16]Huber 损失:https://en.wikipedia.org/wiki/Huber_loss

[17]广义规范:https://en.wikipedia.org/wiki/Norm_(mathematics)

[18]Transformer++:https://arxiv.org/abs/2003.04974

[19]Mamba-2:https://arxiv.org/pdf/2405.21060

[20]Gated DeltaNet:https://arxiv.org/pdf/2412.06464

[21]C4:https://c4model.com/

[22]WikiText:https://huggingface.co/datasets/Salesforce/wikitext

[23]零样本推理任务:https://medium.com/@hetzer2807/zero-shot-reasoning-unleashed-the-magic-of-large-language-models-4e877dfe470e

[24]HellaSwag:https://arxiv.org/abs/1905.07830

[25]困惑度:https://en.wikipedia.org/wiki/Perplexity

[26]27:https://github.com/booydar/babilong

[27]Google Research Blog: https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

文章来自于“Al修猫Prompt”，作者“Al修猫Prompt”。

关键词: AI , 模型训练 , Titans , Miras

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0