继2025推理模型之后，2026「递归模型」RLM要火了。

5876点击 2026-01-04 11:43

2025年的最后一天， MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口（Context Window），试图将窗口拉长到100万甚至1000万token时，这篇论文却冷静地指出了一个被忽视的真相：这就好比试图通过背诵整本百科全书来回答一个复杂问题，既昂贵又低效。

他们正式提出了递归语言模型（Recursive Language Models, RLM）。聚焦于如何在不重新训练模型的情况下，让现有的模型处理比其物理上下文窗口大几个数量级的信息？在此之前，业界解决长文本主要靠“硬抗”（做大显存、优化 Attention 算法，如Ring Attention）。RLM告诉大家：方向错了。对于超长、超复杂的任务，不要试图把所有东西塞进短期记忆（Context Window），而应该像人类一样，利用外部工具（Python 变量）和笔记，分而治之。

这或将成为2026年最热的方向，因为它太诱人了，这是一种与模型无关 (Model-Agnostic) 的方法。任何公司只要有现成的LLM，套上RLM的壳，就能立刻拥有处理1000万+token的能力。

继2025推理模型之后，2026「递归模型」RLM要火了。

新年第一个工作日，修猫将为您解读这篇论文。用最直观的逻辑带您理解：为什么RLM可能是2026年大模型应用架构的关键转折点。

当下的核心痛点：光有“大窗口”是不够的

首先，我们需要达成一个共识：物理上的上下文窗口变大，并不等于模型的有效推理能力变强。

“上下文腐烂”现象

尽管现在的模型（如GPT-5）已经支持极长的上下文，但研究者指出，模型依然面临 “上下文腐烂”（Context Rot） 的问题。这就好比虽然能把整本书的内容塞进脑子里，但当书太厚时，开始记不住中间的细节，甚至产生幻觉。

任务复杂度的三个层级

这篇论文最精彩的洞察之一，是根据计算复杂度将长文本任务分为了三类。您会发现，传统的长上下文模型在面对高复杂度任务时，几乎是束手无策的：

O(1)复杂度任务：大海捞针（S-NIAH）
任务描述：在海量文本中找到一个特定的短语或数字。
现状：这是目前大多数长文本模型擅长的。因为无论文本多长，答案只有一个，且不需要复杂的逻辑跳跃。目前的GPT-5在这类任务上表现很稳。
O(N)复杂度任务：线性聚合（OOLONG）
任务描述：需要查看文档中的几乎每一行，并对信息进行转换和汇总。
现状：基座模型开始吃力。随着文本长度增加，性能会显著下降。
O(N^2)复杂度任务：两两比较（OOLONG-Pairs）
任务描述：这是真正的“模型杀手”。例如，给定一个巨大的用户列表，找出其中所有满足特定条件的“用户对”。这需要将条目A与条目B、C、D... 逐一比较。
现状：即便是最先进的GPT-5，在这个任务上面对长文本时，得分也接近 0%。为什么？因为Transformer的注意力机制难以在一次推理中处理这种平方级的计算密度。

继2025推理模型之后，2026「递归模型」RLM要火了。

理论根基：从“核外算法”汲取灵感

RLM的设计哲学并非凭空产生，而是直接借鉴了计算机科学中经典的Out-of-core Algorithms（核外算法） 思想。

继2025推理模型之后，2026「递归模型」RLM要火了。

映射关系：LLM的存储层级

在传统的计算系统中，当数据集规模远超主存（RAM）容量时，我们不能一次性加载所有数据，而是需要设计算法，策略性地将磁盘（Disk）上的数据分块调入内存处理。

RLM将这一概念映射到了大模型推理中：

主存（Main Memory） LLM的上下文窗口（Context Window）：虽然物理窗口在增大，但其“有效注意力”是有限且昂贵的。
外部存储（External Storage） Prompt字符串变量：长文本不再是直接输入神经网络的张量，而是作为Python环境中的一个字符串对象（String Object）存在。

范式转移

传统的Long-Context LLM试图通过线性偏置或Ring Attention等技术“扩容内存”。而RLM则是承认内存（注意力窗口）的局限性，转而通过符号化操作（Symbolic Interaction）来管理数据搬运。模型不再是被动接收所有token，而是作为CPU，主动决定何时从“磁盘”（变量）中读取哪些数据块进入“内存”（子模型上下文）。

核心架构：基于REPL的递归环境实现

RLM的技术核心在于它构建了一个Read-Eval-Print Loop (REPL)环境，将自然语言推理转化为代码执行过程。将提示词视为环境的一部分。这就好比不再要求模型“背诵”整本书，而是让模型坐在书桌前，书桌上有一台装了Python环境的电脑。

继2025推理模型之后，2026「递归模型」RLM要火了。

初始状态与环境注入

继2025推理模型之后，2026「递归模型」RLM要火了。

关键接口：`llm_query()`

继2025推理模型之后，2026「递归模型」RLM要火了。

功能：当模型执行这行代码时，系统会挂起当前执行流，实例化一个新的LLM调用（Sub-LM）。
参数：子模型的输入是主模型构造的字符串（通常是 context 的切片加上特定的查询指令）。
递归深度：理论上支持无限递归。在论文的实验设置中，为了控制开销，研究者主要探索了深度为1的递归（即Root LM调用Sub-LMs，Sub-LMs此时作为标准LLM响应）。

状态持久化与Side Effects

RLM的推理过程本质上是一个状态机。

变量驻留：模型在Step t 计算出的中间结果（例如 summary_list = [...]），会作为Python变量驻留在内存中。
Print观察：模型通过 print() 函数将中间结果输出到标准输出流，RLM架构截获这些输出并将其回传给模型，形成“观察（Observation）”反馈。
最终输出：系统强制要求模型使用 FINAL() 或 FINAL_VAR() 标签来封装最终答案，以此区分“思考过程”和“最终结论”。

实验结果

研究者使用了两个前沿模型进行测试：闭源的GPT-5和开源的Qwen3-Coder-480B。在高难度任务上，RLM获得了非常出色的表现。

质变的性能跃升

继2025推理模型之后，2026「递归模型」RLM要火了。

基座GPT-5：面对131k到262k的长度，它的F1分数接近0%。它完全迷失在海量信息的两两比对中。
RLM (GPT-5)：在同样的设置下，分数飙升到了58.00%。这不仅仅是提升，而是从“不可用”到“可用”的质变。
Qwen3-Coder：同样，基座模型几乎无法处理，而RLM版本的得分达到了23.11%。

继2025推理模型之后，2026「递归模型」RLM要火了。

成本分析：并不一定更贵

您可能会担心：递归调用这么多次，成本会不会爆炸？

继2025推理模型之后，2026「递归模型」RLM要火了。

研究者的发现很有趣：

中位数成本更低：对于很多任务，因为RLM懂得“跳读”和“过滤”，它实际处理的Token数反而比把全文塞进上下文窗口要少。例如在BrowseComp-Plus任务中，RLM(GPT-5) 的平均成本是是$0.99，而全量阅读的理论成本可能要$2.75。

为什么RLM能解决算法复杂度问题？

论文中对任务复杂度的形式化分析是理解RLM优势的关键。研究者提出，有效上下文窗口不能脱离任务复杂度独立讨论。

任务特征：需要对文本中的每一个块进行语义转换并聚合。

继2025推理模型之后，2026「递归模型」RLM要火了。

RLM解法：通过Python的 for 循环遍历切片。

继2025推理模型之后，2026「递归模型」RLM要火了。

这里，虽然总计算量仍是线性的，但单次LLM调用的上下文长度被压缩到了常数级，规避了长窗口下的注意力衰减。

继2025推理模型之后，2026「递归模型」RLM要火了。

涌现的系统行为

让研究者感到兴奋的，不是分数的提升，而是模型在没有经过任何微调（Fine-tuning）的情况下，仅通过Prompt Engineering（详见论文附录D）和环境交互，RLM就涌现出了类似高级工程师的调试行为。

继2025推理模型之后，2026「递归模型」RLM要火了。

基于先验的正则表达式过滤 (Prior-based Regex Filtering)

在GPT-5的RLM轨迹中，观察到模型会利用“正则探针”来优化I/O。

模型不直接读取10M tokens。
它基于对任务的理解（Model Priors），生成关键词列表（如 keywords = ["festival", "pageant"]）。
利用 re.search 扫描 context 变量，仅提取命中位置前后的窗口（Window）文本。
技术意义：这实现了非参数化的、基于语义规则的Attention机制，大幅降低了推理成本。

跨越上下文限制的变量传递

传统的RAG（检索增强生成）往往只能检索片段，容易丢失全局信息。而RLM通过Python变量，实现了动态分块与递归 (Dynamic Chunking)，做到了信息的“无损传递”。它可以把前10万字总结成一个变量，传给处理后10万字的步骤，从而实现了真正的全文档理解。

在处理日志文件时，RLM会自动识别 \n 为分隔符。
在处理长文档时，它会先读取目录或标题，按章节进行分块，并构建递归调用栈。

对于长输出任务（Long Generation），标准模型的最大输出token数往往受限。RLM通过将子结果存入List变量，最后利用Python的 "".join(results)函数将它们拼接成最终答案，一次性输出或分批输出，突破了Output Token Limit。

自我纠错与验证

模型表现出了明显的“慢思考”特征。时在得出答案后，会不仅直接输出，而是再发起一个新的 llm_query，把刚才找到的证据喂回去，问子模型：“这个证据能支撑这个结论吗？”。

继2025推理模型之后，2026「递归模型」RLM要火了。

种自我验证机制有效地抵抗了长上下文中的幻觉问题。

工程挑战与局限性

尽管原理优雅，但作为2025年底发布的新技术RLM在当前的工程实现上仍存在明显瓶颈，这也是未来优化的方向。研究者诚实地列出了当前的局限性。

第一是速度问题

当前的实现是同步的（Sequential/Blocking）。当Root LM调用llm_query时，整个进程必须等待HTTP请求返回。在处理大规模分块任务（如处理1000个文档）时，这会导致极高的Wall-clock time（运行时间）。研究者考虑未来引入 async/await 机制，允许LLM发出并行请求。

第二是模型能力的硬门槛

RLM对基座模型的Code Generation和Instruction Following能力有极高要求。论文指出，小参数模型（如Qwen3-8B）由于无法编写正确的Python逻辑或无法正确管理环境状态，导致任务失败。这是一种“强者恒强”的架构。

第三是成本的长尾分布

虽然中位数成本较低，但RLM的成本分布具有“长尾效应”。在某些死循环或过度验证（Over-verification）的Case中（例如Qwen3-Coder反复验证5次答案），成本会飙升。这需要通过强化学习（RL）来对齐模型的“搜索/停止”策略。

总结

Recursive Language Models的本质并不是一个新的模型架构，而是一种推理时的操作系统（OS for Inference）。

它通过将Context视为Disk，将LLM视为CPU，将REPL视为RAM，成功地在现有Transformer架构之上，通过软件工程手段解决了无限上下文的难题。

对于AI从业者而言，这篇论文揭示了一个战略方向：在2026年，与其在Training-time死磕昂贵的长窗口训练，不如在Inference-time投资能够编写递归代码的Agentic架构。

文章来自于“AI修猫Prompt”，作者 “AI修猫Prompt”。

关键词: AI , 模型训练 , 递归模型 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

继2025推理模型之后，2026「递归模型」RLM要火了。

当下的核心痛点：光有“大窗口”是不够的

“上下文腐烂”现象

任务复杂度的三个层级

理论根基：从“核外算法”汲取灵感

映射关系：LLM的存储层级

范式转移

核心架构：基于REPL的递归环境实现

初始状态与环境注入

关键接口：llm_query()

状态持久化与Side Effects

实验结果

质变的性能跃升

成本分析：并不一定更贵

为什么RLM能解决算法复杂度问题？

涌现的系统行为

基于先验的正则表达式过滤 (Prior-based Regex Filtering)

跨越上下文限制的变量传递

自我纠错与验证

工程挑战与局限性

总结

关键接口：`llm_query()`