开源万亿模型Ring-2.5-1T接管了我的终端，还给自己的大脑写了个实现

7900点击 2026-02-13 23:30

万亿参数的开源模型，能接管编程工具当全自动码农，还能给自己的大脑写代码实现？？？我决定花一下午测个够。

先介绍一下今天的主角。Ring-2.5-1T，蚂蚁百灵团队刚发布的万亿参数开源思考模型，全球首个混合线性注意力架构的万亿级选手。IMO 2025 国际奥数 35/42 拿到金牌水平，CMO 2025 中国奥数 105 分远超国家集训队线 87 分，GAIA2 通用 Agent 评测开源 SOTA。数字很漂亮，但数字谁都会贴。

我想搞点不一样的。

我给它挖了个坑。找了一道经典的组合证明题，涉及 {0,1}ⁿ 上的函数映射和 mod 2 求和，是个不折不扣的组合证明硬骨头。

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

我故意只给了“不完整”版本的题面，少了一个关键的“或”条件。

这个坑的设计是有讲究的。如果模型背过原题，它会无视我的修改，直接输出完整的标准答案。如果模型没背过，大概率就顺着错误的条件硬推到底，输出一堆看似合理的废话。

Ring 花了 595 秒，用了 26595 个 token。然后给了第三种反应。

它指出我给的题面是错的。。

The original problem statement quoted in the question asks only for the second alternative, but that alone is false – a counterexample is given below.

然后它给了 n=2 的反例（f₁(x₁,x₂)=0, f₂ 取决于 x₁），证明了单独的求和条件确实不成立。接着补全了正确的题面（存在 x,y 使得 F(x)=F(y) 或 F(x)+F(y)=(1,...,1)），用互补配对 + 鸽巢原理给了一个极其优雅的证明。

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

它做的事情比“解一道难题”更高一级：发现出题者（我）给错了条件，纠正后再解。

这就是 Ring-2.5-1T 的深度思考能力。说白了，蚂蚁百灵团队炼丹的方式就不一样。他们的训练方法叫 Dense Reward，对推理过程的每一步都打分，不只看最终答案对不对。效果就是模型的思考链质量极高，逻辑漏洞极少。

但今天不看竞赛分数。我花了一下午拿它当码农使唤，把它接进开源编程工具 opencode 做完整的工程开发任务，让它给自己的大脑写代码实现。不过在看这些测试之前，得先聊聊 Ring 的架构。

万亿参数，为什么反而更快？

Ring-2.5-1T 是全球首个开源的混合线性注意力架构万亿模型。这个“混合线性注意力”是它最独特的差异化，核心思路如下：

传统 Transformer 的注意力计算量随 context 长度平方增长。你让模型深度推理，思考链一超过 32K token，成本就爆炸。通用智能体时代，深度思考（deep thinking）和长程代理（long-horizon agent）是基座模型的基本工作范式，对解码效率的要求极高。

Ring 怎么解决这个问题？把注意力层分成两种：

1/8 的层用 MLA（Multi-Head Latent Attention）：传统精确注意力，逐字逐句仔细看，准但慢
7/8 的层用 Lightning Linear Attention：线性复杂度，大段大段扫过去，快但粗

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

打个比方。你读一本 500 页的技术手册，不可能每页逐字精读。大部分内容速读扫过去，碰到关键公式和核心定义再切精读模式。Ring 的 1:7 比例就是这个思路。

效果很直接：32K 以上的长生成，访存量降 10 倍 +，吞吐量提 3 倍 +。

这里有个反直觉的地方。Ring 的激活参数 63B，比 Kimi K2 的 32B 多了将近一倍。按常理参数越多越慢。但因为 7/8 的层用了线性注意力，实际推理速度反而更快，而且生成越长，优势越大。对比 MoE 架构，Ring 在长程推理场景的吞吐优势更明显。官方在 H20 8 卡集群上的测试显示，生成长度拉到 32K+ 后，Ring 的解码吞吐（decode throughput）显著领先同级别模型。

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

另外提一下训练策略。前面说的 Dense Reward 是个关键创新：传统强化学习训练只看最终答案对不对，“整道题做对了给 1 分，做错了 0 分”。Ring 的做法不同，对推理过程的每一步都打分。模型的思考链因此质量更高，追求的是每一步都想对。

再加上大规模全异步 Agentic RL 训练，让模型在真实的搜索、编码、工具调用任务中反复练习长链路执行。Ring-2.5-1T 在数学、代码、逻辑等高难推理任务（IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2）和智能体搜索、编码、工具调用等长程任务执行（ GAIA2-search、Tau2-bench、SWE-Bench Verified）上均达到了开源领先水平。

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

好了，架构讲完了。看正式测试。

给自己的大脑写代码：1174 秒，25612 个 token

这是整个测试里我最想写的一个 Case。

我让 Ring-2.5-1T 用 PyTorch 从零实现 Lightning Linear Attention，也就是它自己架构里 7/8 的层用的那个核心组件。

具体要求：

实现因果线性注意力，用递推公式避免 O(n²) 的显式注意力矩阵
两种 kernel function：ELU+1 和 ReLU
实现标准 softmax attention 作为对照
写完整 benchmark，对比不同序列长度（512 到 16384）的时间、显存
生成 matplotlib 可视化

Ring 花了 1174 秒，将近 20 分钟，用了 25612 个 token。

它的思考链非常长。我截了关键的一段：

首先理解题目：Lightning Linear Attention 可能指基于线性注意力的轻量级注意力机制……对于因果线性注意力，我们需要确保只考虑前面的 token，即自回归模型中的因果 mask。递推公式可以避免计算整个注意力矩阵，逐 token 更新状态。

……这里需要权衡。向量化 cumsum 方案需要存储 (L, d, d_v) 张量，L=16384, d=128 时约 1GB。循环方案内存更低但 Python 循环太慢。最终采用向量化 cumsum + 合理维度设置。

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

它分析了两种实现方案的 trade-off（向量化 vs 循环），最终选了一个平衡方案。

用自己的技术解释自己的技术。一个模型，花了 20 分钟，从数学推导到工程实现到 benchmark 脚本，把自己脑子里的核心算法完整地写了出来。

从算法逻辑和代码结构看，质量到位。Ring-2.5-1T 的架构论文发布时间和训练数据截止时间很近，所以它更像是在理解原理后重新推导实现，不太可能是在回忆训练数据里见过的现成答案。

我不知道一个模型理解自己的架构然后用代码重现出来，算不算某种意义上的“自我理解”。但这个画面，一个模型坐在那里，花 20 分钟把自己大脑的核心逻辑翻译成代码，我看着看着，整个人是有点恍惚的。

接入 OpenCode 搞真实项目

形而上的事聊够了，能不能让 Ring 直接驱动编程工具干活？不是调个 API 写个小函数那种，是真的在终端里当全自动码农。

Ring 走 OpenAI 兼容协议，我把他接入了开源工具 opencode，然后连着给下了四个任务，全程零人工干预。

第一个是黑白棋游戏：

请用纯 HTML+CSS+JS 实现一个完整的黑白棋（Reversi/Othello）游戏，要求：1) 标准 8x8 棋盘，黑先手 2) AI 对手用 Minimax + Alpha-Beta 剪枝实现 3) 三种难度：Easy（随机）、Medium（深度 3）、Hard（深度 5） 4) 棋子翻转有 3D 旋转动画 5) 落子有音效（Web Audio API，不用外部文件） 6) 有开始画面、游戏结束弹窗、胜负统计（localStorage） 7) 响应式布局支持手机 8) 单个 HTML 文件

Ring 先写了一份 250 行的产品规格文档 SPEC.md，精确到配色值、字号、评估函数权重、24 条验收标准，然后才动手写代码。

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

先写 Spec 再写代码。这是在做项目管理啊。

最终 24 项验收标准全部通过。再看看任务二，粒子动画作品集网站：

开源万亿模型Ring-2.5-1T接管了我的终端，还给自己的大脑写了个实现

这次，Ring 又先写了 SPEC.md（这已经是它的习惯了），然后输出了 44KB 的单文件 HTML。

请用纯 HTML+CSS+JS（单个 HTML 文件）实现一个炫酷的个人作品集网站，要求：1) 全屏 hero 区域，有粒子动画背景（用 Canvas 实现，粒子之间有连线效果） 2) 深色科技感主题，主色调为渐变紫蓝色 3) 滚动时有视差效果（parallax scrolling） 4) 所有 section 进入视口时有 fade-in + slide-up 动画 5) Hero 区：大标题 + 打字机效果逐字显示副标题 6) 技能雷达图（Canvas 手绘）

全屏粒子动画背景，紫蓝渐变色粒子之间有连线效果随鼠标互动；打字机效果逐字显示；6 个项目卡片带 emoji 图标和技术栈标签；回到顶部按钮、毛玻璃导航栏、fade-in 动画全部到位。

纯手写代码，视觉效果不输模板网站。没忍住，再试个前端，数据仪表盘：

开源万亿模型Ring-2.5-1T接管了我的终端，还给自己的大脑写了个实现

纯手写代码，视觉效果不输模板网站。没忍住，再试个前端，数据仪表盘：

4 种 Canvas 手绘图表、深色/浅色主题切换、数字递增动画、2x2 响应式网格，不用任何第三方图表库），Ring 输出了 47KB 的单文件。折线图带面积填充、柱状图带渐变色、环形图中间显示总金额 2,360 万、热力图从冷色到暖色。没有 ECharts，没有 D3.js，全部 Canvas 手绘。

开源万亿模型Ring-2.5-1T接管了我的终端，还给自己的大脑写了个实现

看起来也不错。再试试后端项目吧，我让他从零搭建 FastAPI REST API：

请用 Python 实现一个完整的 Task Manager REST API，要求：1) FastAPI 框架 2) SQLAlchemy + SQLite 数据库 3) JWT Token 认证（注册/登录） 4) Task 的完整 CRUD（创建/读取/更新/删除） 5) Task 有 priority 和 status 枚举字段 6) 支持分页和按 status/priority 过滤 7) 用户只能操作自己的 Task（权限隔离） 8) 写完整的 pytest 测试套件，覆盖所有 API 端点 9) 运行测试并确保全部通过

收到命令，Ring 自主创建了 7 个 Python 文件，然后安装依赖、运行测试。但第一次跑测试，报错了。Priority 枚举转换出了 type error。

它自己看了报错信息，分析出是 Priority[value.capitalize()] 的枚举构造方式不对，自动改成了 Priority(value)，重新跑测试：

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

25 个测试，全部通过。 写代码、跑测试、发现 bug、分析原因、修复、重测通过，一整个开发循环它自己走完了。

四个任务下来，我发现 Ring 有个一致的行为模式：

每次接到复杂任务，它都会先写一份 SPEC.md 产品规格文档，再动手写代码。

黑白棋的 SPEC 精确到评估函数权重和 24 条验收标准，作品集的 SPEC 列出了每个 section 的交互细节。没人要求它这么做，这是经过 Agentic RL 训练后自动习得的工程习惯。

说真的，看着终端里 Ring 自己规划、自己写、自己测、自己修的时候，有种在旁观一个新人入职后快速上手的感觉。只不过这个新人 20 分钟就能从零搭一个粒子动画网站。

这就是“长程自主执行能力”的真实体现。经过大规模全异步 Agentic RL 训练后，Ring 能适配编程工具框架，在复杂长程任务中自主推进。自己规划工作流、自己发现问题、自己修复、自己验证，全套流程一气呵成。

接入 OpenClaw 当个人 AI 助理

Opencode 测的是编程能力，但 Ring 作为智能体基座的玩法不止于此。

OpenClaw 是最近两个月 GitHub 上增长最快的开源项目（160K+ stars），一个可以接入 Telegram、WhatsApp 等聊天平台的 AI 个人助理框架。

我把 Ring 接进了 OpenClaw，在 Telegram 里用 /model ring 一键切换到 zenmux/inclusionai/ring-2.5-1t，然后让它干了个实际活儿：自动化 AI 新闻监控。

我给了它 80+ 个 RSS 源和一套新闻评分规则，让它每天自动抓取、筛选、排序最有价值的 AI 行业新闻。Ring 在 Telegram 里直接输出了一份结构化的新闻速报，按重要性排序，每条新闻带一句话摘要和关键标签。从 OpenAI 最新动态到国内开源模型发布，都能覆盖到。

开源万亿模型接管了我的终端，还给自己的大脑写了个实现

编程工具里当码农，聊天平台上当助理。Ring 作为智能体基座的适配能力，确实比较全面。

这些场景串起来，指向同一个东西：Ring 的混合线性注意力架构让它在长程推理和 Agent 长链路任务中有结构性的效率优势，Dense Reward 训练让它的每一步推理都经过严格打分。深度思考加上长程执行，万亿参数，开源免费。

Ring 还支持 function calling（工具调用），可以在 Agent 框架中调用搜索、代码执行、文件操作等外部工具。max_tokens 建议设 32K 以上，给足推理空间，效果最佳。

至于万亿参数的推理模型当智能体基座意味着什么，我想每个在做 Agent 应用的开发者心里，已经有自己的判断了。

推荐大家去试试看：

文章来自于微信公众号 “夕小瑶科技说”，作者 “夕小瑶科技说”

关键词: AI新闻 , Ring-2.5-1T , 蚂蚁百灵 , 万亿参数开源思考模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI