Anthropic 和 OpenAI 硬碰硬推出 Claude Opus 4.6 和 GPT-5.3-Codex 后,基础大模型的较量正式进入了实战比拼阶段。模型规划更加谨慎,维持更长时间的自主工作流等能力提升正在试图回应大模型商业化落地 “最后一公里” 的能力要求和用户期待。
在两家顶尖模型的硬核指标评测中,Opus 4.6 和 5.3-Codex 都不约而同的亮出了各自在 Terminal-Bench 2.0 上的比分,例如 Opus 4.6 用其在 Agentic Terminal Coding Task 上的 65.4% 证明其模型的出色表现,Sam Altman 通过 5.3-Codex 在 Terminal-Bench 2.0 上达到 77.3%(75.1%)的成绩,宣称其拥有目前最佳的编码性能。
就在这个被 Anthropic 和 OpenAI 视为衡量 Agent 真实工程能力全球权威基准 Terminal-Bench 2.0 榜单上,中国团队 Feeling AI 凭借 CodeBrain-1,搭载最新 GPT-5.3-Codex 底座模型,一举冲到 72.9%(70.3%) 并跻身全球排行榜第二,成为榜单前 10 中唯一的中国团队。
全球前二!仅次于 OpenAI Simple Codex
先直接来看 Feeling AI 的 CodeBrain-1 在 Terminal-Bench 2.0 上的排名和评测情况。
CodeBrain-1 紧追 Open AI 的 Simple Codex(GPT-5.3-Codex),Factory 的 Droid 使用 Anthropic 最新基模 Claude Opus 4.6 排名第三。


Terminal Bench 覆盖的任务类型非常广泛,其中既包括复杂的系统操作,也包含大量需要在真实终端环境中完成的编码任务。 而 CodeBrain-1 的核心关注点,是 “代码能否被正确写出并运行”。在技术实现上,CodeBrain-1 专注打磨了两个直接影响 “能否成功且高效地完成任务” 的环节。
Rank Agent Model Py Tasks Coding Tasks All Tasks
-----------------------------------------------------------------------------------------------
1 Simple Codex GPT-5.3-Codex 73.9% 72.7% 74.9%
2 CodeBrain-1 GPT-5.3-Codex 72.3% 70.2% 70.3%
3 Droid Claude Opus 4.6 70.2% 66.8% 69.9%
4 Mux GPT-5.3-Codex 71.9% 69.2% 68.5%
5 Droid GPT-5.2 66.0% 61.6% 65.1%
6 Ante Gemini 3 Pro 66.8% 62.7% 64.9%
7 Terminus 2 GPT-5.3-Codex 64.7% 61.4% 64.7%
8 Junie CLI Gemini 3 Flash 68.9% 62.7% 64.3%
9 Droid Claude Opus 4.5 62.1% 58.3% 63.1%
10 Terminus 2 Claude Opus 4.6 67.2% 63.1% 62.9%
此外,在 Token 的消耗方面,CodeBrain-1 也展现出了不俗的表现,可持续降低用户成本。对比 Anthropic 发布的技术文档,当基模均使用 claude opus 4.6 时,使用 CodeBrain-1 和 Claude Code 在两者均成功的 Py Tasks 子任务上所消耗的总 Token 大幅缩减了超 15%。
CodeBrain-1—— 会动态调整计划与策略的 “大脑”
CodeBrain-1 在 Terminal-Bench 2.0 上的强势表现还不仅仅体现在真实命令行终端(CLI)环境下的端到端任务执行能力。更重要的,团队进一步的赋予了它更高阶的能力 —— 会动态调整计划与策略的 “大脑”,它通过优化任务的执行逻辑和错误反馈机制,显著提升了模型在真实终端环境下的操作成功率。
例如在大多数游戏中,角色的 “智能” 主要由游戏策划与 Gameplay 程序提前定义,包括行为规则、触发条件、状态切换和响应逻辑。这种方式在工程上是可控的,但也存在明显限制:行为往往是静态的、可枚举的;想要表现出 “更聪明” 的反应,通常需要大量手工规则和长期打磨;一旦环境复杂或情况超出预期,智能表现就会迅速退化。这也是为什么高智能特性往往意味着极高的开发与维护成本。
CodeBrain-1 提出了一种不同的解决方式。并非让 AI 直接 “随意发挥”,而是反过来调整分工方式。比如在游戏设计阶段,只由人类定义智能的 “维度” 和 “基调”, 将具体行为与策略的生成,交给 AI 在受限空间内动态完成。在这种模式下,设计者不再需要穷举每一种行为,而是定义人类用户在意什么(目标、偏好、性格维度),记住什么(观察、历史、群体经验)以及在什么范围内可以调整计划与策略。CodeBrain-1 则负责在这些约束条件内,动态生成 “智能” 所对应的可执行程序,并根据实际反馈不断调整。
这里的 “计划和策略” 既可以作用在个体层面,也可以作用在群体层面。对个体而言,它意味着角色可以根据自身目标、记忆和观察结果,持续调整日程、行为选择和对他人的态度对群体而言,它意味着一个组织可以形成共享记忆,并基于外部条件变化,调整整体规划和响应规则。
Terminal-Bench 2.0 和 CodeBrain-1 的含金量
Terminal-Bench 是由斯坦福大学与 Laude Institute 共同开发的开源基准测试套件,专门用于评估 AI 智能体在真实命令行终端(CLI)环境下的端到端任务执行能力。相较于传统的代码生成评测,它的核心特点包括:
Terminal-Bench 2.0 的任务难度很高,即使是顶尖模型也未能实现完美的解决率。CodeBrain-1 首次上榜就杀到了全球第二的位置,含金量不言而喻。以 GPT 系列模型为例,模型通常具有极强的 Reasoning Chain,但有时会产生 “想得太多” 导致的执行延迟。CodeBrain-1 作为 “节流阀” 和 “校准器”,引导模型只在关键报错点进行深度思考,而在常规 CLI 操作中保持高效率,这也将是拉开大模型商业落地差距的核心技术点。
OpenAI 在其官网技术博客中明确将 Simple Codex 定义为 “针对长程软件工程任务的最优解”。模型和 Agent 框架的组合似于 “赛车手 + F1 赛车”。好的模型就是那个顶尖的赛车手,而 Agent 框架则是那台专为夺冠调教的赛车。一个能驾驭全球顶尖模型的中国框架,意味着中国团队在 AI 时代的 “高级操作系统” 竞争中正跻身全球更前沿的位置。
大模型商业落地的最后一公里
CodeBrain-1 并不是一个 “更会说话” 的 AI,而是一个由 Code 组成、能够持续调整计划与策略的执行型大脑。
OpenAI 联合创始人 Andrej Karpathy 认为模型作为 AI 的内核至关重要,但 Agent 框架作为 AI 的操作系统也不容忽视。我们不应该只关注模型写代码的能力,更应该关注它在复杂环境中的自主解决问题能力。Sam Altman 在 GPT-5.3-Codex 发布后宣称 Codex 从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上任何操作的代理。
基础模型公司虽然强大,但各行各业的垂直场景都离不开良好的的工程框架,不论是更系统的 Agent 框架还是小而美的开发者效率工具,这些离用户更近一步的机会都暗藏着巨大的商业价值。
AI 的第一波浪潮是模型(Model-centric),而第二波浪潮将是应用与工作流(Workflow-centric)。红杉资本曾预言,未来的胜者是那些能控制工作流的公司,资本无法忽视那些能够将模型能力转化为实际产出的 “强大能力”。
Feeling AI 认为动态交互是世界模型通向 AGI 的终极拼图。他们把世界模型的实现分成了 InteractBrain(理解、记忆与规划),InteractSkill(能力与执行)和 InteractRender(渲染与呈现)三层。MemBrain 几天前刚在 Agentic Memory 领域拿下全球 SOTA,CodeBrain 作为会动态调整计划与策略的 “大脑” 又迅速跻身全球前列,“世界模型 InteractBrain” 在一周内被这家创业公司用 “MemBrain+CodeBrain” 两张牌强势证明了。
在 OpenAI 和 Anthropic 主导的生态位下,中国团队作为 “框架定义者” 杀入竞争,这也代表了中国 AI 技术创新路径的独特性。他们看上去在走一条没有捷径的道路,攻破每一城也绝非易事,但这也许正是中国的创业者们孜孜不倦试图回答的 “硬核难题”。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0