比肩OpenAI Simple Codex,中国团队Feeling AI闯入Terminal-Bench全球第二!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
比肩OpenAI Simple Codex,中国团队Feeling AI闯入Terminal-Bench全球第二!
9681点击    2026-02-10 18:51

Anthropic 和 OpenAI 硬碰硬推出 Claude Opus 4.6 和 GPT-5.3-Codex 后,基础大模型的较量正式进入了实战比拼阶段。模型规划更加谨慎,维持更长时间的自主工作流等能力提升正在试图回应大模型商业化落地 “最后一公里” 的能力要求和用户期待。


在两家顶尖模型的硬核指标评测中,Opus 4.6 和 5.3-Codex 都不约而同的亮出了各自在 Terminal-Bench 2.0 上的比分,例如 Opus 4.6 用其在 Agentic Terminal Coding Task 上的 65.4% 证明其模型的出色表现,Sam Altman 通过 5.3-Codex 在 Terminal-Bench 2.0 上达到 77.3%(75.1%)的成绩,宣称其拥有目前最佳的编码性能。


就在这个被 Anthropic 和 OpenAI 视为衡量 Agent 真实工程能力全球权威基准 Terminal-Bench 2.0 榜单上,中国团队 Feeling AI 凭借 CodeBrain-1,搭载最新 GPT-5.3-Codex 底座模型,一举冲到 72.9%(70.3%) 并跻身全球排行榜第二,成为榜单前 10 中唯一的中国团队。


全球前二!仅次于 OpenAI Simple Codex


先直接来看 Feeling AI 的 CodeBrain-1 在 Terminal-Bench 2.0 上的排名和评测情况。


CodeBrain-1 紧追 Open AI 的 Simple Codex(GPT-5.3-Codex),Factory 的 Droid 使用 Anthropic 最新基模 Claude Opus 4.6 排名第三。


比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二!


比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二!


Terminal Bench 覆盖的任务类型非常广泛,其中既包括复杂的系统操作,也包含大量需要在真实终端环境中完成的编码任务。 而 CodeBrain-1 的核心关注点,是 “代码能否被正确写出并运行”。在技术实现上,CodeBrain-1 专注打磨了两个直接影响 “能否成功且高效地完成任务” 的环节。


  • Useful Context Searching:只用 “真正有用” 的上下文。在复杂任务中,信息不是越多越好,而是是否相关,减少噪音可以有效避免 LLM 的幻觉问题。CodeBrain-1 会根据当前任务需求和已有 Code Base 索引,充分利用 LSP (Language Server Protocol) 的功能,提高关联信息的检索效率,有效辅助 Code Generation 的过程。比如当我们需要为一个游戏 Bot 规划任务时,需要先了解如何使用该 Bot 的 API。CodeBrain-1 在 Coding 过程中,借助 LSP Search 准确获取了 move_to (target)、do (action) 等相关方法的签名、文档和已有 Code Base 内的使用实例等信息,有效降低了关联信息检索的损耗和上下文干扰。


  • Validation Feedback:让失败真正变成信息。CodeBrain-1 可以从 LSP Diagnostics 当中高效定位,并补充错误相关的代码和文档,有效缩减 Generate -> Validate 的循环过程。比如 CodeBrain-1 编写的代码中出现了调用 on (observation, exec)(一个定义 Bot Reaction 的方法)时,出现了参数 exec 类型错误的问题,这时,LSP 除报错 argument type mismatch 之外,还会额外提供该方法的 caller 示例、错误参数相关文档、以及 exec 这个参数在实现中如何被使用等辅助信息。


  • 团队从 Terminal Bench 中筛选出了一个更聚焦硬核 coding 任务的子集, 47 条均可以使用单一程序语言(Python)完成的任务。在这一子集中,CodeBrain-1 也表现出了稳定而一致的完成能力:关联代码和文档检索更高效;在代码检查和验证失败时,能更快定位问题。


Rank  Agent                Model                Py Tasks     Coding Tasks   All Tasks   
-----------------------------------------------------------------------------------------------
1     Simple Codex         GPT-5.3-Codex        73.9%        72.7%          74.9%       
2     CodeBrain-1          GPT-5.3-Codex        72.3%        70.2%          70.3%       
3     Droid                Claude Opus 4.6      70.2%        66.8%          69.9%       
4     Mux                  GPT-5.3-Codex        71.9%        69.2%          68.5%       
5     Droid                GPT-5.2              66.0%        61.6%          65.1%       
6     Ante                 Gemini 3 Pro         66.8%        62.7%          64.9%       
7     Terminus 2           GPT-5.3-Codex        64.7%        61.4%          64.7%       
8     Junie CLI            Gemini 3 Flash       68.9%        62.7%          64.3%       
9     Droid                Claude Opus 4.5      62.1%        58.3%          63.1%       
10    Terminus 2           Claude Opus 4.6      67.2%        63.1%          62.9%       


此外,在 Token 的消耗方面,CodeBrain-1 也展现出了不俗的表现,可持续降低用户成本。对比 Anthropic 发布的技术文档,当基模均使用 claude opus 4.6 时,使用 CodeBrain-1 和 Claude Code 在两者均成功的 Py Tasks 子任务上所消耗的总 Token 大幅缩减了超 15%。


CodeBrain-1—— 会动态调整计划与策略的 “大脑”


CodeBrain-1 在 Terminal-Bench 2.0 上的强势表现还不仅仅体现在真实命令行终端(CLI)环境下的端到端任务执行能力。更重要的,团队进一步的赋予了它更高阶的能力 —— 会动态调整计划与策略的 “大脑”,它通过优化任务的执行逻辑和错误反馈机制,显著提升了模型在真实终端环境下的操作成功率。


例如在大多数游戏中,角色的 “智能” 主要由游戏策划与 Gameplay 程序提前定义,包括行为规则、触发条件、状态切换和响应逻辑。这种方式在工程上是可控的,但也存在明显限制:行为往往是静态的、可枚举的;想要表现出 “更聪明” 的反应,通常需要大量手工规则和长期打磨;一旦环境复杂或情况超出预期,智能表现就会迅速退化。这也是为什么高智能特性往往意味着极高的开发与维护成本。


CodeBrain-1 提出了一种不同的解决方式。并非让 AI 直接 “随意发挥”,而是反过来调整分工方式。比如在游戏设计阶段,只由人类定义智能的 “维度” 和 “基调”, 将具体行为与策略的生成,交给 AI 在受限空间内动态完成。在这种模式下,设计者不再需要穷举每一种行为,而是定义人类用户在意什么(目标、偏好、性格维度),记住什么(观察、历史、群体经验)以及在什么范围内可以调整计划与策略。CodeBrain-1 则负责在这些约束条件内,动态生成 “智能” 所对应的可执行程序,并根据实际反馈不断调整。


这里的 “计划和策略” 既可以作用在个体层面,也可以作用在群体层面。对个体而言,它意味着角色可以根据自身目标、记忆和观察结果,持续调整日程、行为选择和对他人的态度对群体而言,它意味着一个组织可以形成共享记忆,并基于外部条件变化,调整整体规划和响应规则。


Terminal-Bench 2.0 和 CodeBrain-1 的含金量


Terminal-Bench 是由斯坦福大学与 Laude Institute 共同开发的开源基准测试套件,专门用于评估 AI 智能体在真实命令行终端(CLI)环境下的端到端任务执行能力。相较于传统的代码生成评测,它的核心特点包括:


  • 真实的操作环境:测试在隔离的 Docker 容器中进行,AI 必须像人类工程师一样,在真实的 Linux 环境中进行编译、调试、训练模型或部署服务。
  • 长程硬任务 (Hard Tasks):包含 89 个精心设计的任务,覆盖软件工程、系统管理、科学计算和数据处理等领域。这些任务通常需要多个步骤,无法通过简单的模式匹配来完成。
  • 严苛的自动验证:每个任务都配备了人类编写的标准答案和自动验证脚本。系统根据任务产出(如生成的证书、修复的代码或运行的服务)进行 0/1 判定,确保结果的可靠性。
  • 2.0 版升级重点:相比 1.0 版本,2.0 显著提升了任务难度和验证的严格程度。目前顶级大模型在该基准上的得分通常低于 65%,暴露出 AI 在处理复杂系统级任务时的瓶颈。


Terminal-Bench 2.0 的任务难度很高,即使是顶尖模型也未能实现完美的解决率。CodeBrain-1 首次上榜就杀到了全球第二的位置,含金量不言而喻。以 GPT 系列模型为例,模型通常具有极强的 Reasoning Chain,但有时会产生 “想得太多” 导致的执行延迟。CodeBrain-1 作为 “节流阀” 和 “校准器”,引导模型只在关键报错点进行深度思考,而在常规 CLI 操作中保持高效率,这也将是拉开大模型商业落地差距的核心技术点。


  • 强大的 Agent 框架可以弥补 “模型” 与 “真实环境” 的鸿沟。打开一个终端,执行命令,捕获报错信息,并将错误反馈给模型让其修正。如果没有这个框架,模型只能 “纸上谈兵”。
  • Agent 框架在状态管理与长程规划 (Long-term Planning) 上至关重要。Terminal-Bench 2.0 的任务通常包含几十个步骤。基础模型往往容易在复杂的上下文中 “迷路” 或产生幻觉。 而 Agent 框架充当了记忆和规划模块。它记录了已经执行过哪些命令、当前目录结构是什么、哪些尝试失败了,确保模型始终朝着最终目标前进。
  • 解决 “自我修正” 循环,这是 CodeBrain-1 的核心价值。在真实终端中,代码运行报错是常态。单纯的只依赖模型可能会陷入循环报错,Agent 框架则引入的推理闭环 (Reasoning Loop)。它会分析 stderr(标准错误输出),通过内置的逻辑过滤干扰信息,只把关键冲突反馈给模型,引导模型实现高效的 “试错 - 改进”。
  • 此外,工具调用标准化和成本与效率优化也不容忽视。模型的能力在不断进化的同时,推理成本昂贵的问题始终无法绕开,Agent 框架通过预处理和结构化提示词,减少了模型所需的上下文长度(Token),让任务执行得既快又省。


OpenAI 在其官网技术博客中明确将 Simple Codex 定义为 “针对长程软件工程任务的最优解”。模型和 Agent 框架的组合似于 “赛车手 + F1 赛车”。好的模型就是那个顶尖的赛车手,而 Agent 框架则是那台专为夺冠调教的赛车。一个能驾驭全球顶尖模型的中国框架,意味着中国团队在 AI 时代的 “高级操作系统” 竞争中正跻身全球更前沿的位置。


大模型商业落地的最后一公里


CodeBrain-1 并不是一个 “更会说话” 的 AI,而是一个由 Code 组成、能够持续调整计划与策略的执行型大脑。


OpenAI 联合创始人 Andrej Karpathy 认为模型作为 AI 的内核至关重要,但 Agent 框架作为 AI 的操作系统也不容忽视。我们不应该只关注模型写代码的能力,更应该关注它在复杂环境中的自主解决问题能力。Sam Altman 在 GPT-5.3-Codex 发布后宣称 Codex 从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上任何操作的代理。


基础模型公司虽然强大,但各行各业的垂直场景都离不开良好的的工程框架,不论是更系统的 Agent 框架还是小而美的开发者效率工具,这些离用户更近一步的机会都暗藏着巨大的商业价值。


AI 的第一波浪潮是模型(Model-centric),而第二波浪潮将是应用与工作流(Workflow-centric)。红杉资本曾预言,未来的胜者是那些能控制工作流的公司,资本无法忽视那些能够将模型能力转化为实际产出的 “强大能力”。


Feeling AI 认为动态交互是世界模型通向 AGI 的终极拼图。他们把世界模型的实现分成了 InteractBrain(理解、记忆与规划),InteractSkill(能力与执行)和 InteractRender(渲染与呈现)三层。MemBrain 几天前刚在 Agentic Memory 领域拿下全球 SOTA,CodeBrain 作为会动态调整计划与策略的 “大脑” 又迅速跻身全球前列,“世界模型 InteractBrain” 在一周内被这家创业公司用 “MemBrain+CodeBrain” 两张牌强势证明了。


在 OpenAI 和 Anthropic 主导的生态位下,中国团队作为 “框架定义者” 杀入竞争,这也代表了中国 AI 技术创新路径的独特性。他们看上去在走一条没有捷径的道路,攻破每一城也绝非易事,但这也许正是中国的创业者们孜孜不倦试图回答的 “硬核难题”。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0