一些大模型，高分低能，为何？

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

一些大模型，高分低能，为何？

9169点击 2026-01-07 16:01

这篇文章的思路来自 Philipp Schmid，由 minghao 推荐https://www.philschmid.de/agent-harness-2026

很多人，会有这个体验有些模型，在排行榜上分数很高，但实际用起来经常翻车问个问题还行，让干活就开始犯蠢

原因很简单

排行榜测的是单轮能力，或者几轮简单交互

但真实场景里，你让 Agent 跑一个复杂任务，可能要调用几十上百次工具，跑几个小时

排行榜 1% 的差距，测不出 50 步之后的差异

这就是「持久性」问题

有些模型，可能足够聪明，一两次尝试就能解开难题但跑了一个小时后，可能无法遵循最初的指令，或者在中间步骤的推理出错

怎么解决？Philipp Schmid 提了一个概念，叫 Agent Harness

Harness 是什么

Harness 本意是马具、挽具，引申为「驾驭某物的装置」

软件领域最常见的用法是 test harness 测试框架

Agent Harness 是同样的思路：包裹在 AI 模型外层，管理 Agent 长周期运行的基础设施层

用计算机来类比：

模型是 CPU，提供原始算力

上下文窗口是内存，有限的、易失的工作记忆

Agent Harness 是操作系统，管理上下文、处理启动流程、提供标准驱动

Agent 是应用程序，运行在操作系统之上的具体用户逻辑

一些大模型，高分低能，为何？

Philipp Schmid 画的示意图，一目了然

Harness 的层级比 Agent 框架更高

框架提供的是构建模块，工具接口、Agent 循环的实现

Harness 提供的是预设 Prompt、工具调用的规范化处理、生命周期钩子，以及开箱即用的能力，规划、文件系统访问、子 Agent 管理

对开发者来说，这意味着可以跳过「造操作系统」，直接专注于定义 Agent 的独特逻辑

目前通用型 Harness 还很少。Claude Code 是这个品类的典型代表，Claude Agent SDK 和 LangChain DeepAgents 也在尝试标准化

Harness 能做三件事

验证真实进展

新模型频繁发布，Harness 让用户能快速测试最新模型在自己场景下的表现，而不是看排行榜猜

释放模型潜力

没有 Harness，用户体验可能落后于模型能力。好的 Harness 让开发者能用经过验证的工具和最佳实践来构建 Agent

创造反馈闭环

Harness 把模糊的、多步骤的 Agent 工作流转化为可记录、可评分的结构化数据。哪一步出了问题，一目了然

苦涩教训

Rich Sutton 写过一篇文章叫《苦涩的教训》

核心观点：利用算力的通用方法，每次都能打败手工编码的人类知识

这个教训正在 Agent 开发领域上演

Manus 在六个月内重构了五次 Harness，去除僵化的假设

LangChain 一年内重新架构了三次「Open Deep Research」Agent

Vercel 砍掉了 80% 的 Agent 工具，换来更少的步骤、更少的 Token、更快的响应

每次新模型发布，都有不同的最优 Agent 架构方式

2024 年需要复杂手工流水线的能力，到 2026 年可能只需要一个上下文窗口内的 Prompt 就能搞定

如果过度设计控制流，下一次模型更新就会让系统崩溃

怎么做

至于该怎么做，原作者给到了三条原则：

从简单开始

不要构建庞大的控制流。提供健壮的原子工具，让模型自己规划。实现护栏、重试和验证

为删除而构建

让架构模块化。新模型会替代你的逻辑，必须随时准备好撕掉代码

Harness 就是数据集

竞争优势不再是 Prompt，而是 Harness 捕获的轨迹数据。每一次 Agent 在工作流后期未能遵循指令的失败案例，都可以用来训练下一代模型

文章来自于“赛博禅心”，作者 “金色传说大聪明”。

关键词: Agent Harness , 模型训练 , 模型测试 , 人工智能

添加客服微信openai178，进AITNT官方交流群

驱动智慧未来：提供一站式AI转型解决方案

AITNT-国内领先的一站式人工智能新闻资讯网站

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

1

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

2

OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务，包括网页浏览，文件操作，写代码等。OpenManus 使用了传统的 ReAct 的模式，这样的优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理。需要注意，Manus 有使用 Plan 进行规划。
项目地址：https://github.com/mannaandpoem/OpenManus

3

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

4

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0