gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

8328点击 2025-08-06 15:55

昨晚OpenAI官方放了个大招，发布了gpt-oss-120b和gpt-oss-20b两款开源模型，这是一个专为Agent而生的模型，而且开源了。这背后其实藏着OpenAI对未来AI应用形态，特别是Agentic工作流的深刻思考。这篇文章，咱们就一起扒一扒这俩模型到底牛在哪，以及它会怎么影响我们未来的产品开发。

性能与性价比的“王炸”组合

gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

OpenAI官方给出的数据显示，大杯的gpt-oss-120b在核心推理能力上，基本能和他们自家的o4-mini打个平手，这可不是闹着玩的。它在一张80GB的消费级GPU上就能跑起来，而小杯的gpt-oss-20b更是只需要16GB内存，这意味着您甚至可以在边缘设备上做本地推理，这性价比直接拉满了。

为“AI代理”（Agentic）而生

gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

为什么说这模型是为Agentic工作流设计的？OpenAI官方反复强调了它的工具使用能力、指令遵循和推理能力，这正是构建一个合格AI代理（Agent）的三大支柱。它不像传统聊天模型那样只会对话，而是被训练得能够熟练调用外部工具，比如执行Python代码或者进行网络搜索，来完成一个复杂任务，这是开发智能应用时真正需要的能力。

MoE架构与128k上下文

这俩模型能这么高效，核心在于它们采用了混合专家（MoE）架构，虽然总参数量巨大，但每次推理只激活一小部分，大大降低了计算成本。再加上它们都支持高达128k的超长上下文窗口，这意味着模型能处理和记忆的信息量非常可观，对于需要理解复杂文档或长对话的应用场景来说，这简直是福音。

gpt-oss-120b: 117B总参数，5.1B活动参数，36层，每层128个专家（激活4个）。

gpt-oss-20b: 21B总参数，3.6B活动参数，24层，每层32个专家（激活4个）。

用数据说话：硬核性能全方位解读

官方这次给出的评测非常全面，覆盖了从编程、数学到专业知识和工具使用的方方面面，咱们一起来详细看看这些数据到底说明了什么。

1. 编程能力 (Codeforces Elo Rating)

这是一个衡量模型在编程竞赛中表现的指标，分数越高代表实力越强。

gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

结果：gpt-oss-120b（带工具）的Elo评分达到了2622分，这是一个非常高的水平，与OpenAI自家的顶级模型o3（2706分）和o4-mini（2719分）处于同一梯队。更值得注意的是，小尺寸的gpt-oss-20b（带工具）评分为2516分，大幅领先于o3-mini（2073分）。

这说明gpt-oss系列在代码生成和理解方面非常强大，对于我们工程师来说，这意味着它在辅助编程、代码调试等场景下会是个得力助手。

2. 健康领域对话能力 (HealthBench & HealthBench Hard)

gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

这个基准测试模拟了真实的健康咨询对话场景。

结果：在常规的HealthBench上，gpt-oss系列可以说是“乱杀”。gpt-oss-20b得分59.8%，gpt-oss-120b得分57.6%，双双超过了o4-mini（50.1%）和o3（42.5%）。在更具挑战性的HealthBench Hard上，gpt-oss-120b（30%）也仅仅略低于o3（31.6%），但远超其他模型。

gpt-oss在处理需要专业知识和细致沟通的领域（如医疗健康）方面有特殊优势，这可能是其训练数据和微调策略带来的结果。

3. 数学竞赛能力 (AIME 2024 & 2025)

gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

这是衡量模型解决复杂数学竞赛问题的能力。

结果：在这个项目上，所有顶级模型的表现都非常接近，准确率都极高。gpt-oss系列与o-series模型互有胜负，例如在AIME 2025上，gpt-oss-20b（98.7%）的表现甚至超过了gpt-oss-120b和o3。

这证明gpt-oss模型具备顶级的逻辑推理和数学计算能力。

4. 综合知识与推理能力 (MMLU, GPQA Diamond, Humanity's Last Exam)

gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

这几项是衡量模型在学术、科学和跨学科领域的综合知识与问题解决能力的经典基准。

MMLU (综合学科知识)：gpt-oss-120b拿到了90%的准确率，与o4-mini（93%）和o3（93.4%）非常接近，表现出很强的综合知识水平。GPQA Diamond (博士级科学问题)：gpt-oss-120b的准确率为80.1%，同样紧随o3（83.3%）和o4-mini（81.4%）之后。Humanity's Last Exam (专家级问题)：gpt-oss-120b（带工具）的准确率为19%，仅次于o3（24.9%），但优于o4-mini（17.7%）。

综合来看，gpt-oss-120b的通用推理和知识储备能力已经达到了与OpenAI自家最先进的专有模型几乎持平的水平。

5. AI代理（Agent）核心能力 (Tau-Bench Retail)

gpt-oss专为Agent而生，16G显存就能跑，昨晚开源。

这个基准直接测试模型进行“函数调用”（Function Calling）的能力，这是构建AI代理最核心的技术之一。

结果：gpt-oss-120b的准确率为67.8%，非常接近表现最好的o3（70.4%），并且优于o4-mini（65.6%）。

这个数据直接印证了OpenAI官方的说法，gpt-oss是为Agentic工作流设计的。它强大的函数调用能力，意味着我们可以放心地让它去调度各种外部API和工具，来构建更复杂的自动化应用。我之前写过一篇相关的文章，感兴趣您可以看看《函数调用提示词咋写，看下OpenAI发布的Function Calling指南（万字含示例）｜最新》

未经监督的“思维链”

这里有个特别有意思的设计，就是模型的思维链（CoT）是未经直接监督的，OpenAI官方说这是为了让CoT更真实地反映模型的“思考过程”。这意味着什么呢？您在调试时看到的CoT，可能就是模型最原始的想法

写在最后

至于怎么用上，模型已经在Hugging Face上开放下载，而且得到了Azure、AWS、NVIDIA等一众大厂的支持，整个生态已经相当成熟，您拿到手就能很快集成到自己的产品里。欢迎您来一起交流使用心得！

文章来自于微信公众号“AI修猫Prompt”。

关键词: AI新闻 , openai , gpt-oss , gpt-oss底层技术

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0