gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。
5845点击    2025-08-06 15:55

昨晚OpenAI官方放了个大招,发布了gpt-oss-120b和gpt-oss-20b两款开源模型这是一个专为Agent而生的模型,而且开源了。这背后其实藏着OpenAI对未来AI应用形态,特别是Agentic工作流的深刻思考。这篇文章,咱们就一起扒一扒这俩模型到底牛在哪,以及它会怎么影响我们未来的产品开发。


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


性能与性价比的“王炸”组合


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


OpenAI官方给出的数据显示,大杯的gpt-oss-120b在核心推理能力上,基本能和他们自家的o4-mini打个平手,这可不是闹着玩的。它在一张80GB的消费级GPU上就能跑起来,而小杯的gpt-oss-20b更是只需要16GB内存,这意味着您甚至可以在边缘设备上做本地推理,这性价比直接拉满了。


为“AI代理”(Agentic)而生


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


为什么说这模型是为Agentic工作流设计的?OpenAI官方反复强调了它的工具使用能力、指令遵循和推理能力,这正是构建一个合格AI代理(Agent)的三大支柱。它不像传统聊天模型那样只会对话,而是被训练得能够熟练调用外部工具,比如执行Python代码或者进行网络搜索,来完成一个复杂任务,这是开发智能应用时真正需要的能力。


MoE架构与128k上下文


这俩模型能这么高效,核心在于它们采用了混合专家(MoE)架构,虽然总参数量巨大,但每次推理只激活一小部分,大大降低了计算成本。再加上它们都支持高达128k的超长上下文窗口,这意味着模型能处理和记忆的信息量非常可观,对于需要理解复杂文档或长对话的应用场景来说,这简直是福音。


  • gpt-oss-120b: 117B总参数,5.1B活动参数,36层,每层128个专家(激活4个)。


  • gpt-oss-20b: 21B总参数,3.6B活动参数,24层,每层32个专家(激活4个)。


用数据说话:硬核性能全方位解读


官方这次给出的评测非常全面,覆盖了从编程、数学到专业知识和工具使用的方方面面,咱们一起来详细看看这些数据到底说明了什么。


1. 编程能力 (Codeforces Elo Rating)


这是一个衡量模型在编程竞赛中表现的指标,分数越高代表实力越强。


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


  • 结果gpt-oss-120b(带工具)的Elo评分达到了2622分,这是一个非常高的水平,与OpenAI自家的顶级模型o3(2706分)和o4-mini(2719分)处于同一梯队。更值得注意的是,小尺寸的gpt-oss-20b(带工具)评分为2516分,大幅领先于o3-mini(2073分)。


这说明gpt-oss系列在代码生成和理解方面非常强大,对于我们工程师来说,这意味着它在辅助编程、代码调试等场景下会是个得力助手。


2. 健康领域对话能力 (HealthBench & HealthBench Hard)


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


这个基准测试模拟了真实的健康咨询对话场景。


  • 结果:在常规的HealthBench上,gpt-oss系列可以说是“乱杀”。gpt-oss-20b得分59.8%,gpt-oss-120b得分57.6%,双双超过了o4-mini(50.1%)和o3(42.5%)。在更具挑战性的HealthBench Hard上,gpt-oss-120b(30%)也仅仅略低于o3(31.6%),但远超其他模型。


gpt-oss在处理需要专业知识和细致沟通的领域(如医疗健康)方面有特殊优势,这可能是其训练数据和微调策略带来的结果。


3. 数学竞赛能力 (AIME 2024 & 2025)


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


这是衡量模型解决复杂数学竞赛问题的能力。


  • 结果:在这个项目上,所有顶级模型的表现都非常接近,准确率都极高。gpt-oss系列与o-series模型互有胜负,例如在AIME 2025上,gpt-oss-20b(98.7%)的表现甚至超过了gpt-oss-120bo3


这证明gpt-oss模型具备顶级的逻辑推理和数学计算能力。


4. 综合知识与推理能力 (MMLU, GPQA Diamond, Humanity's Last Exam)


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


这几项是衡量模型在学术、科学和跨学科领域的综合知识与问题解决能力的经典基准。


  • MMLU (综合学科知识)gpt-oss-120b拿到了90%的准确率,与o4-mini(93%)和o3(93.4%)非常接近,表现出很强的综合知识水平。GPQA Diamond (博士级科学问题)gpt-oss-120b的准确率为80.1%,同样紧随o3(83.3%)和o4-mini(81.4%)之后。Humanity's Last Exam (专家级问题)gpt-oss-120b(带工具)的准确率为19%,仅次于o3(24.9%),但优于o4-mini(17.7%)。


综合来看,gpt-oss-120b的通用推理和知识储备能力已经达到了与OpenAI自家最先进的专有模型几乎持平的水平。


5. AI代理(Agent)核心能力 (Tau-Bench Retail)


gpt-oss专为Agent而生,16G显存就能跑,昨晚开源。


这个基准直接测试模型进行“函数调用”(Function Calling)的能力,这是构建AI代理最核心的技术之一。


  • 结果gpt-oss-120b的准确率为67.8%,非常接近表现最好的o3(70.4%),并且优于o4-mini(65.6%)。


这个数据直接印证了OpenAI官方的说法,gpt-oss是为Agentic工作流设计的。它强大的函数调用能力,意味着我们可以放心地让它去调度各种外部API和工具,来构建更复杂的自动化应用。我之前写过一篇相关的文章,感兴趣您可以看看《函数调用提示词咋写,看下OpenAI发布的Function Calling指南(万字含示例)|最新


未经监督的“思维链”


这里有个特别有意思的设计,就是模型的思维链(CoT)是未经直接监督的,OpenAI官方说这是为了让CoT更真实地反映模型的“思考过程”。这意味着什么呢?您在调试时看到的CoT,可能就是模型最原始的想法


写在最后


至于怎么用上,模型已经在Hugging Face上开放下载,而且得到了Azure、AWS、NVIDIA等一众大厂的支持,整个生态已经相当成熟,您拿到手就能很快集成到自己的产品里欢迎您来一起交流使用心得!


文章来自于微信公众号“AI修猫Prompt”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0