今天凌晨,OpenAI 甩出一对王炸,正式发布两款开源模型:gpt-oss-120b 和 gpt-oss-20b。是的,你没看错,那个曾经被戏称为 CloseAI 的男人,带着他的诚意,回来了!
这次发布堪称 AI 圈的文艺复兴,距离上一次发布开源的 GPT-2 已经过去了整整六年。这六年里,我们看着闭源模型一路狂奔,今天,OpenAI 终于为开源社区送来了迟到的开源 SOTA 模型。
简单说,OpenAI 这次直接把 准o4-mini级别 的推理能力免费开放给全世界的开发者。我们为你整理了核心亮点:
1. 🥇 性能逆天:120B 模型硬刚 o4-mini
gpt-oss-120b:拥有惊人的 1170亿 总参数,但借助创新的 MoE架构,每次推理只激活 51亿 参数。这意味着它在保持顶级性能的同时,极大地降低了运行成本。
基准测试:在编程、数学竞赛、健康咨询和工具使用等多个核心推理基准上,gpt-oss-120b 的表现与 o4-mini 不相上下,甚至在某些领域(如 AIME 2024 & 2025 数学竞赛)实现了超越。
gpt-oss-20b:一个更轻量级的版本,总参数 210亿,激活参数 36亿,普通 16GB 内存的电脑就能跑起来,就是为个人开发者和本地化应用量身定制。
2. 🌱 架构揭秘:MoE + 稀疏注意力
技术路径:这次的模型采用了 MoE 架构,gpt-oss-120b
每层包含 128 个专家,每次前向传播激活 4 个。这个设计,让模型在处理特定任务时效率奇高。
注意力机制:模型采用了类似 GPT-3 的交替密集和局部带状稀疏注意力模式,这是其高效表现的关键之一。
原生MXFP4:模型在 MoE 层使用了原生的 MXFP4 精度进行训练,使得 gpt-oss-120b
能够塞进一张 80GB 的 H100 GPU,而 gpt-oss-20b
则能在 16GB 内存下运行。
3. 💸 商业友好:Apache 2.0 协议,随便用!
真·开源:这次 OpenAI 拿出了十足的诚意,模型遵循 Apache 2.0 许可。这意味着你可以自由地使用、修改、分发,甚至是商业化部署,而不用担心任何 copyleft 限制或专利风险。对于独立开发者和创业公司来说,这无疑是超级利好。
4. 🤖 Agentic by Design:为智能体任务而生
核心能力:模型在设计之初就强化了指令跟随和工具调用能力,包括 网页浏览 和 Python 代码执行。这让它成为构建复杂 AI Agent 的绝佳基础。
完全可控:开发者可以访问完整的 思想链(Chain-of-Thought),让调试过程更透明,对模型输出的信任度更高。
这次的开源,绝非简单的为爱发电,背后是 OpenAI 精妙的商业和生态策略:
生态卡位:在 Meta 等竞争对手对开源态度暧昧之际,OpenAI 强势入局,旨在抢占开源生态的制高点。通过提供一个高性能、低成本的开源选项,吸引全球开发者围绕其技术栈进行创新,从而构建一个强大的护城河。
硬件协同:此次发布与 NVIDIA 深度绑定。模型在 NVIDIA H100 上训练,并在其最新的 Blackwell 平台上进行了深度优化。NVIDIA 的博客宣称,一台 GB200 NVL72 服务器每秒可处理 150万 gpt-oss-120b
的 token,支持约 5万 并发用户。看这样子,是要跟英伟达一起定义下一代 AI 计算标准。
数据反哺:OpenAI 将这次开源视为一次实验。通过观察社区如何使用、微调和部署这些模型,他们可以获得大量宝贵的真实世界数据和反馈,这对于训练更强大的闭源模型(比如传说中的 GPT-5)至关重要。这波操作,OpenAI 是在大气层。
消息一出,Hugging Face、Reddit、推上的开发者们瞬间沸腾了:
gpt-oss-20b
的低门槛让许多独立开发者跑本地 SOTA 大模型看到了希望。值得一提的是,在正式发布前,这两个模型曾在 HuggingFace 上闪现后被秒删,早已吊足了社区的胃口。这次正式官宣,可谓是引爆了所有人的期待。
总而言之,OpenAI 此次的开源,不仅是给全球开发者的一份大礼,更是对整个 AI 圈的一次深远布局。它标志着顶级 AI 能力正在加速普及,一个由强大开源模型驱动的创新时代,正以前所未有的速度向我们驶来。
文章来自微信公众号 “ VibeFriends “
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner