昨晚OpenAI官方放了个大招,发布了gpt-oss-120b和gpt-oss-20b两款开源模型,这是一个专为Agent而生的模型,而且开源了。这背后其实藏着OpenAI对未来AI应用形态,特别是Agentic工作流的深刻思考。这篇文章,咱们就一起扒一扒这俩模型到底牛在哪,以及它会怎么影响我们未来的产品开发。
OpenAI官方给出的数据显示,大杯的gpt-oss-120b在核心推理能力上,基本能和他们自家的o4-mini打个平手,这可不是闹着玩的。它在一张80GB的消费级GPU上就能跑起来,而小杯的gpt-oss-20b更是只需要16GB内存,这意味着您甚至可以在边缘设备上做本地推理,这性价比直接拉满了。
为什么说这模型是为Agentic工作流设计的?OpenAI官方反复强调了它的工具使用能力、指令遵循和推理能力,这正是构建一个合格AI代理(Agent)的三大支柱。它不像传统聊天模型那样只会对话,而是被训练得能够熟练调用外部工具,比如执行Python代码或者进行网络搜索,来完成一个复杂任务,这是开发智能应用时真正需要的能力。
这俩模型能这么高效,核心在于它们采用了混合专家(MoE)架构,虽然总参数量巨大,但每次推理只激活一小部分,大大降低了计算成本。再加上它们都支持高达128k的超长上下文窗口,这意味着模型能处理和记忆的信息量非常可观,对于需要理解复杂文档或长对话的应用场景来说,这简直是福音。
官方这次给出的评测非常全面,覆盖了从编程、数学到专业知识和工具使用的方方面面,咱们一起来详细看看这些数据到底说明了什么。
这是一个衡量模型在编程竞赛中表现的指标,分数越高代表实力越强。
这说明gpt-oss系列在代码生成和理解方面非常强大,对于我们工程师来说,这意味着它在辅助编程、代码调试等场景下会是个得力助手。
这个基准测试模拟了真实的健康咨询对话场景。
gpt-oss在处理需要专业知识和细致沟通的领域(如医疗健康)方面有特殊优势,这可能是其训练数据和微调策略带来的结果。
这是衡量模型解决复杂数学竞赛问题的能力。
这证明gpt-oss模型具备顶级的逻辑推理和数学计算能力。
这几项是衡量模型在学术、科学和跨学科领域的综合知识与问题解决能力的经典基准。
综合来看,gpt-oss-120b的通用推理和知识储备能力已经达到了与OpenAI自家最先进的专有模型几乎持平的水平。
这个基准直接测试模型进行“函数调用”(Function Calling)的能力,这是构建AI代理最核心的技术之一。
这个数据直接印证了OpenAI官方的说法,gpt-oss是为Agentic工作流设计的。它强大的函数调用能力,意味着我们可以放心地让它去调度各种外部API和工具,来构建更复杂的自动化应用。我之前写过一篇相关的文章,感兴趣您可以看看《函数调用提示词咋写,看下OpenAI发布的Function Calling指南(万字含示例)|最新》
这里有个特别有意思的设计,就是模型的思维链(CoT)是未经直接监督的,OpenAI官方说这是为了让CoT更真实地反映模型的“思考过程”。这意味着什么呢?您在调试时看到的CoT,可能就是模型最原始的想法
至于怎么用上,模型已经在Hugging Face上开放下载,而且得到了Azure、AWS、NVIDIA等一众大厂的支持,整个生态已经相当成熟,您拿到手就能很快集成到自己的产品里。欢迎您来一起交流使用心得!
文章来自于微信公众号“AI修猫Prompt”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0