OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

8774点击 2026-03-19 09:45

OpenAI刚推出的GPT-5.4 mini，Day0就已经被嫌弃了。

根据公开的大语言模型评测基准Vals，今天新出的GPT-5.4 mini仅排行第13名，优于OpenAI半年前发布的GPT-5。

值得一提的是，排行第12的是一月底出的的Kimi 2.5，而Kimi 2.5比新出的5.4mini便宜一倍多，延迟还更低。

在同步的拓扑证明中，新出的mini和nano模型在全球范围内表现也只是中规中矩，分别排行第九第十，不如早前发布的Kimi、Qwen、DeepSeek等模型。

（OpenAI后来居下这一块）

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

还有人指出，这次GPT‑5.4 mini的baseline对比的是老GPT‑5 mini（运行速度快两倍），也就是大半年前的版本，而不是其他厂家的新模型。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

不少网友甚至直言，换新GPT‑5.4 mini“还真没必要”。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

虽然OpenAI的博客表示，在输出tokens 上，性能近似的mini版本比GPT‑5.4便宜三倍，nano版本则几乎便宜十二倍。

但如果你拿GPT‑5.4 mini与旧版GPT‑5 mini对比，会发现同为mini档的模型，价格却上涨了大约三倍。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

可以说，在龙虾热中，全球所有模型厂家都在涨价，奥特曼这么精的小子自然也没放过。

所以，这是拿着专门优化过编程和agent的小模型就来了？

新版mini和nano模型

今天，OpenAI推出主打快速和经济的GPT-5.4 mini和nano模型，专门针对编程、计算机操作、多模态理解以及子代理（subagent）做了优化。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

相比前代GPT‑5mini，新版mini和nano在性能上有不错的提升，同时运行速度提升超过两倍。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

值得注意的是，在多个评测中，mini/nano模型与满血版GPT‑5.4的差距已经不大，性能上也基本与谷歌，Anthropic的轻量模型持平。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

根据OpenAI官方博客，新模型主打编程和子代理。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

其中，GPT‑5.4 mini在编程、推理、多模态理解和工具使用方面进行了优化，运行速度提升超过两倍，在SWE-Bench Pro和OSWorld-Verified等评测中表现接近满血版GPT‑5.4。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

GPT‑5.4 nano则是GPT‑5.4系列中最小、最经济的版本，适合速度和成本敏感的任务，例如分类、数据提取、排序，以及处理较简单的辅助编程任务。

总的来说，这俩新模型适合延迟直接影响产品体验的工作负载，比如编码助手、子代理、屏幕截图解析、多模态应用。

说白了就是龙虾这类已经抽象出skill的agent，部署在mini/nano这类反应快速，能力够用的小模型就更实惠。

在具体的使用上，GPT‑5.4 mini可在API、Codex和ChatGPT中调用，而nano仅能通过API使用。

价格方面，mini版本每百万输入tokens0.75美元，每百万输出tokens4.5美元。Nano版本在API中费用更低，每百万输入0.2美元，每百万输出1.25美元。

不过，横向对比来看，有网友指出，Gemini Flash 3 lite则更智能，而且总体要便宜六倍多。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

评测结果

在实际评测中，mini和nano主要是针对编程和Agent任务做了优化。

在编程任务中，它们能够低延迟完成代码修改、调试循环和库导航，快速迭代，高效处理需要速度和成本兼顾的工作流程。

Mini的通过率接近GPT‑5.4，同时速度更快。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

在子代理场景中，开发者可以让大模型负责决策和规划，同时将较小的任务并行委派给mini子代理，比如搜索代码库、处理文档或辅助操作。

随着小型模型越来越快，这种模式的价值愈发凸显。

在计算机操作和多模态任务中，mini表现同样出色，能够快速解析复杂用户界面截图，高效完成操作任务。

在OSWorld-Verified测试中，它的表现几乎接近满血版GPT‑5.4，同时明显优于GPT‑5 mini。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

有些网友的实际测试也佐证了这些亮点。

reddit网友Rent_South系统地测试新版mini在分类、总结、翻译等任务上的表现，并给出了高度评价：

我在它们身上跑了些基准测试，结果发现——在一些真实场景任务中，它们更便宜、更快，也更好用。

自从大约一年前，我在构建一个RAG流水线时，gpt‑4.1-mini在某些代理任务步骤上打败了GPT‑4原版之后，我对mini/nano版本的热情就比对原版还高。

在分类任务中，nano准确率达70%，成本比GPT‑5.4降低十二倍。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

当调用超过超过一万次时，GPT-5.4大约花费20.30美元，GPT-5.4-nano则只有1.64美元，节省幅度约91.9%。

在翻译任务上，nano得分略低，为55分，但与GPT‑5.4的63分差距不大，仍可作为替代选择。在超万次调用后，节省幅度仍达到了91.3%！

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

在写作任务中，mini版本反倒得分最高，成本比满血版低约六成。在超过1万次调用时，mini花费29.61美金，nano仅花费10.30美金。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

此外，还有网友测试了模型描述图片的能力，nano在描述博物馆照片时，输出详细准确，使用token极少，总成本甚至不到一分钱。

比如，这位网友让nano模型描述自己随手拍的博物馆的照片：

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

nano模型输出了以下描述：

图片显示了一间博物馆展厅的内部，有一面长长的展墙。白色砖墙上整齐排列着许多装框肖像画。肖像画下方是多个玻璃展示柜，木框深色，顶部/前方为玻璃，展示柜内摆放着各种历史文物和设备。房间铺设了抛光木地板，吊顶上有悬挂灯具及电线，墙顶附近可见少量管道。前景中，沿房间长度排列的玻璃柜映出了其他展区的物品。

生成这么一段描述这次操作用了2751个输入tokens和112个输出tokens，费用为0.069美分（不到一分钱的十分之一）。

即便在创意任务上，如生成鹈鹕骑自行车的SVG图，nano和mini与满血版GPT‑5.4仍有一定差距，但它们完成基础创作任务完全可行。

起码随着推理强度的提升，我们能看到画面可以保持相对的正确性。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

整体看下来，这次模型跟OpenAI自家的产品来比，的确是可圈可点。

但对于这是否就是市面上最好的、最经济的小模型，还有待讨论。

one more thing

有趣的是，在OpenAI总裁Greg Brockman发布新模型的评论区，最火热的讨论居然不是新模型的能力，也不是价格，甚至几乎和新模型本身没有关系。

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

评论区里刷屏的，几乎全是带keep4o标签的：“让4o回来！”

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

参考链接

[1]https://x.com/gdb/status/2034003374627049909

[2]https://simonwillison.net/2026/Mar/17/mini-and-nano/

[3]https://www.reddit.com/r/OpenAI/comments/1rwd9hd/breaking_openai_just_dropped_gpt54_mini_and_nano/

[4]https://x.com/scaling01/status/2033958931874099560

文章来自于“量子位”，作者 “henry”。

关键词: AI新闻 , openai , GPT-5.4 mini , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI