GPT-5.5 发布,详细解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GPT-5.5 发布,详细解读
6771点击    2026-04-24 10:13

OpenAI Release


凌晨,OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新


GPT-5.5 发布,详细解读


下面这个,是介绍视频


GPT-5.5 发布,详细解读

https://openai.com/index/introducing-gpt-5-5/


本次核心变化:用更少的 token,干更难的活


在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 达到了最高智能水平,成本是同级别竞品的一半


GPT-5.5 发布,详细解读


GPT-5.5 这个模型,目前已向 ChatGPT 付费用户开放


对于更高级别的 GPT-5.5 Pro,则向 Pro、Business、Enterprise 用户开放


API 即将上线,价格大幅上涨,为 $5/$30 (每百万Token),是 5.4 价格的 2 倍


GPT-5.5 发布,详细解读


能力总览


OpenAI 拿出了一张 9 项核心指标的对比表,横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro


GPT-5.5 发布,详细解读

我把表格重绘了下


在 Artificial Analysis Intelligence Index(第三方,10 项 eval 加权平均)上,GPT-5.5 在同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型(注意:考虑到 5.5 是 5.4 价格的2倍,所以总价还是更贵了)


GPT-5.5 发布,详细解读


Terminal-Bench 2.0复杂命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%


SWE-Bench Pro真实 GitHub issue 解决:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%,但 Anthropic 承认部分问题存在记忆化


Expert-SWE内部长周期编码任务,中位人类完成时间 20 小时:73.1%,vs GPT-5.4 的 68.5%


GPT-5.5 发布,详细解读


在 Codex 里,GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K


知识工作


coding 之外,GPT-5.5 在日常电脑操作和知识工作上的提升同样明显


GDPval44 个职业知识工作测试,胜出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%


OSWorld-Verified模型独立操作真实电脑环境:78.7%,vs GPT-5.4 的 75.0%


Tau2-bench Telecom复杂客服工作流,无 prompt 调优:98.0%,vs GPT-5.4 的 92.8%


GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确


GPT-5.5 发布,详细解读

财务建模 demo,手动替换:https://player.vimeo.com/video/1185616826


OpenAI 内部用例


OpenAI 公司超过 85% 的员工每周都在用 Codex,覆盖工程、财务、市场、公关、数据科学、产品管理


公关团队分析了 6 个月的演讲邀请数据,建了打分和风险框架,低风险请求自动处理,高风险请求交人审核


财务团队审了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成


GTM 团队自动生成周报,每周省 5-10 小时


科学研究


GeneBench 是 OpenAI 新推出的 eval,测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 达到 33.2%


BixBench(真实生物信息学和数据分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%


GPT-5.5 发布,详细解读

Academic 评测数据


Ramsey 数新证明


GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象,研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证


GPT-5.5 发布,详细解读


推理效率


GPT-5.5 更大更强,但实际延迟和 GPT-5.4 一样


此前,OpenAI 用固定数量的静态分区来平衡 GPU 上的计算负载


而在新版本中,Codex 分析了数周的生产流量数据,写了自定义的启发式分区算法。这一项改进让 token 生成速度提升了超过 20%


GPT-5.5 发布,详细解读


模型帮忙优化了自己运行的基础设施


网络安全


GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High(生物/化学能力同为 High)。没有达到 Critical 级别


CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%


CTF 挑战任务内部扩展版:88.1%,vs GPT-5.4 的 83.7%


与此同时,GPT-5.5 也发布同时推出了一个新项目:生物安全漏洞赏金


GPT-5.5 发布,详细解读


规则是这样,OpenAI 准备了 5 个生物安全问题,参与者需要找到一条「通用越狱 prompt」,在 Codex Desktop 的干净对话里,一次性通过全部 5 个问题,且不触发审核,就算越狱成功


参与地址在这:https://openai.com/index/gpt-5-5-bio-bug-bounty/


第一个成功的通用越狱,奖金 $25,000。部分突破可能获得较小奖励


申请窗口2026 年 4 月 23 日开放,6 月 22 日截止,滚动审核


测试窗口2026 年 4 月 28 日至 7 月 27 日


准入条件需要现有 ChatGPT 账号,签署 NDA


保密要求所有 prompt、输出和发现均受保密协议覆盖


面向有 AI 红队、安全或生物安全经验的研究者


可用性与定价


ChatGPT


GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户


Codex


GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 用户,400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍,成本 2.5 倍


API(即将上线)


gpt-5.5$5/1M input tokens,$30/1M output tokens,1M 上下文窗口


gpt-5.5-pro$30/1M input tokens,$180/1M output tokens


Batch / Flex标准价的一半


Priority标准价的 2.5 倍


GPT-5.5 单价比 GPT-5.4 高,但 token 效率也更高


OpenAI 表示在 Codex 里,GPT-5.5 对大多数用户来说,实际消耗的 token 比 GPT-5.4 更少


完整 Benchmark 数据


以下是 OpenAI 公布的全部评测数据,按类别整理。所有 GPT 评测在 reasoning effort 设为 xhigh 的研究环境中进行


GPT-5.5 发布,详细解读

Coding 评测表


GPT-5.5 发布,详细解读

Professional 评测表


GPT-5.5 发布,详细解读

Computer Use and Vision 评测表


GPT-5.5 发布,详细解读

Tool Use 评测表


GPT-5.5 发布,详细解读

Academic 评测表


GPT-5.5 发布,详细解读

Cybersecurity 评测表


GPT-5.5 发布,详细解读

Long Context 评测表


GPT-5.5 发布,详细解读

Abstract Reasoning 评测表


GPT-5.5 发布,详细解读

Abstract Reasoning 评测表


短板


SWE-Bench Pro 上 Claude Opus 4.7 报了 64.3%(GPT-5.5 是 58.6%),但 Anthropic 承认部分问题存在记忆化


MCP Atlas 上 Claude Opus 4.7(79.1%)和 Gemini 3.1 Pro(78.2%)均高于 GPT-5.5(75.3%) 


Humanity's Last Exam(带工具)上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%


长上下文 256K 以上,Claude Opus 4.7 在部分指标上仍有优势


参考材料


 官方博客:openai.com/index/introducing-gpt-5-5/


 System Card:deploymentsafety.openai.com/gpt-5-5


 Bio Bug Bounty 申请:https://openai.com/index/gpt-5-5-bio-bug-bounty/


 BixBench 论文:arxiv.org/abs/2503.00096


 Artificial Analysis 方法论:artificialanalysis.ai/methodology/intelligence-benchmarking


 API 定价:openai.com/api/pricing/


文章来自于"赛博禅心",作者 "金色传说大聪明"。

关键词: AI新闻 , GPT-5.5 , openai , chatGPT
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0