硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了
8238点击    2026-02-06 08:49

硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


硅谷今夜难眠!


Claude Opus 4.6毫无征兆地深夜突袭,没想到,却让奥特曼措手不及。


作为回应,OpenAI仓促应战,不过半小时紧急祭出最强智能体编程模型——GPT-5.3-Codex


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


没有GPT-5.3,只有GPT-5.3-Codex!


它完美融合了GPT-5.2-Codex顶尖编程能力与GPT-5.2卓越的推理及专业知识能力,且运行速度更提升了25%


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


那些涉及深度研究、工具调用及复杂执行的长程任务,都能够轻松驾驭。


GPT-5.3-Codex就像一位并肩作战的同事,你可以在它工作时进行实时引导和互动,且完全无需担心上下文丢失。


值得一提的是,GPT-5.3-Codex还是首个在自身创造过程中发挥了关键作用的模型


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


随着GPT-5.3-Codex的问世,Codex的角色发生了质的飞跃:


从一个只会编写和审查代码的AI智能体,进化为一个几乎能完成开发者和专业人士在计算机上能做的任何事情的AI智能体。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


GPT-5.3-Codex现已加入ChatGPT付费计划,覆盖Codex所有应用场景:App、CLI、IDE扩展及Web端。


如今,整个硅谷成为了Anthropic和OpenAI双雄决战的「修罗场」,空气中都充满了火药味儿。


有趣的是,原本奥特曼在凌晨12点预告了新模型发布,却让Anthropic抢占了发布的先机。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


一夜之间,两大最强编程AI怼脸PK,网友们纷纷吐槽,「简直跟不上AI迭代的速度了」。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


GPT-5.3-Codex登场,编码更强了


GPT-5.3-Codex实力有多强,亮一亮成绩单就知道了。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


软件工程新SOTA


GPT-5.3-Codex在评估现实世界软件工程的SWE-Bench Pro评测中,创下了行业新高。


与此同时,在衡量编程智能体终端技能的Terminal-Bench 2.0中,它的表现也远超此前的SOTA。


值得一提的是,GPT-5.3-Codex实现这一切所消耗的Token,比以往任何模型都要少得多。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


相较于只测试Python的SWE-bench Verified,SWE-Bench Pro涵盖四种语言,不仅更能抵御数据污染,也更具挑战性、多样性和行业相关性


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


从0造出游戏


结合前沿的编程能力、美学和紧凑性的改进,GPT-5.3-Codex能产出惊人的成果,甚至能在几天内从零开始构建功能高度复杂的各类游戏和应用。


为了测试该模型的Web开发和长程智能体能力,OpenAI让GPT-5.3-Codex做了两款游戏:


Codex App发布时的赛车游戏第二版,以及一款潜水游戏。


利用开发Web游戏的技能以及预先选好的通用后续提示词(比如「修复bug」或「改进游戏」),GPT-5.3-Codex在数百万个Token的交互中,自主对游戏进行了迭代。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


赛车游戏:包含不同的赛车手、八张地图,甚至还有可以用空格键触发的道具


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


潜水游戏:玩家可以在其中探索各种珊瑚礁,收集它们以完成你的鱼类图鉴,同时还要管理氧气


· 更懂你的意图


相比GPT-5.2-Codex,当你让GPT-5.3-Codex制作日常网站时,它能更精准地理解你的意图。


对于简单或描述模糊的提示词,它现在默认会生成功能更丰富、设置更合理的网站,为你提供更优质的起步画布,助力创意落地。


· GPT-5.3-Codex vs GPT-5.2-Codex


举个例子,同时要求GPT-5.3-Codex和GPT-5.2-Codex构建落地页。


GPT-5.3-Codex会自动将年度计划显示为折算后的月付价格,让折扣看起来清晰且经过精心设计,而不是简单地算出年度总额。


此外,它还制作了一个包含三条不同用户引语的自动切换证言轮播,而非单调的一条。这使得页面默认看起来更完整,更像是一个可以直接上线的产品。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


GPT-5.3-Codex


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


GPT-5.2-Codex


提示词:


为Quiet KPI构建一个落地页,这是一个对创始人友好的每周指标摘要。美学风格采用柔和的SaaS风,玻璃质感卡片,薰衣草色到蓝色的渐变,微妙的模糊效果。板块包括:带有邮箱收集的首屏,示例报告卡片网格,集成列表行,客户证言轮播,月付/年付价格切换,常见问题解答,页脚。 


· 字体使用Satoshi或类似的几何无衬线字体。


· 按钮采用圆角,14px半径,强烈的聚焦状态。


· 添加一个有品位的基于滚动的显现效果。


超越编程的通用能力


软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。


GPT-5.3-Codex不仅为软件生命周期中的所有环节,如调试、部署、监控、编写PRD、编辑文案、用户研究、测试、指标等提供了支持。


而且,它还能帮用户构建任何想做的东西——不管是制作精美的幻灯片,还是在表格里进行复杂的数据分析。


在衡量专业知识工作的GDPval中,GPT-5.3-Codex表现出色,与GPT-5.2处于同一顶尖水平。


1. 财务建议幻灯片


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


2. 零售培训文档


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


3. NPV分析电子表格


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


4. 时尚演示PDF


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


· 计算机使用能力 


OSWorld是一个关于计算机使用的基准测试,要求智能体在可视化的桌面计算机环境中完成生产力任务。


在这里,GPT-5.3-Codex展现出远超之前GPT模型的计算机操作能力。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


在OSWorld-Verified中,模型使用视觉来完成各种计算机任务(人类得分约为72%)


总之,这些在编程、前端、计算机操作和现实世界任务中的优异表现表明,GPT-5.3-Codex不仅在单项任务上表现更好,更是向单一通用智能体迈出的跨越性一步。


这意味着智能体已能够在全方位的现实世界技术工作中进行推理、构建和执行。


协同作战,还能中途喊停


随着模型能力越来越强,现在的挑战已经从「智能体能做什么」,变成了「人类如何轻松地与并行工作的多个智能体进行交互、指挥和监督」。


在GPT-5.3-Codex的加持下,操作过程的更新也会更加频繁。


这样,开发者就可以在它工作时随时掌握关键决策和进。


你不必干等着最终结果,而是可以实时交互——提问、讨论方法,并引导它走向解决方案。


GPT-5.3-Codex会把它的操作讲给你听,响应你的反馈,并让你从头到尾都全程同步。


硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


自我加速迭代,接管研发工作流


现在的Codex,懂你意图,更懂效率。


OpenAI内部甚至出现了一种「套娃」式的进化:Codex正在加速Codex的诞生。


短短两个月,OpenAI的研究员和工程师们发现,工作方式已被彻底颠覆。


他们正在用GPT-5.3-Codex的早期版本,去训练、部署和优化现在的正式版。


这一波「自我进化」的实战成绩,相当炸裂:


  • 研究团队


从监控训练运行、深挖交互模式,到给人类同事开发分析工具,Codex全程参与,不仅修Bug,还能提建议。


  • 工程团队


它是最硬核的战友。无论是优化测试框架、定位缓存失效的根源,还是在流量洪峰中动态调度GPU集群,它都稳得住。


  • Alpha测试实战

为了搞懂生产力差异,Codex自己写正则分类器,跑遍海量日志,直接甩出一份精准报告。


面对反直觉数据,它联手数据科学家构建新管道。人类需要几小时?Codex只用了三分钟,就从数千个数据点中提炼出了关键洞察。


不止编程,更是全能操盘手


GPT-5.3-Codex的野心,早已溢出了代码框。


随着这次发布,Codex也开始从单纯的写代码工具,转型为操作计算机并端到端完成工作的得力助手。


OpenAI正在解锁更广阔的战场——从构建软件,到深度研究、复杂分析,乃至执行一切案头工作。


曾经,它的目标是做「最强编程智能体」; 现在,它是你电脑里无所不能的「通用协作者」。


Codex的适用边界被无限拓宽,而我们创造力的天花板,也将被彻底重写。


参考资料:


https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/sama/status/2019474754529321247


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0