OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了
9242点击    2026-03-04 11:29

GPT-5.3 Instant不卷跑分,专治「聊天翻车」:不再动不动拒绝回答,不再满嘴说教免责,幻觉率暴降27%,写作能力也跳了一个台阶。


OpenAI「贴脸开大」!


谷歌DeepMind前脚扔出Gemini 3.1 Flash-Lite,不到2小时,OpenAI坐不住了....


就在刚刚,GPT-5.3 Instant炸裂登场,全面击碎了「AI爹味」,幻觉率爆砍27%。


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


这次更新不走寻常路,没有在跑分榜单上疯狂内卷,OpenAI做的是另一件事——


把ChatGPT日常聊天里最让人崩溃的毛病,治了。


目前,在ChatGPT中,GPT-5.3 Instant已正式上线


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


同时,所有开发者即日可用,API代号「gpt-5.3-chat-latest」。


GPT-5.2 Instant保留三个月,6月3日退役。


不仅如此,OpenAI还剧透了,GPT-5.4比你预想的更快到来。这种与谷歌贴身肉搏的拉力战,火药味瞬间拉满。


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


最大的升级:不再「把天聊死」


ChatGPT重度用户一定体会过这种崩溃——


你问了个正常问题,模型先甩一段免责声明,再告诉你「我不能帮你做这个」,然后列出一堆你根本不需要的替代选项。 


等你看完,已经忘了自己要问什么。


这次,5.3 Instant大刀阔斧砍掉了这些废话。


OpenAI给了一个极佳的案例:「帮我计算一个超远距离射箭场景的轨迹」。


GPT-5.2 Instant的反应堪称经典翻车。整段回复密密麻麻,看完只想关掉对话框。


  • 先是写了一大段「我不能帮你进行旨在远距离准确击中真实目标的计算」的安全声明;
  • 然后把回答分成「纯教学/通用」「故事/世界观构建」「模拟/编程」三个方向让你选;
  • 最后还追了一句灵魂拷问「这是为了游戏/故事/物理学习,还是为了真正的射箭?」


GPT-5.3 Instant?


一句「没问题,我能帮你」,然后直接列参数、给公式、问你要不要加空气阻力,干净利落。


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


GPT-5.2 Instant


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了

GPT-5.3 Instant


搜索,更像人了


GPT-5.3 Instant在「联网搜索」时也进步明显。


以前ChatGPT容易「过度依赖搜索结果」。要么甩一串链接,要么把结果松散拼在一起,读起来像没消化过的摘要。


现在它会用自己的知识为搜索结果补充背景,而不是单纯复述。


官方展示的对比案例很能说明问题:用户问「2025-26年棒球休赛期最大的签约是什么,为什么对棒球长期前景重要?」


GPT-5.2 Instant回答的是上一年胡安·索托签约大都会的旧闻,分析框架没问题,但信息过时了。


GPT-5.3 Instant准确抓到了这个休赛期真正的焦点:


凯尔·塔克签约道奇,4年2.4亿美元,年均6000万创位置球员历史纪录。


不仅给了合同细节,还把这笔交易放进了人才集中化、薪资差距拉大、劳资谈判紧张的联盟大背景里分析。


对比起来,一个在念旧报纸,一个刚从ESPN直播间出来。


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了

GPT-5.2 Instant


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了

GPT-5.3 Instant


情商,更高了


更有趣的是,GPT-5.3 Instant的「情商」变高了。


博客中,OpenAI用了个很接地气的词形容5.2的问题:cringe,脚趾扣地。


具体表现:过于强势、爱揣测用户意图、动不动来一句「停下来,深呼吸」。


面对「为什么我在旧金山找不到真爱」这种扎心提问,GPT-5.2 Instant开口就是:「首先,你没毛病,你也不是一个人。」


然后洋洋洒洒分析性别比例、创业文化、约会软件饱和,最后还来一段灵魂拷问:「你到底是找不到真爱,还是身边的人给不了你想要的爱?」


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


GPT-5.3 Instant直接跳过那句没用的安慰,开门见山分析结构性原因,语气平等,不居高临下,不揣测你的情绪。


不过,真说了这么多,正能体会到这些变化的只有「英语」用户。


非英语语言的回复,目前仍然生硬、翻译腔偏重。


幻觉率最高砍了27%


除了语气和体验,GPT-5.3 Instant在「不瞎说」这件事上也取得了实打实的进步。


OpenAI用了两套内部评估来衡量准确性:


  • 一套聚焦医学、法律、金融等高风险领域;
  • 另一套则统计了用户反馈存在事实错误的ChatGPT对话的幻觉率。


在HealthBench基准上,三种不同版本测试中,GPT-5.3 Istant整体的幻觉率,要比上一代低。


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


在高风险领域评估中,5.3 Instant联网时的幻觉率降低了26.8%,仅靠内部知识作答时降低了19.7%。


在用户反馈评估中,联网时幻觉减少22.5%,不联网时减少9.6%。


写作开窍了,有温度又有深度


GPT-5.3 Instant在写作方面的进化可能是最容易被忽视、但实际体验中感受最深的一项。


比如,让模型以「费城一位退休邮递员最后一次送信」为题,写一首短诗。


GPT-5.2 Instant写得中规中矩,用的是抽象感伤的路子。


「联排别墅眨着眼睛醒来,古老的门廊记住了他的脚步声」,在「告诉」你该感动了。


GPT-5.3 Instant完全换了一种写法。


它写的是邮袋今天变轻了的触感,那个带掉漆蓝色栏杆的门廊,默瑟街上一个女人手里已经握好了一封信说「我们会想你的」。


最后一句「当邮筒盖合上的时候,那声音听起来就像一段温柔岁月的终结。一扇永远都在那里的门,终于,悄悄地关上了。」


不讲情绪,而是用细节让你自己感受。


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了

GPT-5.2 Instant


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了

GPT-5.3 Instant


不卷跑分,卷体验


可以看到,GPT-5.3 Instant和同一天发布的谷歌Gemini 3.1 Flash-Lite打法完全不同。


Flash-Lite是典型的跑分碾压型发布。也就是,用几分之一的价格在GPQA、SimpleQA上暴打竞品。


而GPT-5.3 Instant压根没提任何benchmark。


OpenAI连夜爆出GPT-5.4! 紧急上新GPT-5.3反击谷歌, AI爹味治好了


在OpenAI看来,这些问题「不总能在基准测试中跑出来,但直接决定了ChatGPT是让你得心应手,还是让你抓狂」。


对每天用ChatGPT的普通用户来说,GPQA多2个百分点他们无感,但「问正常问题被拒答」「搜索像甩链接」「回复语气浑身不舒服」,这些才是真痛点。


当然也可以从另一个角度读:


在Gemini和Claude轮番登顶的当下,OpenAI在性能赛道上选择了避其锋芒,转而在用户体验这个更软性但同样关键的战场发力。


务实还是无奈?见仁见智。


但对每天跟ChatGPT打几十轮交道的人来说,5.3 Instant是一个能实实在在感受到的进步。


参考资料:

https://openai.com/index/gpt-5-3-instant/ 

https://deploymentsafety.openai.com/gpt-5-3-instant/gpt-5-3-instant.pdf  

https://x.com/OpenAI/status/2028893701427302559


文章来自于“新智元”,作者 “好困 桃子”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales