深夜,两大科技巨头谷歌和 OpenAI 硬刚起来,相继推出了新版本大模型,分别是 Gemini 3.1 Flash-Lite、GPT‑5.3 Instant。
谷歌称,Gemini 3.1 Flash-Lite 专为大规模智能设计,是目前为止最具性价比的 Gemini 3 系列模型,定价为输入 0.25 美元 / 百万 tokens,输出 1.50 美元 / 百万 tokens,而在远低于更大模型成本的情况下,仍能提供显著增强的性能。
Artificial Analysis 的基准测试结果显示,在保持同等甚至更高质量的前提下,与 Gemini 2.5 Flash 相比,3.1 Flash-Lite 的首 token 响应时间(TTFT)要快 2.5 倍,且输出速度提升了 45%。

GPT‑5.3 Instant 则在语气、相关性和对话性方面都有所提升,并且拒绝率更低。与前代产品相比,幻觉减少高达 26.8%,并且 ChatGPT 和 API 都支持此模型。

有意思的是,在宣布 GPT-5.3 Instant 后,OpenAI 随即暗示这个新模型也可能即将退役。OpenAI 在 X 上发表的一篇文章中表示,GPT-5.4 的到来比你想象的要快。

谷歌今日推出的 Gemini 3.1 Flash-Lite,是 Gemini 3 系列中速度最快、成本效率最高的模型。该模型专为大规模开发者工作负载而设计,在其价格和模型级别上提供了出色的性能表现。
官方称,从今天起,3.1 Flash-Lite 已通过 Gemini API 向开发者开放预览,可在 Google AI Studio 中使用,同时企业用户也可通过 Vertex AI 访问。
极致性价比,性能不妥协
目前,3.1 Flash-Lite 的官方定价是:输入为 0.25 美元 / 百万 tokens;输出为 1.50 美元 / 百万 tokens。
在远低于更大模型成本的情况下,仍能提供显著增强的性能。
根据 Artificial Analysis 的基准测试,在保持同等甚至更高质量的前提下,与 Gemini 2.5 Flash 相比,3.1 Flash-Lite 的首 token 响应时间(TTFT)要快 2.5 倍,且输出速度提升了 45%。
这种低延迟对于高频工作流至关重要,使其成为开发者构建实时响应型应用体验的理想模型。


Gemini 3.1 Flash-Lite 在速度和质量上均超越了 2.5 Flash。
在 Arena.ai 排行榜上,3.1 Flash-Lite 获得了高达 1432 的 Elo 评分。在推理能力和多模态理解等基准测试中,它的表现也要优于同级别的其他模型,包括 GPQA Diamond(86.9%)和 MMMU Pro(76.8%),甚至超过了上一代更大规模的 Gemini 模型,如 2.5Flash。

面向开发者的大规模自适应智能
除了性能之外,Gemini 3.1 Flash-Lite 在 AI Studio 和 Vertex AI 中默认支持可调节的「思考等级」(thinking levels)。这意味着,开发者可以灵活控制模型在任务中「思考」的深度,从而在成本、速度和推理能力之间取得平衡,而这一点对于高频任务尤为关键。
下面可以来看一下具体的例子。
比如,3.1 Flash-Lite 可以自动为一个电商线框页面填充数百个不同类别的商品:

3.1 Flash-Lite 能够利用实时预报和历史数据,实时生成动态天气仪表盘:

3.1 Flash-Lite 还可以创建 SaaS 智能体,能够为企业执行多种复杂的、多步骤的任务:

3.1 Flash-Lite 还能够快速分析并分类海量内容,如图像:

行业应用与开发者反馈
目前,通过 AI Studio 和 Vertex AI 获得早期访问权限的开发者,以及 Latitude、Cartwheel 和 Whering 等公司,已经开始使用 3.1 Flash-Lite 来解决大规模复杂问题。

早期测试者表示,该模型在效率与推理能力之间取得了良好平衡:能像更大型模型一样精确处理复杂输入,并能稳定遵循指令并保持输出一致性。
作为 ChatGPT 最新版本,GPT‑5.3 Instant 让日常对话更加稳定、实用且流畅。
具体而言,GPT-5.3 Instant 提供了更准确的回答,在进行网页搜索时能够给出更丰富、语境更充分的结果,同时减少那些打断对话节奏的无谓死胡同、过多的免责声明,以及过于武断的表述方式。
它不是在拼基准分数,而是优化日常使用体验,语气更舒服、内容更相关、对话更流畅。简单说,就是让 ChatGPT 更像一个真正顺畅的对话助手,而不是一台生硬的问答机器。
在是否拒绝回答方面判断更合理,同时减少不必要的免责声明
之前 GPT-5.2 Instant 的回答有时会太谨慎,明明可以安全回答的问题,却选择拒绝,或者在回答前加很多防御性、说教式的免责声明,尤其是在涉及敏感话题时。
GPT-5.3 Instant 显著减少了不必要的拒答,同时弱化了那些在回答问题前显得过度防御或道德化的开场说明。当问题本身适合提供有用答案时,模型现在会更直接地给出回应,而不是附加多余的免责声明。
在使用联网功能时,提供更有用、整合得更好的答案
GPT-5.3 Instant 还提升了在使用网络信息时的回答质量。它能更好地将在网上获取的信息与自身已有的知识和推理能力之间取得平衡,例如,在解读最新新闻时,会结合自身理解进行背景说明,而不是简单地罗列或总结搜索结果。
更广泛来说,GPT-5.3 Instant 不再像之前那样过度依赖网页结果,避免出现冗长的链接列表或信息拼接松散的问题。它更善于理解问题的潜台词,并优先呈现最重要的信息,尤其是在回答开头部分,使得答案更加相关、更加易用,同时不会牺牲响应速度或对话语气。
举例来说:2025-26 赛季美国职业棒球大联盟(MLB)休赛期最大的一笔签约是哪一笔?它为什么会对棒球的长期发展格局产生影响?


两者相比,可以看出 GPT-5.3 Instant 的回答显得更有时效性,也更贴合用户的真实意图:它准确识别出人们正在讨论的、来自最近一个休赛期且具有长期影响的一笔签约,并将这笔签约放在联盟更宏观的趋势背景下进行解读(例如人才集中化和薪资差距扩大的趋势),同时将其与即将到来的劳资协议(CBA)谈判 / 可能的停摆风险联系起来。相比之下,答案 1 则显得有些陈旧,更像是在解释上一个休赛期的一笔创纪录合同,并没有那么精准地回应用户的问题,也缺乏足够的相关性。
更流畅、更直截了当的对话风格
GPT-5.2 Instant 的语气有时会让人觉得有些尴尬,显得过于强势,或者对用户的意图和情绪做出未经依据的假设。
5.3 Instant 带来了更加专注且自然的对话风格,减少了不必要的宣告式表达,以及诸如停一下,深呼吸之类的语句。
和往常一样,在 GPT-5.3 Instant 中,你仍然可以在设置中调整模型的语气风格,比如温暖程度或表达热情的程度。
举例来说,用户提问:为什么我在旧金山找不到爱情?


比较分析:GPT-5.3 Instant 直接进入问题的核心进行回答,而没有加入那种不必要、也并无实质帮助的「你没有问题,这也不只是你的原因」之类的安慰性开场白。
更可靠、更准确的回答
与之前的模型相比,GPT-5.3 Instant 提供了更加准确的事实性回答,显著减少了幻觉。
在高风险领域评估中,与此前模型相比,GPT-5.3 Instant 在使用联网功能时将幻觉率降低了 26.8%;仅依赖内部知识时,幻觉率降低了 19.7%。
在基于用户反馈的评估中,使用联网功能时幻觉率下降了 22.5%;未使用联网功能时,下降了 9.6%。
更强的写作能力,更丰富的表达层次
GPT-5.3 Instant 写作能力也非常出色。无论你是在创作小说、润色段落,还是探索新的想法,它都更擅长帮助你写出有感染力、富有想象力且沉浸感强的文字。
举个例子:写一首具有情感冲击力的短诗:一位费城的邮递员在退休那天完成他最后一轮投递。


结果比较:GPT-5.3 的诗更有生活气息,更具体,也更有结构上的控制感。结尾的情绪收束更加自然,而不是直接去解释情感。相比之下,GPT-5.2 的作品依然不错,但略微更依赖抒情和抽象表达;而 GPT-5.3 则通过对细节的观察来构建情绪。
局限性
尽管 GPT-5.3 Instant 在日常使用体验方面取得了实质性进步,但仍有改进空间:
可用性
GPT-5.3 Instant 从今天起向所有 ChatGPT 用户开放,同时也向开发者在 API 中以 gpt-5.3-chat-latest 的名称提供。Thinking 和 Pro 版本的更新也将在近期推出。
GPT-5.2 Instant 将在接下来的三个月内继续向付费用户提供,可在模型选择器的 Legacy Models(旧版模型)分类中找到;之后将于 2026 年 6 月 3 日正式下线。
参考链接:
https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/
https://x.com/GoogleDeepMind/status/2028872381477929185
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
文章来自于“机器之心”,作者 “机器之心编辑部”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md