谷歌最新版「深度研究」反击GPT-5.2

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
谷歌最新版「深度研究」反击GPT-5.2
8539点击    2025-12-12 10:54

昨夜,OpenAI用专家级GPT-5.2复仇Gemini 3成功!


而在GPT-5.2发布前一个多小时,谷歌就率先推出全新版Gemini Deep Research Agent。


谷歌最新版「深度研究」反击GPT-5.2


谷歌对Gemini深度研究进行了重新构想,使其比以往任何时候都更加强大。


  • 新版Deep Research Agent基于Gemini 3 Pro构建;


  • 通过多步强化学习训练,提高准确性并减少幻觉;


  • 它能够处理海量上下文,并提供引用来源验证提出的每一个观点。


谷歌最新版「深度研究」反击GPT-5.2


除了Deep Research Agent功能更新,还放出了另外两项全新能力:


  • 开源新网络研究Agent基准DeepSearchQA,验证智能体在网络研究任务中的全面性;


  • 推出全新交互API(Interactions API


虽然GPT-5.2刚刚发布无法对比,但谷歌DeepMind产品经理路Lukas Haas在社交平台X上透露:


谷歌最新版「深度研究」反击GPT-5.2


最新版Gemini Deep Research Agent在谷歌新基准测试上得分46.4%,在BrowseComp上与GPT-5 Pro相当,价格却低了一个数量级。


谷歌最新版「深度研究」反击GPT-5.2


深度研究,更「深度」了


Gemini Deep Research是一款专为长时间上下文收集与综合任务优化的智能体。


该智能体的推理核心采用迄今为止最具事实准确性的Gemini 3 Pro模型,并经过专门训练,以在复杂任务中减少幻觉生成并最大化报告质量。


通过扩展多步强化学习在搜索中的应用,该智能体能够以高精度自主驾驭复杂的信息环境。


谷歌最新版「深度研究」反击GPT-5.2


Gemini Deep Research在完整Humanity's Last Exam(HLE)测试集中达到46.4%的领先水平,在DeepSearchQA上取得66.1%的优异成绩,并在BrowseComp测试中获得59.2%的高分表现。


DeepResearch采用迭代式研究规划机制——它会制定查询、阅读结果、识别知识缺口并再次搜索。


本次版本大幅改进了网络搜索功能,使其能够深入网站获取特定数据。


该智能体经过优化,能够以更低成本生成经过充分研究的报告。


不同于传统的聊天机器人(Chatbot),Deep Research被设计为一个长时程运行的系统,其核心竞争力在于处理「非即时性」的复杂任务。


简单聊聊深度研究


深度研究,算是日常使用AI工具中,最高频的功能了。


毕竟每个月20美元,就能享受到多次「博士级」的服务,何乐而不为。


我的观点就是,深度研究是普通人最能降维打击知识服务的AI工具。


谷歌最新版「深度研究」反击GPT-5.2


Deep Research,这一类深度研究的智能并非源于单一模型的暴力计算,而是源于其复杂的智能体工作流(Agentic Workflow)。


该工作流模拟了人类专家在面对陌生领域时的认知行为,主要包含规划、执行、推理与报告四个闭环阶段。


谷歌最新版「深度研究」反击GPT-5.2


当用户提交一个模糊的宏观指令(例如「分析2030年量子传感器的商业化路径」)时,DeepResearch首先启动的是其规划模块。


基于Gemini 3 Pro强大的推理能力,系统不会立即进行搜索,而是通过「后退一步提示」技术,将这一宏观问题拆解为多个子维度的研究路径,如技术成熟度、供应链瓶颈、政策监管环境及主要竞争对手分析。


这一规划过程是动态的。在传统的链式思维中,路径往往是线性的;而在DeepResearch中,规划树是可扩展的。


如果在初步搜索中发现了未预见的新概念,系统会实时修改研究计划,增加新的分支进行深入挖掘。


DeepSearchQA:深度研究智能体的基准测试


在上面的基准测试中,你应该注意到一个叫做DeepSearchQA。


这就是谷歌专门针对深度研究智能体开发的测试基准,一个用于评估智能体在复杂多步骤信息检索任务表现的全新基准。


DeepSearchQA包含涵盖17个领域的900项人工设计的因果链任务,其中每个步骤都依赖于先前的分析。


与传统基于事实的测试不同,DeepSearchQA通过要求智能体生成详尽答案集来评估研究完整性,同时检验研究精确度与信息召回能力。


DeepSearchQA还可作为思考时间效益的诊断工具。


在内部评估中,谷歌发现当允许智能体执行更多搜索和推理步骤时,其性能获得显著提升。


谷歌最新版「深度研究」反击GPT-5.2


对比pass@8与pass@1的结果,证明了让智能体通过并行探索多条轨迹进行答案验证的价值。


这些结果基于DeepSearchQA的200个提示子集计算得出。


交互API:专为Agent应用开发设计


谷歌最新版「深度研究」反击GPT-5.2


交互API原生集成了一套专属接口,该接口专为Agent应用开发场景设计,可高效处理交错式消息、思维链、工具调用及其状态信息的复杂上下文管理工作。


Gemini模型套件外,交互API还提供其首个内置Gemini Deep Research Agent


下一步,谷歌将扩展其内置Agent,并提供构建和引入其他Agent的功能,这将使开发者能够通过一个API连接Gemini模型、谷歌内置Agent和开发者的定制Agent


交互API提供了一个单一的RESTful端点,用于与模型和Agent交互。


Interactions API扩展了generateContent的核心功能,为现代智能体应用提供所需特性,包括:


  • 可选服务器端状态:将历史记录管理卸载到服务器的能力。这简化了客户端代码,减少上下文管理错误,并可能通过提高缓存命中率来降低成本。


  • 可解释且可组合的数据模型:专为复杂智能体历史记录设计的清晰架构。您可以对交错排列的消息、思考过程、工具及其结果进行调试、操作、流式处理和逻辑推理。


  • 后台执行:无需维持客户端连接,即可将长时间运行的推理循环卸载到服务器端的能力。


  • 远程MCP工具支持:模型可直接调用模型上下文协议(MCP)服务器作为工具。


随着Interactions API的推出,Google试图重新定义开发者构建AI应用的方式,从「无状态的请求-响应」模式转向「有状态的智能体交互」模式。


目前的LLM API大多是无状态的。开发者必须在客户端维护整个对话历史,并在每次请求时将数万token的上下文发送回服务器。


这不仅增加了延迟和带宽成本,还使得构建复杂的、多步骤的Agent变得异常繁琐。


Interactions API引入了服务器端状态管理


开发者只需通过/interactions端点创建一个会话,Google的服务器就会自动维护该会话的所有上下文、工具调用结果以及Agent的内部思维状态。


这才是我认为谷歌这个最新API恐怖的地方。


Interactions API最革命性的特性在于它允许开发者直接调用谷歌预训练的高级Agent,而不仅仅是基础模型。


比如开发者可以通过简单的API调用(指定agent=deep-research-pro-preview-12-2025)将Google最顶尖的研究能力嵌入到自己的ERP、CRM或科研软件中。


考虑到DeepResearch一次任务可能消耗数十万token的阅读量和生成量,单次深度研究的成本可能达到数美元。


然而,与其替代的人类初级分析师数小时甚至数天的工作成本相比,这一价格仍具有极高的投资回报率。


DeepMind与英国政府达成合作


最后,还有一个消息值得注意。  


在谷歌和OpenAI打生打死意外,谷歌DeepMIind已经在国家层面,展开合作。


DeepMind作为诞生于伦敦的AI巨头,正在通过DeepResearch及其底层技术,与英国政府展开一场规模空前的「AI治国」实验。


谷歌最新版「深度研究」反击GPT-5.2


这一合作不仅涉及科学探索,更深入到公共行政的毛细血管,特别是在解决英国长期存在的住房危机和规划效率低下问题上取得了突破性进展。


Project Extract:破解城市规划的「数据孤岛」


英国的城市规划系统(Planning System)长期以来被视为阻碍经济增长和住房建设的瓶颈。


每年,地方议会需要处理约35万份规划申请,而大量的历史规划档案仍以纸质、扫描PDF或手绘地图的形式存在。


规划师往往需要花费数小时在一个布满灰尘的档案中寻找几十年前划定的地下管线或保护区边界。


谷歌最新版「深度研究」反击GPT-5.2


为了解决这一痛点,DeepMind与英国政府AI孵化器(i.AI)合作开发了Extract工具。


这不是一个简单的OCR软件,而是一个基于Gemini多模态推理能力的复杂地理空间智能系统。


  1. 非结构化信息理解:
  2. 视觉推理与多边形提取:
  3. 时空特征匹配:
  4. 全流程自动化:


目前,Extract已在威斯敏斯特(Westminster)、希灵登(Hillingdon)等四个地区进行试点。


英国政府计划在2026年春季将其推广至全国所有地方议会。


这不仅将释放数千小时的行政人力,更重要的是,它将构建一个全国统一的数字规划数据库,为英国政府承诺的「建设150万套新住房」计划提供数据底座。


这是DeepResearch技术在垂直领域应用的最佳范例——将通用的多模态推理能力转化为具体的行政生产力。


科学新基建:从AlphaFold到自动化材料实验室


在基础科学领域,DeepMind与英国政府的合作旨在通过AI加速科学发现的飞轮效应。


DeepMind宣布将于2026年在英国建立其首个自动化AI科学实验室


  • 闭环发现系统:实验室将运行一个由Gemini和GNoME(Graph Networks for Materials Exploration)驱动的闭环系统。AI负责基于量子化学原理设计新的晶体结构,预测其稳定性。


  • 机器人合成:这些设计指令直接发送给全自动化的机器人平台,机器人负责配料、合成、烧结和测试。


  • 数据反馈:实验结果实时反馈给AI,用于修正下一轮的预测。目标是将新材料(如室温超导体、高效电池电解质)的发现周期从数十年缩短至数月甚至数天。这一举措直接服务于英国的净零排放(NetZero)战略和能源安全。


除了硬件实验室,DeepMind还向英国科学家开放了一系列前沿AI模型:


国家安全与数字免疫系统


在安全领域,合作重点从「进攻性能力」转向了「防御性韧性」。


DeepMind与英国AI安全研究所(UKAI Security Institute)合作,部署了基于DeepResearch技术的网络防御工具。


  • BigSleep(原Project Naptime):这是一个利用LLM在大规模代码库中寻找潜伏漏洞的智能体。它曾成功在SQLite等核心开源基础设施中发现了人类专家未能察觉的内存安全漏洞。


  • Code Mender:与BigSleep配合,不仅发现漏洞,还能自动生成修复代码补丁。这一套「发现-修复」的自动化闭环,旨在为英国的国家关键信息基础设施(CII)构建一套实时的「数字免疫系统」,抵御日益复杂的网络攻击。


以上就是谷歌这次针对GPT 5.2的更新内容。


个人认为谷歌目前还是最强的。


虽然昨夜GPT 5.2闪击Gemini 3成功,但是在多模态能力依然还是稍微落后的,或者在年底会有一个对标Nano Banana Pro的产品出现。


而且从最新的深度研究智能体来看,以及DeepMind在英国的深度战略布局,谷歌更加领先一步。


这种领先性向我们展示了AI技术发展的一个清晰图景:


通用人工智能(AGI)的雏形正在从对话框中走出,演变为能够感知、规划并改变物理与数字世界的智能体。


参考资料:


https://blog.google/technology/developers/deep-research-agent-gemini-api/


https://x.com/GoogleDeepMind/status/1999165701811015990


https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI