AI资讯新闻榜单内容搜索-深度研究

Rubrics综述：Agent时代，如何定义一个「好答案」？

近年来，随着大模型从简单问答，走向深度研究、医疗咨询、多模态生成和长程 Agent 任务，一个基础问题变得越来越难回答：我们到底应该怎样判断模型输出的质量？

来自主题: AI技术研报

8660 点击 2026-06-01 09:24

谷歌掀桌：深度研究智能体进入自动驾驶时代

OpenAI刚用Deep Research抢了先手，谷歌直接掀桌！DeepMind祭出研究智能体双杀，Max版质量评分从66.1%暴拉到93.3%，知识工作自动化的军备竞赛正式进入贴身肉搏。

来自主题: AI资讯

7744 点击 2026-04-30 13:50

真有人做AI小猫啊？！SentiCat将生产力和情绪价值都拉满了

能陪聊，能干活，还能提供情绪价值。这个抱着AI小猫的女孩叫SUSU，她们都来自AI初创公司SentiPulse思维光谱自主研发的AI Agent产品——SentiCat。SentiCat拥有三大核心能力：办公自动化、深度研究、代码开发。不管是写报告、做PPT，还是帮你写代码、找bug，都不在话下。

来自主题: AI资讯

9040 点击 2026-04-24 16:15

理想同学 MindDR 1.5 发布：多智能体强化学习加持，深度研究更可靠

理想汽车信息智能体团队发布 MindDR 1.5，在 DeepResearch Bench 榜单中取得 52.54 分，以 30B 参数规模达到业界领先水平，性能优于同等规模的开源智能体系统。

来自主题: AI技术研报

5902 点击 2026-04-23 15:21

新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

如今的大多数智能体，仍然活在一种「失忆式工作」模式中：每一次检索都是从零开始，每一条推理路径都无法沉淀，每一次失败也不会转化为经验。它们虽能多轮交互，但很难在深度研究中持续变强。

来自主题: AI技术研报

9451 点击 2026-04-20 14:02

分享一个我用了2年的深度研究Prompt，半小时帮你搞懂任何陌生领域。

前两天办完大会，然后昨天周末跟一个朋友吃饭，聊着聊着他突然放下筷子看着我说了一句，不是哥们，你怎么什么都懂一点？

来自主题: AI技术研报

10284 点击 2026-04-13 14:31

ICLR 2026｜人大&通义：别再只会堆上下文了！IterResearch用40K上下文轻松实现2048轮交互不退化

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch，一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构，IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减，在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

来自主题: AI技术研报

8290 点击 2026-03-03 14:20

谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选？OSU & Amazon最新

面对琳琅满目的Deep Research Agent（深度研究智能体），究竟该如何选型？本文基于OSU与Amazon最新发布的MMDR-Bench论文，为您提供一份经过严谨科学验证的“避坑指南”。结论先行：综合任务首选谷歌Gemini Deep Research，而涉及计算机科学与数据结构的硬核任务，GPT-5.2依然是专家首选。

来自主题: AI技术研报

8589 点击 2026-01-26 11:29

0.002美元撬动顶级研究力，开源AI助手匹敌OpenAI商用系统

近日，美国华盛顿大学博士生邵如琳和合作团队打造出一个名为 Deep Research Tulu（DR Tulu）的深度研究小助手。使用一次 OpenAI 的 Deep Research 服务可能需要大约 1.8 美元，而 DR Tulu 使用一次的成本却不到 0.002 美元，这几乎是千倍的效率提升，这意味着未来个人或者小团队也能负担得起高质量、高可信度的 AI 研究服务。

来自主题: AI资讯

8818 点击 2026-01-02 15:04

谷歌最新版「深度研究」反击GPT-5.2

昨夜，OpenAI用专家级GPT-5.2复仇Gemini 3成功！而在GPT-5.2发布前一个多小时，谷歌就率先推出全新版Gemini Deep Research Agent。谷歌对Gemini深度研究进行了重新构想，使其比以往任何时候都更加强大。

来自主题: AI资讯

9921 点击 2025-12-12 10:54