
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升为提升大模型“推理+搜索”能力,阿里通义实验室出手了。
为提升大模型“推理+搜索”能力,阿里通义实验室出手了。
AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。
信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:
2025 年快要过半,今年上半年 AI 搜索、AI 深度研究类产品可谓是欣欣向荣。
在产品不断被「AI 化」的浪潮中,连浏览器也无法幸免。
让我们把时钟拨回 2014 年 5 月,当刚完成博士后研究的 Dario Amodei 决定加入百度研究院(Baidu Research)时,他绝不会想到自己有朝一日能够亲手打造属于自己的 AI 帝国,并成为连谷歌和微软都无法撼动和忽视的强劲对手。
这次,引领者又是中国公司!在5月中旬拿到GAIA榜首的这个AI版office,直接结合了Deep Research和通用Agent两大神器的优点,从此office三件套彻底进入第四代。
与当前大部分AI+research产品的关注点不同,Bridgetown Research通过AI赋能市场调查中的专家访谈、竞品对比以及数据分析的全过程,从二手数据开始,结合领域专家的知识框架提出关键假设,AI通过联系专家和客户进一步收集原始数据并进行分析,完成最终报告,极大缩减尽职调查所需的时间成本。
看到朋友在网上的分享: 用Deep Research 的时候就怕在研究来源中看到ZHIHU、SINA、CSDN 这样的网址,这简直就是报告结果的灾难! 垃圾进 垃圾出。。 在大模型还没有进化出反思修正和推理新知识能力的时候,务必屏蔽掉低质量信息源,AI无脑文越演越烈。
微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究,说当前最先进的LLM在多轮对话中表现会大幅下降,平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型(包括Claude 3.7-Sonnet、Deepseek-R1等)在多轮对话中的表现差异,还解析了模型"迷失"的根本原因及有效缓解策略。