北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。
LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。
细胞治疗,尤其是CAR-T,被誉为“活的药物”,但其开发与生产面临着一个根本性挑战:我们难以精准控制和预测这些活细胞在人体内的最终状态和功能。同一批次生产的CAR-T细胞,有的能高效清除肿瘤,有的却迅速“耗竭”,这种功能异质性是制约疗效、导致高昂制造成本的核心瓶颈。如何通过基因编辑等手段,将细胞调整到最理想的“战斗”状态,是该领域亟待突破的圣杯。
想搞一门副业,却卡在想法一团浆糊?全网首个交互版Deep Research悄然上线,化身AI最强辅助,让零散灵感秒变超硬核行动方案。
这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
近日,Basecamp Research宣布推出生物序列数据库BaseData™,包含超过9.2万亿个Token的基因组数据以及98亿条经过严格筛选与校对的蛋白质序列,其中许多来自公司所发现的超过100万个新物种。
圈粉无数的Arc浏览器,在AI加持下华丽丽“变身”了——
作者介绍: 本文作者来自通义实验室 RAG 团队,致力于面向下一代 RAG 技术进行基础研究。该团队 WebWalker 工作近期也被 ACL 2025 main conference 录用。
就在刚刚,Meta 又有新的动作,推出基于视频训练的世界模型 V-JEPA 2(全称 Video Joint Embedding Predictive Architecture 2)。其能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。