AI资讯新闻榜单内容搜索-RLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RLM
达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

在人工智能领域,推理语言模型(RLM)虽然在数学与编程任务中已展现出色性能,但在像医学这样高度依赖专业知识的场景中,一个亟待回答的问题是:复杂的多步推理会帮助模型提升医学问答能力吗?要回答这个问题,需要构建足够高质量的医学推理数据,当前医学推理数据的构建存在以下挑战:

来自主题: AI技术研报
8764 点击    2025-11-03 14:50
递归语言模型登场!MIT华人新作爆火,扩展模型上下文便宜又简单

递归语言模型登场!MIT华人新作爆火,扩展模型上下文便宜又简单

递归语言模型登场!MIT华人新作爆火,扩展模型上下文便宜又简单

目前,所有主流 LLM 都有一个固定的上下文窗口(如 200k, 1M tokens)。一旦输入超过这个限制,模型就无法处理。 即使在窗口内,当上下文变得非常长时,模型的性能也会急剧下降,这种现象被称为「上下文腐烂」(Context Rot):模型会「忘记」开头的信息,或者整体推理能力下降。

来自主题: AI资讯
6752 点击    2025-10-17 16:12
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。

来自主题: AI技术研报
9012 点击    2025-09-28 23:03
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前,我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加入 Thinking Machines Lab。

来自主题: AI技术研报
6772 点击    2025-09-28 16:46
美国上诉法院就AI作出标志性判决(附判决书PDF)

美国上诉法院就AI作出标志性判决(附判决书PDF)

美国上诉法院就AI作出标志性判决(附判决书PDF)

3月18日,美国哥伦比亚特区巡回上诉法院就科学家Stephen Thaler(史蒂芬·泰勒博士,下称泰勒)诉Shira Perlmutter(美国版权局注册官及美国版权办公室主任)以及美国版权局作出标志性判决,认定所有受版权保护的作品必须首先由人类创作。尽管AI技术的发展使得非人类创作的作品越来越多,但根据现有的法律框架,这些作品无法获得版权保护。

来自主题: AI监管政策
11501 点击    2025-03-22 11:43
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱

超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱

超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱

ETH Zurich等机构提出了推理语言模型(RLM)蓝图,超越LLM局限,更接近AGI,有望人人可用o3这类强推理模型。

来自主题: AI技术研报
7461 点击    2025-01-28 12:20