AI资讯新闻榜单内容搜索-强化学习

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 强化学习

对谈 DeepSeek-Prover 核心作者辛华剑：Multi Agent 天然适合形式化数学｜Best Minds

对谈 DeepSeek-Prover 核心作者辛华剑：Multi Agent 天然适合形式化数学｜Best Minds

对谈 DeepSeek-Prover 核心作者辛华剑：Multi Agent 天然适合形式化数学｜Best Minds

Era of Experience 这篇文章中提到：如果要实现 AGI，构建能完成复杂任务的通用 agent，必须借助“经验”这一媒介，这里的“经验”就是指强化学习过程中模型和 agent 积累的、人类数据集中不存在的高质量数据。

来自主题: AI资讯

8762 点击 2025-06-14 12:58

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门，而RL是否是唯一且work的一扇门，先按下不表（不作为今天跟大家唠的重点），至少目前看来，随着o1/o3/r1/qwq..等一众语言推理模型的快速发展，正推动着LLMs和Agentic AI在不同领域的价值与作用，

来自主题: AI技术研报

11431 点击 2025-06-13 10:48

「Next-Token」范式改变！刚刚，强化学习预训练来了

「Next-Token」范式改变！刚刚，强化学习预训练来了

「Next-Token」范式改变！刚刚，强化学习预训练来了

谁说强化学习只能是蛋糕上的樱桃，说不定，它也可以是整个蛋糕呢？

来自主题: AI技术研报

6571 点击 2025-06-11 14:58

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

SemiAnalysis全新硬核爆料，意外揭秘了OpenAI全新模型的秘密？据悉，新模型介于GPT-4.1和GPT-4.5之间，而下一代推理模型o4将基于GPT-4.1训练，而背后最大功臣，就是强化学习。

来自主题: AI技术研报

8423 点击 2025-06-11 12:20

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

为什么语言模型很成功，视频模型还是那么弱？

来自主题: AI资讯

8549 点击 2025-06-10 16:37

强化学习之父：LLM主导只是暂时，扩展计算才是正解

强化学习之父：LLM主导只是暂时，扩展计算才是正解

强化学习之父：LLM主导只是暂时，扩展计算才是正解

大模型目前的主导地位只是暂时的，在未来五年甚至十年内都不会是技术前沿。这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。

来自主题: AI资讯

9708 点击 2025-06-10 15:07

3B超越DeepSeek，大模型终于理解时间了！Time-R1一统过去/未来/生成

3B超越DeepSeek，大模型终于理解时间了！Time-R1一统过去/未来/生成

3B超越DeepSeek，大模型终于理解时间了！Time-R1一统过去/未来/生成

Time-R1通过三阶段强化学习提升模型的时间推理能力，其核心是动态奖励机制，根据任务难度和训练进程调整奖励，引导模型逐步提升性能，最终使3B小模型实现全面时间推理能力，超越671B模型。

来自主题: AI技术研报

7696 点击 2025-06-09 15:54

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报

8324 点击 2025-06-09 11:02

扩展强化学习：环境、奖励黑客、智能体、数据扩展

扩展强化学习：环境、奖励黑客、智能体、数据扩展

扩展强化学习：环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进，变得更为高效且价格更为亲民。在评估现实世界软件工程任务（如 SWE-Bench）时，模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报

7302 点击 2025-06-09 10:25

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

来自主题: AI技术研报

8197 点击 2025-06-08 14:35

上一页当前第20页,共39页下一页