AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 强化学习
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报
6300 点击    2025-04-27 09:22
强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝:如今,人类已经由数据时代踏入经验时代。通往ASI之路要靠RL,而非人类数据!

来自主题: AI技术研报
7976 点击    2025-04-21 10:52
更长思维并不等于更强推理性能,强化学习可以很简洁

更长思维并不等于更强推理性能,强化学习可以很简洁

更长思维并不等于更强推理性能,强化学习可以很简洁

今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较长响应的原因。

来自主题: AI技术研报
7931 点击    2025-04-14 14:17
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升,但来自图宾根大学和剑桥大学的研究者发现,强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动,我们对推理基准的现状进行了严格的调查,特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4,2024;AI - MO。」

来自主题: AI技术研报
3780 点击    2025-04-13 15:59
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。

来自主题: AI技术研报
6703 点击    2025-03-22 15:55
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!

来自主题: AI技术研报
5670 点击    2025-02-18 20:07