AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

推理模型常常表现出类似自我反思的行为,但问题是——这些行为是否真的能有效探索新策略呢?

来自主题: AI技术研报
7017 点击    2025-06-02 17:48
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报
7340 点击    2025-06-02 15:24
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

数据枯竭正成为AI发展的新瓶颈!CMU团队提出革命性方案SRT:让LLM实现无需人类标注的自我进化!SRT初期就能迭代提升数学与推理能力,甚至性能逼近传统强化学习的效果,揭示了其颠覆性潜力。

来自主题: AI技术研报
6356 点击    2025-06-02 14:16
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

来和机器狗一起运动不?你的羽毛球搭子来了!无需人工协助,仅靠强化学习,机器狗子就学会了羽毛球哐哐对打。基于强化学习,研究人员开发了机器狗的全身视觉运动控制策略,同步控制腿部(18个自由度)移动,和手臂挥拍动作。

来自主题: AI技术研报
8460 点击    2025-05-30 17:08
奖励是假的,能让Qwen提升25%性能却是真的!

奖励是假的,能让Qwen提升25%性能却是真的!

奖励是假的,能让Qwen提升25%性能却是真的!

即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?

来自主题: AI技术研报
8137 点击    2025-05-29 15:01
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:

来自主题: AI技术研报
4868 点击    2025-05-29 14:48
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

在日益强调“思维能力”的大语言模型时代,如何让模型在“难”的问题上展开推理,而不是无差别地“想个不停”,成为当前智能推理研究的重要课题。

来自主题: AI技术研报
4807 点击    2025-05-28 14:52