AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

2026 开年已两个月,Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw(原 Clawbot)掀起的那波 Agent 热潮至今仍在发酵,甚至让「一人公司」概念第一次真正有了落地的可能性。

来自主题: AI技术研报
9493 点击    2026-03-04 13:46
推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。

来自主题: AI技术研报
8816 点击    2026-03-04 11:23
告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

强化学习已经成为大模型后训练阶段的核心方法之一,但一个长期存在的难题始终没有真正解决:现实环境中的反馈往往稀疏且延迟,模型很难从简单的奖励信号中推断出应该如何调整行为。

来自主题: AI技术研报
8143 点击    2026-03-03 14:17
人脑细胞做成芯片打Doom!20万活体神经元自己探路杀敌,学习效率碾压深度强化学习

人脑细胞做成芯片打Doom!20万活体神经元自己探路杀敌,学习效率碾压深度强化学习

人脑细胞做成芯片打Doom!20万活体神经元自己探路杀敌,学习效率碾压深度强化学习

20万人类脑细胞组成“脑PU”,学会了玩经典游戏《毁灭战士》。这些活体神经元通过强化学习学会了找到敌人、开枪射击、转身移动,甚至弹药管理。

来自主题: AI资讯
8128 点击    2026-03-02 14:35
ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。

来自主题: AI技术研报
7929 点击    2026-03-02 14:31
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。

来自主题: AI技术研报
7082 点击    2026-02-27 10:28
ICLR2026 Oral | 当情感识别不再是分类题:EmotionThinker 让 SpeechLLM 学会“解释情绪”

ICLR2026 Oral | 当情感识别不再是分类题:EmotionThinker 让 SpeechLLM 学会“解释情绪”

ICLR2026 Oral | 当情感识别不再是分类题:EmotionThinker 让 SpeechLLM 学会“解释情绪”

SpeechLLM 是否具备像人类一样解释 “为什么” 做出情绪判断的能力?为此,研究团队提出了EmotionThinker—— 首个面向可解释情感推理(Explainable Emotion Reasoning)的强化学习框架,尝试将 SER 从 “分类任务” 提升为 “多模态证据驱动的推理任务”。

来自主题: AI技术研报
8201 点击    2026-02-25 14:28
5 亿 ARR的Cursor,已经没人讨论它了?

5 亿 ARR的Cursor,已经没人讨论它了?

5 亿 ARR的Cursor,已经没人讨论它了?

最近Cursor 发布了 Composer 1.5。这一版把强化学习规模扩大了 20 倍,后训练计算量甚至超过了基座模型的预训练投入。还加了 thinking tokens 和自我摘要机制,让模型能在复杂编程任务里做更深度的推理。

来自主题: AI资讯
9334 点击    2026-02-22 11:39
情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录

情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录

情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录

来自上海科学智能研究院(上智院)、北京大学、复旦大学的联合团队,提出了一套名为PackingStar的强化学习系统,一口气刷新了25-31连续7个维度的世界纪录。

来自主题: AI资讯
7751 点击    2026-02-14 22:20
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。

来自主题: AI技术研报
9100 点击    2026-02-10 14:19