AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
Cursor滑跪开源技术报告:Kimi基模这样微调能干翻Claude

Cursor滑跪开源技术报告:Kimi基模这样微调能干翻Claude

Cursor滑跪开源技术报告:Kimi基模这样微调能干翻Claude

Cursor套壳Kimi这事还没完…… 最新消息,Cursor放出Composer 2技术报告,力证自己还是有在“自研”。(doge) 不是纯套,而是有技术地套、循序渐进地套。用的方法,还是他们一开始就强调的预训练+强化学习。

来自主题: AI资讯
8109 点击    2026-03-27 00:32
用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

在大模型后训练阶段,监督微调(SFT)和强化学习(RL)是两根不可或缺的支柱。SFT 利用高质量的离线(Off-policy)数据快速注入知识,但受限于静态数据分布,泛化能力往往容易触及天花板并带来灾难性遗忘;RL 则允许模型在探索中不断自我迭代,产生与当前策略同分布(On-policy)的数据,上限极高,但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报
5535 点击    2026-03-26 10:47
Cursor 被质疑套壳 Kimi,马斯克下场补刀,Kimi:听说我,谢谢你

Cursor 被质疑套壳 Kimi,马斯克下场补刀,Kimi:听说我,谢谢你

Cursor 被质疑套壳 Kimi,马斯克下场补刀,Kimi:听说我,谢谢你

3 月 20 日,知名 AI 代码编辑器 Cursor 高调发布了所谓的编程模型 Composer 2,结果被网友质疑「套壳」 Kimi K2.5。而从官方口径来看, Composer 2 的性能简直是降维打击:全基准大幅领先前代,首次引入持续预训练,叠加大规模强化学习,能解决需要数百个操作的高难度编程任务。

来自主题: AI资讯
9273 点击    2026-03-21 11:43
LaPha:你的Agent轨迹其实嵌入在一个Poincaré球?

LaPha:你的Agent轨迹其实嵌入在一个Poincaré球?

LaPha:你的Agent轨迹其实嵌入在一个Poincaré球?

在经典强化学习问题中,动作空间通常是离散且有限的。例如在围棋中,一步棋就是一次行动;在机器人控制或视觉 - 语言 - 行动(VLA)模型中,动作往往来自一个有限的控制指令集合。

来自主题: AI技术研报
6032 点击    2026-03-18 14:54
在「想象」中练就真机能力:RISE,让VLA强化学习告别真机试错

在「想象」中练就真机能力:RISE,让VLA强化学习告别真机试错

在「想象」中练就真机能力:RISE,让VLA强化学习告别真机试错

在具身智能的发展路径中,视觉 - 语言 - 动作(VLA)模型正逐步成为通用操作任务的核心框架。但当任务进入长程规划、柔性物体操作、精细双臂协同、动态交互等复杂场景时,VLA 仍然面临两个根本性挑战:

来自主题: AI技术研报
5608 点击    2026-03-18 14:05
后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

在当前的 LLM 开发中,后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。

来自主题: AI技术研报
6085 点击    2026-03-16 14:26
4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法

大语言模型(LLM)的幻觉问题一直是阻碍其在关键领域部署的核心难题。近日,研究人员提出了一种名为行为校准强化学习(Behaviorally Calibrated Reinforcement Learning)的新方法,通过重新设计奖励函数,让模型学会「知之为知之,不知为不知」。

来自主题: AI技术研报
8365 点击    2026-03-13 10:10
补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

2026 开年已两个月,Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw(原 Clawbot)掀起的那波 Agent 热潮至今仍在发酵,甚至让「一人公司」概念第一次真正有了落地的可能性。

来自主题: AI技术研报
10219 点击    2026-03-04 13:46