AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统

ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统

ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统

想象为《红楼梦》或《权力的游戏》创造一个AI的世界。书中的角色们变成AI,活在BookWorld当中。每天,他/她们醒来,思考,彼此对话、互动,建立感情和关系。

来自主题: AI技术研报
8645 点击    2025-06-24 15:59
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。

来自主题: AI技术研报
7434 点击    2025-06-22 16:32
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

只靠强化学习,AGI就能实现?Claude-4核心成员放话「5年内AI干掉白领」,却被Karpathy等联手泼冷水!持续学习真的可能吗?RL的真正边界、下一代智能的关键转折点到底在哪儿?

来自主题: AI资讯
7789 点击    2025-06-22 16:13
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
7250 点击    2025-06-22 16:08
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

大语言模型(LLMs)在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策能力。实验表明,RLFT可增加模型探索性,缩小知行差距,但探索策略仍有改进空间。

来自主题: AI技术研报
7165 点击    2025-06-22 11:34
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报
8349 点击    2025-06-20 10:53
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报
6966 点击    2025-06-17 10:15
AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

越通用,就越World Models。 我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

来自主题: AI技术研报
7383 点击    2025-06-14 13:22
四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门,而RL是否是唯一且work的一扇门,先按下不表(不作为今天跟大家唠的重点),至少目前看来,随着o1/o3/r1/qwq..等一众语言推理模型的快速发展,正推动着LLMs和Agentic AI在不同领域的价值与作用,

来自主题: AI技术研报
9707 点击    2025-06-13 10:48
MiniMax将发布文本推理模型,还计划推出独立的音频应用|新皮层独家

MiniMax将发布文本推理模型,还计划推出独立的音频应用|新皮层独家

MiniMax将发布文本推理模型,还计划推出独立的音频应用|新皮层独家

第一财经「新皮层」独家获悉,MiniMax即将推出文本推理模型,并将开源。半个月前,MiniMax刚刚发布和开源了视觉推理模型Orsta(One RL to See Them All)。MiniMax今年3月做出产品线调整,将旗下现有产品「海螺AI」更名为「MiniMax」,与公司同名,聚焦文本理解和生成;

来自主题: AI资讯
8993 点击    2025-06-11 23:11