AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。

来自主题: AI技术研报
6541 点击    2025-08-13 11:27
李飞飞押注的「世界模型」,中国自研Matrix-3D已抢先实现了?

李飞飞押注的「世界模型」,中国自研Matrix-3D已抢先实现了?

李飞飞押注的「世界模型」,中国自研Matrix-3D已抢先实现了?

中国自研世界模型Matrix-3D只需单张图就能生成可自由探索的3D世界,不仅效果对标李飞飞的World Labs,而且还能实现更大范围的探索空间,率先进入AI理解世界的前沿领域。

来自主题: AI资讯
5879 点击    2025-08-12 15:36
独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

硅星人独家了解到,星海图即将开源全球首个开放场景高质量真机数据集Galaxea Open-World Dataset,及其G0-快慢双系统全身智能VLA模型。这一举动无疑在相对各自为战的机器人行业打开了一条新的路径。

来自主题: AI资讯
8906 点击    2025-08-11 14:05
告别数据标注!SQLM让大模型自我博弈,RL自主推理新范式!

告别数据标注!SQLM让大模型自我博弈,RL自主推理新范式!

告别数据标注!SQLM让大模型自我博弈,RL自主推理新范式!

一句话概括,本文探索了语言模型的终极内卷模式:不再依赖人类投喂,通过“自问自答”的左右互搏,硬生生把自己逼成了学霸。AlphaGo下棋我懂,这大模型自己给自己出数学题做就有点离谱了,堪称AI界的“闭关修炼”,出关即无敌。

来自主题: AI资讯
7569 点击    2025-08-10 14:29
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报
5852 点击    2025-08-10 13:29
独家|陈天桥布局端到端Deep Research生态赛道,MiroMind发布全栈开源深度研究项目ODR

独家|陈天桥布局端到端Deep Research生态赛道,MiroMind发布全栈开源深度研究项目ODR

独家|陈天桥布局端到端Deep Research生态赛道,MiroMind发布全栈开源深度研究项目ODR

全栈开源生态系统:涵盖Agent框架(MiroFlow)、模型(MiroThinker)、数据(MiroVerse)和训练基础设施(MiroTrain / MiroRL)的全栈开源方案,所有组件和流程均开放共享,便于学习、复用与二次开发。

来自主题: AI资讯
6488 点击    2025-08-09 17:11
Meta华人新秀毕树超,重磅爆料下一代LLM路线!RL+预训练直通AGI

Meta华人新秀毕树超,重磅爆料下一代LLM路线!RL+预训练直通AGI

Meta华人新秀毕树超,重磅爆料下一代LLM路线!RL+预训练直通AGI

OpenAI前研究员、Meta「AI梦之队员」毕书超在哥大指出:AGI就在眼前,突破需高质数据、好奇驱动探索与高效算法;Scaling Law依旧有效,规模决定智能,终身学习才是重点。

来自主题: AI资讯
6297 点击    2025-08-05 12:58
ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

一句话概括,原来强化学习的“捷径”是天生的,智能体能去的地方(流形)被动作维度(低维流形)限制得死死的,根本没机会去那些没用的高维空间瞎逛。

来自主题: AI资讯
5625 点击    2025-08-05 11:59