AI资讯新闻榜单内容搜索-RL

训练加速40倍、打破“不可能三角”：MiniMax Agent RL 架构解密

随着 MiniMax M2.5 的发布并在社区引发热烈反响，很高兴能借此机会，分享在模型训练背后关于 Agent RL 系统的一些思考。在大规模、复杂的真实世界场景中跑 RL 时，始终面临一个核心难

来自主题: AI技术研报

7204 点击 2026-02-15 06:50

ICLR 2026 | 异常需要定义！中传团队提出开放世界视频异常检测新范式

针对这一问题，中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队于 ICLR 2026 发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》，直面 VAD 领域的核心问题 —— 什么是异常？

来自主题: AI技术研报

7394 点击 2026-02-14 10:03

真机RL杀疯了！机器人自学20分钟100分，数字孪生封神

TwinRL用手机扫一遍场景构建数字孪生，让机器人先在数字孪生里大胆探索、精准试错，再回到真机20分钟跑满全桌面100%成功率——比现有方法快30%，人类干预减少一半以上。

来自主题: AI技术研报

8536 点击 2026-02-13 11:07

RLinf-USER重磅发布！别再用仿真了，真实世界训练也能「极致效率与系统化」

首个统一系统：将物理机器人提升为与 GPU 同等的计算资源，打破硬件隔阂。

来自主题: AI技术研报

8349 点击 2026-02-11 14:00

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习（RLVR）微调的工作，显著提升了大语言模型的推理能力。但在这股浪潮背后，强化微调的代价却高得惊人。

来自主题: AI技术研报

8864 点击 2026-02-10 14:19

全新视角看世界模型：从视频生成迈向通用世界模拟器

近年来，视频生成（Video Generation）与世界模型（World Models）已跃升为人工智能领域最炙手可热的焦点。从 Sora 到可灵（Kling），视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」，让人们开始认真讨论：能否把视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。

来自主题: AI技术研报

8793 点击 2026-02-09 14:36