AI资讯新闻榜单内容搜索-RL

用动作分块突破RL极限，伯克利引入模仿学习，超越离线/在线SOTA

如今，强化学习（Reinforcement Learning，RL）在多个领域已取得显著成果。

来自主题: AI技术研报

6571 点击 2025-07-14 15:16

AI算姻缘火了！下载破10万、月入百万，卷爆一众社交软件

今年AI最离谱也最让人上头的用法，可能不是写代码、写论文，而是算命。

来自主题: AI资讯

7164 点击 2025-07-14 11:47

前 OpenAI 研究员 Kevin Lu：别折腾 RL 了，互联网才是让大模型进步的关键

「停止研究 RL 吧，研究者更应该将精力投入到产品开发中，真正推动人工智能大规模发展的关键技术是互联网，而不是像 Transformer 这样的模型架构。」

来自主题: AI资讯

7889 点击 2025-07-13 11:23

Meta发布40页报告，具身智能的下一步是「心智世界模型」：能听，能看，能理解，会共情

这篇报告第一次把对人心智状态的推断，放到和物理世界模型（physical world model）同等重要的位置上，并将其概念化为心智世界模型（mental world model）。相比于传统世界模型（如LeCun的JEPA）仅关注物理规律（物体运动、机械因果），心智世界模型则首次将心理规律（意图、情感、社会关系）纳入世界模型框架，实现“双轨建模”。

来自主题: AI资讯

7109 点击 2025-07-11 12:25

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯

6795 点击 2025-07-09 12:10

突破全模态AI理解边界：HumanOmniV2引入上下文强化学习，赋能全模态模型“意图”推理新高度

在多模态大语言模型（MLLMs）应用日益多元化的今天，对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习（RL）在增强大语言模型（LLMs）的推理能力方面已展现出巨大潜力，但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报

8254 点击 2025-07-09 10:59

斯坦福毕业，用RL做Agent，华人创业团队Pokee.ai种子轮融资1200万美元

「哈喽，可以听到吗？」北京时间上午 10 点，大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话，此刻他正位于美国西海岸，当地时间为前一日晚上 7 点。「哈喽，可以听到吗？」北京时间上午 10 点，大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话，此刻他正位于美国西海岸，当地时间为前一日晚上 7 点。

来自主题: AI资讯

8392 点击 2025-07-09 09:07

伯克利最强代码Agent屠榜SWE-Bench！用Scaling RL打造，配方全公开

新晋AI编程冠军DeepSWE来了！仅通过纯强化学习拿下基准测试59%的准确率，凭啥？7大算法细节首次全公开。

来自主题: AI技术研报

7716 点击 2025-07-07 15:46

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来，基于智能体的强化学习（Agent + RL）与智能体优化（Agent Optimization）在学术界引发了广泛关注。然而，实现具备工具调用能力的端到端智能体训练，首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报

6977 点击 2025-07-05 12:46

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

7653 点击 2025-07-05 12:10