AI资讯新闻榜单内容搜索-RL

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

8424 点击 2025-11-11 10:24

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization)，显著优化了 pass@K（K=1 及 K>1）性能。同时，团队认为当前的用熵（Entropy）作为指标衡量多样性存在局限：熵无法具体反映概率分布的形态。如图 2（c）所示，两个具有相同熵值的分布，一个可能包含多个峰值，而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报

6875 点击 2025-11-08 15:48

RLinf上新πRL：在线强化学习微调π0和π0.5

近年来，基于流匹配的 VLA 模型，特别是 Physical Intelligence 发布的 π0 和 π0.5，已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布，能够生成高维且平滑的连续动作序列，在应对复杂操控任务时展现出显著优势。

来自主题: AI技术研报

10730 点击 2025-11-07 10:17

比NanoBanana更擅长中文和细节控制！兔展&北大Uniworld V2刷新SOTA

比Nano Banana更擅长P细节的图像编辑模型来了，还是更懂中文的那种。

来自主题: AI技术研报

7537 点击 2025-11-05 16:42

达摩院推出多智能体框架ReasonMed，打造医学推理数据生成新范式

在人工智能领域，推理语言模型（RLM）虽然在数学与编程任务中已展现出色性能，但在像医学这样高度依赖专业知识的场景中，一个亟待回答的问题是：复杂的多步推理会帮助模型提升医学问答能力吗？要回答这个问题，需要构建足够高质量的医学推理数据，当前医学推理数据的构建存在以下挑战：

来自主题: AI技术研报

9416 点击 2025-11-03 14:50

上线一年用户破百万，这个AI健康管理产品只靠一只海獭？ | 对话OtterLife

AI健康管理领域的产品层出不穷，功能设计结合大模型甚至Agent也成为当前发展方向。OtterLife，这款AI健康管理产品，将虚拟游戏宠物角色“海獭”融入用户健康习惯养成过程，却在动力略显不足的市场现状下，获得了上线一年用户破百万的亮眼成绩，且用户留存率超过行业平均水平。

来自主题: AI资讯

8370 点击 2025-11-02 15:29

世界模型可单GPU秒级生成了？厦大、腾讯开源FlashWorld，效果惊艳、免费体验

厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注，在当日 Huggingface Daily Paper 榜单位列第一，并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。

来自主题: AI技术研报

6497 点击 2025-10-31 10:27