AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法,凭借灵活、高效的特性,已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制(如 Prompt-to-Prompt、MasaCtrl)实现文本引导编辑,但当前技术存在两大核心痛点,严重限制其在复杂场景的应用

来自主题: AI技术研报
10237 点击    2025-11-19 15:19
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

本周,美国具身智能创业公司 Physical Intelligence(简称 PI 或 π)发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司,其使命是将通用人工智能从数字世界带入物理世界:他们的首个机器人通用基础模型名为 π₀,让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报
9640 点击    2025-11-18 16:14
今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

Marble,终于来了。 没错,就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。就在刚刚,李飞飞旗下的 World Labs 公司官宣向全体用户开放,还一次性放出了一大波新功能。 多模态生成:

来自主题: AI资讯
8948 点击    2025-11-13 10:37
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

来自主题: AI技术研报
6926 点击    2025-11-13 09:37
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),

来自主题: AI技术研报
9195 点击    2025-11-11 10:24
SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization),显著优化了 pass@K(K=1 及 K>1)性能。同时,团队认为当前的用熵(Entropy)作为指标衡量多样性存在局限:熵无法具体反映概率分布的形态。如图 2(c)所示,两个具有相同熵值的分布,一个可能包含多个峰值,而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报
7452 点击    2025-11-08 15:48
RLinf上新πRL:在线强化学习微调π0和π0.5

RLinf上新πRL:在线强化学习微调π0和π0.5

RLinf上新πRL:在线强化学习微调π0和π0.5

近年来,基于流匹配的 VLA 模型,特别是 Physical Intelligence 发布的 π0 和 π0.5,已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布,能够生成高维且平滑的连续动作序列,在应对复杂操控任务时展现出显著优势。

来自主题: AI技术研报
11400 点击    2025-11-07 10:17
达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

在人工智能领域,推理语言模型(RLM)虽然在数学与编程任务中已展现出色性能,但在像医学这样高度依赖专业知识的场景中,一个亟待回答的问题是:复杂的多步推理会帮助模型提升医学问答能力吗?要回答这个问题,需要构建足够高质量的医学推理数据,当前医学推理数据的构建存在以下挑战:

来自主题: AI技术研报
9971 点击    2025-11-03 14:50