AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新

大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新

大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新

直到刚刚,用最新的图像模型NextStep-1.1,扳回一球。总体来看,这次开源的NextStep-1.1解决了之前NextStep-1中出现的可视化失败(visualization failures )问题。其通过扩展训练和基于流的强化学习(RL)后训练范式,大幅提升了图像质量。

来自主题: AI资讯
8594 点击    2025-12-28 09:57
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域!面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用!

来自主题: AI技术研报
7942 点击    2025-12-23 09:27
首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。

来自主题: AI技术研报
5915 点击    2025-12-22 09:38
亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任

亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任

亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任

本周四消息,于两年前创立亚马逊 AGI 团队的高级副总裁兼首席科学家 Rohit Prasad 已官宣离职。

来自主题: AI资讯
7385 点击    2025-12-19 11:47
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:

来自主题: AI技术研报
8394 点击    2025-12-15 09:58
全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了,灵初智能发布

全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了,灵初智能发布

全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了,灵初智能发布

灵初智能发布全球首个具身原生人类数据采集方案 Psi-SynEngine。该方案由灵初智能全栈自研,包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型,并已率先将采集到的人类数据应用于物流等真实场景。

来自主题: AI资讯
7024 点击    2025-12-11 11:29
只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

最近,Prime Intellect正式发布了INTELLECT-3。这是一款拥有106B参数的混合专家(Mixture-of-Experts)模型,基于Prime Intellect的强化学习(RL)技术栈训练。在数学、代码、科学与推理的各类基准测试上,它达成了同规模中最强的成绩,甚至超越了不少更大的前沿模型。

来自主题: AI资讯
8510 点击    2025-12-10 16:14
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报
5399 点击    2025-12-08 10:27