AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:

来自主题: AI技术研报
8297 点击    2025-12-15 09:58
全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了,灵初智能发布

全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了,灵初智能发布

全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了,灵初智能发布

灵初智能发布全球首个具身原生人类数据采集方案 Psi-SynEngine。该方案由灵初智能全栈自研,包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型,并已率先将采集到的人类数据应用于物流等真实场景。

来自主题: AI资讯
6947 点击    2025-12-11 11:29
只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

最近,Prime Intellect正式发布了INTELLECT-3。这是一款拥有106B参数的混合专家(Mixture-of-Experts)模型,基于Prime Intellect的强化学习(RL)技术栈训练。在数学、代码、科学与推理的各类基准测试上,它达成了同规模中最强的成绩,甚至超越了不少更大的前沿模型。

来自主题: AI资讯
8454 点击    2025-12-10 16:14
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报
5341 点击    2025-12-08 10:27
对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程

对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程

对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程

本科毕业于北大工学院,早期研究聚焦于自动驾驶;博士后期间在卡内基梅隆大学,利用强化学习解决核聚变反应堆控制问题。陈佳玉的科研生涯,始终围绕着复杂系统的智能控制展开。

来自主题: AI资讯
7023 点击    2025-12-08 09:45
超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

来自主题: AI技术研报
8363 点击    2025-12-05 09:27
Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

继轻量级强化学习(RL)框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后,LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

来自主题: AI资讯
7847 点击    2025-11-20 15:26