AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏

大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏

大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏

最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。

来自主题: AI资讯
7538 点击    2025-09-29 11:02
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。

来自主题: AI技术研报
7959 点击    2025-09-28 23:03
AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

Anthropic、OpenAI等大厂,正计划每年投入10亿美元,教会AI像人类一样工作。他们不仅为AI提供强化学习环境(RL environment,简称gym),还让AI「偷师」各领域专家。OpenAI高管预言,未来「整个经济」,将在某种程度上变成一台「RL机器」。

来自主题: AI资讯
7132 点击    2025-09-28 17:23
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前,我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加入 Thinking Machines Lab。

来自主题: AI技术研报
5767 点击    2025-09-28 16:46
“AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂

“AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂

“AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂

近日,为了加速多元素催化剂的发现与优化,美国麻省理工学院团队开发了一个多模态机器人平台——CRESt(Copilot for Real-world Experimental Scientists)。该平台能够结合自动化设备、大规模模型和实验室监测,在实验设计中融入人类经验、文献知识和显微结构信息,从而加速多元素催化剂的发现和优化加速发展。

来自主题: AI资讯
7632 点击    2025-09-27 20:35
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报
6900 点击    2025-09-27 11:13
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

开源框架实现100%可复现的稳定RL训练!下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。这就是SGLang团队联合slime团队的最新开源成果。

来自主题: AI技术研报
5491 点击    2025-09-27 10:19
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

刚刚,Meta FAIR推出了代码世界模型!CWM(Code World Model),一个参数量为32B、上下文大小达131k token的密集语言模型,专为代码生成和推理打造的研究模型。这是全球首个将世界模型系统性引入代码生成的语言模型。

来自主题: AI资讯
8176 点击    2025-09-25 11:20
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到: 仅凭一张静态照片,就能 “脑补” 出整个 3D

来自主题: AI技术研报
5429 点击    2025-09-24 09:56
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。

来自主题: AI技术研报
6110 点击    2025-09-23 14:59