Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死
5109点击    2025-08-29 13:07

强化学习核心是什么?Karpathy一语道破——环境。全新开源Environments Hub横空出世,为强化学习训练带去革命性突破。


强化学习时代,什么最重要?


Karpathy给出了答案,环境!只有环境,才能让LLM真正进行交互、执行动作、观察结果。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


如今,一个开源的环境中心——Environments Hub正式登场了,它由一家专注于去中心化AI开发公司Prime Intellect发布。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


一直以来,RL环境是割裂的、封闭的,甚至难以共享。


但有且只有环境,定义了世界、规则,以及「状态—动作—奖励」的反馈闭环。


从游戏到编程,再到聊天对话,它们是AI学习发生的场景。没有它们,RL只是一套无从着力的算法。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


Environments Hub的诞生,能够让任何人模拟出各种各样、高质量的环境,为开源AGI做出贡献。


AI智能体交互,缺的是环境


RL环境,是智能体学习的试验场。


回想一下,在预训练时代,互联网数据是核心。LLM主要通过大量多样,且高质量的数据来学习。


到了监督微调阶段,重点变成了「对话数据」。


人们会雇佣外包团队,来为问题创建答案,类似Stack Overflow、Quora平台的模式,但又专为LLM使用场景而设计。


如今到了强化学习时代,前两个阶段不会消失,但不同的是,环境成为了重心。


这些环境,可以用于模型训练,也可用于评估。不过,问题在于,如何创建出丰富多样的环境?


Karpathy回忆道,OpenAI最早的一个项目Gym,一个希望用统一框架去构建大规模环境集合。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


GitHub地址:https://github.com/openai/gym


不过,这都是近十年前,大模型还未兴起的项目了。所以,当时的环境,都是一些简单的经典控制任务,比如cartpole、ATARI之类的。


而现在,Environments Hub是一个专门针对LLM构建的版本。


Karpathy激动地表示,「这是个非常棒的努力和想法」。今年初,他还发文建议过有人应该做类似的事情。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


Environments Hub有个特点,一旦框架构建完成,原则上社区和行业就可以在不同领域并行开发。


而且,环境和智能体交互的方向,是下一个未来。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


大厂斥资几百万,搞出围墙花园


为什么需要打造一个Environments Hub呢?


目前,多数强化学习环境是由初创公司构建,并将其出售给少数几家不对外开放的大型实验室。


如果高质量的学习环境一直保持封闭且昂贵,开源模型将进一步落后于闭源模型。


要想扭转这种局势,需要有一个强大的开源学习环境和训练工具生态系统能崛起。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


Environments Hub正是承载着这个使命应运而生,旨在让下一波初创公司和AI的发展能够构建于开放的基础设施和开源模型之上。


核心功能,一键生成评估报告


总结来说,Environments Hub具备了以下功能亮点:


  • 通过Hub或CLI(命令行)拉取、推送并管理环境


  • 生成跨模型的评测报告


  • 与verifiers框架深度集成


  • prime-rl训练器原生支持环境


  • 提供用于代码执行的原生沙箱支持


你可以创建、管理和共享用于强化学习及评估的环境:


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


可以为不同模型创建和浏览环境评估报告:


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


可扩展训练器prime-rl原生支持这些环境:


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


还有沙盒功能,可直接与Verifier Environments对接,以实现安全的代码执行。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


如果还有你需求的功能没有满足,你也可以亲自作为该开源项目开发者去贡献代码。


下一步:全栈式开源AGI基础设施


过去几个月中,Environments Hub将基于Agent的强化学习训练扩展到规模最大的开源模型,并取得了显著进展。


随着众多众包环境被引入INTELLECT-3,训练出一个完全开放、最先进的Agent模型将成为可能。


除此之外,Environments Hub关心的重点是,让人人都能用上这套基础设施,使研究人员和初创公司都能为自己的任务训练模型、集成工具、运行强化微调,以及优化Agent支撑框架。


prime-rl的整个技术栈都是开源的,正在扩展到全球的计算资源上无缝运行。

强化学习不仅是通往AGI的必经之路,也是构建AI原生产品的基础。


未来最成功的初创公司,将是那些能根据自身需求,创造出差异化环境的公司。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死


如今,最大的障碍并非获取强大模型,而在于大规模训练和部署它们所需的基础设施及成本。


通过降低这一门槛,Environments Hub旨在为所有AI构建者提供廉价、无缝的计算、推理和训练资源,以及全套的强化学习基础设施。


参考资料:


https://www.primeintellect.ai/blog/environments


https://x.com/karpathy/status/1960803117689397543


文章来自于微信公众号“新智元”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner