强化学习教父重出江湖, 生成式AI的时代要结束了?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
强化学习教父重出江湖, 生成式AI的时代要结束了?
8058点击    2025-11-07 15:04

11月初,ExperienceFlow.AI的CEO Giri ATG在X上发出了这样一条消息。


强化学习教父重出江湖, 生成式AI的时代要结束了?


没有精致海报,没有宣传视频,


但在短短几小时内,这条看似平静的公告,被AI研究员、投资人疯狂转发。


在铺天盖地的模型demo与发布会中,它像一根细微的地震针,预示着另一场更深层的震动。


因为加入这家初创公司的,不是普通的科学家,而是强化学习的开创者、「Reinforcement Learning: An Introduction」的作者、 刚刚获得2024年图灵奖的Richard Sutton。


强化学习教父重出江湖, 生成式AI的时代要结束了?


是他让AI第一次能够「从经验中学习」;如今,他回来了,要重新定义什么才叫「智能」。


强化学习教父归来:向生成式AI发起反击


在过去两年中,人工智能行业热闹至极。新的大模型不断发布,推理速度、参数量、生成能力一再刷新。


而此时,强化学习的奠基人Richard Sutton,却选择了沉默。


直到今年十一月,他重新出现。


ExperienceFlow.AI 宣布,Sutton将以首席科学官身份加入公司,并创建「超级智能研究实验室」。  这像一种新的讯号告诉AI行业智能的核心,不在模仿,而在学习。


Sutton的医生获誉无数。他曾与Andrew Barto共同获得2024年图灵奖,以表彰他们在强化学习领域的奠基性贡献。


强化学习教父重出江湖, 生成式AI的时代要结束了?


他编写的「Reinforcement Learning: An Introduction」被誉为AI研究的圣经。


在ExperienceFlow.AI的新闻稿中,Sutton说:


学习是知识的导数。与生成式AI依靠人类提供数据不同,我们关注学习本身——从经验中创造还不存在的知识。


这句话明确划分出了两种路线。


生成式AI从人类文本中提取模式;而强化学习希望AI在环境中行动、感知、反馈,再从经验中总结规律。


Sutton在声明中写道:


我们正接近基于人类数据的生成式AI时代的终点,即将进入一个从经验中学习的新阶段。


他预计,当AI被人类数据喂养到极限后,模型能做的只是重复、推测、模仿。


而真正的智能,必须通过与世界的互动才能获得。


这正是强化学习的底层逻辑:智能体(agent)在环境(environment)中采取行动(action),得到奖励(reward),再据此调整策略(policy)。


学习来自行动,而非输入。


Sutton的回归,并不是对现有技术的否定,而是对AI学习方式的重新定义。


他认为,下一阶段的智能体不再依赖人类经验,而要从自己的经历中形成知识。


对整个行业而言,这不仅是一次技术转向,也是一场价值判断的变化——AI,不该只复述,而要开始理解。


ExperienceFlow:用「经验」重写智能的起点


ExperienceFlow.AI是一家成立不久的人工智能公司,总部位于旧金山。


它的定位十分明确:打造「经验驱动的去中心化超级智能」

强化学习教父重出江湖, 生成式AI的时代要结束了?


联合创始人兼CEO Giri ATG坦言:


我们正启动一种全新的超级智能范式,它将解决通往通用人工智能(AGI)的最后一道关键难题。


我们的重点是真正的强化学习研究,它将推动持续学习、泛化能力以及基于模型的层级规划。


与当下依赖大规模语言模型的路线不同,ExperienceFlow认为智能的核心不在参数量,而在于「如何通过经验产生知识」。


强化学习教父重出江湖, 生成式AI的时代要结束了?


他们提出的「经验驱动超级智能」,希望让AI在开放环境中持续探索、修正和积累,从而获得可迁移的认知结构。


Sutton打了一个浪漫的比喻:


学习的火花,是理解新领域并创造知识的能力。


这句话延续了他几十年来的理论主张。


ExperienceFlow想做的,是将强化学习从学术概念推向系统化实现。


它不仅是训练一个模型,而是要构建一种能自我生长的智能体架构——让模型能够从外部环境中吸取反馈,自我校正并形成长期记忆。


Giri ATG表示,这种「经验型智能」并非停留在研究层面,而是面向具体产业:


真正的超级智能将解锁与科学突破和经济增长直接相关的大多数现实应用场景,推动制造、医疗、金融、零售、物流、机器人等关键行业的发展。


在他看来,生成式AI在企业中的作用仍局限于文本、图像、代码的生成,而经验驱动的AI则可以承担自主决策与运营


公司称这种形态为「自主企业」:系统能够独立分析、规划、执行,并基于经验优化流程。


更重要的是,ExperienceFlow 强调去中心化的智能架构


强化学习教父重出江湖, 生成式AI的时代要结束了?


与OpenAI或Anthropic的集中式模型不同,它允许企业与国家在自己的计算资源和私有数据上构建独立的智能体网络。


这种模式意味着,AI不再只是由少数科技公司掌控的集中式能力,而可以成为分布式的知识系统。


每个组织都能在自身环境中积累独特的经验,从而形成差异化的智能。


Giri ATG将这视为「下一轮算力与经济增长的引擎」:


这将推动全球范围内的计算、硬件和数据生态实现新一轮有机增长。


在他们看来,人工智能的下一阶段不再是追求语言能力,而是让机器学会如何从世界中学习。


当AI学完人类:经验时代的门正在打开


生成式 AI 的速度快到惊人。短短两年,它学会了写诗、写代码、写广告文案。


可当一切内容都能被生成,新的问题浮现了——它还能学什么?


Sutton给出了答案,是「学世界」。他在2019年就指出:


在七十年的AI研究中,最终赢的总是那些让机器自己学习的办法。


依靠人类经验喂养出来的智能,只能复述过去;真正的智能,必须在现实里试、在反馈中改、在错误里长大。


这也是他此刻重新出山的原因。


Sutton表示:


我们正接近基于人类数据的GenAI时代终点,正迈向一个从经验中学习的新纪元


这句话,不只一句口号。它是对整个AI行业的一次提醒——我们可能已经让模型学完了全部知识


语言模型靠的是人类文本,而人类语言的总量几乎已经被吸取殆尽。


算力再怎么翻倍、参数再这么膨胀,也只是有限的提升。


当LLM开始在重复自己的答案,AI研究者们重新回到那句老问题:


机器什么时候,能真正理解世界?


Sutton给出了一个答案。强化学习让AI不只是记住,而是能「行动」;不只是会「生成」,更要能「修正」。


它要不断的试错、奖励、再试错,积累起属于自己的经验。


这种学习方式更像人类成长的过程。没有人直接告诉你答案,而是一次次去做、去碰壁、再总结。


当GenAI的模仿红利见顶,经验学习的曲线,正在慢慢抬头。


这不是另一场参数竞赛,而是新的起点——AI从模仿人类,走向理解世界。


去中心化的智能版图:自主企业的雏形


在ExperienceFlow的世界里,AI不再是一项服务,而是一种主权。


与OpenAI或Anthropic那种集中式模型不同,ExperienceFlow想让每个企业、甚至每个国家,都能拥有自己的智能体。


这些智能体在各自的环境中学习、积累经验,并通过网络协作。AI不再从一个中心发号施令,而是分布式地成长


与其他 AGI平台不同,ExperienceFlow的系统首次实现真正的去中心化超级智能,为企业与国家客户提供完全的自主权和所有权。


AI的未来,可能不属于单一公司,而属于分布在全球的无数个智能体网络。


每个智能体都在自己的数据与经验中成长——制造企业的AI擅长生产优化,医疗系统的AI擅长诊断与预测,金融机构的AI能理解风险与市场。


它们的知识互不相同,却都在共同进化。


ExperienceFlow把这种组织形态称作「自主企业」。


在他们的设想中,未来的公司将不再依赖人类层层决策,而由一系列可以独立学习、协同判断的智能体构成。


它们能感知环境、制定目标、自动执行并持续优化。


强化学习教父重出江湖, 生成式AI的时代要结束了?


ExperienceFlow.AI 的去中心化智能体系(EDNS)结构。企业的不同数据系统(记录、洞察、交互)经由图神经网络(GNN)整合后,由 Plan、Improve、Control 三类智能体持续生成实时决策,最终辅助管理层形成业务决策与成本、合规、营收等结果。


Giri ATG表示:


与其他 AGI平台不同,ExperienceFlow的系统首次实现真正的去中心化超级智能,为企业与国家客户提供完全的自主权和所有权。


真正的超级智能,将推动制造、医疗、金融、零售、物流、机器人等关键行业的持续增长,并成为全球经济的新引擎。


AI不再只是替代劳动力的工具,而是一种新的生产组织方式,甚至重新定义「企业」这个概念。


公司不再是由人来驱动的系统,而是人和AI共同学习、共同决策的生态。


在这种格局下,去中心化不只是技术结构,也是一种经济哲学。


它让智能的所有权回到本地,让知识的积累多样化、差异化。


每个组织、每个国家,都能训练出只属于自己的智能。这也是ExperienceFlow 所宣称的「AI主权」时代。


或许,这就是Sutton所说的下一阶段:AI不再依附于人类,而开始建立自己的秩序。


当每一个智能体都能从经验中生长,人类世界,也将被重新组织。


几十年来,AI一直在模仿。模仿人类的语言、行为、思维。


可ExperienceFlow和Sutton想讲的,是另一个词:经历。


当机器第一次从自己的行动中获得反馈,当它能在错误中修正、在环境中成长,智能就不再只是数据堆出来的幻觉。


如果下一阶段的 AI 不再依附于人类数据,而能自己学习、自己思考,我们,又该如何定义「智能」?


也许,真正的分界线不是模型规模,而是学习方式。


当AI学从经验中成长,它也会更加像人


参考资料:

https://x.com/lazyuniverse/status/1986098772934590741

https://www.businesswire.com/news/home/20251105563930/en/ExperienceFlow.AI-Announces-the-Launch-of-Its-Research-Laboratory-to-Advance-Experience-powered-Decentralized-Superintelligence


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md