真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习
9865点击    2026-03-12 14:51

真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习


注意注意!还不是某个任务上的单点提升,这次有人直接给整个智能体套一层在线强化学习系统MetaClaw——


不用自己维护GPU集群、不用数据集也无需人工微调,让AI跟你聊着聊着就能自己变聪明。


真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习


这种新的学习模式就是把用户和AI的日常对话直接变成训练数据,整个学习循环全在后台完成,也不耽误正常使用。


咱平时跟AI该聊啥聊啥,MetaClaw会默默拦截OpenClaw的交互过程,给每一轮对话打分,再通过在线微调优化AI的决策策略。


而且它还吃一堑长一智,要是AI哪句话翻车了,MetaClaw会自动扒完整的交互轨迹,分析问题出在哪,然后自动生成一个新技能存进技能库。


下次再遇到类似的坑,相关技能会被精准搜索出来注入系统提示,同款错误直接拜拜。


真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习


技能注入+技能进化


模型底座基于Kimi-2.5构建,同时也准备了Qwen3-4B这个轻量级替代方案,低配设备也能跑。


核心机制是自研的SkillRL技能增强强化学习框架,说白了就是技能注入+技能进化的组合拳。


  • 技能注入

每轮对话里精准匹配相关技能指令,不用等训练结束,AI当场就能优化表现;


  • 技能进化

让AI从被动接收指令变成主动生成技能,技能库越用越丰富,能力水涨船高。


真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习


而最吸引人的,是不依赖本地GPU集群,不用自己维护这个设定。


MetaClaw把所有训练任务全甩给了Tinker云平台,训练和部署彻底分家。


只要你的设备能连上网,就能跑通整个系统,不用操心算力,也不用专门的工程团队盯着维护。


真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习


除此之外,MetaClaw的细节设计也很懂开发者的痛点。


异步架构+双学习模式,把服务、奖励建模和训练彻底解耦,AI一边给用户实时响应,后台一边做打分和优化,“工作学习”两不耽误。


学习模式也给足了选择,想轻量化就用强化学习,从用户隐式反馈里优化;想深度提升就用在线策略蒸馏,结合高质量文本反馈进阶。


主打一个你想怎么训就怎么训。


三步上手


用起来还贼简单,就3步。


第一步先安装依赖,前面的是常规服务和大模型相关库,跑API、发请求、接大模型都用得上。


后面的tinker和tinker-cookbook是关键,这是云端LoRA训练的SDK。


- pip install fastapi uvicorn httpx openai transformers

- pip install tinker tinker-cookbook


第二步运行配置脚本将OpenClaw网关指向MetaClaw的代理,比较推荐的是Kimi2.5.


- bash openclaw_model_kimi.sh


第三步是设置Tinker API密钥,直接跑训练脚本。


- export TINKER_API_KEY=”xxx”

- cd /path/to/metaclaw

- python examples/run_conversation_rl.py


搞定,之后你只需要像平常一样和Agent聊天,MetaClaw会自动收集对话轮次、评分、训练模型。


每攒够一批样本就热替换一次权重,全程无需人工干预。


如果想启用技能注入,只需在配置中设置:


- config = MetaClawConfig(use_skills=True)


想开始技能进化,可以设置(以GPT5.2为例):


- config = MetaClawConfig(

use_skills=True,

enable_skill_evolution=True,

azure_openai_deployment=”gpt-5.2”,

)


然后配好密钥:


- export AZURE_OPENAI_API_KEY=”xxx”

- export AZURE_OPENAI_ENDPOINT=”https://your-endpoint.openai.azure.com/“


所有配置项都集中在MetaClawConfig中,包括模型选择、LoRA参数、批次大小、训练步数、损失函数类型等,一目了然。


真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习


好好好,这下变成真·养虾了(doge)。


MetaClaw这项工作由姚骅修领导,他是电子科技大学校友,现任UNC计算机科学系的助理教授,曾在Stanford AI Lab做博士后,专注于Agent和具身AI。


项目地址:https://github.com/aiming-lab/MetaClaw


参考链接:

[1]https://x.com/BoWang87/status/2031094971630235941

[2]https://x.com/HuaxiuYaoML/status/2031069599651729905


文章来自于“量子位”,作者 “闻乐”。

关键词: AI新闻 , MetaClaw , Tinker , skill
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner