训练奖励太稀疏?港中文联合美团给Agent加上「过程分」
训练奖励太稀疏?港中文联合美团给Agent加上「过程分」在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。 在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷
在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。 在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷
OpenClaw,塌房了。这个体现开源开发者精神的顶流,干了一件非常不开源精神的事。一款叫Evolver的插件,10分钟登顶ClawHub,24小时被无故下架;
GUI 智能体最近卷到什么程度了?Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题:
何朝阳说话时,语言的节奏快而密集。在我们交流的前半个小时里,他一口气介绍完新产品 Teamily.ai 的全部,但我只得到了一个模糊的感受:听起来技术很厉害,但我为什么要用它?
当前 AI Agent 行业有一个系统性的浪费:每个 Agent 都像一块一次性电池,跑完一个任务,过程中积累的经验、调试的策略、踩过的坑,全部随任务结束而消失。下一个 Agent 遇到相同问题,又得从零开始。
今日凌晨,马斯克在社交平台X的推文中称,Grok 4.2能快速学习,测试阶段研究人员会每天进行改进,下个月公测结束时,Grok 4.2的智能程度和速度将比Grok 4高出一个数量级。
就在OpenAI宣布招聘OpenClaw创始人皮特·斯坦伯格(Peter Steinberger)的一天后,Meta便迅速发起反击。 旗下的Manus正式推出了Manus Agents功能,对标OpenClaw,并且首先在Telegram上线。
今日凌晨,Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6,新模型在编程、计算机使用、长上下文推理、Agent规划、知识工作和设计工作上全面进化。
即便是像土木,建筑这样的传统行业,也受到AI的冲击。从帮助记录工程日志的智能体,到记录了老工人经验的安全智能体。AI正在建筑行业,让有经验的工人们获得数字永生。
创意这东西保质期很短,那股兴奋劲儿一过,大多数想法就不了了之。直到最近我在看一批新的 AI 产品时,碰到了 Leewow。