多轮Agent蒸馏终于不翻车!港中文x通义新方法成功率暴涨18点,训练还快32%
多轮Agent蒸馏终于不翻车!港中文x通义新方法成功率暴涨18点,训练还快32%把强大模型的能力“蒸馏”给小模型,听起来很美—— 但放到多轮对话Agent场景里,效果往往一塌糊涂。
搜索
把强大模型的能力“蒸馏”给小模型,听起来很美—— 但放到多轮对话Agent场景里,效果往往一塌糊涂。
Agent Skills不应该只以SKILL.md、README或自然语言说明文档的形式存在,而应该被转成一种机器可检索、可检查、可治理的结构化表示。这是《From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills》这篇论文的核心主张。
当Agent开始真正进入生产环境,安全问题不再是「功能模块」,而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式,正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。
Assort Health 是一家值得被认真拆解的初创公司。成立仅两年多,累计融资1.015亿美元,拿着300万美元的ARR(年度经常性收入),却获得了7.5亿美元的估值。Assort 最近推出主动式互动引擎 Activate,从被动接听到主动做患者唤醒和慢病管理,这已经是在为真正面向用户的智能体做铺垫了。
AI 员工得能和真实的人交流,能接收文件,能在一个稳定的环境里持续运转。GenSpark 4.0 在这一层做得很到位。它可以和联系人直接对话,并且原生集成了 MyClaw,不需要用户自己去安装 OpenClaw 再配置到飞书或微信。
4 月 9 日,Anthropic 在 X 上宣布 Claude Managed Agents 上线。同一天,一位 ID 叫 @jiayuan_jy 的中国创业者也发了一条推,“We created the open source version of Claude Managed Agents. Introducing Multica.”
我发现囤Agent的Skills有瘾, 今天刚装了一大堆同类Skill,还没用熟就想提前知道这类里最好的到底是哪一个。转头又发现某个佬推荐了自留的20个Skills,回回路过我都忍不住点进去看。
如果您经常用Claude Code、OpenCode、OpenClaw这类Agent框架,大概率会遇到一种不稳定现象:同一个Skills,用Claude能跑,换成Qwen就不行了;在Claude Code里稳定的流程,换到OpenClaw可能输出格式崩掉;在作者环境里正常的脚本,到了自己机器上可能因为缺依赖进入反复报错。
真的,你有过这种时刻吗。
随着MCP、Agent Skills与各类Harness的快速发展,大模型能轻松调用成百上千种外部工具,但在多工具,具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境(如订票系统,外卖平台),但仍受限于环境扩展的规模与真实性。