AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战
5687点击    2025-08-21 14:29

AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。


8 月,北京的 AutoGLM 2.0 闭门交流会上,智谱 AI 展示了一条不同的路径:为每个用户配备一台云端的智能手机和电脑。


其实早在 2023 年底,智谱团队就已经受到 GPT-4 调用 API 和使用浏览器的能力启发,开始探索让 AI 像人一样操作设备的可能性。这一技术方向源自一个关键洞察:第三产业 50% 以上的价值创造依赖电脑、手机和大脑。如果 AI 能熟练操作这些设备,就具备了参与经济活动的基本能力。


2024 年 10 月,第一版 AutoGLM 发布,虽能操作手机,但很快暴露出本地系统的限制,最大的痛点是锁屏即停。随后推出的沉思版则进一步融合了 DeepResearch 能力。


经历了近两年的探索,团队最终推出了 AutoGLM 2.0 —— 一款由纯国产模型 GLM-4.5 与 GLM-4.5V 驱动的 GUI Agent,具备推理、代码和多模态的全能能力。


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


01

Agent 云端执行架构的全新定义


不只是 Browser Use 的真正云电脑


AutoGLM 与市面其他 Agent 产品的根本区别在于它操作的是一台真正完整的电脑。当其他产品还局限于 Browser 和 VS Code 时,AutoGLM 已能运行 Office、Photoshop 等桌面应用。


选择这样的产品形态,源于智谱团队对 AGI 早期形态的深刻理解。他们认为真正的智能体需要满足「3A 原则」。


Around-the-clock(全时运行):即使用户离线或睡眠,Agent 仍能 24 小时不间断执行任务


Autonomy without interference(自主零干扰):独立运行在云端,不占用用户本地屏幕与算力,如同平行世界的数字分身


Affinity(全域连接):突破浏览器对话框的限制,未来将跨越手机、电脑、智能穿戴等多种设备,真正融入物理世界


技术实现层面,智谱团队透露,云虚拟机的基础设施并非完全自主开发。虚拟机镜像本身的数据安全和隐私保护策略,是与阿里云等合作伙伴共同构建的。手机端同样采用与厂商合作的模式,确保了系统的稳定性和安全性。


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


用户数据安全始终是云端执行最敏感的话题


智谱表示:“我们不知道用户的账号密码。Agent 也不会在没有主动确认的情况下直接执行敏感操作。”


虚拟机镜像的数据安全和隐私保护由专业云服务商负责,团队坦言他们不能直接访问用户数据。系统只保留网站给的 token ,这个 token 有失效期,与用户在使用自己浏览器的机制完全相同。


对于当前存在潜在责任风险的操作,团队在重点环节设置了安全围栏。例如,支付环节需要用户最终确认,发布内容需要二次验证。


Prompt:在美团上帮我查找库迪咖啡的经典拿铁并下单。


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


02

End - to - End Online RL:端到端在线强化学习


在线下交流中,团队展示了 AutoGLM 技术发展的三个关键阶段,每个阶段都代表着对 Agent 训练理念的重新思考:


第一阶段(2023 年 8 月):Agent Bench 发布,团队首先解决了如何系统评估 Agent 模型能力的基础问题。这为后续的技术迭代奠定了重要的评价体系基础。


第二阶段(2024 年上半年):采用SFT(监督微调)方案,通过模仿人类轨迹学习。但团队很快发现了这种方法的致命缺陷 —— 模型会把人类操作中的对错都学进去,无法区分优劣路径。


第三阶段(2024 年下半年至今):全面转向 Online RL ,实现了 165% 的成功率提升。这种转变的核心在于,放弃让模型简单模仿人类操作路径,而是让它通过结果奖励探索可能更优的解决方案。


这种训练方式的效果在国际基准测试中得到验证:OSWorld (48.1)、WebVoyager (87.7)、AndroidLab (46.8) 、AndroidWorld (75.8) 等多项测试中,AutoGLM 均取得领先。


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


现在的系统能同时运行上千个环境进行训练,快速 Setup、初始化、运行、结束,形成非常快速的迭代过程。


这种高强度更新迭代,被团队形象地比喻为让 AI 从“一学期一次期末考试”变成“每学完一个章节就考试”。


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


“环境构建是比 Reward 更困难的挑战。”


封闭域任务如数学、代码只需要规则和编译器就能搞定。但现实任务需要电脑、手机、连接互联网、给账号才能完成。


以营销任务为例,总得有客户让 Agent 去营销才能学习,是拿真实用户做实验还是模拟环境?环境怎么搭建?对真实任务来说,Environment 可能比 Reward 更重要。这种挑战直接决定了 Agent 能否从实验室走向真实世界。


智谱团队也在探索更 Scalable 的方式来获取任务反馈,包括 OpenAI 在内的研究团队都在探索更加 Scalable Verification 的方法,希望能以比较廉价和高效的方式得到大量真实高难度任务的反馈。


“这种信号数据是存在的,但如何更好地挖掘获取,仍需要持续探索。”


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


03

GUI Agent 产品的现在进行时


在交流会开场演示中,团队让 AutoGLM 完成自动在小红书创作并发布介绍自己的视频内容。


演示的技术亮点在于:它采用高并发搜索方式,同时搜索多个关键词,找到官网进行深度浏览。整个过程完全异步执行,用户可以随意切换应用而不影响任务进行。


正如团队所说:“今天我们给每个人送了一台智能云手机,这台手机不会和你的屏幕使用产生任何冲突,你甚至在睡觉的时候,它可以都在那不停地运行。”

且据介绍,AutoGLM 2.0 已覆盖 40+ 高频应用,以下是实际运行的典型案例:


Prompt:点赞、投币、收藏 B 站上智谱清言 AutoGLM 沉思播放量最高的视频,最后发送弹幕“我为沉思打 call~”


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


Prompt:生成三张美食图片,发一个微头条。


AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战


而在测评中我发现,AutoGLM 在做调研任务时呈现出明显的平台偏好——“知乎 - 小红书 - B 站”成为常常浏览的搜索路径。


关于浏览器场景的训练泛化问题,团队解释说主要取决于现阶段训练数据的 distribution。比如实时信息类或旅游攻略类场景比较多,所以模型会自然选择知乎、小红书这些网站。随着财经类等其他场景比例提高,会自然去选择相应网站。


OS 层面的操作也已在产品上线规划中,团队承诺将以一到两周的频率快速迭代。


04

特工之思:关于 Agent 未来的三个关键议题


Q1:GUI 操作是必需品还是过渡方案?


测评中发现,一些 GUI 操作任务的链路依然依赖较多的 API 调用完成。而跳出简单的 Web 端 Research 任务, GUI 操作仍有其必需的价值。大量企业内部系统和小众应用只提供图形界面,操作过程的可见性能够增强用户信任。


端侧 AI 芯片的进步也正在改变成本结构,本地运行视觉模型变得越来越实用。但如何在 GUI 的通用性与 API 的高效性之间找到平衡?当 MCP 等标准协议成熟后,这种平衡会如何变化?


Q2:云端执行会成为 AI Agent 的主流范式吗?


当苹果将 AI 计算放在设备端、Google 推出 Gemini Nano 、高通发布专用 AI 芯片时,AutoGLM 选择了在全云端架构构建智能体手机和电脑。


云端架构确实解决了痛点:用户设备零负担、真正的多任务并行、统一的安全管控。但代价也同样明显 —— 用户数据完全托管给平台,第三方平台的误判风险。当与其他硬件设备融合更多的时候,混合架构是否会是未来更主流的选择?


Q3:Agent 经济将如何重塑互联网?


团队表示,AutoGLM 2.0 平均任务消耗 256K tokens,是传统 Chatbot 的 32 倍。且 Agent 流量有三个特点:任务明确、转化率高、可持续运行


这种 Agent 作为互联网主体的新型流量该如何定价?当 Agent 成为服务的主要使用者,平台的产品设计需要重新考虑吗?


写在最后,AutoGLM 2.0 展现了云端执行架构的独特优势、端到端强化学习的技术突破、以及远低于竞品的运营成本,但仍存在平台兼容性、任务执行稳定性、场景泛化能力等不完美之处。这些问题可能恰恰证明这是一个真实的、正在快速迭代的产品。


团队选择全面开放而非邀请码机制,正是希望通过大规模用户使用加速产品完善和技术迭代。


智谱团队放手让 AutoGLM 2.0 进行市场检验,并期待其云端执行能力为 AI 融入物理世界带来无限可能。


更多技术细节,参阅智谱已发布的技术论文:


ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents


https://arxiv.org/abs/2508.14040


MobileRL: Advancing Mobile Use Agents With Adaptive Online Reinforcement Learning


https://github.com/Xiao9905/AutoGLM/blob/main/static/papers/mobilerl_0820.pdf


文章来自于微信公众号“特工宇宙”,作者是“特工彩虹糖”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0