当 AI 开始像人一样用手机

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
当 AI 开始像人一样用手机
8027点击    2025-12-18 09:11

从豆包到阶跃星辰的Step-GUI:手机正在成为 AI 的新入口


当 AI 开始像人一样用手机


最近,因为豆包手机助手的发布,关于 GUI Agent(图形用户界面智能体) 的讨论很热烈。


GUI Agent 不是新概念,它要做的事说白了就是:让 AI 直接「看屏幕、点按钮、拖进度条」,像人一样操作电脑、手机,甚至车机界面。


11 月 29 日,阶跃星辰开源了 4B 的 GUI Agent:Step-GUI Edge


12 月 1 日,字节跳动的豆包联合中兴发布了 GUI Agent 手机助手工程样机,3 万台一售而空。


12 月 9 日,智谱直接开源了 AutoGLM:AutoGLM-Phone-9B


而就在今天, 我们关注到阶跃星辰再度悄悄上线了 2 个新东西


【1】 GUI API :Step-GUI


【2】专门面向 GUI Agent 的 MCP(模型上下文协议)。


首先,各大厂商纷纷发布 GUI Agent 的一大出发点就是: GUI Agent 是基于视觉理解,就可以适配大量 App,无需厂商额外改造,接入成本很低,所以被视为目前终端设备打破 APP 之间操作壁垒,跨应用协同的最现实路径之一。


不过在 GUI Agent 的实际应用中,大家遇到了一个很现实的问题:如果动用参数量非常大的模型,那么这个解决方案太重了,贵且慢,另外如果涉及到隐私场景,用户则希望数据能保留在本地端侧。


从这个出发点看来,解决方案要符合:性价比,要在手机、车机、电脑上能跑得起来。同时考虑到实用性,它要能在足够丰富的场景下执行复杂和多元的任务。


所以大家有了个初步共识:端云协同。


在端侧(Edge): 小模型负责协调。也就是具体的点击、滑动、隐私保护。


因为很少有人愿意把自己微信聊天的截图,每时每刻都传到云端服务器去,所以识别屏幕、操作 App 最好在手机本地完成。


在云侧(Cloud): 更高维的大模型负责思考,处理复杂的逻辑推理、任务拆解。


阶跃星辰近期发布的 GUI Agent 系列,是符合这个逻辑的:


首先, Step-GUI 系列包含 2 个模型:Step-GUI (云侧模型)和 Step-GUI Edge(端侧模型)。


在端侧,Step-GUI Edge 做到了 4B(40 亿参数) ,这意味着它能在手机上跑得更轻快。以手机设备为例,⾏业普遍认为,7B 以下模型才能顺利部署并执行任务。就测试结果来看,Step-GUI Edge 是首款能够真正部署到手机上的 GUI 模型。而云侧的 Step-GUI  则会有更长的上下文和语义理解能力、以及更强的泛化能力,适合执行更多复杂任务场景。


而这个 Step-GUI Edge(原名:Gelab-Zero) 在 11 月 29 日就被开源在了 GitHub 上,项目在 1 周内,就在 GitHub 上快速突破了 1K Stars。


GitHub 链接:https://github.com/stepfun-ai/gelab-zero


当 AI 开始像人一样用手机


开发者们之所以关注这个项目,是因为它给到了一条技术路径:


对于屏幕语义理解和元素定位这种任务,其实并不一定需要千亿参数的模型。


一个经过 GUI 数据微调的小参数模型,是能够很有效率地识别屏幕上的图标、按钮和文字,并转化为坐标和操作指令。


所以,在验证了技术可行性和技术社区的「欢迎度」之后,阶跃星辰继续进行了完善,将这回的 Step-GUI 系列和 GUI-MCP 协议都打包发了出来。


十字路口团队从 0 到 1 完整部署并测评了云端模型 Step-GUI API 和 GUI-MCP 协议。


接下来,分享我们的实测体验和观察。


「Step-GUI + MCP」协议实测报告


首先,先说下我的设备:

电脑:MacBook

手机:华为老款手机


由于 GUI Agent 用在手机上,所以这里我用来测试的连接方式就是:ADB


阶跃星辰官网上的指导已经非常详细且「小白」了,这里我就不多做叙述,大家可以按照下面这个网址一步一步来:


https://platform.stepfun.com/docs/llm/model-lab


不过首先我承认,由于每个人的电脑配置环境都不一样,所以你还是可能会碰到很多的问题。比如说,我在安装 Homebrew 的时候就会遇到网速过于慢的情况,根本连不到源


我有个小窍门,就是用 Trae 这类的 AI IDE,告诉它:「帮我下载 Homebrew」,因为网络问题,它直接选择了国内的镜像源下载,非常方便:


当 AI 开始像人一样用手机


(ps.接下来测试案例的所有完整视频,都没有进行加速)


1)礼貌地「反」借钱


说实话,我刚一想到 GUI Agent 的用法时,第一个反应就是它如何帮助我礼貌地解决一个「虚构的场景」:


在微信上,可能会时不时有人来「借钱」,但我有时候并不想打开那个聊天框,也不是很愿意发送「礼貌的拒绝消息」。


所以,这个时候我就想用 GUI Agent 来帮我完成这件事情。


提示词如下:


检索我微信里主页面关于‘借钱’的聊天记录,如果有,帮我自动回复‘🙏最近我也手头挺紧张的,不好意思啦~',只检索最近聊天的10个人的最新聊天记录。


我们先来看看完整结果的录屏,从最开始让它执行任务,到完成整个任务它花费了 46 秒,成果还可以:


当 AI 开始像人一样用手机


最后的结果如下,它很顺畅地向某位联系人发送了「礼貌反借钱语录」,然后就退了出去:


当 AI 开始像人一样用手机


下面我们来仔细看一看细节。


在终端上,Step-GUI 的所有任务过程都会非常清楚地显示:


当 AI 开始像人一样用手机


而且,它在找到这位需要借钱的联系人的时候,还会判断最新的聊天时间是下午 5:32,在所有结果中是最新的。


所以说,它应该去点击这个结果,而不只是根据这个关键词来判断


当 AI 开始像人一样用手机


Step-GUI 启动后,不仅是简单地匹配关键词,它表现出了一种「判断力」


2)给「Koji」小红书笔记点赞+评论


当 Step-GUI 完成上面这个任务时,我就在思考 GUI Agent 在面对「搜索-进入-评论-返回-再评论」这种长链条操作时,会不会因为页面层级太深而迷路。


所以,我就做了下面这个测试:让它打开 Koji 的小红书,然后在文章下面的评论区点赞并评论。


提示词如下:


打开的小红书APP,搜索账号:Koji杨远骋,点个关注,并在前 2 篇笔记下的评论区评论:Koji,请在 2026 年继续加油!


完整结果如下,整个任务的时间你会发现明显延长了,但是完成得还是蛮流畅的:


当 AI 开始像人一样用手机


这个任务执行了 2 次评论,2 次都成功了,我们来看看完成后的结果:


当 AI 开始像人一样用手机


Step-GUI 展现了一定的稳定性和判断能力。


比如,在任务执行过程它遇到了下面这两次「权限判定」,都完成得很好,甚至帮我一键绑定了本机号码:


当 AI 开始像人一样用手机


这是它这一步的思考链:


当 AI 开始像人一样用手机


3)打开快手,帮我自动赚金币,选择提现方式到微信钱包


阶跃星辰这回还同步发布了 Step-GUI MCP 协议并且模型是限免的。


这个 MCP 协议最大的亮点之一,就是能让你在云端调用各家厂商的模型,比如:Claude、GPT、Gemini 之类的,这个时候你就需要把 Step-GUI 当作 MCP Server 来用了。


这里最方便的就是先去安装一个 「Fast Mcp」(教程官网链接都有):


当 AI 开始像人一样用手机


然后,我们再去下一个 Chatbox,这样就能很方便地灵活接入各个模型:


当 AI 开始像人一样用手机


接着在一个对话框里,需要给 AI 设置一个系统提示词,告诉它能用 GUI Agent 就用,智能不足了就自己拿接的 LLM 拆解一下:


当 AI 开始像人一样用手机


接着就可以把 Step-GUI 做成 MCP Server 了:


当 AI 开始像人一样用手机


接下来,我们试试这个场景:很多朋友的父母其实都在用快手极速版去赚金币,而我觉得这对他们的视力也很不好,所以在想能不能用 Step-GUI 去完成这个任务。


快手极速版 App 的任务中心是典型的设计得非常花哨,充满了弹窗、倒计时和动态干扰的元素。这是对 GUI Agent 视觉理解能力和状态感知能力的很大的考验。


比如说,我想让 Step-GUI 去点击快手极速版 APP 主页面画面左上角的红包标识,这是一个任务中心。进入到任务中心之后,再向下滑动,有一个「选词搜索赚金币」的任务。点击这个任务之后,它下面会有推荐的一系列热词的入口。然后,再挨个去点这些入口,才能去看广告赚金币。


具体的 3 个页面如下,你可以感受下「眼花缭乱」的程度,各个页面之间的「交互链接」也确实蛮复杂的:


当 AI 开始像人一样用手机


你能看得出来,这个任务比较复杂,提示词如下:


打开快手极速版,画面左上方有个‘红包’功能,点进去就是任务中心,你需要向下滑动,里面有个‘搜索看广告’,点击推荐热词下面的第一个选项的‘去搜索’,帮我看完广告,我要赚金币。


先来看看完整结果(请调低音量~),Step-GUI 确实完成了任务,然后整个过程还是很顺畅的 :


当 AI 开始像人一样用手机


下面这两张图是前后对比,它确实帮我在快手极速版 APP 上赚到了 269 金币


当 AI 开始像人一样用手机


接下来,我们照例看看细节。


我注意到一个非常有趣的点,就是当它在打开快手极速版 APP 的时候,它清楚地意识到「需要等待页面加载完成」:


当 AI 开始像人一样用手机


在打开快手极速版 APP 的任务中心并完成广告任务之后,上面有一行特别小的文字:已成功领取 269 金币,Step-GUI 的后台会立刻识别到这一点,认为:广告任务已经完成:


当 AI 开始像人一样用手机


在另一次看直播广告环节中,我一度以为它卡住了,因为屏幕停在一个直播广告上不动了,我甚至想直接伸手关掉。但看后台日志才发现,它其实是在「等待直播中的一个广告的结束」。 


它识别出了当前的业务状态是「广告播放中」,必须等待倒计时结束或进度条走完。直到广告结束,它才准确点击了关闭按钮,去进行下一个任务。


那一步甚至都把我晃过去了:


当 AI 开始像人一样用手机


在完成这个任务之后,过了段时间,我才想起来,完全可以让 Step-GUI 一口将「赚金币 - 提现 -选择提现方式微信 - 复制粘贴提现链接到微信」一个流程都跑完。


我录了个视频,非常流畅:


当 AI 开始像人一样用手机


就在这个流程走到最后一步的同时,手机就已经收到了这 0.5 元的收款入账:


当 AI 开始像人一样用手机


这次我们用的是 Step-GUI + MCP 的组合,目的其实很直白:就是让 AI 真的像个人一样操作手机,把快手极速版里那套「赚金币 → 提现 → 选微信钱包」 的流程完整跑一遍。


整个过程拆开看,大概就是这么一条线:


打开 App → 等页面加载完 → 找到左上角那个「红包」 → 进任务中心 → 往下滑找任务 → 点进广告流程 → 一个一个把广告看完 → 成功完成任务 → 实际到账金币 → 接着顺着流程直接提现 → 选微信提现 → 钱到账。


从「点红包」到「钱进微信」,这一小段链路已经被完整自动化了。


而且你现在能明显感觉到一件事:Step-GUI 负责动手,高维模型负责动脑,这个分工真的很关键。


有了这个 MCP,GUI Agent 就能从独立工具转变为连接 LLM 与手机应用的桥梁。


而且非常惊喜的是,按照官方指引,我 10 分钟就完成了 GUI-MCP 的部署。也就是说,最快 10 分钟就能拥有豆包手机的同款能力。


看完这些案例,我想聊聊一个很多人最近在争论的话题。


常有人说:「让 AI 去模拟点击屏幕会不会太笨了?直接调 API 或者用 MCP 和 A2A 协议不是更高效吗?最后的效果不仅高效,而且精准。」


但我最近看到一个类比:


地铁确实比汽车高效多了,运载量大、不堵车,那为什么人类还需要汽车?


因为地铁只能去那些铺了铁轨的地方。


API 也是一样,它依赖于 App 开发者给你铺好的「铁轨」。但在现实的世界里,还有海量的软件、网页、甚至是游戏没有 API,有无数临时的弹窗、非标的操作


GUI Agent 就是那辆「越野车」。


它不需要等待开发者铺设铁轨,只要人眼能看到的界面,它就能开过去。它或许不是最快的,但它一定是覆盖范围最广、最能适应这个混乱而真实的数字世界的


这也正是阶跃这次开源 Step-GUI 的意义。目前这个 4B 的模型已经开源在 GitHub 上,API 也已上线,有兴趣的开发者去试一试。


当 AI 开始像人一样用手机


文章来自于“十字路口Crossing”,作者 “镜山”。

关键词: AI新闻 , AI手机 , GUI , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales