随着移动智能技术的飞速迭代,手机端聚合服务的AI“超级入口” 正成为行业竞争的新焦点——
GUI Agent(图形用户界面智能体)凭借重塑流量分发格局的潜力,不仅催生千亿级市场机遇,更吸引苹果、华为、字节跳动、美团、智谱AI等企业纷纷布局。
2025年9月14日,美团率先推出首个AI Agent,支持平台内“一句话点餐”,标志着该技术从研发走向实用化;而中兴通讯凭借自研技术框架,在这一赛道上交出了亮眼答卷,让手机真正实现“秒变私人小秘书”的体验升级。
据2025年10月17日SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评数据显示,中兴通讯Nebula-GUI模型以7B参数量斩获总榜银牌,总分84.38,其中UI元素定位得分93.17,尤其在自动点餐、订票等复杂任务中,其准确率与操作速度远超业界其他模型,充分具备手机端侧部署落地能力。

△图源:AgentCLUE-Mobile手机GUI Agent(离线)测评基准
目前,Nebula-GUI的 “一句话订票”“一句话拍照” 功能已在中兴终端努比亚Z70 Ultra 、Z80 Ultra及红魔新品手机商用。
截至当前,该模型已覆盖30余款主流APP,常用场景平均准确率超90%,未来计划进一步覆盖手机绝大多数APP与使用场景,并新增购物比价、旅游出行等场景级服务,持续深化“手机小秘”的实用价值。

△图源:AgentCLUE-Mobile手机GUI Agent(离线)测评基准
GUI Agent的性能好坏,数据是核心支撑。但当前屏幕自动技术的训练数据获取面临多重行业难题:

△端到端数据制备系统
为解决上述数据获取的核心痛点,中兴开发了一套完整的端到端数据制备系统:包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统,显著提升了数据标注效率,有效提升数据质量。
目前,基于该系统生成的数据占训练数据的90%,整体覆盖了出行、社交、生活服务等多元场景下的主流APP,能够为项目高效、稳定地输出高质量数据。
GUI数据标注工具,将原本分散、依赖人工的截屏、操作、标注、核查、归档流程整合为一站式自动化流水线,显著提升了数据标注的效率、精度和丰富度,为模型训练提供了高质量、多维度的高价值数据。
其核心价值是通过一体化标注方案,系统性解决了屏幕交互数据制作中的效率、精度与成本难题,该工具核心功能如下:

△GUI数据标注工具核心功能
通过引入GUI数据标注工具,数据标注效率实现了3倍提升。

△标注数据样例
为实现对大模型训练数据的质量优化,中兴开发了一套自动化数据Pipeline,旨在系统化解决因人工标注导致的语言表达单一、思维链缺失或逻辑不一致等问题,从而提升数据的多样性与逻辑完整性,增强模型泛化能力。
这一举措有助于显著提升训练数据的质量,进而提升模型的最终能力。

△自动化数据PIPELINE流程
面对屏幕数据标注对人力与设备资源的双重依赖,中兴推出了一个集任务调度、任务管理、联邦设备管理与GUI Agent于一体的数据自动化生成平台。
该平台通过对分散的实体手机和虚拟机进行集约化管控,有效解决了设备资源利用率低、管理分散的痛点。
基于高效的任务调度引擎,平台能够全时自动化运行,构建了从任务下发到数据生成的闭环流水线。
这不仅大幅降低了对人工标注的依赖,更实现了数据生产规模与整体效率的同步飞跃,为AI模型的快速迭代提供了强大助力。

△任务调度和设备管理系统
业界现有多模态大模型在处理GUI屏幕时,往往表现出三大局限:
中兴通讯通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,成功让通用多模态模型进化为具备“感知-理解-执行-规划-纠错”能力的GUI操作智能体:

△多阶段精调
通过上述面向基础能力、指令操作、任务规划与自我反思能力的系统性监督微调,中兴成功地将一个通用的多模态大模型,专项优化为一个具备高鲁棒性的GUI操作智能体。
其带来的实际效果是显著且多层次的:
为了让模型精准理解中文GUI界面的复杂结构与语义,中兴针对开源视觉模型严重缺乏中文场景训练数据的问题,整合开源与自研数据,并构建了一套融合XML解析、OCR识别、UI元素检测与大语言模型标注的自动化数据标注流程,显著提升了中文基础数据的构建效率与质量。
最终,中兴自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景。
同时,从开源数据集中筛选整合了数百万条以英文为主的GUI样本,共同构成覆盖描述生成、功能理解、元素定位等多类任务的基础训练集。
该混合数据集的引入,显著提升了模型在GUI界面上的基础感知与语义理解能力。
基于单个GUI截图,模型需要能够像人一样对屏幕进行操作,中兴构建了几十万的单步指令数据,用来训练模型将用户指令映射到正确的UI操作上。
由于单步错误会导致多步任务成功率指数下降,中兴通过以下方法提升基础模型能力和单步操作精度:
通过大量的指令数据和精确的思维链引导,模型在单步上的能力大大提升,平均准确率超过95%,部分简单指令操作达到99%准确率。
复杂任务通常指需要多步操作完成的任务,也称为GUI导航任务,它的核心目标是引导模型完成基于特定APP内,甚至多个APP间的多步骤操作流程。
每个操作步骤(点击/滑动等)都会引发页面状态变更,从而形成包含操作序列与对应页面截图的动态轨迹,模型每一步都需要根据任务信息、当前状态进行决策下一步的操作。
端到端的导航任务除了依赖模型基础能力和单步执行能力外,通常还需要模型具备规划能力,思考能力。
为了提升模型在多步任务上的能力,中兴标注了大量的APP轨迹数据,并基于这些标注的轨迹进行了多类型精调数据:
多种精调范式不仅提升了模型的规划能力和反思能力,也大大提升了模型的泛化能力,在未见任务上展现出来了更好的规划和执行成功率。
在线应用(APP)的界面布局时常动态变化,尤其是广告内容等区域,甚至可能出现页面自动跳转的情况。
此外,模型在实际操作过程中也可能发生点击错误,导致跳转至非预期页面。因此,模型需具备自主判断与纠错能力,能够识别异常页面状态,并从中退出以回到正确的任务流程中。
自我反思和纠错能力的引入,是构建鲁棒GUI智能体的关键进展。它使模型从被动的指令执行者,转变为能够主动监测状态、管理异常的任务主导者,从而在复杂的真实环境中保持稳定输出。
经过监督微调(SFT)的模型往往更倾向于模仿训练数据中的界面操作模式和交互风格,而非真正理解任务背后的用户意图与交互逻辑。
如果训练数据本身存在偏差或覆盖场景有限,模型会不加辨别地复现这些局限,导致其在未见过的界面或复杂任务中表现不佳。
由于缺乏对自身行为效果的“判断力”,模型无法评估其输出是否合理或高效。而引入强化学习(RL)后,中兴不再要求模型简单地模仿“标准操作”,而是为其设定一个明确的目标——即奖励函数。
当前,基于强化学习(RL)的GUI智能体已在自动化任务中展现出潜力,但其性能天花板已然显现。
核心瓶颈在于:
中兴提出一种全新的双层强化学习范式,通过离线步骤级连续奖励与在线任务级强化的协同训练,从根本上解决了这些问题,引领GUI智能体进入“精细化推理”与“自主进化”的新时代。
针对GUI agent在任务中奖励粒度粗糙的问题,中兴改进了传统的GRPO离散奖励框架,设计了细粒度的连续性奖励信号。
该信号体系能够对智能体的每一步推理与操作进行实时、精准的评估与引导,从而将宏观任务目标转化为稳定的微观训练信号,有效提升了智能体在图形界面环境中的学习效率与最终性能。

△多维度精细化奖励
对于每个点击操作,中兴摒弃了传统的0/1离散奖励,设计了一种基于目标控件边界框的自适应空间感知连续奖励函数。
该函数综合考虑了控件在全局界面中的相对尺寸以及点击位置在框内相对于中心的归一化距离,通过一种融合了尺寸感知与边界敏感性的机制,使得奖励值随着定位精度的提升而平滑且非线性地增加。
此举为策略优化提供了远比简单欧氏距离更丰富、更平滑的梯度信号,能引导模型自适应地学习对不同尺寸控件的精准定位策略,从而显著提升了模型的决策效率、泛化能力与行为可解释性。
对于生成正确答案概率越高的推理过程,中兴认为应该给予更高的奖励,在模型的推理的每一步,中兴不仅获取其动作决策,同时获取模型对于最终任务成功的预测概率,中兴将该概率值作为置信度奖励。
此举将远期回报的期望以一种密集奖励的形式注入到当前步骤。它激励模型在每一步都选择那些能够引导至最终成功的高可能性路径,有效压制了随机探索和逻辑断裂的决策,提升了整个推理过程的连贯性与可靠性。
中兴训练了一个专用的推理奖励模型,该模型以智能体的“思考过程”和“最终执行的动作”作为输入,输出一个衡量二者逻辑一致性的分数。
解决了“认知不协调”问题。例如,模型推理“需要点击登录按钮”,却执行了“点击注册按钮”的操作。该奖励模型强制智能体的“思考”与“行动”对齐,这对于复杂任务中的可解释性和故障排查至关重要。
在真实的GUI任务场景中,由于每次动作执行后的环境状态都处于动态变化之中,仅仅依赖离线数据难以覆盖任务执行过程中可能出现的全部复杂情况。
因此,中兴引入了在线任务级强化机制,通过调用联邦调度系统,高效率生成大量执行轨迹,以多样化的交互经验驱动策略优化。
该机制以达成最终任务目标为核心导向,训练模型在交互过程中自主探索不同决策路径,并具备通过多种方式实现目标的能力。
该方法旨在显著增强模型在未知或动态环境下的泛化性能,进一步提升GUI agent在实际应用中的适应性与鲁棒性。

△在线任务级强化
中兴收集了大量包含成功与失败的人类演示轨迹和智能体探索轨迹,训练了一个任务级轨迹奖励模型,用于判断任务是否正确完成。
对在线学习中对轨迹进行即时评分,大幅提升了训练效率,为模型提供了更丰富、更及时的反馈信号。
中兴采用了一种结合了轨迹长度和时序差分的混合信用分配方法。
对于一条完整的成功轨迹,根据相同任务执行轨迹的长度和离最终执行成功结果距离的远近设置奖励衰减系数,形成最终的回报。
这种方法实现了“按功行赏”。它自然地对更短、更高效的路径赋予更高的累积回报,从而激励智能体不仅追求成功,更追求效率,最终演化出高度优化的行为策略。
从AgentCLUE-mobile榜单的银牌认可,到努比亚Z70 Ultra、Z80_Ultra 手机上的商用落地,中兴通讯Nebula-GUI模型不仅彰显了其在GUI Agent领域的技术积累,更让“手机变身为私人小秘书”从概念走向现实。
未来,随着技术在智能办公、软件开发、自动化流程等领域的深度渗透,中兴通讯或将进一步推动GUI Agent成为手机“超级入口”的核心载体,让移动智能服务真正赋能各行各业,为用户带来更便捷、更智能的使用体验。
文章来自于“量子位”,作者 “允中”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner