手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

8586点击 2025-07-27 13:01

论文标题：Atomic-to-Compositional Generalization for Mobile Agents with A New Benchmark and Scheduling System

项目主页：https://ui-nexus.github.io/

论文链接：https://arxiv.org/abs/2506.08972

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

从原子任务自动化

到系统级端侧智能

多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实（如 ScreenSpot）、短链操作任务（如 AndroidControl）上展现出突出的表现，标志着端侧任务自动化的初步成熟。

但是，真实世界的用户需求常常包含复合长程任务，例如 “比较价格并在便宜的平台下单” 任务，需要在多个应用程序中操作，收集和比较异源信息，并据此确定后续的操作步骤；“查看今日热点新闻，概括并记录” 的任务，需要在多个网页之间导航，将设备操作与文本概括的通用推理能力交错融合，并完成适时的信息传递。从简单有序任务到复杂有序和复杂无序任务的过渡是从单智能体基座增强到 AI 操作系统的必经之路。当前主流的环境感知、动作落实和短序列轨迹微调等训练方式显著地提高了前述原子任务上的表现，但是复合长程任务带来了长链条进度管理、信息收集和传递、操作与通用思考的结合等全新的挑战。

研究人员针对主流的移动端 GUI 智能体展开系统的研究。实验显示，现有的移动端 GUI 智能体在面对复合长程任务时都具有明显的能力缺陷，展现出显著的原子任务到复合任务的泛化困难。

针对这一缺口，研究人员提出：

1. 动态评测基准 UI-Nexus：构建可控的动态测评平台，覆盖复合型、传递型、深度分析型等复杂长程任务，涵盖 50 类中英文应用（包括本地功能应用和第三方在线应用），共设计 100 个任务模板，平均最优完成步数为 14.05 步。

2. 多智能体任务调度系统 AGENT-NEXUS：提出轻量化调度框架，支持指令分发、信息传递与进程管理。该系统无需修改底层智能体模型，便于高效接入与多体协同。

该工作为复合长程任务下的移动端智能体提供了有挑战性的测试基准和开发平台，也为展望未来复杂、精细的 AI 原生操作系统建立了雏形。

移动端智能体

在复合长程任务中的能力瓶颈

随着基座模型的持续增强和环境感知、单屏动作落实、静态轨迹微调、强化学习等训练策略的优化，基于多模态大模型的设备操控 GUI 智能体在单屏动作落实（grounding）和短链操作任务上的测试表现持续提升，已经能够端到端地自动化执行网络搜索等原子任务。

但是，真实场景中的用户指令常常包含长程场景与复合依赖需求。本文依据子任务的依赖关系分类，给出了常见的三种任务复合类型：

独立组合型（Simple Concatenation）：若干无依赖关系的原子子任务的拼接。如图中的睡前设定指令 “Instagram 开启消息免打扰 8 小时，并设定明早 7:00 的闹钟”

语境传递型（Context Transition）：后续子任务需要继承并利用前序任务产生的中间结果或界面状态，需要把信息 / 上下文正确地带到下一个 App 或页面。如图中先上网搜索天气预报，并根据搜索结果发送微信消息的任务。

深度分析型（Deep Dive）：是语境传递型任务的一种特殊情况。在设备操控中不仅需要进行动作导向的推理以及信息的简单记忆，还需要融入通用推理能力对中间信息进行深度的处理和分析。如图中的今日 Hacker News 摘要任务，不仅需要在浏览器、Google Doc 中进行点击、滑动等导航操作，还需要利用通用推理能力对当前页面的新闻内容做摘要分析。

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

依据子任务依赖结构的复合任务分类

研究人员在常用手机应用上构造代表性的测试任务，针对主流的 OS-Atlas, UI-TARS, Mobile-Agent 系列，M3A 等移动端 GUI 智能体进行初步实验，发现主流智能体在复合长程任务上明显表现欠佳。

对错误案例的细致分析显示，主流移动端智能体由于缺乏有效的进度管理和信息管理机制等，展现出典型的失败类型，如：

注意力涣散：直接给定复合任务指令时，容易造成语境过载（Context Overflow），导致智能体遗漏部分指令或子任务；

信息传递失败：智能体缺乏信息管理和传递的能力，导致在传递型任务中胡乱执行需要前序信息的任务；

进度管理混乱：在未完成的子任务之间反复跳转。

UI-NEXUS：

针对移动端智能体复合任务的

全面测试基准

为了对移动端智能体在复合长程任务上的表现提供科学全面的测试基准与开发平台，研究人员提出了 UI-NEXUS：一个针对移动端智能体复合任务的交互式测试基准。

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

UI-NEXUS 测试基准概览

如概览图所示，UI-NEXUS 基准有如下的特点：

数据覆盖：50 款 App（20 本地功能应用 + 30 中英在线服务应用），5 大应用场景；100 条指令模板，最优路径 14.05 步，难度显著高于同类基准。

三类依赖结构：依据子任务的依赖关系，系统研究三种复合任务类型 —— 独立组合型（Simple Concatenation）、语境传递型（Context Transition）、深度分析型（Deep Dive）。

ANCHOR 子集：为了提供可控、可扩展的测试开发环境，研究人员基于 AndroidWorld 的 20 个本地功能 App 构建了本地离线任务子集 UI-NEXUS-Anchor。该测试集中的任务环境可以通过数据库、文件系统、adb 工具精准设定，支持任务指令可扩展性和测试环境可控性。

细粒度指标：记录端到端任务成功率、终止原因、Token 成本与推理时延，对智能体的表现进行细粒度分析。

研究人员选取了 5 种代表性的移动端智能体基线进行测试，这 5 种智能体都基于 GUI 操作进行移动端操作任务的自动化，具体实现模式包括：

1. 单模型微调（Agent-as-a-Model）：OS-Atlas-7B-Pro 和 UI-TARS-7B-SFT 都是基于 Qwen2-VL-7B 进行大量 GUI 领域训练得到的智能体基座，可以通过单模型推理逐步执行手机操作任务。

2. 工作流搭建（Agentic Workflow）：通常利用 GPT-4o 等闭源模型辅以模块化设计来构建智能体工作流。如 M3A 是 AndroidWorld 中提出的手机智能体，每步推理时利用 a11y tree 提取出元素列表作为辅助输入，并使用 React 和 Reflexion 来进行动作推理和结果反思。Mobile-Agent-V2 和 Mobile-Agent-E 采取多智能体协作的模式，并辅以 OCR 和元素标记等模块，进行手机任务自动化。

除了上述基线以外，本文还提出了 Agent-NEXUS：针对复合设备操作任务的调度系统。Agent-NEXUS 将高阶调度与低阶执行解耦，通过 Scheduling Module, Execution Module 和 Process Memory 的协同工作完成复合长程任务的调度。

在每个子任务完成后，调度模块根据历史进程信息和当前环境感知更新高阶任务规划，并将后续的第一个子目标传给执行模块的 Navigator/Analyst/Tool 进行具体落实。这样的层次化调度模式让低阶执行模块每次都收到意图明确的原子任务，减轻了语境过载的风险。

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

Agent-NEXU 架构示意图

Agent-NEXUS 支持智能体的可插拔接入。在本实验中，研究人员尝试了用 UI-TARS-7B-SFT 和 M3A 作为低阶执行模块的智能体。

实验分析：

从原子到复合任务的泛化之路

研究人员在本地功能应用（UI-NEXUS-Anchor）、中文在线服务应用、英文在线服务应用三个测试子集，共 100 个指令模板上进行了测试，主要结论有：

UI-NEXUS 测试基准对各个移动端 GUI 智能体 baseline 都造成很大挑战，各智能体的任务完成率均低于 50%；

基于 Agentic Workflow 实现的智能体在复合长程任务上的鲁棒性显著优于基于 Agent-as-a-Model 的方法，但是基于 GPT-4o 的工作流带来很高的推理成本和时延，限制了实际场景的应用潜力；

AGENT-NEXUS 显著提升任务完成率（+24% ~ +40%），同时仅带来约 8% 的推理开销增长。

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

主要实验结果

为了深入分析原子到复合泛化的表现，研究人员选取部分独立组合型和语境传递型任务进行了进一步的分析实验。研究人员对比了三种任务成功率：

1. 直接将复合指令给定智能体，测试智能体的任务完成率，作为原子 - 复合泛化中的 Weak Performance。

2. 人为将复合指令拆分成多个原子指令（如将 "In the Tasks app, create and save a new task named 'Exercise' repeating every day. Then open the Broccoli recipe app and delete the 'French Fries' recipe." 拆分成 "In the Tasks app, create and save a new task named 'Exercise' repeating every day." 和 "Open the Broccoli recipe app and delete the 'French Fries' recipe." 两个原子指令，分别交付智能体执行，均成功则视为该任务成功，测定任务完成率，作为原子 - 复合泛化中的理论上的 Strong Ceiling。

3. 将 UI-TARS-7B-SFT 和 M3A 接入 Agent-NEXUS 调度系统后的任务完成率。

结果如下图所示：

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

所有移动端智能体 baseline 在给定手动拆分后的原子指令时表现都显著更优，其中 UI-TARS 的差异尤其显著，从 11% 直接提升到了 60%。这是由于其在微调后已经训练了充分的 GUI 操作能力，而直接给定复合指令时的极低完成率主要受制于进度管理和信息管理功能的缺失。

Agent-NEXUS 调度框架有效地弥补了原子到复合任务的泛化损失，在成本提升可控的同时让任务完成率大幅提升，逼近了 strong ceiling 的表现。

此外，针对不同智能体构建方案的进一步讨论和分析显示：

1. 在线服务类 App 因信息动态性强、UI 结构复杂及环境干扰频繁，构成了更大的挑战；

2. 基于 GPT-4o 搭建的 Agentic Workflow 由于具有多智能体协作，复杂推理等机制，在复合任务上的表现显著更优。但是，GPT-4o 在 GUI 操作任务上的原生领域能力比较有限，需要借助元素列表、屏幕解析工具等辅助，加之本身调用成本较高，限制了实际应用的可行性。

相比之下，基于开源规模领域微调的 Agent-as-a-Model 在短链操作内部逻辑、动作落实、推理速度等方面有显著优势，但由于训练方式的限制，当面对选择等复合逻辑、动作和通用推理交错等任务需求时完全无法应对，容易出现盲目执行的现象，需要借助系统级的设计来增强。

3. Memory 机制的设计在处理复合长程任务中至关重要。当前移动端智能体的 Memory 机制主要包含无记忆（如 OS-Atlas-Pro，只根据动作历史和当前屏幕预测下一步动作，没有储存历史信息的机制）、部分记忆（如 UI-TARS，每次输入前 N 张屏幕观察，一定程度上可以利用前 N 张屏幕中的有利信息，但是在多源、跨越较大的信息传递和整合中收到较大限制）、主动记忆（如 Mobile-Agent-V2 和 Mobile-Agent-E 每一步都会主动判断当前是否有信息要存储到记忆模块）。

主动记忆在复杂信息依赖的复合长程任务中带来更优的表现，但是每一步都判断是否记忆带来较大的计算冗余。Agent-NEXUS 通过将界面导航。信息收集、信息处理都显式在高阶调度中分配好次序，在开销可控的同时实现了多源信息的管理和整合。

未来展望：

面向新一代 AI 操作系统

本文不仅全面、深入地探讨了当下移动端智能体研究中迫切需要深入发掘的一个方面：复合长程任务，也畅想了新一代 AI 操作系统的雏形。

在未来，我们不仅需要能依据一个指令为人类自动化完成简单操作的智能体模型，更希望构建能够高效协调、处理、调度复合任务需求的系统级端侧智能。我们相信，当这样的评测基准与调度框架被广泛采用并不断演进，移动设备将真正蜕变为具备类操作系统层次智能的个人助手，为人机协作打开新的想象空间。

文章来自于微信公众号“机器之心”。

关键词: AI , 模型训练 , UI-Nexus , GUI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner