阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%
8244点击    2025-12-31 14:37

AI手机的“灵魂”GUI智能体,就这么全套开源了。


来自阿里通义实验室的MAI-UI:论文、代码、模型全都有,从2B的端侧小模型到235B的云端大模型,一口气发布四个尺寸版本,覆盖全场景部署需求。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


这套系统不只是能帮你点点屏幕,它能主动追问你没说清楚的需求,能直接调用外部API绕过繁琐的界面操作。


甚至还搞了一套端云协同系统,隐私敏感的操作留在本地跑,复杂任务交给云端处理。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


论文给出几个典型案例:


用户收到中介发来的两套房源地址,想比较哪套离公司更近,然后把更近那套的地址发给朋友。


传统做法需要在短信和地图APP之间反复切换,复制粘贴地址,分别搜索路线。但有了MCP工具调用,智能体可以直接用高德地图的API查询两条路线的驾车距离,一次性拿到结构化结果,大幅压缩操作步骤。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


另一个案例更有难度:


用户想查看某个GitHub仓库最近三次提交的作者和信息,然后发邮件。这种操作在手机上本来很难完成,因为移动端浏览代码仓库体验很差。


但通过MCP调用GitHub的API,智能体直接获取提交记录的结构化数据,提取需要的字段,再切换到邮件APP发送。相当于把原本只能在桌面端做的工作流搬到了手机上。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


主动询问需求方面,论文展示了一个文件分享任务:


用户让智能体把下载文件夹里最近一个月的简历发给HR同事,但没说收件人邮箱,也没说邮件正文要写什么。智能体检测到关键信息缺失后,暂停执行,主动向用户询问,拿到回复后再继续完成任务。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


四大痛点,一个方案


团队在论文开头就直接点明了当前GUI智能体落地的四个核心问题。


第一个是交互缺失。


现有系统基本都是端到端执行,默认用户指令清晰完整,但现实中用户经常说一半留一半。


比如「帮我订个机票」,去哪儿?什么时候?几个人?全没说,智能体如果不能主动追问,要么猜错要么卡死。


第二个是纯UI操作的局限性。


完全依赖界面点击会导致两个麻烦:操作步骤一多,中间任何一步出错就会导致整个任务失败;而且有些功能在手机界面上根本做不了,比如想让手机帮你查GitHub的提交记录,光靠点屏幕是搞不定的。


第三个是端云割裂。


目前的GUI智能体要么是轻量级的端侧模型,能力有限;要么是大模型只能跑在云端,隐私风险高、成本也高。两者之间没有原生的协作机制。


第四个是动态环境下的脆弱性。


用静态数据训练出来的模型,遇到真实世界里千变万化的界面布局、突然弹出的权限请求、不同版本的APP就容易翻车。


MAI-UI的解决方案:


一条能自动生成用户交互和MCP工具调用数据的自演化数据管线。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


一套根据任务状态和数据敏感度动态切换端云执行的协同系统。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


再加上一套支持500多个并行环境、最长50步交互的在线强化学习框架。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


端云协同与隐私保护


端云协同系统是这次工作的一大重点。


整个系统由三部分组成:一个运行在手机本地的轻量级智能体,既负责执行GUI操作,也负责监控轨迹是否偏离用户意图;


一个部署在云端的大容量智能体,用于处理复杂任务;以及一个本地统一轨迹记忆模块,保证端云之间的信息一致。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


工作流程是这样的:


用户下达指令后,本地智能体开始执行。每隔几步,本地监控模块会检查当前轨迹是否还在正确方向上。


如果发现偏离且不涉及敏感数据,就把任务交给云端模型接手完成。交接时还会生成一份错误摘要,帮助云端模型理解问题出在哪里并快速恢复。


相比纯端侧执行,端云协同让2B模型的成功率提升了33%;相比纯云端执行,云端调用次数减少了40%以上,超过40%的任务完全在本地完成。


论文还给出了一个隐私保护的案例。在一个需要输入密码的任务中,本地模型一开始执行出错(反复点击登录按钮却没输入密码),监控模块检测到偏离后准备切换到云端。


但隐私检测模块发现当前界面涉及敏感凭证,于是阻止了云端切换,让任务继续在本地执行。最终本地模型自己纠正了错误并完成了任务,全程没有任何敏感信息传到云端。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


性能屠榜,多项SOTA


在GUI元素定位任务上,MAI-UI-32B在ScreenSpot-Pro上达到73.5%准确率,超过了Gemini-3-Pro和Seed1.8。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


在UI-Vision上拿到49.2%,比之前最强的UI-Venus-72B高出12.4个百分点。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


在MMBench GUI L2上更是达到91.3%,刷新了纪录。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


在手机导航任务上,MAI-UI-235B-A22B在AndroidWorld上取得76.7%的成功率,超过了UI-Tars-2的73.3%和Gemini-2.5-Pro的69.7%。


即便是最小的2B模型,也达到了49.1%的成功率,比之前最强的端侧模型Ferret-UI Lite高出21个百分点,相对提升75.4%。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


在更接近真实场景的MobileWorld测试集上,MAI-UI-235B-A22B整体成功率41.7%,比其他端到端模型高出20.8个百分点。在需要主动询问用户的任务上成功率37.5%,在需要调用MCP工具的任务上成功率51.1%,分别比之前最好的成绩高出32.1和18.7个百分点。


阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%


论文地址:

https://arxiv.org/abs/2512.22047


GitHub:

https://github.com/Tongyi-MAI/MAI-UI


文章来自于“量子位”,作者 “梦晨”。

关键词: AI新闻 , GUI , MAI-UI , 通义实验室
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file