字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star
8707点击    2026-02-09 16:03

GitHub最新热榜榜首,来自字节。


这波自研硬核技术不是别的——


正是豆包手机的核心支撑,GUI Agent模型UI-TARS


力压OpenAI官方Skills,开源登顶榜首,突破26k Star!


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


UI-TARS的核心是个多模态AI智能体,你只要通过自然语言指令——


也就是说句人话,就能让它自己点鼠标、敲键盘、拖动滚动、翻页浏览,在浏览器和各种软件里帮你完成一整套复杂操作。


主要包含了Agent TARS和UI-TARS-desktop两个项目。


  • Agent TARS支持一键式开箱即用的CLI,可以在有界面的Web UI环境执行,也能在无界面的服务器环境运行;


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


  • UI-TARS-desktop则是一个桌面应用程序,主要帮你操作本地电脑和浏览器。


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


纯视觉驱动


UI-TARS这种GUI Agent的核心逻辑其实就是五个字——纯视觉驱动


纯视觉有啥特点呢?


从传统RPA这类自动化工具来看,它们要想干活儿就得去扒复杂的网页源码、记控件编号,而且一旦这些界面稍微改一点,脚本就直接报废了。


纯视觉就是说,靠内置的视觉大模型,AI就能直接像人眼一样观察屏幕。


不管软件有没有开放API、不管界面有多复杂,只要你能看清菜单在哪、按钮在哪,它就也能,然后帮你操作。


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


如果有朋友想体验,部署起来也非常简单,只需要三步。


第一步,检查有没有安装Node.jsChrome,没安装Node.js的话,要安装一个>=22的版本。


检查可以用如下命令:


node -v


如果没有还没有安装,可以用nvm先安装一下:


# Install Node.js LTS

nvm install --lts

# Switch to Node.js LTS

nvm use --lts


第二步,安装Agent TARS。


最新版:


npm install @agent-tars/cli@latest -g


公测版:


npm install @agent-tars/cli@next -g


第三步,选择模型,需要API,当前Agent TARS可兼容Seed1.5-VL、claude-3.7-sonnet和gpt-4o。


agent-tars \

--provider volcengine \

--model doubao-1-5-thinking-vision-pro-250428 \

--apiKey {apiKey}

agent-tars \

--provider anthropic \

--model claude-3-7-sonnet-latest \

--apiKey {apiKey}

agent-tars \

--provider openai \

--model gpt-4o \

--apiKey {apiKey}


选完模型后,出现如下界面就表示部署完成啦!


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


然后我们点击上面框选的链接,即可打开Web用户界面。


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


接下来就可以对它发!号!施!令!了。


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


豆包手机虽然一时成为了现象级的爆款,电脑版现在登顶了开源榜首,但这项技术其实早在一年前就开始布局了。


UI-TARS的核心目标是让Agent真正具备感知、动作、推理、记忆四大能力。


2025年1月和清华合作开源,成为国产纯视觉GUI Agent中首个在权威基准测试对标并超越GPT-4o的项目


接着它就开始了一路狂飙进化。


初代凭借600万高质量教程数据注入的深度思考能力,以及精准的统一动作空间,让AI像人类一样看懂并操作界面,在多项SOTA榜单上插旗。


短短3个月后,又迎来了UI-TARS-1.5。


让Agent在动手前先多想几步,通过Inference-time Scaling预判后果,尤其在GUI定位任务上刷新了行业纪录。


到了9月,UI-TARS-2的出现彻底将能力拉满,成为豆包手机的底层技术。


它针对数据瓶颈、多轮RL不稳、纯GUI局限、环境乱七八糟四大痛点,通过“数据飞轮”让模型和数据互相喂养进化。


不再局限于单纯的点击与滑动,而是打通了文件系统与沙盒平台,将浏览器、命令行、工具调用全量整合。


几轮迭代下来,UI-TARS已经成为最火的开源多模态Agent之一。


走“前门”的GUI Agent


说到Agent、GUI Agent,就在几天前,理想汽车CEO李想的一条朋友圈也在科技圈引起关注。


他指出2025年最具突破性的三个现象级产品分别是Claude Code、豆包手机、Manus;


而2026年第一个月就出现了三个现象级的产品:OpenClaw、MoltBook、Chrome Gemini。


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


可以说,被点名的6个产品,有5个都和Agent直接相关,甚至有3个都是GUI Agent。


(如果把Claude Code看作Coding Agent,也可以说是6个……)


  • 豆包手机:手机里的GUI Agent,直接让AI像人一样看屏、点击、切换APP;
  • OpenClaw:电脑里的GUI Agent,可以操作应用程序、管理文件、通过通讯工具接受指令执行复杂任务;
  • Chrome Gemini:浏览器里的GUI Agent,模拟人类完成网页跳转、信息提取、表单填写等操作。


这三款产品的底层逻辑完全一致,都是纯视觉驱动的端侧交互执行路线。


输入上,不读取APP/网页/软件内部的空间ID、源码、私有接口等,统一截取屏幕像素图像作为唯一输入,靠多模态视觉模型识别界面元素;


执行上,不调用API完成功能,直接模拟人的交互行为进行点击、滑动、窗口切换,和真人操作的系统入口完全一致;


兼容逻辑上,不管目标应用是否开放API、是否老旧闭源、是否加密,只要屏幕能显示、人能操作,它就能执行


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


再说说另外两个。


Manus是云端全自主通用Agent,不靠纯视觉模拟界面操作,优先调用API与工具链自主拆解复杂任务,在云端沙箱完成分析、处理、生成全流程,直接交付最终成果,可以说是专注复杂任务闭环的数字员工。


MoltBook则是非执行类Agent载体,不操作界面、不调用API完成实用任务,而是让各类Agent自主发帖、互动、产生内容,是不带物理操作,纯决策层的自主Agent行为。


可以说,这几个产品看似各有领域,却共同指向一个核心问题——


怎么让AI真正“动手”帮人类干活?


GUI Agent们选择“走前门”,直接看屏模拟操作,突破封闭生态的壁垒;


也有的靠聪明规划和工具链闭环来交付成果;


甚至有的把Agent们推向自己的世界,放大AI之间的连接。


于是李想在两天后又发了一条有意思的观点:


原本以为Agent这类AI工具会缩小人与人之间的能力差距,实际上却是十倍、百倍地放大了差距。


字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star


GitHub链接:https://github.com/bytedance/UI-TARS-desktop


文章来自于“量子位”,作者 “闻乐”。

关键词: AI新闻 , UI-TARS , GUI Agent , GUI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/