谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

6241点击 2026-06-26 11:12

好好好，起大早赶晚集的谷歌，这次又拿出了新东西——

Computer use，就是那个电脑操作能力，这回直接被内置进Gemini 3.5 Flash：

在能力上，AI通过截图看屏幕，就能认出页面上的按钮、输入框这些UI元素，然后直接上手操作。

比如，像点击、打字、滚动、切标签页这些小动作都能干，循环70多次也不在话下，be like：

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

划重点！

和市面上具备自主操作能力的主流Agent不太一样的是，这套能力覆盖的不只是浏览器——

网页、桌面软件、移动端也都在它的可操作范围里，而且，几十步以上循环执行任务都能梭哈～

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

Gemini 3.5 Flash：喜提外挂！我看这下谁还敢说俺们Flash不好使！

谷歌：虽迟但到！晚起的鸟儿照样有虫吃！

Flash用户：加量不加价？但…不会把我电脑信息搞没了吧…（doge）

电脑操作能力被塞进了Gemini Flash

u1s1，Computer Use不算是新东西。

之前它主要是专门给Gemini 2.5版本用的，但这次不一样的是人家直接集成到了主Gemini Flash模型里。

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

具体能做的事情呢，也比较简单粗暴。

那就是让模型像人一样看屏幕，然后操作鼠！标！键！盘！

比如，它可以看屏幕，像截图、UI结构信息这些都能读取。

它还能够理解任务，例如看到界面后，模型也能当前处于哪一步，下一步应该点哪里。

当然，最核心的环节是执行，像点击、输入、滚动、切换、跳转标签这些操作Computer Use都可以做～

比如下面这个官方demo。

这是Gemini 3.5 Flash基于Computer Use，在真实界面环境中对Gemini自身应用进行的一次自主分析。

整个过程不是静态评测，而是一个持续的交互循环。

AI可以像一个真实用户一样进入应用，在屏幕上不断进行操作、试探与判断：

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

可以看到，在73个操作回合里，它逐步探索了整个应用的功能结构。

从主界面进入不同模块，在各个功能入口之间来回切换，持续拆解这个产品的实际能力边界。

最后呢，模型把所有被触达的功能重新组织，抽象为5类能力体系～

我们再来看下面这个demo。

这一次呢，模型进入的是一个移动端网页环境，在62个操作回合中对整体体验进行了连续评估：

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

看来出来，整个过程依然是典型的Computer Use agent循环。

读取屏幕状态→选择操作→点击不同功能入口→在页面模块之间不断切换与验证。

在完成完整探索之后，它还进一步将所有与可访问性相关的问题与观察结果，归纳为4个核心改进方向～

估计这会儿有朋友该问了：

让AI自己操作电脑这儿，多少有点危！险！吧！

谷歌当然也想到了这个问题，于是他们在Gemini 3.5 Flash的执行链路里也加入了一层专门的安全约束机制：

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

具体来说，在模型真正开始执行操作之前，模型并不是完全放飞状态，而是会持续接受系统级的行为校验。

比如在涉及敏感操作、或者存在不可逆后果的步骤时，系统会主动打断流程，要求用户进行二次确认，再决定是否继续执行。

除此之外呢，针对更隐蔽的风险——

比如通过页面内容或输入信息进行「间接」的攻击方式时，模型也会进行自主识别！！！

不仅如此，市面上主流的具备自主操作能力的Agent不太一样的是——

Gemini 3.5 Flash的电脑操作能力覆盖的不只是浏览器，还包括桌面和移动端界面。

emm…

按这个意思大概就是只要是人能操作的界面，理论上都可以进入这个执行链路里？？（我猜）

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

当然了，效果好看是一回事，问题是这玩意儿对Gemini 3.5 Flash的使用性能有啥影响呢？

然后，官方现身说法了。

在官方基准测试里，加入Computer Use之后的Gemini 3.5 Flash，在不少基准任务中的表现已经可以对齐前沿模型的能力水平。

而且像一些复杂、长周期的浏览器任务，也开始变得可以被稳定接管，并且以更低成本、更高质量的方式完成～

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

（真的吗）

起大早赶晚集的谷歌，这次把干活能力补上了

事实上，浏览器操作、电脑代操这事儿，不是Google头一个整的。

最早把它摆上台面的是Anthropic，2024年10月，还一上来就直接给了开发者当零件用。

没过多久OpenAI的Operator也来了，能在浏览器里替你点、替你填、替你订。

所以相比之下，一向在AI节奏上慢半拍的谷歌，这次的动作也谈不上踩在最热的风口节点上…

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

好，那问题来了：谷歌到底图个啥捏？

人家也不傻。（doge）

这次谷歌没把Computer Use塞进最聪明的Pro，而是放在了最便宜、最轻量的Flash里，背后肯定是算过账的…

咱都知道电脑代操是个循环，看一眼屏幕、想一下、出个动作，再看再想再动，一个稍微长点的任务能转几十上百遍。

这要是跑在Pro上，成本烧不起；只有Flash这种又快又便宜的档位扛得住…

当然，对Flash来说它也需要这件事儿，毕竟能力和模型，是互相找上门的——

Computer Use这一层能力塞进去之后，人家Flash也摇身一变成持续执行任务的角色了，顺道再冲一波销量！

任务循环离不开Flash的单价和速度，Flash也借着这件事，从打杂的升成了真干活的。

谷歌把电脑操作能力塞进Gemini 3.5 Flash！自己看屏幕狂点70轮

不管咋说，对于咱用户来说当然是好事儿。

像日常工作里做运营、产品测试的友友，日常确实也短不了再一堆网页、后台、表格之间来回切。

而像数据和信息整理这类场景也蛮刚需，比如让AI去多个网站抓取信息，再统一整理成结构化内容，本身就是一条典型的跨界面工作流。

所以Computer Use更适合替我们完成在电脑上频繁点击、切换、操作、费时间的活儿！！！

多了个能操控电脑的AI外挂，多少有种加量不加价的实在……

参考链接：

[1]https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/

文章来自于"量子位"，作者 "梦瑶"。

关键词: AI新闻 , Gemini 3.5 Flash , 谷歌AI , Computer use

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md