洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南
7425点击    2026-06-21 10:43

网购的快递被人偷了,联系客服,客服系统显示,预计等待时间 25 分钟。


换作以前,这意味着我们要么盯着聊天窗口发呆,要么开着网页干别的事,同时隔几分钟切回来看看排到没有,不然一不小心退出去又要重新排队。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


新加入 OpenAI 的开发者体验工程师 Jason Liu 选择了第三种方案。


他把这件事交给了 Codex


指令很简单:


每 5 分钟检查一次聊天窗口;如果客服上线,改成每分钟检查一次;尽量帮我完成退款


然后,他去洗澡了;等他回来时,Codex 已经把退款办完了。


整个过程里没写一行代码,一个 agent 趁我们没时间/不在意,跟另一套客服系统耗着、磨着,直接把钱要了回来。


除了代替人类和客服聊天,Codex 还能通过 iPhone Mirroring 直接操作我们的手机,开发者能用它直接复现一个 App 里的 bug。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


每天早上扫一遍私信和新闻,把值得留的东西归档进笔记库;甚至打开一个在线音乐编辑器,重写整首曲子的和声和结构,调好节奏,存档,然后让它继续放着。


这些都是 OpenAI 在 Codex 上最近重点推进的一项能力:


让 AI 真正获得操作电脑的能力


OpenAI 的工程师 Jason Liu 专门写了一篇长文,解释 Codex 现在拥有的三种「电脑操作能力」:


Computer Use、Chrome 插件、应用内浏览器


这三种让 Codex 操作电脑的能力,名字看起来有点绕,功能大概也有些重叠。


很多人第一次看到,都会冒出同一个问题:为什么一个 Agent,要做三套电脑操作的系统?


从功能本身来说,它们都是让 Codex 拥有接管电脑的能力,但 Browser、Chrome 和 Computer Use 背后对应的,


其实是 OpenAI 给 Agent 设计的一套行动权限体系


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


不同的操作模式,有不同的适应场景。像是能用插件就不要点网页,能直接调用 API 就别让 AI 用识屏操作界面。


就像是如果微信给 Agent 提供了接口,AI 发送消息只需要执行一次函数。


而如果没有接口,Codex 就得先打开微信,找到消息,选择联系人,点击输入框,复制内容,再按发送。


从结果上看,两种方式完成的是同一件事,但从效率和可靠性来看,却完全不在一个量级。所以在 OpenAI 的设计里,Computer Use 更像一个兜底方案。


要搞清楚什么时候用 Computer Use,什么时候用 Chrome 来进行电脑操作,我们结合 Jason Liu 的帖子把这三种授权模式讲清楚,方便大家更好地让 Codex 来操作电脑。


最宽的那道门


先说能力最「大」的:Computer Use。


我们之前分享过多篇 Codex 的使用指南,从目标管理到电脑使用和浏览器操作,里面就曾演示过,使用 Computer Use 能直接修改我们的备忘录。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


Codex 能直接自动编辑我们的备忘录


它能看屏幕,能操作几乎任何图形界面,能用键盘、菜单、剪贴板,跟我们授权过的 App 打交道。没有 API 的软件它照样能用,它完全依靠「看着屏幕,自己判断该点哪」。


代价是慢。结构化的插件可以直接调一个接口;Computer Use 得先看清界面、判断点哪、等 App 反应、再看下一屏,这个视觉循环相当浪费时间。


那慢有什么用?


最好是用在那些只有图形界面、压根没接口的地方。而且,在 Mac 上,慢不一定碍事,它能在后台安静地操作我们授权的 App,它工作的时候,我们该干嘛干嘛,回头一看它已经默默跑完了某个流程。


开头那个退款,就是这么办成的,让 Codex 慢慢去找到和客服聊天的方法,然后我一边去洗澡。


但一走开,也可能不放心,毕竟这也是三者里最宽的一道信任边界,我们等于把整台桌面交了出去。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


用 Codex 使用 Claude,问 Codex 好还是 Claude Code 好,Codex 表示不认可 Claude 的回答


OpenAI 官方也反复提醒,一次只给它一个明确的 App 或流程,不相关的敏感软件该关就关,碰到钱、账户、密码、隐私、系统安全的操作,我们还是得守在旁边。


它最妙的用法,可能是用来作为一种补位。目前大多数的 Agent 都能连接第三方的软件,像是连接 Gmail、Slack 等工具。


Codex 也能直接从 Slack 读反馈、改代码、重新渲染视频,但当 Slack 集成工具没法上传文件时,这个时候Computer Use 出手,点了一下「添加文件」,把这一步补上的。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


OpenAI 工程师在最后给出的建议是,当任务取决于以下情况时,请使用 Computer Use:


类似 Spotify 的原生桌面应用程序或金融应用程序

iOS 模拟器、iPhone 镜像或其他纯 GUI 流程

系统或应用程序设置

没有插件或 API 的数据源

在多个应用程序之间切换的工作流程

在其他方面都很有用的结构化集成中,缺少一个步骤


带着你身份的门


第二道窄一点:Chrome 插件。它接管的,是我们已经登录好的浏览器。


早些年的 Agent 操作浏览器,要它去 X 搜索某个东西,经常报错说什么没有凭证信息,Chrome 解决的就是这件事。


Cookie、配置、登录态、开着的标签页,这些它都能用,所以 Gmail、LinkedIn、Salesforce、公司内部后台,这类需要登录才能访问到网页信息的任务,就可以交给 Chrome 来完成。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


让 Codex 操作浏览器汇总 X 首页的资讯


关键的差别在这里,由于 Chrome 浏览器使用,带着我们的身份,网站会直接把它的点击、提交、发消息,当成是我们本人在操作。能力更强,风险也更大。


Jason Liu 把一个已经打开的在线作曲页面丢给 Codex,告诉它「把音乐弄得更有意思些」。


Chrome 就会自动把这个标签页连同页面自带的工具一起交给 Codex,它读完整首曲子,重写和声、改掉四分钟的曲式、调了速度、存档,最后让它接着播放。


从修改编曲到最后的完美播放,Codex 全程没满屏乱找按钮,因为它能把标签页的上下文,和页面提供的能力拼起来用。


Jason 还提到他使用 Chrome 浏览器使用的另一个案例,是拿它盯一个常年更新的 Twitter 长帖。指令大概是,「每天用 Chrome 看看私信、读相关新闻、找找值得了解的反馈和提及,把能沉淀的都存进笔记库,但别发帖、别发消息。」


Codex 就能打开 Twitter,更有意思的是,这个任务能日复一日回到同一个登录态里,把找到的东西跟我们本地文件接起来,最后交付一份能复核的结果。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


所以如果整件事都发生在浏览器里,优先用 Chrome。他也提到使用 Chrome 插件进行任务的理想界面是,


Gmail 或 LinkedIn

Salesforce 或支持控制台

内部仪表盘

跨多个网站的权威研究

取决于您的账户或浏览器扩展程序的表单


干净隔离的门


第三道最窄:应用内浏览器。它就在 Codex 的对话里,我们和它看的是同一个渲染出来的页面。


最要紧的一点是隔离,应用内浏览器不会使用我们平时的浏览器配置、不带 Cookie、没有插件、没有登录态。


所以针对本地开发、调试 Web 应用、复现视觉 bug、看响应式布局,用应用内浏览器大概是最方便的。它能直接改代码、操作页面、看渲染结果、截图,改完自己再跑一遍,直到交付预期的成果。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


最有意思的是批注,无论是 Vibe Coding,还是完成真实项目,我们在审核一个本地页面时,可以直接点某个元素,或者圈出一块区域,留一句话,「这个层级反了」「这块别做成卡片」「这些控件得再松一点」。


Codex 会收到带着截图和元素上下文的评论,改完文件,再把同一个页面打开给你看下一版。


浏览器使用和 Chrome 使用不同的地方其实就在于登录状态,这也导致浏览器使用更适合在开发阶段,我们可以和自己的同事一样,直接指着某个地方告诉 Codex,而不是来回甩截图和文字,页面本身,就成了需求文档。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


它的代价也来自隔离,让这个 Codex 内置的浏览器去处理 Google 登录、passkey、或者依赖我们浏览器插件的网站,几乎是做不到。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


根据 Jason 在博客中的总结,应用内浏览器会特别适合构建和调试 Web 应用程序。


本地开发服务器

文件支持的预览

无需登录的公共页面

重现视觉错误

检查响应式布局

留下元素级设计反馈


在这三项之外,OpenAI 工程师还提到和计算机使用相关的第四项功能是 Appshots。我们之前也介绍过这项功能,在 macOS 平台上,任何场景同时按下空格键左右两边两个 Command 键,就会自动把窗口截图、窗口上下文信息,一起发给 Codex。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


他专门提到这项功能的是想表达,Appshots 负责指,Browser、Chrome、Computer Use 负责动手。


一开始,我们一想到「AI 用电脑」,脑子里浮现的画面,大概都是它像人一样移动鼠标、敲键盘、一下一下点过去。好像 AI 越像人在操作电脑,就越厉害。


但 OpenAI 自己的最佳实践,指向的是相反的方向:像人一样点击,是最慢、最脆弱、信任成本最高的那条路。真正想要的,是给 agent 足够结构化的接口,让它尽量用不着去点。


那个看起来最像「AI 终于会用电脑了」的视觉控制,恰恰是整套体系里兜底的一环,结构化工具走不通时,才轮到它上场。


洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南


总结下来就是,跨应用走 Computer Use,要带身份/登录态走 Chrome 扩展,干净独立的网页任务走内置浏览器。


文章来自于微信公众号 “APPSO”,作者 “APPSO”

关键词: AI新闻 , codex , openai , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md