可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火
8884点击    2026-05-11 10:05

不知道大家有没有感觉,最近 Codex 的讨论声量,已经隐隐盖过了 ClaudeCode。


原因嘛,说白了就两个字:穷 + 怕。


用 ClaudeCode 的都知道,费用贵这件事,已经是老生常谈了,再加上封号这阵子越来越严,搞得很多人提心吊胆。


反观 Codex,价格主打一个量大管饱,最近生态也越来越完整,Chrome 插件开了,还顺带内置了 GPT Image 2,想出图直接出,不用切来切去。


于是,就有不少人开始转投 Codex 了。


说实话,我本来觉得这种教程没必要再写了,网上一堆。但是真正用起来之后,发现如果有一篇系统快速上手指南系统,就不会卡在一些特别傻、但又没人告诉你的地方。


所以这篇文章,我就结合自己的使用经验,从头给大家串一遍,写一个真正小白能用得上的上手指南。


Codex 到底是什么?


不少人听到 Codex,第一反应是:这不就是个写代码的 AI 吗?


没错,但不止于此。


Codex 是 OpenAI 推出的 AI 编程智能体。说智能体而不是助手,意思是它不只是帮你写代码,它能自主完成从写代码、测试、调试、到最后提交代码的整个流程。


你跟它说帮我做一个能记录每日待办的网页,它自己就会去干,不用你一步一步手把手喂,你可千万别把它当成是 ChatGPT 的桌面版。


它的前身,是 2021 年那个曾经驱动过 GitHub Copilot 的代码大模型,2025 年升级成了现在这个版本。


好,这个背景知识了解了就够了,不需要记太多,咱们直接进正题。


安装和登录 Codex 


Codex 目前主要有三种用法:


第一种是桌面客户端,界面完整,跟普通 AI 聊天工具差不多,不需要你懂什么终端知识,最友好。


第二种是 VS Code 等插件,适合本身就在 VS Code 里写代码的人。


第三种是 CI 命令行工具,这个是给高级用户玩的,普通人先不用管。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


这里优先推荐桌面客户端,也是今天重点讲的。


安装的话直接去 OpenAI 官网下载页面,把安装包下下来,按提示装完就行,Windows 是通过微软商店去下载的,今天我就以这个版本为例


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


装好之后,打开会要求你登录。它会直接跳转浏览器使用 ChatGPT 账号登录。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


如果你没有 ChatGPT 账号,还有另一种方式,就是直接输入 API Key。


如果你有 OpenAI 的开发者账号,可以在 OpenAI 官网的后台找到这个 Key。


如果使用 Codex,建议最好还是通过账号来登录,这样才能体验到全部的完整功能,就比如 Chrome 插件就只能在登录账号下使用。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


Anyway,不管哪种方式,登进去,你就到主界面了。


Codex 界面各部分功能


进来之后别慌,我给你从左到右、从上到下,把每个区域是干什么的说清楚。


左边栏上半部分你能在这里新建对话。左边栏里分两个目录,Chat 聊天和 Project 项目。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


这两个有什么区别?


Chat 聊天,就是普通对话,适合处理一些零碎的小任务,问问题、聊聊方案、写个短文案都行。但文件不会自动保存到本地,说白了,就是相当于 ChatGPT 的网页版。


Project 项目,才是 Codex 真正好用的地方。当你让它生成文件、写代码、做 PPT 或 Excel 的时候,强烈建议用 Project 模式。


新建一个 Project,它会在你电脑上对应创建一个文件夹,所有生成的文件都会自动存进去,不会丢,方便你后续管理。


左边栏,中间部分这里有搜索对话、插件市场、自动化设置。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


说一下插件,因为这玩意最近刚出,这里有很多插件。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


其中就内置了谷歌浏览器插件,开启之后,它可以直接控制你的 Chrome 浏览器去执行任务。


什么意思?就是你可以让它自己去浏览网页、填表、操作页面,不需要你动手。


发起一个小任务,它就会在你 Chrome 后台新开一个标签去操作,关键是使用你的账号登录态,这就太舒服了,比之前又进了一大步。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


插件旁边是 Skills 技能区。Codex 自带了一些预置技能,这个功能很赞,相当于它已经学会了一批常用操作,你直接调用就行,不需要每次重新描述。


Skill 这方面,前阵子已经陆陆续续写了很多。在这里,你也可以把你之前在其他平台,比如 OpenClaw 或者 ClaudeCode 上常用的技能,也可以在这里安装使用。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


再旁边是自动化。你可以选一个项目、设置执行频率,让某个对话线程按计划自动跑起来。说白了就是给它下定时任务,你不在的时候它自己干活。


这是一个很重要的功能,你可以让它定时处理报表、跑周报,或者给你 AI 资讯早报,或者是监控某一个网站,看网站是否更新等等很多玩法。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


左下角能看到你当前的剩余额度。一般分 5 小时额度和周额度。


这里有个要注意的地方:如果在一个周期内把额度用完了,只能等周期结束自动刷新,没有其他办法。所以别一上来就大手大脚地跑任务,先感受一下消耗速度再说。


所以这里还是建议大家去充一个 Plus,其实就已经差不多够用,而且最近在土区 App Store 充一个 Plus,差不多就是 70-80 元,爽爽用一个月,这个羊毛估计都知道了吧,就不用我多说了吧?


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


中间区域是主对话区,对话框的右下角可以切换模型和调节推理等级。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


关于模型选哪个,给你一个最简单的参考:


平时日常使用,直接用 GPT-5.5 就好。日常的重构、调试、写测试、查资料,它都能搞定,而且 token 消耗相对省。


如果你要读一个特别大的代码库,文件太多太长,5.5 装不下,这时候切 GPT-5.4,它支持更长的上下文。


额度快用完了,或者是一些小改动、子任务,切 GPT-5.4-mini,便宜快。


需要几乎实时反馈的小修改,比如改个样式、调个参数,用 GPT-5.3-Codex,秒回,不用等。


对话框左下角有三档权限可以切换。


默认权限:最保守,Codex 只能在限定范围内操作,适合日常使用。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


自动审查:它会在沙盒里跑命令,沙盒就是一个隔离的虚拟空间,相当于给它划了一块单独的地盘,在里面怎么折腾都不影响你的真实电脑。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


完全访问权限:放开所有限制,它能直接操控你的电脑,风险升高,官方也标注了这点,不熟悉的话别轻易开。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


对话框左下角有个计划模式开关,理解起来很简单:开启就是先想清楚再动手,关闭就是直接干。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


开启之后,Codex 会先帮你拆任务、列步骤,必要时问你几个选择题确认方向,然后再执行。适合改大功能、迁移代码、整理方案这种容易做错的事。


关闭的时候它更直接,要求明确就不废话,直接查文件、改代码、给结果。


Project 模式下的界面


普通对话切换到 Project 项目后。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


右上角会出现三个额外的按钮,分别是:


第一个,终端工具。点开可以直接输入命令执行,给懂技术的人用的,普通用户先不管。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


第二个,文件管理。这个必须要认识!它能让你直接在 Codex 里看到项目文件夹里有哪些文件,不用去打开文件夹一个个找。


第三个,侧边栏。它会实时总结当前任务的进度、生成了什么文件、执行了哪些步骤。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


如果你看不懂它在干什么,打开这个侧边栏瞄一眼,基本就清楚了。


设置里的好东西


桌面宠物:这个纯属好玩,但真的蛮有意思。


设置里可以开一只像素风小宠物,浮在你桌面上,


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


实时反映 Codex 的工作状态它在跑任务的时候,宠物会动。


就是它在干活的时候,你跑去干其他事情,能够快速知道它这个活干完了没有,还是有一定实用功能的。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


开启方式:设置 → 外观 → 宠物 → 选择宠物 → 唤醒宠物。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


官方内置了 8 只,你还可以自己创建。


个性化设置,这里还能选择 Codex 的回复语气,亲和还是务实。根据自己的喜好选就行。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


自定义指令这个是真的有用。你可以给 Codex 提前写一段说明,告诉它在跟你沟通的时候要注意什么。


我找了一段推上来自@Matt Shumer 的指令,效果不错,直接贴给大家用:


在与我沟通你的成果时,用简洁明了的中文解释你做了什么以及发生了什么。避免使用术语、技术实现细节和代码行话。写的时候,就好像你在向一个不懂代码的聪明人解释。你实际的工作(如何思考、计划、写代码、调试和解决问题)应该保持完全的技术性和严谨性。这仅适用于你与我沟通的方式。在向我汇报之前,如果有可能的话,请先检查自己的工作。不要只是写代码就认为完成了。实际使用可用工具测试它。如果可能,运行它,检查输出,确认它是否按要求工作。目标是让我不参与迭代过程。我希望收到最终可用的结果,而不是需要我检查的初稿。只有当你确认一切正常,或者你确实遇到了需要我帮助的难题时,才回来找我。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


这段指令的核心意思是:让它用人话跟你汇报,同时要求它自己先验证,别动不动就来找你确认。


非常省心。


继续,关于 MCP 去年就介绍过了,是让 Codex 连接外部工具的协议,比如 GitHub、飞书、Notion 等等。Codex 这里走的是图形化配置,不需要你手写 JSON,点点选选就能接上。这个等你用熟了之后可以再研究。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


Hook(钩子),这个功能名字听起来玄乎,其实说白了就一句话:在 Codex 干活的前后,自动触发你预先设好的脚本。


比如 Codex 每次改完代码,你可以设一个钩子,让它改完之后自动跑一遍格式化,保证代码格式永远整齐;或者在它执行某个操作之前,先跑一个安全检查,确认没问题再放行。日志记录、自动测试,也都能挂在这里。


说得更直接一点:Hook 相当于给 AI 的操作流程加了一套自动化的监控和审计机制。它干了什么、有没有出格、有没有达标,钩子帮你盯着,不用你自己一步步去确认。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


这玩意对普通用户来说,用到的场景不多。但如果你在用 Codex 跑比较严肃的开发项目,怕它改出什么幺蛾子,或者需要每次改动都自动留记录,Hook 就是你的保险绳。


Git 管理,好,Git 这个词,终于还是要正面对上了。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


很多人一看到 Git 就绕着走,觉得这是程序员的东西,跟自己没关系。但如果你用 Codex 来做任何跟代码、网站、项目文件相关的事,迟早要跟它打交道,所以这里直接说清楚。


Git 是代码世界里的版本记录系统。


用最直白的话来理解:它就是一台时间机器。你的项目每改一次,Git 就帮你拍一张快照,记录下这个时间点文件长什么样。改出问题了?回退到上一张快照,一键还原,什么都没丢。


它能告诉你:这个项目改过哪些文件,哪些是新加的,哪些被删了,每次改动是谁干的,能不能撤销。


以前用 Git,得自己打命令行,什么 git commit、git push,一堆黑框框,普通人看了头皮发麻。


但 Codex 直接把 Git 的核心操作集成进了侧边栏,不用打命令行,看得见摸得着,点一下就能提交、回退、查记录。


对不熟命令行的人来说,这一点确实比 ClaudeCode 省心很多,少了来回切终端的麻烦。


什么时候需要管 Git?如果你只是用 Codex 写文章、整理表格、做个 PPT,Git 这页保持默认就行,完全不需要碰。


但如果你让 Codex 帮你改网站代码、跑项目、做开发类的工作,Git 就是你的安全网,改坏了能救你。


环境和工作树:这两个词,光看名字就够让人头大的了。


不过对于新手其实默认不用管就行,感兴趣的话,我就简单介绍一下。


先说环境。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


这里的环境,指的是代码的运行环境。


同一段程序,在不同的环境里跑,结果可能完全不同。环境设置,就是告诉 Codex:你要在什么条件下运行这段代码。


这页设置,对大多数普通用户来说,保持默认就行,不用动。只有当你在搭一些比较复杂的开发环境,遇到运行报错的时候,才需要来这里看看。


再说工作树(Worktree)。


这个概念稍微有意思一点,而且对多任务来说很重要。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


正常情况下,你所有的操作都在同一个工作目录里进行。但如果 Codex 同时在跑两个任务,都在改同一个项目的文件,就可能撞车。


A 任务改了某个文件,B 任务同时也在改,两个改动叠在一起,直接乱掉。


工作树就是为了解决这个问题的。Codex 能同时调用多个智能体,每个智能体都在自己独立的工作树里干活,互相隔离,谁改谁的,互不干扰,改完之后再合并。


简单理解:工作树就是给每个并行任务各分了一间独立的工作间,防止大家挤在一起乱改文件。


同样的,这个设置普通用户保持默认就行。除非你在跑很复杂的多线程开发任务,不然感知不到它的存在。等你真的遇到多任务冲突的问题了,再来这里调整也不晚。


多任务管理


这是 Codex 比很多 AI 工具强的地方之一,一定要知道。


不管是在聊天对话还在 Project 项目,它都支持多任务管理,具体有三种,这里以对话为例:


第一种,顺序执行:


你让它干任务 A,它在跑 A 的时候,你可以继续发 B 的指令。它不会停,会先把 A 跑完,然后自动接着干 B。不需要你盯着等,发完指令去干自己的事就好。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


第二种,插队执行:


如果你新加入的指令中途比之前的指令更紧急,需要它马上改变方向,点引导按钮把新的指令插队。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


它当前任务会立刻按照要求继续执行,不是等原指令结束,是现在就改。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


第三种,并行执行:


在当前项目里点新对话,新建一个对话,直接再布置一个新任务。两个任务同时跑,互不影响。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


需要提醒一下:不同对话之间不共享对话内容。但它们都能看到同一个项目文件夹里的所有文件。所以如果你让两个线程都在改同一个文件,要注意一下冲突的问题。


几个小知识点


斜杠命令:


在对话框里直接打/,会弹出所有可用的插件、技能和功能开关,不用去菜单里翻。想调用浏览器插件、开某个功能,/一戳就出来,用熟了极其顺手。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


直接出图:


Codex 集成了 OpenAI 的 Image 2 模型,对话里直接让它出图就行,不用切 ChatGPT 网页。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


电脑操控:


Codex 还能直接控制电脑,但目前只支持 macOS,Windows 用户暂时还得等。


写到这里,这个 Codex 的入门地图算是给大家画完了。


玩一下 HyperFrame 


光讲功能太抽象,给大家看一个我自己跑过的实际案例。


最近有个插件叫 HyperFrame,热度比较高。


它的玩法是:用 HTML 语言来写动画,然后最后转成一个视频。乍一听有点绕,但实际上很好理解,你写一段 HTML,它帮你渲染成动态视频,整个流程不需要你会剪辑,也不需要会 After Effects。


直接在 Codex 插件里就能下载使用。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


我在 Codex 里@hyperframe 调用它,然后直接安排任务。


我第一时间想到的方向,是抖音上经常刷到的那种,用数形结合的方式来推导数学公式。比如用图形演示 a²-b² 这个公式,让人一眼就看懂。


这类内容很直观,容易帮小孩理解,而且本来就有很多账号在用这种动画带货教辅,每次我刷到都会忍不住看完。


所以我给它下了一个指令:用数形结合的方式,做一个推导 a²-b² 公式的视频。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


一开始,我没让它马上动手,而是先让它规划方案,告诉我打算怎么做。


它给我列了一个完整的方案:1080p 的科技风数学推导视频,Keynote 式平滑滚动镜头等等。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


方案确认之后,让它开跑。


一开始跑出来的视频,自带的 TTS 语音比较机械,不太行。后来我给它接入了一个 MiniMax 的 API,调试了一轮之后,语音效果好了很多,整体出来的效果我觉得还不错。


可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火


这个案例想说明的是:Codex 不只是帮你写代码的工具,它更像是一个能自己规划、自己执行、自己调试的数字员工。你给方向,它干活,中间你只需要在关键节点过一眼就行。


方向对了,剩下的让它跑就是。


结语


说实话,Codex 这个东西,上手门槛其实不高,但知道和不知道之间的差距,往往就在这些细节上,比如 Chat 和 Project 的区别、多任务怎么插队。


这些搞清楚了,用起来就顺多了。


剩下的,就靠你自己去玩了。


这是一个面向新手的入门教程,也是足足花了一个周末去写的。写的时候也尽可能想得尽量详细,想事无巨细多展开一些。但是又怕考虑到读者的接受程度不同,所以先保证咱们每个人都能上手玩起来,这才是最重要的。


最后,如果觉得这篇还有用,记得点赞、收藏、多多转发,上次有小伙伴说结尾有这么一句还是管用的,那就希望这次依然还管用吧。


文章来自于微信公众号 "网罗灯下黑",作者 "网罗灯下黑"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
文件重命名

【开源免费】ai-renamer是一个用AI帮你做文件夹或者图片命名的项目。该项目会根据文件夹或者图片内容来为文件进行重新命名,让你的文件管理更加便利。

项目地址:https://github.com/ozgrozer/ai-renamer

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales