仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

10779点击 2025-12-15 11:29

4人28天手搓Sora APP，约85%代码竟是AI写的！

10月初，OpenAI重磅发布迭代后Sora 2，以及首个AI视频应用Sora APP。

直到11月，安卓版Sora一经上线，就登上了谷歌Play Store榜首。

安卓用户在24h内，生成了超100万条视频

时隔两个月，OpenAI团队揭秘这款爆火应用（首个安卓版），如何构建的背后故事。

让人意外的是，这款APP仅在28天内完成，背后最大功臣便是AI智能体——Codex。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

从10月8日到11月5日，4人工程团队与Codex协作，消耗约50亿Token，就把Sora Android推向全球。

尽管应用规模虽大，却实现了99.9%无崩溃率。

而且，他们还使用的是GPT-5.1-Codex模型的早期版本。

发布仅5个月的时间，Codex已经承包了OpenAI内部每周70%的PR了。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

拥抱「布鲁克斯定律」：保持灵活，唯快不破

当Sora在iOS上发布时，用户量直接原地爆炸。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

相比之下，安卓当时只有一个简陋的内部原型，而在Google Play上预注册的用户却在越堆越多。

面对这种高压、火烧眉毛的发布任务，通常的反应就是疯狂堆人、加流程。

像这种规模和质量的生产级应用，通常得一大帮工程师干好几个月，而且还会被各种协调工作拖慢进度。

美国计算机架构师Fred Brooks曾有一句名言，「向一个已经延期的软件项目增加人手，只会让它延得更厉害」。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

换句话说，想要快速交付一个复杂项目时，堆人往往增加了沟通成本、任务碎片化和集成难度，反而会降低效率。

为此，OpenAI组建了一支只有四名工程师的「精锐小队」——全员配备Codex，极大地把每个人的战斗力拉满。

靠着这种打法，在18天内就向员工发布了Sora Android的内部构建版本，仅仅10天后就向公众正式发布。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

AI迭代AI，自我进化

在OpenAI内部，绝大部分工程师都在用Codex，即开源版CLI。

Codex产品负责人Alexander Embiricos透露，「它会监控自己的训练过程，并处理用户反馈，「决定」下一步该做什么。

Codex正在给自己的训练运行编写大量的研究测试框架（research harness），OpenAI甚至在尝试让Codex去监控自己的训练过程。

这种「套娃」式的开发模式，可以让Codex自我迭代。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

这种用工具造更好工具的递归循环，在计算历史上其实由来已久。

1960年代，工程师们在纸上手工设计了第一批集成电路，然后根据图纸造出了物理芯片。

接着，这些芯片又驱动了运行第一批电子设计自动化（EDA）软件的电脑，而这些软件反过来又让工程师能设计出人类手绘根本搞不定的复杂电路。

现代处理器包含数十亿个晶体管，这种排列模式之所以能存在，全靠软件。

OpenAI用Codex来造Codex似乎也是这个路子：每一代工具创造的能力，都会反哺到下一代中。

这个系统能自主运行许多进程，处理反馈，衍生并管理子进程，还能生成最终发布在实际产品里的代码。

OpenAI员工管它叫「队友」，并且用诸如Linear、Slack等工具来给它派活儿。

Codex处理的任务，到底算不算真正的「决策」？

但无可否认的是，这里形成了一个半自主的反馈循环：

Codex在人类的指导下写代码，这些代码变成了Codex的一部分，结果就是下一个版本的Codex会写出不一样的代码。

一位刚入职的「高级工程师」

为了理解工程师是如何跟Codex配合的，需得先知道它哪里强、哪里需要人带。

把它当成一个「刚入职的高级工程师」是个很好的切入点。

这个定位，意味着工程师可以把更多时间花在指挥和Review代码上，而不是自己在那儿敲代码。

与「氛围编程」不同的是，让Codex编码属于「Vibe engineering」（氛围流工程）的领域。

前者是指，开发者不怎么细看就直接接受AI生成的代码，而后者是AI研究员Simon Willison提出的概念，指人类仍保持在循环中。

一般来说，让Codex干活/制定计划，再一起讨论，迭代计划，这样开发者就和模型保持在一个「循环」里，还能仔细审查代码。

Codex需要指导的地方

目前，Codex还不擅长推断未知的事。

比如，个人喜欢的架构模式、产品策略、真实用户行为，以及内部的潜规则或捷径。

同样，Codex也看不到App实际跑起来的样子：

它没法在真机上打开Sora，感觉不到滚动条是不是不丝滑，或者察觉到某个交互流程很别扭。

这些体验层面的活儿，只能靠OpenAI团队自己来。

每一个实例都需要「入职培训」。给出上下文，明确目标、约束条件，以及明确的规矩，对于让Codex把活儿干漂亮至关重要。

还有，Codex在深层架构判断上也容易跑偏：如果放任不管，它可能会搞出一个多余的ViewModel，实际上团队只想扩展现有的那个；或者把本该属于Repository层的逻辑硬塞进UI层。

它的本能是把功能跑通就行，而不是优先考虑长期的代码整洁度。

OpenAI发现，在整个代码库里到处放大量的AGENT.md文件非常有用。

这能让工程师在不同的会话里，轻松复用相同的指导和最佳实践。

举个例子，为了确保Codex按照风格指南写代码，OpenAI团队在顶层的AGENTS.md里加了这么一段：

## Formatting and static checks

- **Always run** `./gradlew detektFix` (or for the affected modules) **before committing**. CI will fail if formatting or detekt issues are present.

Codex擅长的地方

接下来，再来看看Codex最擅长什么？

秒懂大型代码库：Codex精通所有主流编程语言，不需要搞复杂的抽象，就能轻松地在不同平台间复用相同的概念。

测试覆盖率：Codex对写单元测试有着独特的热情，能覆盖各种边缘情况。虽说不是每个测试都很深，但这广撒网的覆盖率对防止Bug回归特别有用。

响应反馈：同样，Codex很听劝。当CI挂了的时候，可以直接把日志甩给它（粘贴到prompt里），让它给个修复方案。

大规模并行、用完即弃：大多数人根本没试探过并行会话数量的极限。开发者可以并行测试好几个想法，把代码当成一次性用品，不行就扔。

提供新视角：在设计讨论中，团队会把Codex当成一个生成式工具，用它来挖掘潜在的故障点，或者发现解决问题的新路子。比如，在设计视频播放器内存优化时，Codex翻遍了多个SDK，提出了一些团队根本没时间去细究的方案。Codex调研出的这些见解，对于将最终App内存占用降到最低简直价值连城。

腾出手做高杠杆工作：实际上，团队最后花在Review和指挥代码上的时间，比自己写的时间还要多。话虽如此，Codex在代码审查（Code Review）方面也很牛，经常能在合并代码前就揪出Bug，提高了可靠性。

一旦摸清了Codex的能力，团队的工作模式就变得很直接了。

在模式清晰、范围明确的地方，让Codex去干那些繁重的苦力活；而团队则专注于架构、用户体验、系统性变更和把控最终质量。

立规矩，手动打地基

为了用好Codex并确保出活稳健、好维护，关键在于，开发者要亲自把控系统的设计和关键权衡。

这包括定好App的架构、模块化、依赖注入和导航；甚至身份验证和基础网络流程也是自己搞定的。

对于一个估算有85%的代码都是Codex写的项目来说，一个精心规划的地基避免了昂贵的返工和重构。

OpenAI团队表示，「这绝对是我们做过的最正确的决定之一」。

一定要形成这样一个思路——

不是为了尽快搞个「能跑的东西」，而是要搞个「懂规矩的东西」。

写代码有很多种「正确」的方式：

不需要告诉Codex具体每一步怎么做；
但需要向Codex展示什么是「正确」的。

一旦定好了起点和团队喜欢的构建方式，Codex就可以开工了。

为了看看会发生什么，OpenAI团队确实试过直接给Prompt：

照着iOS代码构建Sora Android App。开始干。

结果，很快就翻车了。

虽然Codex写出来的东西技术上能跑，但产品体验完全不达标。

而且如果不懂端点、数据和用户流，Codex这种「一锤子买卖」（Zero-shot）写出来的代码根本不可靠。哪怕不用 AI，一次性合并几千行代码也是作死。

OpenAI的假设是，如果给Codex一个写满好范例的沙盒，它就能如鱼得水；事实证明，他们是对的。

光秃秃地让Codex「做个设置页面」基本不靠谱。

但如果你让它「参考你刚才看到的那个页面的架构和模式，做个设置页面」，效果就好太多了。

人类做结构性的决策并定下硬性规矩；Codex负责在这个框架里填充大量的代码。

先规划，再编码

为了最大化Codex的潜力，团队下一步是搞清楚——怎么让Codex长时间在无人监督的状态下干活。

为此，4人团队改了工作流。

对于任何稍微复杂点的改动，先让Codex帮理清系统和代码是怎么运作的。

比如，让它读一组相关文件，总结这个功能是怎么跑的；比如数据怎么从API流经Repository层、ViewModel，最后到UI，然后人工纠正或细化它的理解。

这就像带一个能力很强的新队友一样，团队会跟Codex一起制定一个扎实的实施计划。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

这个计划通常像一份微型设计文档，指明哪些文件要改，要引入什么新状态，逻辑该怎么走。

只有到了这一步，团队才让Codex开始执行计划，一步步来。

此处，有个非常实用的小技巧：

对于那种超长任务，当上下文窗口快爆了的时候，他们会让Codex把计划保存到一个文件里，这样就能在不同的会话里延续同样的指导思路。

这个额外的规划循环证明，磨刀不误砍柴工。

团队可以放心地让Codex长时间「无人监督」地跑，这也让Code Review变得更容易，因为可以对照计划来检查实现，而不是一脸懵逼地看Diff。

而且万一出问题了，可以先调试计划，再调试代码。

多AI并行，分布式工程

在项目最忙的时候，OpenAI团队经常并行跑着好几个Codex会话。

一个在做播放功能，另一个在做搜索，另一个在处理错误，有时候还有一个在写测试或重构。

这感觉不像是用工具，更像是「管团队」。每个会话都会定期汇报进度。

一个可能会说，「我已经规划好这个模块了；这是我的建议」，而另一个会为一个新功能甩出一个巨大的Diff。

每一个都需要关注、反馈和Review。

这跟做一个带着好几个新人的Tech Lead简直一模一样，大家都在推进，大家都需要指导。

结果就是形成了一种协作流。Codex这种暴力的编码能力，把团队从大量的手工打字中解放出来了。

因此，他们有更多的时间思考架构，仔细读PR，测试App。

Codex不会有上下文切换的瓶颈，但开发者有。开发工作流，从写代码变成了做决定、给反馈和集成变更。

这就是「布鲁克斯的定律」以一种新方式应验的地方。

你不能简单地增加Codex会话就指望速度线性提升，就像你不能往项目里无限加人一样。

每一双额外的「手」，哪怕是虚拟的，都会增加协调成本。

Codex：跨平台超能力

OpenAI这一项目起步时有一个巨大的先发优势：Sora已经在iOS上发布了。

他们经常把Codex指向iOS和后端代码库，帮它理解关键需求和约束。

在整个项目过程中，OpenAI开玩笑说「重新发明了跨平台框架，忘掉React Native或Flutter，跨平台的未来就是 Codex」。

这句玩笑背后有两个原则：

1. 逻辑是可移植的

无论代码是用Swift还是Kotlin写的，底层的应用逻辑——数据模型、网络调用、验证规则、业务逻辑——都是一样的。Codex非常擅长读取Swift实现并生成语义一致的Kotlin代码。

2. 具体示例提供强大的上下文

一个全新的Codex会话，如果能看到「这就是它在iOS上究竟是怎么跑的」以及「这是Android的架构」，那效率远比光听自然语言描述要高得多。

基于这些原则，团队把iOS、后端和Android仓库都放到了同一个环境中。

给Codex一个这样的Prompt：

阅读iOS代码里的这些模型和端点，然后出一个计划，用现有的API Client和模型类在Android上实现同样的行为。

此处，也有一个实用的小技巧：

在~/.codex/AGENTS.md里详细写明本地仓库在哪儿以及里面有啥。这能让Codex更容易地找到和跳转到相关代码。

更广泛的经验是，对于Codex来说，上下文就是一切。

当Codex理解了功能在iOS里是怎么跑的，再结合对Android App结构的理解，就能获得非常好的结果。

一场复盘，开发者「超能力」觉醒

28天冲刺结束时，用Codex已成为OpenAI默认的开发闭环——理解代码、规划变更、实现功能、Review输出。

显然，AI辅助开发并没有降低工程的严谨性，反而提升了它。

Codex团队设计师Ed Bayes描述了，这个工具如何改变了自己的工作流。

如今，Codex已与项目管理工具Linear、以及通讯平台Slack打通，团队成员可以直接把编程任务派给AI智能体。

仅4人28天！OpenAI首曝Sora内幕：85%代码竟由AI完成

他表示，「你可以把Codex拉进来，基本上可以直接给Codex指派 issue。Codex简直就是你工作区里的一个队友」。

这种集成意味着，当有人在Slack里发反馈时，可以直接@Codex让它修bug；它还会提一个PR，团队成员可以在同一个帖子里审查代码并进行迭代。

「它基本上就是在模拟这种同事关系，不管你在哪工作它都在」。

尽管Codex能力很强，但它的目标是立刻从A到B。这就是为什么离了人，AI辅助编程就玩不转。

明日软件工程师的「超能力」，将是深刻的系统理解能力，以及在长时间跨度上与AI协作的能力。

现在，Codex让开发者能专注于软件工程最有意义的部分，回归他们热爱这门手艺的初心。

一旦Codex在一个上下文丰富的环境中配置好，懂你的目标和你喜欢的构建方式，任何团队都能让战斗力翻倍。

这一次，OpenAI的发布复盘不是一个万能药方，也不敢说已经彻底搞懂了AI辅助开发。

但他们希望，能以自己的经验启发更多的开发者，让 Codex更好地为人们所用。

参考资料：

https://arstechnica.com/ai/2025/12/how-openai-is-using-gpt-5-codex-to-improve-the-ai-tool-itself/

https://openai.com/index/shipping-sora-for-android-with-codex/

文章来自于微信公众号 “新智元”，作者 “新智元”

关键词: AI新闻 , OpenAI , Sora , Sora APP

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0