Sam Altman：Codex让我感受到了AGI时刻

7045点击 2025-06-05 11:08

早上醒来，就看到 Codex 正式向 Plus 用户开放的消息，我立刻体验了一下。这次最大的变化，是 Codex 能在任务执行期间联网。它可以自动安装依赖，不用再手动设置 linting 和测试，也能跑需要访问暂存服务器的脚本，流程顺畅了不少。

Codex 对标的是 Devin 这类产品，核心思路是让 AI 直接完成任务，人只需要下指令。跟 Cursor、Windsurf 这些集成在 IDE 里的工具不一样，Codex 的目标是让 AI 接管整个开发流程。

在 Snowflake Summit 2025 上，OpenAI CEO Sam Altman 与 Snowflake CEO Sridhar Ramaswamy 进行了一场对谈。在这次对谈中，Sam 同样谈到了 Codex，他说这是一次 AGI 时刻。

确实。在写代码这件事上，AI 越来越擅长了。突然发现，最近一周我发的文章中，绝大多数都和 AI 编程相关。这也侧面说明，目前 AI 大模型在编程方面的角逐之激烈。

下面是整个对话的译文。

主持人：Sam，面对 AI 的发展，你会给企业管理者提什么建议？

Sam Altman：我的建议是赶紧去做。现在还有很多人犹豫，因为模型进步太快了，总想着等下一个版本，或者还在观望趋势到底会怎么发展，做 A 还是做 B。

但科技的普遍规律是，当变化很快时，那些迭代速度最快、试错成本最低、学习效率最高的公司，最终会赢。我们现在看到的 AI 和企业应用也是这样，早早下注并快速迭代的企业，表现远远好于那些只会观望的人。

主持人：Sridhar，你怎么看呢？作为 Snowflake 的一把手。

Sridhar Ramaswamy：我完全同意，而且我还想补充一点，就是好奇心。我们对过去很多习以为常的事情，其实早就不是那样了。现在很多公司，比如用 Snowflake，把尝试新东西的成本降得很低，你可以做很多小实验，从中获得价值，不断积累。

再强调一下 Sam 说的，谁能最快试错、最快迭代，谁就能获得最大的价值。因为他们会更快知道什么有用、什么没用，能更好地应对这个快速变化的未来。我觉得，未来几年都不会有那种 “万事俱备、可以安心做决策” 的完美时刻。

主持人：那你今年的建议，和去年会有不同吗？

Sridhar Ramaswamy：其实我去年的建议也是类似的：我觉得好奇心一直被低估。犯错没关系，你要找到那些 “错了也没什么大不了” 的场景，其实有很多事情都是如此。当然，技术本身也在飞速进步。

你现在完全可以用 ChatGPT 查询最新事件信息，因为它知道什么时候该用联网搜索来回答你。所以无论是结构化还是非结构化数据，像聊天机器人这样的应用，现在的技术都很成熟，完全可以采用。

当然你还可以探索更多边界，比如更智能的应用，但其实绝大部分主流场景，这项技术已经可以大规模落地了。

Sam Altman：有意思的是，我去年的看法和现在其实不一样。去年如果是给创业公司建议，我会说一样的话，但如果是大企业，我会说：你们可以先做一些小范围的尝试，但大多数场景下还不适合全面投入使用。

而今年情况变了。我们企业业务现在增长非常快，很多大公司真的用我们的技术做了很多事。他们问我们，“到底哪里变了？” 我们的答案，一部分是大家确实摸索了一段时间，但更重要的是，现在这些工具真的更加可靠，能做的事情也远超我们想象。过去一年，AI 的可用性确实有了一个明显的拐点。

那下一个有趣的问题是，明年我们又会说什么不同的话？我觉得明年这个时候，不只是用 AI 来自动化一些业务流程、做新产品新服务，更重要的是，你真的可以拿公司里最重要的问题，对 AI 说：给你一大堆算力，你帮我解决吧！而模型们真的能去解决那些团队自己解决不了的大问题。

而那些已经用过这些模型、积累经验的公司，会非常有优势。他们能对 AI 说：来，把我最重要的项目重新做一遍，这里有很多算力，你尽管去想办法，找到最优解。等到明年，准备好这样做的企业，会迎来又一轮巨大飞跃。

主持人：我觉得，考虑到推理能力变强、用更多算力解决难题、Agent 和新工作流的引入，很多人都认为记忆和检索的机制必须发生很大变化。你怎么看，记忆和检索在下一个 AI 时代会扮演什么角色？

Sridhar Ramaswamy：我认为，像检索这样的能力一直是让生成式 AI 更加 “接地气” 的关键因素。比如你问一个事实性的问题，你肯定想要一个可靠的答案。实际上，我们在 GPT-3 的早期，就为它做了网页搜索级别的系统。只要你的问题需要用现实世界的信息来回答，比如突发新闻，就可以补充相关上下文。

同样地，记住你之前是怎么解决某些问题的、记住你和系统的互动，都能让系统以后变得更好。随着你用这些模型做的事情越来越复杂，记忆和检索的重要性还会持续提升。你能给模型的上下文越多，不管是 “被动用法” 还是“ 主动 Agent 用法”，这些系统的表现都会越好。

主持人：Sam，你能不能给现场的企业领导者一个思路，现在和接下来，Agent 到底能做什么？

Sam Altman：我们最近刚发布的编程 Agent Codex，是我第一次有 “接近 AGI” 感觉的产品之一。

你用它的时候，可以分配一堆任务让它在后台处理。它真的很聪明，能做那些跨度很长的事情。你只需要坐在那，对它的建议说 “这个可以，那个不行，再试试”。它能连你的 GitHub，未来还可以帮你看会议、查 Slack、读所有内部文档，做的事情非常厉害。

现在，它可能像个能连续工作几小时的实习生，但以后就能变成那种能连续工作好几天的资深工程师。其它很多工作类别也会出现类似的变化。

现在你会发现，有很多公司在用 Agent 自动化大部分客户支持、销售或其它很多事情。有些人说，他们现在的工作就是给一群 Agent 分配任务、把关质量、整合结果并提供反馈，感觉就像在管理一支由初级员工组成的团队。这样的场景已经开始出现，只是目前还没有普及开来。

我敢打赌，明年在某些小范围内，我们就会看到 Agent 能帮我们发现新知识，或者解决一些很难的商业问题。现在 Agent 主要还是帮你自动化一些重复的脑力工作，短时间内帮你省力。

随着这些 Agent 能够处理更长周期、更高层级的任务，未来迟早会出现能够自主发现新科学的“AI 科学家”。那将是一个很重要的时刻。

主持人：你说 Codex、体验编程 Agent 的时候，让你第一次感觉到了 AGI。所以我想问问你：你现在怎么定义 AGI？我们离它还有多远？它会带来什么影响？

Sam Altman：我觉得如果你能穿越回五年前，比如 2020 年，问当时的人。

主持人：那时候基本还属于 AI 的 “黑暗时代”。

Sam Altman：其实那个时间点挺有意思，因为那会儿我们刚好还没发布 GPT。世界上还没有真正厉害的 LLM。

如果你能回到那个时候，给他们演示现在的 ChatGPT，别说 Codex 或别的了，就光是 ChatGPT，大多数人都会说 “这就是 AGI”。人类很擅长调整自己的预期，这其实是很棒的一件事。

我觉得 AGI 究竟怎么定义，其实没那么重要。每个人定义都不一样，甚至同一个人也会换说法。

真正重要的是：你看过去五年 AI 的进步速度，这种势头很可能接下来五年还会保持，甚至更久。到底是在 2024、2026 还是 2028 年宣布 AGI 达成，或者在 2028、2030 还是 2032 年宣布超级智能，这都没那么重要。

重点在于：AI 的进步一直在持续且平滑地呈指数级增长。对我来说，如果有个系统能自主发现新科学，或者成为极强的工具，让人类科学发现速度提升四倍，这就符合我心中对 AGI 的所有要求了。有些人觉得 AGI 必须能自我改进，也有人觉得现在这种带记忆的 ChatGPT 已经很 AGI 了。

主持人：确实，像我们早期做过的一些测试，比如图灵测试，过去大家一直把它当成目标。好，回到 2020 年，Sridhar，你还记得你们当时做搜索时用的第一个 OpenAI 模型是什么吗？

Sridhar Ramaswamy：其实我们当时用的是 GPT-3 Playground，做了一些小实验。后来虽然有了 API，但我们还用不上 GPT-3，所以我们就在大规模数据上用 70 亿、100 亿参数的模型，自己想办法实现了类似的效果。其实那时候已经能看出模型的强大，比如它能很好地完成 “抽象摘要” 这种任务。

所谓抽象摘要，就是让模型把一篇 100 字的博客用三句话总结出来。这其实挺难的，很多人都很难做到，但模型突然就能做到了。

当时我就有点 “顿悟”，如果模型能在整个 Web 语料库里做到这件事，再加上搜索功能（能帮你找出最有用的十个页面），这背后的力量实在太大了。自那以后，模型的能力也一直在积累。

主持人：那你作为创业者、或者 Snowflake 的 CEO，你是什么时候第一次觉得 “哇，一切都变了”？比如我现在公司里也有前 Neeva 员工，我一直觉得现在其实一切都是 “搜索” 或 “搜索+” 的时代。你什么时候有类似感受的？

Sridhar Ramaswamy：其实这本质上是 “设定上下文”。你用这些模型解决问题的时候，总需要想办法让它聚焦于你想让它关注的范围。这其实是一种非常强大且通用的方法。

现在很多微调技术也是类似思路：你给了模型很强的能力，再用上下文引导它做出更好的输出。所以与其说 “用什么工具”，不如说 “上下文设定” 才是关键。信息永远是无限的，人类用 “注意力” 机制去聚焦，AI 其实也是。对我来说，搜索本质上就是给模型设定注意力的工具。

主持人：你同意 Sam 的看法吗？就是模型其实就是沿着这条指数增长的能力曲线不断提升？还是你觉得 AGI 的定义对你或客户来说其实挺重要？

Sridhar Ramaswamy：我觉得这其实会变成一个争论不休的话题。就像 Sam 说的，有时候这种讨论就像是在问 “潜艇算不算会游泳”，虽然听起来挺奇怪，但仔细想想，其实它确实能在水里游动。

所以我觉得，这些模型已经具备了让任何一个未来的人都说 “这就是 AGI” 的能力。但正如 Sam 说的，2020 年我们看 2025 年，也会说同样的话。对我来说，最震撼的是进步的速度，我相信还会有很多伟大的东西出现。

这其实就像下棋一样，现在电脑能打败世界上所有人，但这又有什么关系？人类还是会下棋，依然有非常厉害的棋手。所以，定义 AGI 意义其实不大。

主持人：甚至现在下棋比以前还更流行。

Sridhar Ramaswamy：没错，围棋也是如此。所以我们能从这个变化中学到很多。但我觉得 “定义” 其实没那么重要。

主持人：我个人觉得，很多人在讨论 AGI 时，其实真正关心的是 “意识” 这个话题，只不过他们没有明确说出来，或者说，其实有相当一部分人在问的就是这个问题。这个问题更像你刚才说的，偏哲学。

我还得问你，因为你们在训练最新的模型，你比别人更早看到模型的新能力。你最近在新模型里看到哪些 “涌现行为”，让你在产品和公司运营上产生了新想法？

Sam Altman：未来一年或两年内，模型的能力会让人非常震撼。我们还有很大的进步空间。就像从 GPT-3 到 GPT-4 的巨大飞跃一样，企业现在能做很多以前根本做不到的事。

比如，如果你是芯片设计公司，你可以让模型为你设计出比你亲自设计的还要好的芯片；如果你是生物科技公司在攻克疾病，也可以让模型直接去攻关。这些其实离我们并不远了。

这些模型可以理解你能给它的所有上下文，能接入所有工具和系统，然后用极其聪明的推理给你答案，而且够稳定可靠，能让你放心地让它自动去做一些事。我以前没想到这一切会这么快到来，但现在真的很近了。

主持人：你能不能跟大家分享一下，你觉得哪些知识领域现在已经可以被模型掌握，或者马上就能被掌握？比如我觉得自己算比较聪明，但我脑袋里可没有完美的物理模拟器，我怎么判断模型能做到什么？

Sam Altman：我喜欢的思路其实不是我们马上要发布的产品，而是一个 “理想模型”：体积很小，但推理能力超越人类，运行极快，有 1 万亿 Token 的上下文，能接入你能想象到的所有工具。所以无论是什么问题，模型里面有没有相关知识其实都不重要。

用模型当数据库其实挺荒唐的，又慢又贵还容易出错。但厉害的是它们的推理能力。如果你把它当成 “推理引擎”，把所有可能的业务、生活上下文都扔进去，再接入各种模拟器和工具，人类能做的事情其实会大大拓展。我觉得我们大方向就是朝这个目标前进。

主持人：非常精彩。我想问你们一个稍微天马行空的问题：如果你们拥有 1000 倍于现在的算力，本来我想说 “无限算力”，但那有点太离谱了，那你们会怎么利用这些算力？

Sam Altman：如果我有 1000 倍的算力，最合理的做法可能不是直接拿它来做某个具体的事情，而是先用这些算力让 AI 自己去研究、去进步，先造出比现在更强的 AI。然后，我再去问这个更厉害的 AI，你觉得我们应该怎么用这堆算力最合适？

主持人：让 AI 来解决你最难的问题？

Sam Altman：我觉得这其实是最理性的做法。

主持人：这说明你是真的信任 AI 的判断，愿意把决定权交给它。

Sam Altman：其实现在我们在 ChatGPT 或企业用我们的最新模型时，已经能看到一种现象，就是如果你在推理或者推难题时多给模型一点算力，多试几次，可以得到更好的答案。

如果有家公司真的敢把 1000 倍的算力扔到每一个难题上，确实能得到很惊人的结果。当然现实里你不会真的这么做，也没有 1000 倍的算力。但现在这种 “可行性” 本身就挺有启发意义的。比如，你可以真的把最难、最有价值的难题，投入大量算力去反复尝试和优化。

主持人：Sridhar，你会不会也用 Snowflake 和算力去解决你们最难的问题？你职业生涯都围绕数据基础设施、搜索优化、Snowflake 的运营，是不是也会问 AI 这个问题？

Sridhar Ramaswamy：我觉得用大量算力这样做挺酷的。但我也想给个和我们科技圈不一样的答案。你知道，有个叫 RNome Project 的项目，类似我们二十年前做的 DNA 测序，但它是关于 RNA 表达的。

结果发现，RNA 控制了我们体内蛋白质的运作。如果你能完全弄清楚 RNA 是怎么调控 DNA 表达的，可能就能攻克很多疾病，让人类进步很多。如果能把所有算力都用在这类项目上，尤其是用语言模型来研究，就像当年做 DNA 项目一样，那肯定是很酷的成果。

主持人：这确实非常令人振奋，而且也是人类面临的重大难题之一。

Sridhar Ramaswamy ：谢谢你，Sarah，谢谢大家。

文章来自微信公众号“AI产品阿颖”，作者是“阿颖”。

Sam Altman：Codex让我感受到了AGI时刻

关键词: AI , AI编程 , Codex , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner