早上醒来,就看到 Codex 正式向 Plus 用户开放的消息,我立刻体验了一下。这次最大的变化,是 Codex 能在任务执行期间联网。它可以自动安装依赖,不用再手动设置 linting 和测试,也能跑需要访问暂存服务器的脚本,流程顺畅了不少。
Codex 对标的是 Devin 这类产品,核心思路是让 AI 直接完成任务,人只需要下指令。跟 Cursor、Windsurf 这些集成在 IDE 里的工具不一样,Codex 的目标是让 AI 接管整个开发流程。
在 Snowflake Summit 2025 上,OpenAI CEO Sam Altman 与 Snowflake CEO Sridhar Ramaswamy 进行了一场对谈。在这次对谈中,Sam 同样谈到了 Codex,他说这是一次 AGI 时刻。
确实。在写代码这件事上,AI 越来越擅长了。突然发现,最近一周我发的文章中,绝大多数都和 AI 编程相关。这也侧面说明,目前 AI 大模型在编程方面的角逐之激烈。
下面是整个对话的译文。
主持人:Sam,面对 AI 的发展,你会给企业管理者提什么建议?
Sam Altman:我的建议是赶紧去做。现在还有很多人犹豫,因为模型进步太快了,总想着等下一个版本,或者还在观望趋势到底会怎么发展,做 A 还是做 B。
但科技的普遍规律是,当变化很快时,那些迭代速度最快、试错成本最低、学习效率最高的公司,最终会赢。我们现在看到的 AI 和企业应用也是这样,早早下注并快速迭代的企业,表现远远好于那些只会观望的人。
主持人:Sridhar,你怎么看呢?作为 Snowflake 的一把手。
Sridhar Ramaswamy:我完全同意,而且我还想补充一点,就是好奇心。我们对过去很多习以为常的事情,其实早就不是那样了。现在很多公司,比如用 Snowflake,把尝试新东西的成本降得很低,你可以做很多小实验,从中获得价值,不断积累。
再强调一下 Sam 说的,谁能最快试错、最快迭代,谁就能获得最大的价值。因为他们会更快知道什么有用、什么没用,能更好地应对这个快速变化的未来。我觉得,未来几年都不会有那种 “万事俱备、可以安心做决策” 的完美时刻。
主持人:那你今年的建议,和去年会有不同吗?
Sridhar Ramaswamy:其实我去年的建议也是类似的:我觉得好奇心一直被低估。犯错没关系,你要找到那些 “错了也没什么大不了” 的场景,其实有很多事情都是如此。当然,技术本身也在飞速进步。
你现在完全可以用 ChatGPT 查询最新事件信息,因为它知道什么时候该用联网搜索来回答你。所以无论是结构化还是非结构化数据,像聊天机器人这样的应用,现在的技术都很成熟,完全可以采用。
当然你还可以探索更多边界,比如更智能的应用,但其实绝大部分主流场景,这项技术已经可以大规模落地了。
Sam Altman:有意思的是,我去年的看法和现在其实不一样。去年如果是给创业公司建议,我会说一样的话,但如果是大企业,我会说:你们可以先做一些小范围的尝试,但大多数场景下还不适合全面投入使用。
而今年情况变了。我们企业业务现在增长非常快,很多大公司真的用我们的技术做了很多事。他们问我们,“到底哪里变了?” 我们的答案,一部分是大家确实摸索了一段时间,但更重要的是,现在这些工具真的更加可靠,能做的事情也远超我们想象。过去一年,AI 的可用性确实有了一个明显的拐点。
那下一个有趣的问题是,明年我们又会说什么不同的话?我觉得明年这个时候,不只是用 AI 来自动化一些业务流程、做新产品新服务,更重要的是,你真的可以拿公司里最重要的问题,对 AI 说:给你一大堆算力,你帮我解决吧!而模型们真的能去解决那些团队自己解决不了的大问题。
而那些已经用过这些模型、积累经验的公司,会非常有优势。他们能对 AI 说:来,把我最重要的项目重新做一遍,这里有很多算力,你尽管去想办法,找到最优解。等到明年,准备好这样做的企业,会迎来又一轮巨大飞跃。
主持人:我觉得,考虑到推理能力变强、用更多算力解决难题、Agent 和新工作流的引入,很多人都认为记忆和检索的机制必须发生很大变化。你怎么看,记忆和检索在下一个 AI 时代会扮演什么角色?
Sridhar Ramaswamy:我认为,像检索这样的能力一直是让生成式 AI 更加 “接地气” 的关键因素。比如你问一个事实性的问题,你肯定想要一个可靠的答案。实际上,我们在 GPT-3 的早期,就为它做了网页搜索级别的系统。只要你的问题需要用现实世界的信息来回答,比如突发新闻,就可以补充相关上下文。
同样地,记住你之前是怎么解决某些问题的、记住你和系统的互动,都能让系统以后变得更好。随着你用这些模型做的事情越来越复杂,记忆和检索的重要性还会持续提升。你能给模型的上下文越多,不管是 “被动用法” 还是“ 主动 Agent 用法”,这些系统的表现都会越好。
主持人:Sam,你能不能给现场的企业领导者一个思路,现在和接下来,Agent 到底能做什么?
Sam Altman:我们最近刚发布的编程 Agent Codex,是我第一次有 “接近 AGI” 感觉的产品之一。
你用它的时候,可以分配一堆任务让它在后台处理。它真的很聪明,能做那些跨度很长的事情。你只需要坐在那,对它的建议说 “这个可以,那个不行,再试试”。它能连你的 GitHub,未来还可以帮你看会议、查 Slack、读所有内部文档,做的事情非常厉害。
现在,它可能像个能连续工作几小时的实习生,但以后就能变成那种能连续工作好几天的资深工程师。其它很多工作类别也会出现类似的变化。
现在你会发现,有很多公司在用 Agent 自动化大部分客户支持、销售或其它很多事情。有些人说,他们现在的工作就是给一群 Agent 分配任务、把关质量、整合结果并提供反馈,感觉就像在管理一支由初级员工组成的团队。这样的场景已经开始出现,只是目前还没有普及开来。
我敢打赌,明年在某些小范围内,我们就会看到 Agent 能帮我们发现新知识,或者解决一些很难的商业问题。现在 Agent 主要还是帮你自动化一些重复的脑力工作,短时间内帮你省力。
随着这些 Agent 能够处理更长周期、更高层级的任务,未来迟早会出现能够自主发现新科学的“AI 科学家”。那将是一个很重要的时刻。
主持人:你说 Codex、体验编程 Agent 的时候,让你第一次感觉到了 AGI。所以我想问问你:你现在怎么定义 AGI?我们离它还有多远?它会带来什么影响?
Sam Altman:我觉得如果你能穿越回五年前,比如 2020 年,问当时的人。
主持人:那时候基本还属于 AI 的 “黑暗时代”。
Sam Altman:其实那个时间点挺有意思,因为那会儿我们刚好还没发布 GPT。世界上还没有真正厉害的 LLM。
如果你能回到那个时候,给他们演示现在的 ChatGPT,别说 Codex 或别的了,就光是 ChatGPT,大多数人都会说 “这就是 AGI”。人类很擅长调整自己的预期,这其实是很棒的一件事。
我觉得 AGI 究竟怎么定义,其实没那么重要。每个人定义都不一样,甚至同一个人也会换说法。
真正重要的是:你看过去五年 AI 的进步速度,这种势头很可能接下来五年还会保持,甚至更久。到底是在 2024、2026 还是 2028 年宣布 AGI 达成,或者在 2028、2030 还是 2032 年宣布超级智能,这都没那么重要。
重点在于:AI 的进步一直在持续且平滑地呈指数级增长。对我来说,如果有个系统能自主发现新科学,或者成为极强的工具,让人类科学发现速度提升四倍,这就符合我心中对 AGI 的所有要求了。有些人觉得 AGI 必须能自我改进,也有人觉得现在这种带记忆的 ChatGPT 已经很 AGI 了。
主持人:确实,像我们早期做过的一些测试,比如图灵测试,过去大家一直把它当成目标。好,回到 2020 年,Sridhar,你还记得你们当时做搜索时用的第一个 OpenAI 模型是什么吗?
Sridhar Ramaswamy:其实我们当时用的是 GPT-3 Playground,做了一些小实验。后来虽然有了 API,但我们还用不上 GPT-3,所以我们就在大规模数据上用 70 亿、100 亿参数的模型,自己想办法实现了类似的效果。其实那时候已经能看出模型的强大,比如它能很好地完成 “抽象摘要” 这种任务。
所谓抽象摘要,就是让模型把一篇 100 字的博客用三句话总结出来。这其实挺难的,很多人都很难做到,但模型突然就能做到了。
当时我就有点 “顿悟”,如果模型能在整个 Web 语料库里做到这件事,再加上搜索功能(能帮你找出最有用的十个页面),这背后的力量实在太大了。自那以后,模型的能力也一直在积累。
主持人:那你作为创业者、或者 Snowflake 的 CEO,你是什么时候第一次觉得 “哇,一切都变了”?比如我现在公司里也有前 Neeva 员工,我一直觉得现在其实一切都是 “搜索” 或 “搜索+” 的时代。你什么时候有类似感受的?
Sridhar Ramaswamy:其实这本质上是 “设定上下文”。你用这些模型解决问题的时候,总需要想办法让它聚焦于你想让它关注的范围。这其实是一种非常强大且通用的方法。
现在很多微调技术也是类似思路:你给了模型很强的能力,再用上下文引导它做出更好的输出。所以与其说 “用什么工具”,不如说 “上下文设定” 才是关键。信息永远是无限的,人类用 “注意力” 机制去聚焦,AI 其实也是。对我来说,搜索本质上就是给模型设定注意力的工具。
主持人:你同意 Sam 的看法吗?就是模型其实就是沿着这条指数增长的能力曲线不断提升?还是你觉得 AGI 的定义对你或客户来说其实挺重要?
Sridhar Ramaswamy:我觉得这其实会变成一个争论不休的话题。就像 Sam 说的,有时候这种讨论就像是在问 “潜艇算不算会游泳”,虽然听起来挺奇怪,但仔细想想,其实它确实能在水里游动。
所以我觉得,这些模型已经具备了让任何一个未来的人都说 “这就是 AGI” 的能力。但正如 Sam 说的,2020 年我们看 2025 年,也会说同样的话。对我来说,最震撼的是进步的速度,我相信还会有很多伟大的东西出现。
这其实就像下棋一样,现在电脑能打败世界上所有人,但这又有什么关系?人类还是会下棋,依然有非常厉害的棋手。所以,定义 AGI 意义其实不大。
主持人:甚至现在下棋比以前还更流行。
Sridhar Ramaswamy:没错,围棋也是如此。所以我们能从这个变化中学到很多。但我觉得 “定义” 其实没那么重要。
主持人:我个人觉得,很多人在讨论 AGI 时,其实真正关心的是 “意识” 这个话题,只不过他们没有明确说出来,或者说,其实有相当一部分人在问的就是这个问题。这个问题更像你刚才说的,偏哲学。
我还得问你,因为你们在训练最新的模型,你比别人更早看到模型的新能力。你最近在新模型里看到哪些 “涌现行为”,让你在产品和公司运营上产生了新想法?
Sam Altman:未来一年或两年内,模型的能力会让人非常震撼。我们还有很大的进步空间。就像从 GPT-3 到 GPT-4 的巨大飞跃一样,企业现在能做很多以前根本做不到的事。
比如,如果你是芯片设计公司,你可以让模型为你设计出比你亲自设计的还要好的芯片;如果你是生物科技公司在攻克疾病,也可以让模型直接去攻关。这些其实离我们并不远了。
这些模型可以理解你能给它的所有上下文,能接入所有工具和系统,然后用极其聪明的推理给你答案,而且够稳定可靠,能让你放心地让它自动去做一些事。我以前没想到这一切会这么快到来,但现在真的很近了。
主持人:你能不能跟大家分享一下,你觉得哪些知识领域现在已经可以被模型掌握,或者马上就能被掌握?比如我觉得自己算比较聪明,但我脑袋里可没有完美的物理模拟器,我怎么判断模型能做到什么?
Sam Altman:我喜欢的思路其实不是我们马上要发布的产品,而是一个 “理想模型”:体积很小,但推理能力超越人类,运行极快,有 1 万亿 Token 的上下文,能接入你能想象到的所有工具。所以无论是什么问题,模型里面有没有相关知识其实都不重要。
用模型当数据库其实挺荒唐的,又慢又贵还容易出错。但厉害的是它们的推理能力。如果你把它当成 “推理引擎”,把所有可能的业务、生活上下文都扔进去,再接入各种模拟器和工具,人类能做的事情其实会大大拓展。我觉得我们大方向就是朝这个目标前进。
主持人:非常精彩。我想问你们一个稍微天马行空的问题:如果你们拥有 1000 倍于现在的算力,本来我想说 “无限算力”,但那有点太离谱了,那你们会怎么利用这些算力?
Sam Altman:如果我有 1000 倍的算力,最合理的做法可能不是直接拿它来做某个具体的事情,而是先用这些算力让 AI 自己去研究、去进步,先造出比现在更强的 AI。然后,我再去问这个更厉害的 AI,你觉得我们应该怎么用这堆算力最合适?
主持人:让 AI 来解决你最难的问题?
Sam Altman:我觉得这其实是最理性的做法。
主持人:这说明你是真的信任 AI 的判断,愿意把决定权交给它。
Sam Altman:其实现在我们在 ChatGPT 或企业用我们的最新模型时,已经能看到一种现象,就是如果你在推理或者推难题时多给模型一点算力,多试几次,可以得到更好的答案。
如果有家公司真的敢把 1000 倍的算力扔到每一个难题上,确实能得到很惊人的结果。当然现实里你不会真的这么做,也没有 1000 倍的算力。但现在这种 “可行性” 本身就挺有启发意义的。比如,你可以真的把最难、最有价值的难题,投入大量算力去反复尝试和优化。
主持人:Sridhar,你会不会也用 Snowflake 和算力去解决你们最难的问题?你职业生涯都围绕数据基础设施、搜索优化、Snowflake 的运营,是不是也会问 AI 这个问题?
Sridhar Ramaswamy:我觉得用大量算力这样做挺酷的。但我也想给个和我们科技圈不一样的答案。你知道,有个叫 RNome Project 的项目,类似我们二十年前做的 DNA 测序,但它是关于 RNA 表达的。
结果发现,RNA 控制了我们体内蛋白质的运作。如果你能完全弄清楚 RNA 是怎么调控 DNA 表达的,可能就能攻克很多疾病,让人类进步很多。如果能把所有算力都用在这类项目上,尤其是用语言模型来研究,就像当年做 DNA 项目一样,那肯定是很酷的成果。
主持人:这确实非常令人振奋,而且也是人类面临的重大难题之一。
Sridhar Ramaswamy :谢谢你,Sarah,谢谢大家。
文章来自微信公众号“AI产品阿颖”,作者是“阿颖”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner