喝点VC｜a16z对话Replit创始人：最后要抽象掉的就是代码本身；语法对人类来说是反直觉的。所以最终英语才是编程语言

9371点击 2025-11-06 14:58

Z Highlights

“用户”这个身份从人类转移到了Agent本身。换句话说，现在真正写代码的“程序员”，已经不再是人类，而是AI。

我们现在在做的Agent4，就是希望明年你坐在Replit前，不只是操控一个Agent，而是同时发射多个Agent。

如果你想构建一种真正的人工智能——它可以被放入任何领域，比如放进一辆汽车里，几乎不需要预先知识，然后在几个月内就能像人类一样熟练地学会驾驶。这种智能需要具备泛化技能获取、泛化理解能力和泛化推理能力。

Amjad Masad是AI编程平台Replit的创始人兼CEO，曾担任Codecademy的创始工程师，Facebook的JavaScript基础设施团队技术主管。本次访谈发布于2025年10月，为a16z合伙人Marc Andreessen与Amjad共同探讨AI Agent如何重塑编程。

AI编程的“新入口”：Replit让每个人都能写软件

Marc Andreessen：我们现在正在面对一种几年前我们都觉得不可能存在的魔法。也许五年前、肯定十年前，没人会相信这能做到。这是史上最令人惊叹的科技，它发展得非常快，但我们依然会感到失望——觉得它还不够快，甚至有点像是要停滞了。我们此刻应该既超级兴奋，又近乎绝望。因为，那趟“红利列车”似乎要到站了。

Amjad Masad：它确实更快了，但还没到那种“电脑速度”的程度，对吧？就是我们期望电脑能有的速度。它更像是在看一个人工作——就像在看John Carmack打了兴奋剂一样。

Marc Andreessen：世界上最强的程序员，在兴奋剂的作用下。

Amjad Masad：对，就是那样。

Marc Andreessen：那我们就从假设开始——假设我只是一个新手程序员，也许我是个学生，或者只是上过几节编程课，稍微折腾过一些小项目。又或者，我只是在Excel里写过几个macro。但总之，我不是那种“编程工匠级”的人。这时候有人告诉我关于Replit的事——尤其是带AI的Replit。那么当我现在打开Replit时，会是什么体验？

Amjad Masad：不论是完全没编程经验还是有一点点经验的用户，体验其实是差不多的。我们做的第一件事，就是把所有开发环境配置这些“杂事”都去掉，让你直接专注在想法本身上。所以你要想清楚：你想做什么？要做一个产品？解决一个问题？做个数据可视化？Prompt框是完全开放的。你可以输入任何内容，比如说，你有个创业的想法。我会先写一段描述，大概一段话，说明我想做什么，Agent会读这段话。

Marc Andreessen：你只要直接打出来就行，用普通英语写。你只需要写类似：“I want to sell crepes.” “I want to sell crepes online.”

Amjad Masad：你就直接这么打，哪怕只有四五个单词也行。如果你对某种编程语言或Stack有偏好，也可以指定。但我们其实更希望你不要，因为系统会自动为你选最合适的技术栈。比如如果是 Data App，我们会选Python、Streamlit之类的；如果是Web App，我们会选JavaScript、Postgres等。所以你只要打出想法就好。

Marc Andreessen：你也可以自己指定。比如说，“我在学校学Python，我想用Python做。”

Amjad Masad：完全没问题。Replit最酷的一点是，我们已经存在将近10年了。我们从一开始就构建了可以运行任何编程语言的基础架构。所以如果你习惯用Python，直接用就行。

Marc Andreessen：所以整个过程都可以用英文操作？

Amjad Masad：对，全程用英文。回想一下背景：十年前（或者七年前）我来向你展示的时候，我们其实就在描述今天这个未来——每个人都能写软件。但阻碍他们的，是Fred Brooks所说的“偶然复杂度”。真正的“本质复杂度”是：如何让创业项目落地、如何把生意做起来。而“偶然复杂度”则是：我该用哪个软件包管理器？如何配置环境？我们这些年一直在抽象化这些复杂性。最后剩下要抽象掉的，就是代码本身。我去年有个顿悟：我们虽然已经构建了一个很棒的平台，但业务表现不够好。原因就在于——代码是瓶颈。没错，其他问题也重要，但语法仍然是障碍。语法对人类来说是反直觉的。所以最终英语才是编程语言。

Marc Andreessen：那它现在支持英语以外的语言吗？

Amjad Masad：支持。比如日语，很多日本用户在用，非常受欢迎。

Marc Andreessen：AI支持所有语言吗？还是要为每种语言定制？

Amjad Masad：主流语言基本都支持。凡是有上亿人使用的语言，AI表现都不错。我最近出于某种原因做了点历史研究，只是想理解我们现在所处的特殊时刻。我读到Grace Hopper的一句话。我们都知道她发明了编译器。在她的时代，人们还在写机器码——那是程序员的日常。她说：“专家永远是专家，他们必须理解计算机的底层结构。但我想看到一个世界，人们能用英语编程。”那是75年前的事——比Karpathy早太多了。她发明编译器的初衷，就是这个。在她看来，C语言已经是“英语编程”了。但那只是起点。后来我们又有了更高层的语言：Python、JavaScript。而我们现在正处在下一个阶段：从输入语法，进化到输入思维。这正是我们最终想要的。

Marc Andreessen：机器来写代码。

Amjad Masad：对，机器写代码。没错。

Marc Andreessen：你可能没经历过，但我小时候，那时已经有高级语言了，比如BASIC、FORTRAN、C。但依然有人在写汇编语言。而且现在一些游戏公司还在写汇编，追求极致性能。

Amjad Masad：那时写汇编的人还会瞧不起写BASIC的人。

Marc Andreessen：而更早的老程序员又会瞧不起写汇编的人，说他们不写机器码、不写零和一。汇编语言其实是一种低级语言，会被编译成机器码。对大多数程序员来说，那几乎是乱码。你要写八进制、直接对硬件操作。但即便如此，它仍然是一种“语言”，最终会被编译成0和1。而“真正的程序员”，在他们看来，就是直接写0和1。这种“鄙视链”一直存在。老手总是看不起新人，说他们不懂机器、不懂底层。但事实是，每一代更高层的抽象，都在让编程大众化。

Amjad Masad：最讽刺的是，我自己就是JavaScript革命的一部分。我在加入Facebook并创立Replit之前，我们构建了现代JavaScript Stack，包括React，js和相关工具。当时我们也被一堆程序员骂，说应该直接写原生JavaScript。但结果呢？现在这些人靠我们那一代的创新吃饭，又开始嫌弃这波新的变革。人类啊，真是永远不变。

Marc Andreessen：好，继续。你打完“I want to sell crepes online”之类的Prompt后，会发生什么？

Amjad Masad：Replit的Agent会解析你的输入，建立一个与你的共同理解。目前UI这块还有很多可以改进的地方，但现在它会先展示一份任务列表。比如说：“我要创建数据库（因为你要存数据）、我要设置Shopify或Stripe（因为要收款）”。然后它会问你两个选项：你想先从设计开始、反复迭代？还是直接构建完整产品？如果你选后者，Agent就会自动跑20～40分钟：创建数据库、做迁移、写SQL、搭建前端、测试。

我们最近在Agent3上做的一项创新是：当它写完软件之后，会自动启动一个浏览器，在浏览器中进行测试。发现任何问题后，它会自行迭代、修复代码。整个过程大约花20到30分钟。完成后我会给你发通知，告诉你应用已经准备好了。你可以在手机上测试，也可以回到电脑上查看。也许你会发现一个bug或一些问题，然后把它描述给Agent，说：“嘿，这个和我预期的不太一样。”如果一切都完美，那就好了，整个流程只用了大约二十分钟。

顺便说一句，现在已经有很多例子显示，人们只需要二三十分钟就能把自己的想法变成现实，真的很惊人。然后你只需点击“发布”，再点几下，应用就会上线到云端——我们会在云端为你配置虚拟机、部署数据库，一切都自动完成，你现在就拥有了一个正式运行的生产数据库。想想就在两三年前，要达到这个步骤需要多少工作：你得先搭建本地开发环境、注册AWS账户、配置数据库和虚拟机、创建整套部署流水线——而现在，这些全都为你自动完成。如今，一个孩子，或者完全没有技术背景的人，也能做到这些。如果你是程序员，还想看看Agent干了什么，Replit的酷之处在于：它本质上还是个IDE。你可以打开文件树、查看源码、用Git、推到GitHub、连自己的编辑器、甚至用Emacs。所以Replit一方面是个能抽象掉复杂性的AI编程平台，另一方面又让所有底层结构都透明、可探索。

Marc Andreessen：好的。那我们回到刚才你提到的那个点——你说，当用户输入想法后，Agent会返回一份任务清单。你刚才描述的，“我要做这个、我要做那个”，其实执行者并不是用户本人，对吧？Agent会列出它要执行的任务，然后它真的去执行这些任务。

Amjad Masad：没错，Agent真正执行这些操作。这是一个非常关键的点。当我们在Replit内部做出这种转变时，我们其实一开始没有意识到一个巨大变化：“用户”这个身份从人类转移到了Agent本身。换句话说，现在真正写代码的“程序员”，已经不再是人类，而是AI。有件很好玩的事：我们之前在亚洲设有服务器，目的是为了让印度、日本等地区用户访问更快。可当我们上线Agent后，他们的体验反而变糟了。我们很困惑：这不是应该更快吗？结果发现原因是——这些AI都在美国的服务器上运行。所以真正的“程序员”其实在美国。也就是说，用户的请求被发给在美国运行的AI程序员，而它又要远程调用世界另一端的计算资源。所以没错，现在的程序员其实是Agent。

Marc Andreessen：换句话说，在新的术语体系中，Agent是一个软件程序，它像人类用户一样使用系统，但它不是人，而是一个bot。

Amjad Masad：对。它能访问多种工具，比如写文件、编辑文件、删除文件、搜索包、安装依赖包、配置数据库、配置对象存储等等。它具备完整的编程工具链与接口。它的接口设计与人类程序员非常相似。

Marc Andreessen：我们稍后还会聊到这点，但在整个AI行业内部，关于“Agent是否能代替人完成任务并自主执行使命”这一话题，一直存在争论。拥有一个能完成简单任务的AI Agent本身已经是重大突破，而让它能完成复杂任务，则是过去八十年来最艰难的技术挑战之一。问题是：Agent能否自主运行5分钟、15分钟、1小时、甚至8小时？也就是：它能维持多长时间的连贯性？它到底能在完全掌控自身“认知能力”的状态下维持多久，而不至于失控或跑偏？在早期的Agent或早期AI中，你可能让它跑个几分钟，它就开始混乱、偏题、陷入“rabbit hole”，逻辑崩坏。但最近我们看到，它们已经能持续运行更久，完成更复杂的任务。那么现在Agent的持续时间和任务复杂度，大概发展到什么水平了？

Amjad Masad：是的，这正是我们自2023年以来关注的核心指标。我在四五年前就有“软件Agent”这个想法。可每次尝试都遇到同一个问题：连贯性。它们能正常运行一两分钟，但随后错误会不断累积，最后崩溃。

Marc Andreessen：你实际上能“看到”这种状态——AI会变得越来越困惑，甚至“精神错乱”。

AI长时推理：从几分钟到数小时，关键技术在于“验证环路”

Amjad Masad：它们会进入一些莫名其妙的状态，有时甚至突然开始说中文，行为非常怪异。不过，我想大约在去年的时候，我们突破了三到五分钟的连贯时长。这让我们意识到：长时推理（long-horizon reasoning）这件事，似乎正在被攻克。于是我们下了赌注。

Marc Andreessen：等一下，“长时推理”是指长时间、多步骤的逻辑推理，对吗？

Amjad Masad：没错。比如LLM的工作原理，是依赖context。这个context实际上就是它的记忆空间：包括所有的文本、所有的Prompt，还有它在思考时的内部对话。当AI在推理时，它其实在“自言自语”。比如：“我现在要建一个数据库。那我有什么工具？哦，这里有个Postgres工具，我试试看。执行一下，收到反馈，读反馈，理解反馈。”这些输入——用户输入、环境输入、机器内部思考——全都存在同一个context里，类似一个程序的内存空间。

过去，如何在这个context中保持连贯，是最大挑战。AI常常会“跑偏”。而现在它们能在整个推理过程中保持一致的思考方向。我们还引入了“context压缩”技术，因为context长度仍然是限制。如今LLM号称能处理百万Token，但实际上大约到20万Token时就开始吃力。所以我们会定期SOP（summary-of-prompt）和压缩记忆。比如数据库日志那种内容，我们可以把几段日志总结成一句：“数据库已初始化。”这样每隔一段时间压缩一次context，以维持连贯性。也就是说，除了基础模型的改进之外，在系统层面我们也做了大量创新，以支撑长上下文的稳定推理。

Marc Andreessen：那你认为，在基础模型层面，实现这一切的关键技术突破是什么？

Amjad Masad：是强化学习。在传统训练中，LLM的第一阶段是预训练——读入一段文本，遮住最后一个词，然后预测它。这种方式虽然让模型学会语言，但并不具备长程推理能力。我们一直无法突破瓶颈，是因为这种训练范式不支持真正的“基于长context的问题求解”。而“基于代码执行的强化学习”带来的关键突破，是让模型能够在实际环境中展开trajectory（轨迹）。所谓trajectory，就是为达到一个目标而进行的多步推理链。

在强化学习训练中，我们把LLM放进一个类似Replit的编程环境，对它说：“这是一个代码库，这里有个bug，请修复它。”人类训练师已经知道正确解，比如我们在GitHub上有对应的拉取请求，或有可验证的单元测试。模型会生成大量trajectory，只有少数能真正修好bug，其他的都会跑偏。而成功的那个trajectory会得到奖励，模型因此学会：“原来这就是解决问题的方式。”就是这样，我们成功地延长了模型的推理链。

Marc Andreessen：那这其实是一个两部分的问题：第一，模型目前在长链推理方面的表现到底有多好？第二，我们又是如何知道的？也就是说，这个标准是怎么确立的？

Amjad Masad：有一个名为Meter的非营利组织，他们设计了一种基准测试，用来衡量一个模型在保持连贯性并执行有用任务（无论是编程还是其他标准任务）时，能够持续运行多长时间。他们在去年年底发表了一篇论文，指出模型在保持连贯运行的时长大约每七个月就会翻倍——从两分钟到四分钟，仅需七个月。他们严重低估了增长速度。现在的翻倍速度远远快于七个月。

我们在Agent3项目中对此进行了非常密切的监测，我们用真实用户的真实任务来衡量，而不是做基准测试。我们实际上在做A/B测试，并观察用户是否能成功完成任务。对我们来说，最直接的成功标志是：你做出了一个应用并发布了它。因为发布意味着你愿意为此支付额外费用，也就是说，这个应用在经济上是有用的，这是最明确的衡量方式。因此我们观察到，在Agent1阶段，Agent可以运行两分钟，然后开始吃力；二月份推出的Agent2能运行二十分钟；而Agent3能运行两百分钟。一些用户甚至能让它持续运行十二个小时之久。我对那种极端时长的表现没有那么自信，但在两到三个小时的时间范围内，它的表现极其出色。

除了模型本身，主要的创新来自“验证环路”。我记得读过一篇来自NVIDIA的研究论文。NVIDIA当时尝试用DeepSeek来编写GPU内核，那大概是七个月前DeepSeek发布时的研究。他们发现，如果在循环中加入一个验证器，即可以运行内核并验证其是否工作，那么就可以让DeepSeek持续运行约二十分钟，并生成真正优化过的内核。于是我意识到，接下来我们显然也需要这样做。虽然我们不是在做基础模型层面的研究，而更像是一个Agent实验室或应用开发公司，但我们在此基础上进行大量创新研究。我们知道现在的Agent可以运行十到二十分钟，或者说LLMs能够在更长时间内保持连贯，但如果你想把它推进到两百、三百分钟，就必须让验证器加入循环。因此我们花了大量时间构建所谓的“脚手架”，让Agent能够启动浏览器，进行类似人类使用电脑的测试。一旦你把验证环节加进去，系统的运作方式就变成：它工作二十分钟，然后启动另一个Agent，打开浏览器，测试前一个Agent的工作。这就变成了一个多代理系统。如果发现了bug，它就会开启一个新的推理trajectory，并总结道：“好样的，让我们回顾一下你在过去二十分钟所做的事。”接着把上一步的总结和发现的bug一起输入，生成新的推理起点。这样一层层叠加下去，系统就能无止境地延展。

Marc Andreessen：就像是一场接力马拉松，只要每一棒都跑得正确，就可以无限地继续下去。

Amjad Masad：没错。而且你可以把前一步的内容压缩成一个段落，用作下一个Agent的Prompt，于是代理之间相互提示。太棒了。

Marc Andreessen：当一个现代代理——基于最新LLMs并经过这种方式训练的代理——运行约200分钟时，如果你观察它的运行过程，它的逻辑处理和任务推进速度，是和人类一样、比人类慢，还是更快？

Amjad Masad：其实，我会说，它更快一些，但并没有快得离谱。它不是那种“计算机速度”，不是我们印象中机器的那种超高速。

Marc Andreessen：看起来更像是在看一个人工作——如果它会描述自己的过程，那就像在看一个人埋头写代码。

Amjad Masad：就像在看John Carmack打了兴奋剂后工作一样。

Marc Andreessen：世界上最顶尖的程序员在兴奋状态下，为你工作。

Amjad Masad：对，它速度非常快，你能看到文件差异在快速滚动。但每隔一段时间，它会停下来思考。它会展示自己的推理过程，比如：“我做了这个，也做了那个。我现在走在正确的方向上吗？”它会进行反思。然后它可能审查自己的工作，决定下一步，或者调用测试Agent继续执行。所以你可以看到它完成所有这些动作，每隔一段时间它会调用一个工具，比如，它会停下来表示：“我们遇到问题了，Postgres15不兼容我现在使用的这个数据库ORM包。”然后说：“好吧，这个问题我以前没见过，我去搜一下资料。”于是它会调用网页搜索工具去查找，看起来就像一个真正的人类程序员。这真的很有趣。我最喜欢的事情之一就是观察这些工具链、推理链和测试链的运作。这确实就像在看一个超高效率的程序员在工作。

Marc Andreessen：我们现在其实已经接近AI的“圣杯”——机器实现广义推理。

你刚才几次提到了“验证（verification）”这个概念。那我来为播客里可能不太了解技术细节的听众总结一下，看我理解对不对。最早的语言模型，比如两年前你第一次用ChatGPT时，你会觉得它在语言上极其流畅，能写莎士比亚风格的十四行诗，也能写说唱歌词，甚至能像人类一样对话，这非常惊人。

但当你开始让它解决一些需要理性思考或问题求解的任务——比如数学题——它就彻底崩溃。在最初的阶段，你让它解一些很基础的数学题，它都做不对。即使后来它能处理简单加法，但遇到更大的数字就不行。就算能加大数，它也不会乘法。还有一个著名的例子叫“草莓测试”：问“strawberry”这个单词里有几个字母R？没错。在很长一段时间里，它老是答错。它会说有两个R，而实际上有三个。当时人们甚至用了一个带点讽刺性的词来形容这种东西——叫做“随机鹦鹉（stochastic parrot）”。

Amjad Masad：我当时在想“clanker”这个词。

Marc Andreessen：“clanker”是新的侮辱词，完全就是针对AI的种族歧视用语。大概是因为AI已经被当作一个“物种”了吧。不过，当时的技术性批评是所谓的“随机鹦鹉”问题。“stochastic”意思是随机的，所以“stochastic parrot”就是“随机鹦鹉”——意思是，这些大型语言模型就像一种幻象，它们只是随机地复述那些它们“认为”你想听的话，但其实并没有真正理解。

Amjad Masad：而且某种程度上，这种说法在纯预训练的LLM阶段，确实是对的。

Marc Andreessen：没错，在最基础层面上确实如此。但正如你所说，在过去一年中，强化学习开始被叠加上去。

Amjad Masad：这并不是新技术，本质上就是AlphaGo。AlphaGo的突破是在2015或2016年，它结合了当时AI领域两派的思路——连接主义认为神经网络是实现智能的关键，而符号主义认为逻辑规则和知识库才是关键。AlphaGo把两者结合了起来。它使用神经网络生成一系列潜在走法，然后通过蒙特卡洛树搜索算法进行筛选，找出最优走法。这其实就是在验证环中加入一个“验证器”的过程——通过经典算法验证哪个选择更优。这一理念现在正在复兴：我们已经拥有强大的生成式神经网络，现在要在其上叠加离散的验证机制，让系统在训练环中学习“如何验证自己是否在做正确的事”。一旦加入这种机制，LLM就会获得新的能力，比如在数学和代码上的推理。

Marc Andreessen：完全正确。关键在于，为了让LLM能够真正推理，问题本身必须具备一个可验证的、明确的答案。比如在医学中，这可能是一个医生小组一致认可的诊断结果，或者确实能治愈疾病的诊断；在法律中，则可能是一项能说服陪审团并导致无罪判决的论证；在数学中，就是一个能正确求解的方程；在物理中，是一个能在现实中成立的结果；在土木工程中，则是一座不会坍塌的桥。换句话说，总有一种“验证测试”存在。

Amjad Masad：不过前两类——法律和医疗——目前还不太适用，因为它们太模糊，太“软”，不像数学或代码那样明确。比如在数学训练中，他们使用一种可形式化验证的语言Lean来做证明。你可以运行Lean语句、运行代码、甚至物理仿真，但你无法运行一个诊断。

Marc Andreessen：不过你可以用人类的答案进行验证。

Amjad Masad：对，那是一种“半监督”方式，不是完全自动化的强化学习训练，因此可扩展性有限。这也是为什么vibe coding的进展比任何其他领域都快——因为我们可以即时生成问题并验证答案。

Marc Andreessen：但正如任何程序员都知道的，代码验证包含两个步骤：一是“能否编译”，二是“结果是否正确”。对。而且代码能编译并不代表逻辑正确。验证输出是否正确要难得多。

Amjad Masad：SWE-Bench就是一组经过验证的Pull Request最终状态，它不仅仅测试编译。科学家团队从GitHub上挑选出最复杂的仓库，找到清晰的bug报告，并匹配对应的修复Pull Request（含单元测试）。于是就形成了一个可供AI解题的现有语料库。去年模型在这些任务上的准确率大约只有5%，而现在Claude Sonnet4.5模型已经达到约82%，这是当前的最先进水平。这个进步非常陡峭。基本上，他们去GitHub上进行了查找，找到了那些最复杂的代码库，找到了描述非常清晰的漏洞说明。他们还找到了真正修复这些漏洞说明的Pull Requests，其中包含完整的单元测试等内容。因此，在GitHub上已经存在一个可供AI解决任务的现成语料库——而且这些任务也可以被进一步生成。不过这种方法并非无限可扩展，因为仍然需要人类验证者来审查任务。但也许基础模型公司会找到让合成训练数据完全自动化的方法。

Marc Andreessen：确实，如今一些公司甚至雇佣人类专家——数学家、物理学家、程序员——来人工生成高质量的训练数据。他们就像是“打了鸡血”的程序员，写出带有已知正确结果的代码，从而让强化学习循环能够正确训练。此外，这些公司还在构建系统，让软件本身自动生成训练数据、测试样本与验证结果，也就是所谓的“合成数据训练”。

Amjad Masad：不过，正如你说的，这种方法在那些“硬领域”非常有效，但在“软领域”仍然有限。不过我们确实能看到某种迁移学习的迹象，比如在“深度研究（deep research）”类工具上体现出推理能力，但进展速度远不如代码。

Marc Andreessen：所谓“软领域”，指的是那些很难、甚至不可能以一种确定的、基于事实且无争议的方式来验证结果正确性的领域。

Amjad Masad：比如在慢性疾病的情境下——你可能患有POTS（体位性心动过速综合征）或者EDS（埃勒斯-当洛综合征）之类的疾病——这些疾病往往是一种症状群或模糊的集合。这是因为这些领域属于抽象范畴，不像代码或数学那样具体可验证。所以在这类领域，我们仍然还有很长的路要走。

Marc Andreessen：换句话说，问题越“具体”，进展越快；关键变量是“具体性”，而非“难度”。

Amjad Masad：没错。具体性指的是你能否得到一个可验证的真或假答案。

Marc Andreessen：在任何能验证结果正确与否的领域，我们都能预期看到极快的进步。而这当然包括数学、物理、化学，以及大部分软件工程。那还包括什么？

Amjad Masad：生物学，比如蛋白质结构、基因组学等。还有机器人学的一些方向——那里也有明确的结果。不过其实这种“硬领域”数量没那么多。

AGI的幻象：“在所有方面都能超越人类的智能系统”

Marc Andreessen：取决于你怎么看，有人会说已经够多了。你刚才提到改进速度，那接下来几年我们应该期待怎样的增长？

Amjad Masad：代码领域会呈爆炸式增长。我们现在在做的Agent4，就是希望到明年你坐在Replit前，不只是操控一个Agent，而是同时发射多个Agent。比如你计划一个新功能：“我要在我的店铺上增加一个社交网络”，或者“重构数据库”，你就可以让5到10个Agent并行在后台协作、合并代码，AI会帮你完成所有管理。同时你还有一个漂亮的可视化界面，通过图形和图表与AI创意互动。这就是多模态交互的方向。软件创作将成为一个极其令人兴奋的领域。普通人将能达到当今Google高级工程师的开发水平。这很快就会实现。不过我也很好奇你的看法——在医疗、写作或创意这些领域，我还没看到像代码那样的快速提升。所以编程领域的发展正要“起飞”。数学领域可能也属于这一类。一些科学领域，比如生物学之类的，也会发展得非常快。

Marc Andreessen：是的，这里其实存在一种很奇怪的动态——看看你是否认同这一点，Erik，我也很好奇你的看法。这种奇怪的动态我们在办公室里经常遇到，我在和前沿创业者交流时也常常感受到。那种感觉就是：哇，这是有史以来最惊人的技术，它的进步速度极快，但我们同时又感到非常失望。就好像——它还不够快，似乎正处在即将停滞的边缘。我们一方面应该对它无比兴奋，但另一方面又几乎要崩溃，因为“好日子”似乎就要到头了。

我常常在想，一方面，比如说，不是所有的项目都能登月。就算某个东西看起来能行，也不代表它就能真正扩展到大规模应用、在最大程度上发挥效能。所以我们必须认识到现实的局限性，而不是一味地把趋势外推到无限远。但另一方面，我们现在所面对的技术几乎像是魔法——是那种五年前、甚至十年前我们都以为不可能实现的东西。说真的，我在八十年代末九十年代初拿到计算机科学学位时，根本没想过自己有生之年能看到这一切。现在这些真的发生在我有生之年，实在令人震撼。

Amjad Masad：不过，如今有一个巨大的赌注押在“通用人工智能（AGI）”上。不管是基础模型还是其他方向，现在几乎整个美国经济都在押注AGI。而关键问题是：我们真的在通往AGI的路上吗？因为从某些迹象来看，我们似乎并没有。比如说，不同领域之间似乎没有明显的迁移学习能力。换句话说，当我们在代码生成上有显著提升时，我们并没有自动在“通用推理”上变得更好。我们仍然需要针对生物、化学、物理、数学、法律等不同领域重新收集训练数据，搭建专属环境。

这正是最近AI社区讨论的焦点之一——在Dwarkesh对Richard Sutton的采访之后。Sutton在那次谈话中对所谓的“痛苦的教训”泼了一盆冷水。这个“痛苦的教训”来自他早年的论文，核心观点是：AI研究存在一种可以无限扩展的方式——只要投入更多算力和数据，就能持续获得性能提升，这才是通向AGI的最终路径。但有些人从那次采访中解读出，也许Sutton自己都开始怀疑，我们现在是否还在那条“痛苦的教训”之路上。也许当前的训练范式反而完全相反——我们过于依赖人类数据、人类标注以及各种人为输入。对此，我是同意的。作为一家公司，我们当然对未来充满期待，但同时也不得不提出疑问：我们真的走在通往AGI的轨道上吗？你怎么看？

Marc Andreessen：再比如Ilya Sutskever提出的一个具体论点：我们其实正在耗尽训练数据。他把这称为“化石燃料式论点”。也就是说，我们已经“吸干”了互联网上几乎所有的数据——那几乎就是目前全部的数据来源。也许还有一些数据存在于某些“私有暗池”中，我们还能去获取一点，但本质上，我们已经用尽了大部分可用数据。于是我们现在进入了“生成新数据”的阶段——但生成数据比从互联网上“吸取”要困难得多、昂贵得多。当然，讨论到这里，就很容易陷入定义的泥潭，比如你刚才提到的迁移学习。迁移学习指的是机器能够在一个领域成为专家，然后把这种能力推广到另一个领域。我的回答是：你见过人类迁移学习吗？你认识多少人真正能做到迁移学习？其实不多吧？

Amjad Masad：往往是这样——一个人越擅长某个领域，在其他领域就越容易出现盲区。

Erik Torenberg：我们经常开玩笑说，每个人都有“短板区”，在某个方向上非常聪明，但在另一个方向上可能会犯离谱的错误。

Marc Andreessen：这在人类的“公共知识分子”中尤其常见。比如那些上电视的专家，他们可能是经济学专家，但他们会上电视谈政治——而其实对政治一无所知；或者他们谈医学、谈法律、谈计算机，全都外行。保罗·克鲁格曼曾说过“互联网不会比传真机更重要”，这就是个典型例子。他是一位出色的经济学家，但完全不了解计算机的运作。当然，“他真的是一位出色的经济学家吗？”这是另一个问题。即便他是，也说明不了他能正确预测互联网的影响。

Amjad Masad：所以，从某种意义上说，你刚才提出的观点其实很有意思——也许我们现在的 AI，已经达到了“人类水平”。我想，也许AGI的定义本身就是完全不同的——也许它指的是超越人类水平、能真正跨领域泛化的智能。而那种东西，我们至今还没有见到。

Marc Andreessen：是的，就像我刚才说的，我们已经把AGI理想化了。我们当然应该志向远大，但我们设定的这个目标，可能已经理想化到一种程度——它远远超出了人类的能力范畴，以至于用人类来做比较都已不再有意义。传统上，AGI的定义是“在所有方面都能超越人类的智能系统”。但如果你想一想——假设人类几乎无法做到迁移学习，那么即使AI只做到了一点点、哪怕只是略有改善，也可能已经比人类强；或者反过来说，这点提升根本不重要，因为没有人类能做到。所以，你只能不断地“堆叠”不同领域的能力。

AI领域中还有一个广为人知的现象，科学家和工程师们经常抱怨——那就是“AI的定义总是下一个机器还做不到的东西”。比如，过去很长一段时间，人们认为“能在国际象棋上打败人类”才算是真正的人工智能。可是一旦机器真的能打败人类了，这件事立刻就不再被认为是AI，而只是“无聊的电脑象棋”。后来“电脑象棋”甚至变成了一个单独的学科领域，它成了一门学问，但再也没人觉得那是“智能”了。现在它只是你iPhone上的一个应用，没人再关心它。

接着，人们又把“图灵测试”作为判断AI的标准。可是我们通过图灵测试那天，却没人庆祝——没有派对，没有报道。这太讽刺了——图灵测试作为标准存在了八十年，人们还为它拍了电影，可是真正通过的时候，却没人注意到，没人认为那值得称赞。大家只是说：“这玩意儿还是没什么用。”因此，AI科学家常常抱怨，他们的研究成果总是被忽略——人们只看机器还做不到的事，而不承认它们已经做到的那些。但反过来，这也说明科学家们往往为自己设定了不合理的目标，并在过程中不断自我鞭策、自我否定。我也常在想——这种心理到底是好事还是坏事？

Amjad Masad：是啊，这确实是个很有意思的问题。我开始思考，也许AGI的定义本身并不那么重要。我对AGI的定义是：一个AI系统能够被放入任何环境中，快速而高效地学习——不需要太多先验知识，同时还能将学到的知识迁移到不同领域。不过，我们也可以先追求“功能型AGI”。所谓功能型AGI，就是收集全世界各类有经济价值的活动数据，然后在这些数据之上训练一个大型语言模型，或者在已有的基础模型上进行微调。这样我们就可以逐步覆盖各个经济领域，从而自动化掉相当一部分劳动力。我们确实正沿着这条路前进。

Erik Torenberg：对了，你在GPT-5发布之后发过推特，说你感受到“收益递减”。你当时的预期是什么？我们是否需要新的突破，才能恢复之前的增长速度？

Amjad Masad：这正是我们现在讨论的问题。我的感觉是，GPT-5在可验证领域（比如编程、逻辑推理等）确实进步很大，但在其他方面——尤其是“人性化”层面——反而退步了。因此你看到Reddit上出现了那种“举着干草叉反抗”的情绪，很多人对Sam和OpenAI感到不满，因为他们觉得“失去了一个朋友”。GPT-4感觉更有人味、更亲近；而GPT-5则显得更机械、更理性，像是“活在自己脑子里”的模型，试图事事都深度推理。所以我原本期待的是——像从GPT-2到GPT-3那样的跨越，当时的提升是显而易见的，它变得更像人、更能理解世界。从3到4也是这样，但从4到5，就不像是“更好的存在”了。

Marc Andreessen：那是不是意味着，它在人性或情感上退化了？

Amjad Masad：部分是情感方面，但也不仅如此。我喜欢让模型回答一些非常有争议的问题，你几乎不会看到差异。它们都无法真正进行开放性的推理、共同探索“真相”。这个问题至今没有明确答案，而模型似乎也没在这方面变得更好。你经常用这些模型，你有这种感觉吗？

Marc Andreessen：我用得方式不太一样，也许我的预期不同。我主要把它当作“随时待命的博士”，用于解释问题，而不是聊天。对我来说，这方面的提升倒是非常显著。尤其是当我使用GPT-5 Pro加上深度推理或Grok 4 Heavy这类最高端模型时，它们几乎可以按需生成30～40页的完整书面报告，针对任何主题。每当我好奇一个问题，比如：“当一个发达经济体对原材料或制成品征收关税时，究竟是谁在承担成本？消费者？进口商？出口商？还是生产者？”这是一个极其复杂的问题，经济学家研究了几十年。在这种问题上，模型的表现令人惊艳。

Amjad Masad：它能从网上获取信息，进行整合、分析

Marc Andreessen：并生成一份30～40页的综合报告（通常上限是40页PDF）。我交叉验证过，内容极其连贯、逻辑严密，几乎达到了世界级学术水平。如果我雇一个斯坦福的经济学博士后来研究这个问题，结果可能也不过如此。

Amjad Masad：当然，这属于知识综合，而不是创造全新的知识。

Marc Andreessen：但这就引出了一个哲学问题：那又怎样？人类在回答问题时，又有多少真正的“新知识”呢？我们期待AI给出的答案，其实就是一种最清晰、最复杂、最完整的解释。从这个意义上说，AI写出的那份40页报告——流畅、连贯、逻辑完备——就像一本书。如果你让人类作者写出那样的作品，你会说：“这是一位优秀的作家。”而作者写书的过程，也未必是“创造新知识”，更多是在整合前人的成果。但写书本身仍是一种创造行为。

Amjad Masad：正因如此，我特别希望AI能帮助我们解决一个当下的重大问题——信息生态的混乱。现在所有东西都像是宣传，真相似乎无处可寻。我真的希望有一种AI，能帮我从“第一性原理”出发去推理，帮助我理解这个世界上正在发生的真实事情。也许这对AI研究者来说是个不切实际的要求，但我们在这方面几乎没有取得任何进展。

Marc Andreessen：也许是我过于执着——也许因为我的工作性质，我太专注于“与人辩论”，而不是“追求底层真理”。我在使用这些模型时常做的一件事是，让它们去持有一个具有挑衅性的观点，然后强化这个立场。比如拿“COVID起源”这个话题来说——我会让模型去强化论证支持“实验室泄漏”的论点，再强化论证一次“自然起源”的论点我常常这样成对使用这个方法。每次的结果都非常惊人——每一方都能写出大约三十页、结构完备、论据充分、逻辑紧密的论证文本，让人觉得“这可能是我见过的最有说服力的论点”。

Amjad Masad：但之所以过去没人这样做，是因为讨论“人造起源”这件事曾经是禁忌话题。当时如果你谈论这个话题，模型会用一种“你是阴谋论者”的口吻来“教育”你。有一段时间，AI确实无法对这种高度争议性话题进行推理——因为LHF（Learning from Human Feedback）等机制以及各种安全限制会直接干预它的思考。

Marc Andreessen：你也知道，现在依然有一些大型模型会在你提出敏感问题时“训诫”你，说你不该问这种问题。不过与此同时，也有一些模型已经变得非常开放，可以真正进行这类复杂、对抗性的推理了。从更大的层面上看，我们现在还没有一个真正好的方式去定义AGI。传统定义几乎都基于“与人类相比”的框架，这让我想到自动驾驶汽车的争论：“自动驾驶算成功吗？”——是因为它成为了完美驾驶员，还是因为它比人类驾驶更好？在我看来，后者才是真正有意义的突破，就像AI在国际象棋或围棋上的超越一样。当然，自动驾驶公司追求的是“完美驾驶员”，但我们最终要寻找的，是那辆知道自己该去哪儿的车。

Amjad Masad：我自己对此有两种心态：一方面是务实的创业者心态——即使今天停止AI的进一步发展，我们在App层和基础设施层上仍然能做很多创新。Replit这样的系统在未来五年内仍会持续进步，而基础模型也会不断增强。从产业角度看，这是一个令人兴奋的时代。另一方面，我又是一个对学术问题极感兴趣的人。从小时候起，我就着迷于意识与智能的本质，也读过很多AI理论文献。我会特别指向强化学习领域，比如Richard Sutton和DeepMind联合创始人Shane Legg曾发表过论文，尝试定义什么是AGI。他们给出的定义或许是最正确的——即：高效的持续学习。换句话说，如果你想构建一种真正的人工智能——它可以被放入任何领域，比如放进一辆汽车里，几乎不需要预先知识，然后在几个月内就能像人类一样熟练地学会驾驶。

Marc Andreessen：这种智能具备泛化技能获取、泛化理解能力和泛化推理能力。

Amjad Masad：真正实现这一点，才会彻底改变世界，也让我们对人类思维与意识有更深刻的理解，并推动人类文明进入新的阶段。从文明发展的层面看，这是个极其深刻的问题。与经济或产业进步不同，它涉及学术意义上的根本探索。如果我们现在坐在CalSheet上打个赌——我个人对“真正AGI的突破”其实是略偏悲观的。因为我们现有的系统已经极具经济价值与实用性。

Marc Andreessen：在某种意义上，“够好”反而成了创新的敌人。这就像陷入了一个局部最优陷阱。当前模型在经济上已经能创造大量价值，从而削弱了继续追求“通用解”的动力。

Amjad Masad：当然，仍有像Rich Sutton这样的人在坚持走那条更艰难的道路，也许他们最终会成功。但当前巨大的优化能量都集中在现有范式上，让整个行业在“爬局部山”。

Marc Andreessen：讽刺的是，全世界都担心那些巨额投资，担心AI带来的各种风险。但最讽刺的情况可能是——所有这些“天文数字的资金”，最终只是让我们在这个“局部最优点”上越挖越深。而不是投入到真正解决“通用智能问题”的方向。

Amjad Masad：当然，也可能这是合理的——也许“通用问题”的答案本就不在我们有生之年。

Erik Torenberg：那么，LLM是否已经榨干了最后一点潜力？还是说现在还有一些你特别感兴趣、值得期待的研究方向？

Amjad Masad：还没完全。虽然强化学习领域的突破已经被人熟知十多年，比如结合生成式系统与tree search的架构，但那条路仍然很长。我看到的趋势是，一些强化学习的原始思想家仍在尝试“从零自举智能”。像John Carmack那样的人，也在沿着这条路探索——他们没有走LLM路线。虽然目前看不到太多成果，但谁知道呢？也许此刻，推特上已经有一个bot悄悄存在，正在赢得所有争论；或者Reddit上有个账户，正默默生成着令人惊叹的软件。

Amjad黑客之路：从黑进学校系统到创建Replit

Marc Andreessen：我们剩下的时间聊聊你吧。你是怎么一路走到今天，怎么从出生一路到进入硅谷的？

Amjad Masad：我出生在约旦的安曼，父亲是政府部门的工程师。虽然家里不富裕，但他当时就意识到计算机的重要性，咬牙买了一台电脑——那是我们社区里第一台电脑。我六岁时看着他拆封机器，打开厚厚的手册，慢慢地输入命令：CD、LS、MKDIR……那是我对计算机的最初记忆：一台能精确执行人类意图的机器。

Marc Andreessen：来两片泰诺胶囊。

Amjad Masad：没错，自闭模式启动。那是一台IBM PC，大约是1993年的型号。那时还没有Windows，后来才买了安装盘，通过软盘加载系统。不过那时Windows上能做的事情不多，所以我大部分时间都在DOS下写批处理脚本、运行游戏、折腾系统。直到Windows 95和Visual Basic出现，我才开始写真正的软件。我当时是个重度玩家，经常去局域网游戏厅打Counter-Strike。那里到处都是电脑，但他们在经营上完全没有使用任何软件来管理业务。那时他们完全靠人工管理时间和收费，于是我萌生了写个软件自动化管理的想法。我当时大概12岁，花了两年时间写完，还真的卖了出去，赚了不少钱。记得麦当劳刚在约旦开业时，我请了整个班去吃麦当劳——那次我成了“有钱小孩”。那是我人生的第一个创业项目。

后来我开始接触AI，读了很多科幻作品。等到上大学时，我居然没选计算机科学，因为“coding马上要被自动化了”。那时已经有早期的code generation wizards，可以根据项目描述自动生成代码，我心想：“这事几乎已经被解决了，那我为什么还要去学编程？”于是我去读计算机工程，想着至少有人得造电脑。不过后来我又重新爱上了编程。读了很多关于Lisp的编程随笔，也玩过Scheme之类的语言。但那时学习新语言很痛苦——我没有笔记本，每次想学Python或Java都得去机房下几个G的安装包，还经常因为缺DLL运行失败。这太原始了。

2008年那会儿，我们已经有Google Docs、Gmail——软件都能在网页上运行了。我想：Web才是终极软件平台，一切都该跑在浏览器里。可没人做在线开发环境，于是我决定自己做。我花了几个小时做了个最简单的原型：一个文本框加一个“eval”按钮。输入JavaScript，点按钮，就能弹出alert框显示结果。我给朋友看，他们都开始用，我又加了“保存程序”等功能，大家都很喜欢。之后我又花了两三年的时间才真正做出点东西，因为浏览器只能运行JavaScript，而要突破这一点当时需要一次技术上的飞跃。

当时Mozilla有一个名为Emscripten的研究项目，它可以把像C、C++这样的编程语言编译成JavaScript。为了让浏览器能够运行像Python这样的语言，我需要把C，Python编译成JavaScript。而我也是全世界第一个做到这件事的人。于是我参与并贡献了那个项目，为它搭建了大量的底层支撑结构。后来我和朋友们一起把Python编译成了JavaScript，我心想：“我们已经让Python能跑了，那接下来就让其他语言也能跑吧。”这也就是Replit这个想法诞生的契机——当你需要一个Repl，你就应该能直接得到一个。你就该“Repl”。Repl是最原始、最基础的编程环境形式。于是我把各种编程语言都加进去了。那段时间我的朋友们一直在使用它，也非常兴奋。我当时活跃在GitHub上，我的一贯做法是：只要我写了一个应用或软件，我就会把它开源。所以我几乎把所有东西都开源了——花了好几年时间，专注在构建让代码能在浏览器中直接运行的底层基础设施。

然后这个项目就火了，在Hacker News上疯传，正好赶上了MOOC的时代。那时Udacity、Coursera、还有非常有名的Codecademy都陆续上线。Codecademy是第一个让人可以在浏览器里编写代码、交互式学习编程的网站。他们的很多系统其实都是建立在我开源的软件之上，而那时候我还在约旦。我记得我在Hacker News上看到他们项目火得不行，心想：“这我认识啊，这是我写的东西。”于是我在评论区留言说：“哦，你们在用我的开源包？”后来他们就联系我，说：“嘿，我们想聘请你。”我说我没兴趣，我想创业，想创立一个叫Replit的东西。他们说：“不不不，你应该来和我们一起工作，我们也能做类似的事情。”我还是拒绝了，最后我说：“那我可以和你们签合同吧。”他们付我每小时12美元，我当时还挺兴奋的。值得一提的是，他们真的亲自从约旦飞过来招我，待了几天。我一直在拒绝他们，最后他们给了一个我无法拒绝的条件，于是我去了。签证办好后，我就去了美国。

Marc Andreessen：你是哪年出生的？

Amjad Masad：1987。

Marc Andreessen：那你第一次觉得自己可能不会一辈子待在约旦、可能会搬去美国，是哪一年？

Amjad Masad：当我看了《硅谷海盗》的时候。大概是98年或99年吧，我也不太记得这电影是哪年出的。我还有一个对当今AI时代非常重要的教训：传统的、循规蹈矩的道路正在带来越来越少的回报。如今成长起来的孩子们应该充分利用一切可用的工具，去探索并开辟属于自己的道路。因为一味听从传统建议、重复前人走过的老路，已经没有过去那样奏效了。

Marc Andreessen：没错。谢谢你来参加这次播客。真棒。

原视频：Marc Andreessen & Amjad Masad on “Good Enough” AI, AGI, and the End of Coding

链接：https://www.youtube.com/watch?v=g-WeCOUYBrk

编译：Sylvia Zhang

文章来自于“Z Potentials”，作者 “a16z”。

关键词: AI , AI编程 , 人工智能 , AI访谈

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0