怎么判断模型、产品性能是否真的提升了?很简单,亲自用它实打实工作一天就知道了。
最近,Anthropic 官宣了一轮 130 亿美元的融资,公司估值达到 1830 亿美元,融资额仅次于 2025 年 3 月 OpenAI 历史性的 400 亿美元融资。
与此同时,这家也在经历新的考验:不少用户发现其王牌产品 ——Claude Code 存在降智问题,还有些开发者已经转向 OpenAI 推出的竞品 ——Codex Cli。
如果不考虑近期这些争议,其实 Claude Code 是一款非常成功的产品,它从 Cursor 那里抢走了大量用户,发布 4 个月用户就已经达到 11.5 万。
这个产品为什么可以取得成功?在最近的一次访谈中,Claude Code 负责人 Boris Cherny 透露了他们构建该产品的时的一些细节,包括极简易用、高度可扩展的产品理念,真实体感大于 benchmark 的评估标准,极致的用户反馈响应机制等。
视频链接:https://www.youtube.com/watch?v=iF9iV4xponk
以下是详细内容:
1、过去的 12 个月里,编程领域发生了哪些变化?
一年前,如果你想写代码,你有一个 IDE,IDE 里有某种自动补全功能,你还要借助一些对话式 AI,你可能会来回复制粘贴代码。
后来,智能体(agents)成为编程工作流的核心组成部分。它们不再是实验性的噱头或原型工具,而是真正融入了开发者的日常工作循环。
也就是说,我们从在网页应用中复制粘贴代码、进行非常有针对性的编辑,转变为更加「不插手」的方式 —— 告诉智能体你想要它做什么,然后信任它去执行大量的代码修改,甚至独立完成整个应用的开发。
2、这种转变背后有哪些原因?
之前的制约因素主要有两个:一是模型还不够好,二是脚手架 —— 模型之上的东西 —— 还不够好。
过去一年,模型在智能体编程方面进步了很多,这发生在 Sonnet 3.7、Sonnet 4 和 Opus 4.1 中。
工具也进步了很多,这里指的是 Claude Code。模型和工具之间的关系就像马和马鞍,马鞍能让你更好地驾驭马(模型)。
模型是 API 后面的东西。Claude Code 集成了系统提示、上下文管理、工具调用、MCP 服务器连接、权限控制等各种功能。模型所接收到的所有上下文信息和工具输出,都会显著影响其最终表现。
在过去的一年里,我们学会了如何确切地为模型构建工具。而且,模型不仅与 Claude Code 共同进化,还与整个基于 Anthropic 模型的智能体编程工具生态共同发展。
3、所谓的「共同进化」是怎么实现的?
在 Anthropic,每个人都使用 Claude Code,包括构建模型的那些研究人员。在此过程中,他们会看到模型的一些自然限制。
之前用 Sonnet 3.5 的时候,模型可以持续运行大概 1 分钟而不偏离轨道。如今,新模型能够持续自主运行的时间越来越长。这是一个基于真实体验的改进循环。因为你是模型的使用者,你能看到人类必须在哪里纠正和引导它。我们可以将学到的这种经验融入模型中,教它更好地自己做这些事情。
4、评估新模型、新功能时,如何评估性能是否在改善?
答案很简单:用它做当天的工作。
在日常工作中,你会做各种各样的事情,包括写新代码、修复 bug、阅读 Slack 消息或 GitHub 问题来回应反馈。
在某种意义上,最好的评估是最像真实生活的评估。直接上手使用会给你最好的结果。
说实话,构建评估真的很困难。到目前为止最大、最直接的信号就是感觉。因为你使用它的任务范围如此广泛。
5、在收集反馈方面做了哪些特别的事情?
关键在于超快速响应 —— 每当有人给出反馈时,我们都会尽快尝试修复它。
有时我会进入办公室,然后花两三个小时,尽可能快地处理尽可能多的 bug 并修复它们,修复后立即回复大家已解决。这鼓励他们继续给出反馈。
直到今天,内部的 Claude Code 反馈通道依然像「消防水带」一样,反馈流量持续不断。这种活跃的反馈循环是产品快速迭代的重要基础。
6、Claude Code 当前状态是什么?最新的功能是什么?你对什么感到兴奋?你看到人们现在在用它做什么?
Claude Code 的设计哲学是:极简易用和高度可扩展。其中,可扩展性是当前最令人兴奋的发展方向。
扩展能力的演进历程:
这些功能都与模型能力的整体提升相辅相成:模型变得更加自主、工作时间更长、指令执行更准确、记忆能力更强,所有扩展功能都从中受益。
7、未来 6 到 12 个月,使用 Claude Code 工作会变成一种怎样的体验?
工作模式将呈现手动与自动的深度融合:
这类似于工程师的工作方式:先制定月度目标,然后通过一系列小的改动逐步实现。Claude 也将具备这种宏观规划能力。
8、对需要适应这些变化的开发者们有什么建议吗?关于他们应该学习或发展什么技能。
在智能体编程出现之前的世界里,技术栈变得极其复杂。想要做一个 JavaScript 网站,你必须学习 React、Next.js,还有三套不同的构建系统和部署系统,门槛高得令人望而却步。
智能体的出现正在改变这一切。现在,有了编程智能体,开始一个项目变得真正容易。如果你有想法,就可以直接去构建它。重点从「如何实现」转向了「实现什么」,因为就像 Claude Code 一样,代码可以反复重写。代码本身不再珍贵 —— 当然,编写代码仍然是一门艺术,有时你仍会享受手工编写代码的乐趣,但更多时候,关注点在于你要创造的东西,而不是创造的过程。
因此,我对今天学习编程的人的建议是:你仍然需要掌握核心技能 —— 编程语言、编译器、运行时、Web 应用开发、系统设计等基础知识不能丢。但同时,你要变得更有创造性。如果你有创业想法或产品构思,现在就可以立即开始构建,以一种以前完全不可能的方式。我们还无法完全理解这意味着什么,但可以肯定的是,由于智能体的出现,巨大的创造潜力即将被释放。
9、针对使用 Claude Code 的新手有哪些建议?
第一个建议:先问问题,后写代码。
初次使用 Claude Code 时,不要急于让它编写代码。先用它来理解现有代码库,比如问它:「如果要添加新的日志功能,应该怎么做?」「这个函数为什么要这样设计?」
让 Claude Code 探索代码库、查看 Git 历史并回答你的疑问。等你熟悉了这种「智能体研究助手」的使用方式后,再开始让它编写代码。
第二个建议:根据任务难度选择不同策略。
将任务分为三个等级:
关键是根据任务复杂度选择合适的协作模式,而不是一刀切地使用同一种方法。
文章来自于微信公众号“机器之心,作者是“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md