自 2024 年 3 月 Devin 首次亮相以来,AI 编程世界的叙事就被彻底改写。这款由 Cognition 打造的“全自动 AI 软件工程师”,在短短数月内登上技术话题的C位:一段其独立修复开源 Bug 的演示视频在 X 平台播放量突破 3000 万,成为AI圈罕见的“破圈时刻”。而在硅谷科技评论“AI 编程的未来”系列的第七篇文章中,我们将把目光投向这股热潮背后更深的产业结构与未来变局。
AI 编程从助手走向代理,从补全代码到主导任务,标志着一个软件开发范式的临界点正在被穿越。Devin 的出现,是对“AI 只是工具”的传统认知的一次挑战,它在沙盒环境中自我规划、自主执行,逐步逼近“人类开发者”的能力边界。
根据 SVTR.AI创投库,Cognition 虽估值已超 20 亿美元,但其年经常性收入(ARR)不足 50 万美元,这也为其未来走向增添了悬念。
在全球软件行业,开发人才短缺问题正日益严峻。据预测,从 2023 年到 2033 年,软件工程师的需求将增长 17%,远高于同期所有职业平均 4% 的增长率。为了应对这一挑战,许多企业近年来纷纷通过第三方外包软件开发。但这一策略也带来了不容忽视的代价:控制力不足、质量参差不齐、成本不断攀升。
今天,一波以提升开发效率为核心目标的 AI 编程工具正在崛起。以 GitHub Copilot 为代表,这类工具通过智能补全和建议功能,显著提升了开发效率。2024 年数据显示,Copilot 能将任务完成速度提升 55%,项目交付率提升 8%。这一趋势推动了 AI 工具的快速普及:Copilot 上线首月即吸引了 40 万订阅用户,76% 的开发者表示已在工作流中使用或计划使用 AI 编程助手。
不过,这些“编程助手”仍局限于片段式代码建议,尚未能独立完成完整开发任务。这也解释了为什么仅在 2024 年,便有超过 82 亿美元投资流入专注于构建端到端自动化编程解决方案的公司。
在这股自动化浪潮中,Cognition 推出的 Devin 引起了业界广泛关注。Devin 被称为首个真正意义上的“全自动 AI 软件工程师”,它不仅能写代码、调试和部署,还能自学新工具,独立完成完整的软件开发项目。更重要的是,Devin 在 SWE-bench 实验中,成功独立解决了 13.9% 的真实 GitHub 问题,远超 GPT-4 的 1.7% 和 Claude 2 的 4.8%。
Cognition 的战略目标很明确:通过构建具备自主开发能力的 AI 工程师,为企业提供一个可扩展的替代方案,以应对人力成本高涨、开发效率瓶颈和外包困境。在这个被重新定义的软件开发新时代,Devin 不再是助手,而是一位真正的虚拟工程同事。
Cognition(又称 Cognition Labs)成立于 2023 年 11 月,由 Scott Wu(CEO)、Steven Hao(CTO)和 Walden Yan(CPO)共同创办。这个创业团队背后是深厚的算法竞赛功底和一流的软件工程背景,而正是这种技术底色,使得 Cognition 能在 AI 编程赛道上迅速脱颖而出。
Scott Wu 是哈佛大学毕业生,曾三次获得国际信息学奥林匹克竞赛(IOI)金牌,2011 年 Mathcounts 全国冠军,并在 2021 年的 Google Code Jam 中获得第三名。他此前曾担任 AI 社交平台 Lunchclub 的联合创始人兼 CTO,该项目曾获得 Lightspeed 和 Coatue 的投资。2020 年,他入选《福布斯》“30 Under 30”。
Steven Hao 则在 2014 至 2018 年期间就读于 MIT,主修计算机科学与数学。毕业后加入 Scale AI,成为核心工程师。他曾在 D.E. Shaw 和 Dropbox 实习,并在 2014 年的 IOI 中获得全球第六名的成绩,赢得金牌。
Walden Yan 是三人中最年轻的一位,于 2023 年从哈佛辍学参与创建 Cognition。他曾在 Anysphere 参与开发 Cursor,并于 2022 年至 2023 年共同创办 web3 安全初创公司 DeepReason。此外,他还曾主导媒体咨询公司 Inverted,并于 2021 年完成公司出售。他也曾在 2020 年的 IOI 中获得金牌,全球排名第 19。
这三位华裔创始人很可能通过 IOI 或在哈佛、MIT 的交集相识。早期他们曾探索加密货币方向,但在 2022 年底 ChatGPT 掀起硅谷热潮后,团队迅速转向生成式 AI 赛道。正如 Wu 所说,构建一名 AI 编程代理的本质是一个“极度算法化”的挑战,正符合他们的技术专长。
Devin 的构想,源自他们试图将算法竞赛中的逻辑推理能力转化为一个 AI 系统。真正的突破发生在 2023 年底,当团队意识到,将 GPT-4 这类大语言模型与强化学习相结合,有望训练出能应对复杂、多步骤软件开发任务的智能体。一次关键事件发生在圣诞节前夕:团队在调试服务器遇阻数小时后,尝试交给 Devin 处理。Devin 成功识别并删除了一个被忽视的系统错误文件,首次独立完成了现实中的工程任务,这一刻也让团队更加确信他们的愿景方向。
Cognition 一直处于隐秘模式,直到 2024 年 3 月才首次公开 Devin。官方演示视频中,Devin 独立修复开源库中的一个 Bug,视频上线后迅速走红,截至 2025 年 5 月已在 X 平台获得超 3000 万次播放。公司还声称 Devin 已通过真实的工程师面试,能够独立完成复杂开发任务,几乎无需人类介入。
同月,Cognition 宣布完成由 Founders Fund 领投的 2100 万美元 A 轮融资,进一步加固了其在 AI 编程市场中的战略位置。这个由 10 块 IOI 金牌组成的创始团队,正用代码与算法,把 AI 工程师从科幻构想变成现实。
截至 2025 年 5 月,Cognition 的核心产品是 Devin,一个具备自主完成软件开发任务能力的 AI 编程代理。与传统代码助手不同,Devin 不只是“建议代码片段”,而是直接在一个云端沙盒环境中操作,该环境内置了 Linux 命令行、代码编辑器、浏览器等标准开发工具,构成了一个完整的集成开发环境(IDE)。无论用户通过聊天窗口、网页平台,还是 Slack 命令下发任务,Devin 都能制定详细的步骤计划,自主执行代码、测试、调试,并根据反馈实时调整策略。整个过程中,它支持交互式更新,用户也可随时纠正其行为。
Devin 被设计用于覆盖整个软件开发生命周期中的多种任务,包括但不限于:
在公开演示中,Devin 展示了从零创建《生命游戏》动态 Web 应用的能力,并成功修复了数学库 Sympy 中的一个真实 Bug。Cognition 将其称为一名“永不疲倦、技术过硬的队友”,既可以配合人类开发者编程,也可以完全独立完成任务交付。
Devin 的底层基于 GPT-4 Turbo 等大语言模型,结合 Cognition 自研的计划算法、长期记忆系统和适应性推理引擎。这让 Devin 能够处理成千上万步操作,并在每个决策点灵活应对。例如在清理代码库时,它会制定并执行一个包括 Linting、重构和 API 更新在内的多步骤计划。面对错误时,它会主动查阅文档或社区资料,测试失败后还能自我反思并重试。
Devin 的其他功能还包括:
在实际编程能力上,Devin 在 SWE-bench(GitHub 真实问题的标准测试集)中解决了约 13.8% 的任务,远高于 GPT-4 和 Claude 2 的约 2%。像 Nubank 这样的企业已利用 Devin 进行大规模代码重构,实现了工程效率提升 8 倍、成本节省 20 倍的惊人成果。
面向大型企业,Cognition 推出了 MultiDevin —— 一个多实例并行架构,由一个“经理” Devin 管理多个“员工” Devin。每个工人负责一个子任务,所有任务并行处理,最后自动合并成果。该系统非常适用于重复性强、独立性高、易于验证的工作场景,如:
尤其适合模块之间耦合度低的项目,可以大幅加快交付速度。
2025 年 4 月发布的 Devin 2.0,引入了多个面向企业级应用的重要功能:
为满足企业级安全需求,Cognition 提供了基于 VPC(虚拟私有云)的部署选项。系统架构将 Devin 的“大脑”、事件元数据和后台服务部署在 Cognition 侧,而客户侧的 Dev Box(包含命令行、编辑器、浏览器和代理核心)则完全在客户 VPC 内运行。所有数据传输均加密,确保客户数据不离本地网络。
Devin 支持与 GitHub、GitLab、Snowflake 等主流开发工具,以及 Slack、Stripe、Teams、Zapier 等第三方 SaaS 系统集成,通过 API Token 实现安全协作。这让 Devin 成为一个既高效又合规的企业级 AI 编程助手。
截至 2025 年 5 月,Cognition 的客户包括 OpenSea、Ramp、Nubank、Lumos、Microsoft 和 Curai Health 等一批技术导向型企业。这些客户大多处于快速增长阶段,拥有庞大的代码库和工程团队,显著重视开发效率,并愿意率先尝试 AI 编程代理等前沿技术。
Cognition 的早期用户主要集中在几个特定垂直领域:
值得注意的是,Devin 目前仍处于产品早期阶段,因此这批客户大多承担了“beta 合作伙伴”的角色。Cognition 鼓励客户为 Devin 提供详尽的任务说明、验证其产出,并及时反馈问题。这种迭代式共建的产品策略,正帮助 Devin 更快成熟与优化。
随着产品能力的进一步完善,Cognition 的目标客户也将从早期科技公司拓展到 拥有更复杂工程体系的 Fortune 500 企业,在更大规模的开发生命周期中释放 Devin 的自动化潜力。
Cognition 所处的赛道是“生成式 AI 编程助手市场(GenAI Coding Assistants)”,这个新兴领域在 2024 年市场规模为 2590 万美元,预计到 2030 年将增长至 9790 万美元,年复合增长率高达 25.5%。尽管当前市场体量仍小,但随着大企业逐步将重复性开发任务交给智能代理,市场正快速启动商业化进程。
整个市场可被划分为三大层次:
Cognition 瞄准的是第三层,也是目前最早期、但潜力最大、颠覆性最强的市场。这意味着它的潜在市场不仅限于“AI 助手”赛道,而是整个 全球软件工程市场。
2024 年全球约有 2800 万名软件开发者,预计到 2030 年将增至 4500 万。随着更多开发流程变得可被自动化,Cognition 所服务的 TAM(可拓展市场)也将不断扩大,有望成为这一代“工程自动化”浪潮中的关键参与者。
AI 编程助手正在经历一场深刻演化:从简单的代码补全工具,迈向真正具备任务理解、规划与自主执行能力的“AI 工程师”。当前市场可大致分为三类参与者:老牌巨头(GitHub Copilot、Amazon Q Developer、Google Jules)、AI 原生 IDE初创企业(Cursor、Windsurf、Augment Code)与底层模型开发者(Poolside、Magic),它们围绕“效率”、“自动化”与“智能体化”三个维度展开激烈角逐。
相比传统编码工具或增强型编辑器,AI 编程智能体(Code Agents)不再仅是“补全工具”,而是具备任务理解、流程编排、自动执行能力的“AI工程师”。这类产品的核心优势在于:可自主规划、具身执行、迭代反馈,正逐步从辅助角色演化为真正意义上的开发伙伴。
作为当前最具代表性的工程智能体,Devin 实现了从指令到执行的完整闭环。其核心能力包括:
Devin 是目前市场上最接近“自主工程师”的产品,已被视为 AI 工程智能体路线的技术标杆。
Factory 的产品逻辑更像是“AI 开发流水线工人”:其 droid 代理可自动领取开发任务,执行代码更改,并提交 PR。其优势在于:
但 Factory 更强调“团队协同式代理”,任务粒度较固定,自主性与 Devin 相比仍有差距,更适合流程标准化的企业环境。
Genie 的亮点在于模型本身:通过在 SWE-bench 上实现 30% 任务完成率(业内领先),展现了强大的推理与决策能力。其技术特色是:
不过,Genie 尚未形成成熟的产品系统,部署与场景适配能力仍在早期阶段。
Manus 是中国涌现出的通用 AI 智能体之一,目标直指 Devin 式全栈智能体,具备以下关键特征:
在通用性与执行力之间取得初步平衡,Manus 正成为中国市场中极具潜力的智能体选手。
模本科技则走出一条更具“务实工程”路径的路线,聚焦 AI 在开发者日常中的落地应用:
模本科技更偏向打造可落地、可控、适用于中大型团队协作的开发智能体,是当前国内工程场景 AI 应用中“稳健派”的代表。
截至2025年4月,Cognition 正式以 SaaS 模式向客户提供其 AI 编程代理产品 Devin。在一段邀请制内测期后,Devin 于2024年12月全面开放,并同步推出了官方订阅定价方案。整体定价策略分为三个主要层级:面向个人的Core(按需付费,$20每月起),面向工程团队的 Team 计划,月费500美元;以及为大企业量身定制的 Enterprise 计划。
自2024年3月首次公开亮相以来,Devin 在开发者群体和更广泛的科技圈中迅速引发热议。由 Cognition 发布的首个演示视频在上线后不久便突破了3000万次观看,成为 AI 开发工具领域的现象级事件。虽然官方尚未披露具体用户数据,但考虑到早期企业客户的规模,Devin 在产品发布初期的几个月内,用户量很可能已达数百甚至上千名开发者。
与此同时,Devin 也开始在工程圈层产生更深远的影响。一些开发者社区自发成立了技术讨论论坛,探讨 Devin 的架构和应用实践;甚至出现了如开源项目 OpenHands 等试图复刻其技术架构的尝试,反映出 Devin 在技术范式层面的领先性和启发性。
Devin 并非纸上谈兵,它已在真实生产环境中为客户创造了可衡量的工程产出。以 Linktree 为例,截至2025年2月,在短短一个月内,Devin 就提交了大约 300 个 Pull Request,其中约 100 个被成功合并。这些代码贡献涵盖从日常的 Bug 修复、小功能更新,到对复杂模块的初始实现。
典型案例包括,对新兴社交平台 RedNote 和 Lemon8 的集成:Devin 独立完成了从后端接口到 URL 解析逻辑,再到前端 UI 调整的全过程。这一端到端的自动化开发能力显著降低了 Linktree 内部传统上依赖多部门协调的开发复杂度,提升了整体迭代效率。
Devin 的表现也获得了多位硅谷重量级人物的认可。Ramp 联合创始人兼 CEO Eric Glyman 评价道,这是他“过去十年见过最震撼的技术演示”;而 Perplexity CEO Aravind Srinivas 则表示 Devin 是他见过的“第一个真正跨越人类能力边界,并能够稳定运行的 AI 代理”。
自 Devin 面世以来,Cognition 在资本市场上迅速获得了强劲背书。
2024年3月,公司完成由 Founders Fund 领投的 A轮融资,筹集资金 2100 万美元,估值达 3.5 亿美元。
仅一个月后,Founders Fund 再次领投一轮规模更大的融资,金额高达 1.75 亿美元,将 Cognition 的估值一举推升至 约 20 亿美元。其他投资方还包括 8VC、Elad Gil、Conviction Partners 和 Khosla Ventures 等硅谷知名机构与个人。目前以2亿美元的累计融资额,在AI创投榜排名第8位。
截至2025年初,尽管 Cognition 已跻身“独角兽”行列,但其实际营收规模仍处于早期阶段。直到 Devin 于2024年12月全面开放并推出正式订阅计划后,公司的商业化才正式启动。
根据公开定价(团队版每月 $500),以及2025年4月官网上列出的至少 12 家客户,可推算出 Cognition 当前的最低月经常性收入(MRR)约为 $6,000。若考虑实际用户数量更可能在 数十家之间浮动,则其 MRR 范围大致落在 $15,000–$30,000 之间,折算年经常性收入(ARR)约为 $18万–$36万美元。
2024 年 5 月,Cognition 与微软宣布建立战略合作伙伴关系,成为公司发展历程中的重要节点。此次合作的核心,是将 Cognition 的自动化编程代理 Devin 深度整合进微软开发者生态系统,覆盖 Visual Studio Code、GitHub 等主流工具。双方聚焦于提升代码迁移和现代化流程中的开发效率,为企业级用户带来更具生产力的 AI 助手。
借助微软这一平台,Cognition 大幅提升了在企业软件团队和开发者中的可见度,同时也显著增强了其在客户与投资者心中的可信度。这种“借生态之力”的打法,为 Cognition 构建了通往更广阔市场的桥梁。
从资本层面看,2024 年的 AI 开发工具市场迎来了前所未有的投资热潮。根据硅谷科技评论SVTR.AI创投库,2024年全球AI 相关项目占据全部风险投资的 60% 以上。如果这一趋势延续至 2025 年甚至更远,Cognition 不仅有望持续获得资金支持,还可能通过新的战略合作或并购,加快 Devin 功能模块的迭代和扩展。这对于其在技术快速演进的赛道中保持竞争力,至关重要。
在生成式 AI 编码助手领域,Cognition 属于最早一批进入市场的玩家,享有明显的“先发红利”。2024 年全球对 AI 企业的投资总额超过 1,000 亿美元,同比增长超过 80%。 Devin 所处的细分市场——生成式 AI 编码助手,预计将从 2024 年的 2,590 万美元增长至 2030 年的 9,790 万美元,年复合增长率高达 24.8%。更重要的是,“全自主代理”正在成为投资人关注的新热点。
尽管 Cognition 将 Devin 宣传为自主软件工程领域的突破性进展,但部分观察人士和开发者社区对其实际能力提出了质疑。
2024 年 4 月,YouTube 频道 “Internet of Bugs” 对官方演示中的一个 Upwork 项目任务进行了深度分析。该视频指出,Devin 可能是在预设了特定文件与已知问题的环境中运行,从而影响了其问题解决过程的真实性。这一质疑在 Reddit 等开发者社区引发了广泛讨论,许多用户开始怀疑 Devin 的能力是否如宣传所说那般“自主且通用”。
更具代表性的是,AI 测评机构 Answer.AI 对 Devin 进行了独立测试,结果显示:在 20 个任务中仅有 3 个成功完成,14 个失败,另有 3 个结论不明确,成功率仅为 15%。此外,一些任务 Devin 需要数天时间才能完成,而人类工程师可能只需几个小时。这些数据说明了 Devin 与其理想状态之间的明显差距。
自动化编程市场正迅速成为各路科技势力争夺的新战场。从微软(GitHub Copilot)、亚马逊(AWS Q)、谷歌(Jules)到 Anthropic(Claude Code),一众巨头都在加快推出功能全面的编码助手。与此同时,像 Magic AI 和 Poolside AI 这样的初创公司也在投入巨额资金,构建专注于软件开发的基础模型。
这些竞争者不仅拥有强大的研发资源,还能将产品无缝集成到已有的开发者工具生态中。一旦某家厂商率先推出具备更强规划与记忆能力的全栈 AI 编程代理,将可能迅速抢占 Cognition 的市场空间,削弱其差异化优势。
对于团队规模相对较小、运营历史尚浅的 Cognition 来说,如何在巨头林立的竞争中持续保持技术领先,将是一项长期挑战。
Devin 所依赖的技术架构包括长上下文推理、多步骤任务规划以及隔离式开发环境等,这些特性虽然使其更接近“真正自主”的目标,但也意味着高昂的算力消耗。
当前,Cognition 推出的团队版价格为每月 500 美元,虽对中小型团队较为友好,但面对高频使用或企业级部署,这一价格可能无法覆盖实际资源消耗。若使用量快速上升,而收入增长未能同步跟上,Cognition 或将面临运营成本过高、利润空间受压的风险。
更现实的压力在于:若无法在控制成本与产品性能之间找到平衡,公司可能不得不限制部分高算力功能的访问,或在不利条件下再次融资,这将直接影响产品的普及速度与用户体验。
Devin 以其全流程工程能力重新定义了 AI 编程代理的边界,从单一工具跃升为真正的虚拟工程师,展现出强大的技术想象力与实践潜力。然而,在“超级AI工程师”成为行业共识的趋势下,技术更迭迅猛、竞争者环伺,Devin 的领先并非牢不可破。
我们认为,未来,Devin能否持续引领,关键在于是否能不断突破,持续赋能开发者与企业。AI 编程的战局才刚刚开始,真正的胜者,将由持续创新与深度整合能力共同决定。
文章来自于“硅谷科技评论”,作者“svtrai”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner