3年时间,年收入达2.8亿美元,估值40亿美元。这是AI推理赛道跑出的最快独角兽。2025年10月28日,Fireworks AI宣布完成2.54亿美元C轮融资,由Lightspeed、Index Ventures和Evantic领投,英伟达、AMD、红杉资本、Databricks等跟投。创始人乔琳是PyTorch框架的核心创建者、复旦大学计算机系校友。她的核心洞察是,训练是科研的浪漫,推理才是产业的现金流。Fireworks 定位很清晰,目前已服务超过10,000家企业客户,每天处理超10万亿tokens。Cursor、Notion、Uber、Samsung、Shopify等明星产品背后的AI推理引擎,都是Fireworks。当AI进入工业化阶段,推理层正在从成本中心变成利润中心。
Fireworks AI 公司概要
Fireworks的故事,起点在Meta的PyTorch团队。乔琳在复旦毕业后,远赴加州大学圣巴巴拉分校攻读计算机博士学位。她的职业生涯始于IBM研究职位,随后在LinkedIn担任技术主管,Meta担任AI平台架构关键负责人,领导超300人工程师团队,主导PyTorch框架的基础设施研发及大规模部署。

Meta的经历让乔琳见证了一个重要规律。PyTorch之所以能在数十个同类框架竞争中胜出,关键在于"把复杂留给团队,把简单带给用户"的设计哲学。数百名工程师构建的复杂技术体系,但开发者只需要写Python代码,就能调用强大的AI能力。这种'用户无感'的体验,让PyTorch从几十个框架中脱颖而出,成为全球主流的机器学习框架。这也成为她创立Fireworks AI的初心。"真正的创新不在于功能堆砌,而在于让技术回归本质。"
2022 年,她与 PyTorch 团队的几位同事在加州雷德伍德市创立了 Fireworks AI。创始团队堪称“梦之队”,六位参与过 Meta PyTorch 项目的资深工程师与一位前谷歌 AI 专家组成核心技术班底,几乎每个人都是 PyTorch 或 AI 基础设施的老兵。

他们绕开"再造一个模型"的选择,专注在推理层,让AI跑得起、跑得稳、跑得便宜。在2024年的Sequoia Training Data Podcast访谈中,乔琳提到PyTorch的一个核心理念,'简单性是可扩展的'(Simplicity is scalable)。只有简单的东西,才能被大规模使用。
在乔琳看来,生成式 AI 带来的范式转移,让创新焦点从“构建”转向“应用”。Fireworks 把握的核心逻辑是:训练是一次性投入,推理是持续性收入。当 AI 应用从实验室走向生产,推理的市场规模将远超训练。三年后的数据证明了这个判断。
Fireworks不是卖显存,而是卖"稳定的推理体验"。这家公司把“模型如何运行”重新包装成三种标准化的产品线,把延迟、吞吐、成本这些工程参数,转化成了企业可以签约的服务条款。

第一类是 Serverless Inference(无服务器推理云):面向开发者,它提供“即开即用”的 API,按 token 计费。系统会自动选择最优 GPU 集群来运行模型,兼容包括 Llama、Qwen、Mistral 在内的数百个开源与私有模型。开发者不必关心硬件部署,只需像调用 OpenAI 一样简单使用,成本更低、启动无延迟。
第二类是 On Demand Deployments(专属部署方案):针对金融、医疗等高合规行业,Fireworks 提供独立 GPU 资源和专用网络隔离,按 GPU 秒计费,可定制 SLA 服务等级。客户能获得更高并发率与稳定性,不必担心隐私泄露或延迟波动。
第三类是 Fine-tuning & Eval(微调与评测):这部分服务面向企业客户,提供从数据治理、训练微调到在线评测的一体化能力,按训练 token 计费。核心逻辑是帮助企业用自己的数据改造开源模型,让模型真正理解业务语境。Fireworks 的工具链中包括自研的 Fire Optimizer 与 Eval Protocol,前者负责在速度、质量、成本三维之间自动求解最优组合,后者让模型评估标准化、可量化。
Fireworks 的技术底座建立在深度 GPU 优化与架构级创新上。自研的 Fire Attention 推理引擎与 Fire Optimizer 可在硬件与算法之间自动搜索超过十万种配置组合,使推理速度提升 10–40 倍、成本下降数十个百分点。Lightspeed 的投资人博客提到,这让“推理不再是预算负担,而是可以被优化的工程变量”。这种性能优化在客户案例中体现得最明显。

#Cursor:让代码修改从“等半天”变成“几秒钟”
以 AI 代码编辑器 Cursor 为例,程序员常遇到 GPT-4 改几百行代码要等半天的问题。Cursor 在 Fireworks 的推测解码技术支持下,模型一次能预测多个 token 并批量验证,速度提升 13 倍。Cursor 的 CPO 评价:“我们测试了所有竞争对手,Fireworks 的表现最好,关键是一键启用,不需要专门团队维护。”Fireworks 的产品不追求“最炫的模型”,而追求“最稳的推理”。
AI推理市场竞争者众多。直接竞争对手包括Together AI(外媒估算2025年9月ARR约3亿美元,估值33亿美元)、Replicate、Groq、Baseten Labs等初创公司,以及AWS、Google Cloud、Azure等云巨头。英伟达也在2024年3月收购推理服务商Lepton,推出自己的GPU云市场。
Fireworks的差异化不是"最快"或"最便宜",而是"最优化"和"最易用"。支持数百个开源模型,跨多云多区域运行,从微调到部署到评估的全栈能力。乔琳在官方声明中强调,"Fireworks是唯一同时提供三者的平台,最先进的开源模型、亚秒级大规模推理、以及拥有和差异化AI的能力。"护城河不是技术领先,而是"客户数据+定制化能力"的飞轮。每个客户的微调数据都在优化系统,越用越好。通用模型无法捕获企业内部的有价值数据,Fireworks帮助开发者使用这些企业和应用特定数据微调模型。当客户与这些定制化应用交互时,新数据不断反馈并改进模型。乔琳的判断是,AI推理市场不会像云计算一样被三巨头垄断,因为垂直场景太多,定制化需求太强。Fireworks的价值不是"做得最好",而是"在细分市场做得最对"。
尽管增长迅速,Fireworks也面临推理服务商的共同困境。毛利率与算力供给波动。据外媒报道,Fireworks的毛利率约50%,低于订阅软件常见的70%水平。主要原因是需预留大量服务器应对需求峰值,同时承受来自CoreWeave等GPU云商家的低价竞争。
云巨头价格战与整合,AWS、Google Cloud、Azure可能通过补贴抢占市场,压缩Fireworks的利润空间。若大型云服务商为降低AI训练推理成本而整合产业链,这类初创企业很可能成为潜在收购目标。企业采纳节奏(人才与治理缺口)。虽然Cursor等AI原生应用公司已在使用Fireworks,但大多数传统企业的采纳速度会慢得多。Gartner分析师指出,大约80%的企业尚未达到这个高级阶段。
但乔琳的应对策略很清晰,不跟巨头拼价格,而是拼定制化能力和易用性。她强调说,"企业不能把数据、产品和客户体验交给通用平台,那些平台用成本换取锁定。Fireworks的使命是让控制权回到构建者手中。"
Lightspeed合伙人在投资声明中表示,他们押注Fireworks,是因为看到"推理层成为AI现金流入口"。训练环节越来越被巨头垄断,而推理是所有AI应用的常态支出。在大模型数量激增的时代,推理的市场天花板不是某个模型的规模,而是全行业的调用总量。每一个AI调用,都是一个可复用的账单单位。
Index Ventures的Sahir Azam在博客中写道,如果说训练是AI的燃烧阶段,推理则是可持续阶段。Fireworks把推理变成了像云计算一样的"计量服务",稳定、可预测、能复利。据Gartner预测,GenAI模型支出将从2025年的140亿美元增长到2028年的390亿美元,增长近3倍。
开源运动正在加速这一转变。现在有一个蓬勃发展的高性能模型生态系统,Mistral、Kimi、DeepSeek等数百个模型,其中许多在质量上可与闭源系统媲美。Cursor的微调模型在特定编程任务上已经超越GPT-4。但更多选择带来更多复杂性,大多数团队不想成为模型运维专家。Gartner分析师指出,AI工程需要极其专业的技能和知识,这类人才供不应求,大约80%的企业尚未达到这个高级阶段。
乔琳的创业逻辑始终一致,训练是科研的浪漫,推理是产业的现实。她不追逐模型参数的规模,而是追求性能与价格的稳定曲线。她说,AI的下一个阶段,不是新模型的战争,而是运行效率的战争。
Fireworks的核心理念是"one-size-fits-one AI",而非"one-size-fits-all"。Fireworks的平台帮助开发者使用企业和应用特定数据微调模型。当客户与这些定制化应用交互时,新数据不断反馈并改进模型。这就是产品-模型协同设计,通过持续评估和强化学习,让企业能够随时间改进其AI应用,同时优化成本、速度和质量。
乔琳透露,Fireworks AI未来一年的核心战略是强化Fire Optimizer系统。目前,Fire Optimizer已经在响应速度和成本控制上做的足够好,接下来会特别强化在推理质量上的能力。通过个性化定制,能够让模型效果比通用模型或普通API强得多。乔琳预测,2025年将成为"Agent年"和"开源模型年"。各行业将涌现大量解决垂直问题的AI智能体,同时开源模型将迎来井喷式发展。就像DeepSeek发布仅一个月,Hugging Face上就出现了500多个优化版本,Perplexity和她的客户Linnk还开发了针对金融服务的定制版本。不过,她也指出,未来最大的挑战在于,如何让快速发展的AI智能体和开源模型更好地结合,在最后一公里实现质量优化,为用户提供更好的实时体验。
行业峰会上,乔琳展示了团队的终极愿景,"我们赌定那些真正懂产品的开发者。谁能玩转自己的数据、调教出更聪明的模型,谁就能赢到最后。"Fireworks AI要做的,就是提供工具与基础设施,帮助开发者定制模型、注入数据,全面提升推理质量、速度与并发能力,让每个用心打磨产品的团队,都能站上AI时代的聚光灯下。截至2025年底,Fireworks已成为全球推理基础设施增长最快的公司之一。他们不生产GPU,但他们定义了GPU的使用方式。
乔琳在官方博客中写道,未来的AI不会被少数基础模型实验室控制,而是分布在数千家想要拥有和定制自己AI产品的企业中。
文章来自于微信公众号 “深思SenseAI”,作者 “深思SenseAI”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner