Mirage（原 Captions）融资 7500 万美元：AI 视频的下一场战争，不在生成，在“编辑权力”

8238点击 2026-03-29 11:02

在 AI 视频狂飙的一年之后，一个更微妙的分化开始出现。

一边，是模型能力的持续突破。从文生视频到数字人，从长时生成到多模态融合，技术路径几乎完全围绕“生成能力”展开；另一边，却是内容生产端越来越清晰的现实反馈——视频确实变得更容易被“做出来”，但真正能被看完、被传播、甚至产生转化的内容，依然稀缺。

技术供给与内容效果之间的落差，正在成为新的机会。

就在这样的背景下，Mirage（原 Captions）宣布获得 7500 万美元融资，由 General Catalyst 旗下 Customer Value Fund（CVF）提供。这类资金的逻辑，与传统 VC 明显不同，它更关注已经被验证的增长模型与单位经济，而不是单纯押注未来。

这意味着一件事：Mirage 已经不是一个“正在探索”的 AI 产品，而是一家已经跑通路径、正在被放大的公司。

从数据来看，这个判断并不激进：

过去一年下载量超过 320 万
内购收入达到 2840 万美元
累计生成视频超过 2 亿条
收入仅 25% 来自美国市场

这种结构说明，它已经跨越了单一市场和单一用户群体，具备一定的全球化基础。

但比数据更重要的，是它在过去一年中的方向性变化。

Mirage 正在从一个剪辑工具，转变为一个视频生产系统。

从 Captions 到 Mirage：一次刻意的“去工具化”

Mirage 的前身 Captions，是一款典型的创作者工具，以字幕和 AI 剪辑为核心的移动端应用，主要服务创作者和短视频用户。它的价值在于效率，让用户更快生成字幕、更轻松完成剪辑。这类产品在短视频爆发期迅速增长，但也很容易陷入同质化竞争。

Mirage（原 Captions）融资 7500 万美元：AI 视频的下一场战争，不在生成，在“编辑权力”

真正的转折发生在过去一年。当公司选择从 Captions 更名为 Mirage 时，它并不是简单的 rebranding，而是在主动重写自身定位：

它不再强调单一功能，而是开始构建一整套围绕视频生产的模型体系，并将自己定义为一个“AI Lab”。

这种变化背后的核心，是视角的转移。

Captions 关注的是“视频如何被制作”，而 Mirage 开始思考的是：视频为什么会被看。

一个关键判断：视频的价值，不在生成，而在被消费

过去一年，AI 视频行业几乎围绕“生成”展开竞争。分辨率、更长时长、更自然的动作，成为核心指标。但这些指标更多来自技术视角，而不是内容视角。

Mirage 的路径恰好相反。它没有把重点放在生成能力上，而是训练模型去理解视频中的更“底层”的维度：

节奏（pacing）
构图（framing）
注意力（attention dynamics）分布

这些维度看似抽象，但却直接决定了一个视频是否能被完整消费。

这背后是一种更接近内容行业的认知：视频不是一个“被生成”的对象，而是一个“被组织”的结果。它的价值来自结构，而不是素材本身。

因此，Mirage 提出了一个关键词——Assembly Intelligence（组装智能）。

与其从零生成内容，不如将已有素材、声音、脚本和视觉元素，通过更合理的结构组合在一起，从而形成一个“有效的视频”。

这不是技术路径的微调，而是对整个视频生产逻辑的重新定义。

“Assembly Intelligence”：一个被低估的方向

我们继续说 Mirage 创始人提出的关键词：

Assembly Intelligence（组装智能）

如果把 AI 视频流程拆开，大致可以分为三层：

内容生成（脚本、画面、声音）
内容处理（剪辑、字幕、特效）
内容组装（结构、节奏、分发）

大多数公司在做第一层，少数在优化第二层，而 Mirage 直接跳到了第三层。

这意味着，它关注的不是单个能力，而是：

如何把不同来源的素材，组合成一个“有效的视频”。

这件事的难度在于，它不仅是技术问题，更是经验问题。什么节奏能留住用户，什么剪辑能提高转化，本质上是长期内容生产中沉淀下来的隐性知识。

Mirage 的路径，是把这些知识模型化。

为什么“组装”比“生成”更难

如果把问题拆开来看，生成内容更像是一个概率问题，而组装内容则更接近决策问题。

一个视频是否有效，往往取决于大量细微判断：

何时切换镜头？
如何控制节奏？
在哪一刻强化信息密度？
何时需要留白？

这些决策高度依赖语境，很难通过单一模型直接生成。

在传统内容生产中，这些能力来自剪辑师或运营人员的经验积累，并逐渐内化为直觉。而 Mirage 的尝试，是把这些直觉显性化，并转化为模型可以执行的规则。

一个细节可以说明这一点。Mirage 专门开发了一个音频模型，用于保留用户的原始口音。在很多 AI 系统中，口音会被自动“标准化”为美式英语，但对于全球用户而言，这种优化反而削弱了表达的真实性。Mirage 的选择，是保留差异。

这背后反映的，不是技术能力，而是对内容本质的理解。Mirage 的目标不是生成“标准内容”，而是：

保留表达的个体性，同时提升传播效率。

这与传统 AI 生成工具的方向，形成了微妙的差异。

从创作者工具，到企业视频基础设施

Mirage 的另一条清晰路径，是从创作者市场逐步向企业市场延伸。

目前，它已经形成两个产品端：

移动端延续 Captions 的能力，服务个人创作者；
Web 端则提供更完整的营销套件，面向企业用户。

下一步，公司计划将两者整合，形成统一的视频生产体系。

这一变化背后，是用户需求的转移。

对于中小企业（SMBs）而言，视频不再只是创意表达，而是增长工具。他们需要的是：

批量生成内容
快速测试素材
提高转化效率

在这种场景下，单次创作能力的价值有限，真正重要的是系统化生产能力。

如果说 Canva 让设计进入规模化时代，那么 Mirage 正在尝试推动视频内容进入类似的阶段——从手工创作，走向工业化生产。

视频内容从手工创作，走向工业化生产。

为什么是现在：AI 视频的结构性转移

Mirage 的出现，并不是偶然，而是踩在一个行业转折点上。

过去，AI 视频的竞争集中在模型能力；而随着生成能力逐渐趋同，价值开始向下游迁移。谁能更好地组织内容、理解用户、提升转化，谁就更接近商业化核心。

2025 年初，Mirage 切换为 freemium 模型。

这个决策背后的压力很直接：

ByteDance 的 CapCut
Meta 推出的 Edits

这些产品正在迅速占领用户端。它们未必拥有最强的生成模型，但在内容结构与分发路径上具有优势。

Mirage 选择的，是在这一层之上继续向前，把“如何组织内容”本身变成一套可以被模型执行的能力。

这也是一个典型路径：

从创作者工具 → 向企业增长工具演化

投资逻辑的变化：从技术押注，到增长验证

General Catalyst 的 CVF（Customer Value Fund），并不属于典型的早期投资工具。它更关注那些已经验证商业模式、具备规模化能力的公司。

Mirage（原 Captions）融资 7500 万美元：AI 视频的下一场战争，不在生成，在“编辑权力”

Mirage 能获得这类资金支持，说明其增长逻辑已经相对清晰。从用户获取到收入结构，再到 ROI 表现，都具备可预测性。

投资人给出的判断也非常直接：

这是一个“无限 TAM（市场空间）”的赛道

随着视频成为最主要的信息载体，而 AI 持续降低生产门槛，内容的供给将进一步爆发。

问题不再是“有没有内容”，而是“什么内容有效”。

结语：AI 视频的终局，不是生成，而是控制结构

如果回看 AI 视频的发展路径，可以看到一个清晰的演化轨迹：从“能不能生成”，到“生成得好不好”，再到“是否有用”。

Mirage 的位置，正好落在第三阶段。

它并不试图在生成能力上继续竞争，而是把问题转向更接近内容本质的一侧：结构、节奏与注意力。也正因为如此，它的野心不再是做一个更强的工具，而是建立一种新的控制权。

对视频结构的控制权。

如果这个判断成立，那么 AI 视频的下一场竞争，将不再发生在模型层，而发生在更隐蔽的地方——谁更理解内容如何被消费，谁就更接近价值的中心。

关于 Vibehood

Vibehood 致力于连接 AI 创新者与资本、技术资源及生态伙伴，帮助真正的 builder 从实验项目走向规模化产品。

如果你正在构建 AI Agent、AI 应用或探索新的 AI 创业方向，或正在寻找融资与战略支持，欢迎在后台留言：

文章来自于微信公众号 "Vibehood"，作者 "Vibehood"

关键词: AI新闻 , Mirage , AI视频 , Captions

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales