图片来源:Ted
Decoder是由The Verge 主编 Nilay Patel 主持的深度访谈节目。在这一期中,Decoder邀请到了 Runway 联合创始人兼 CEO Cris Valenzuela,一位既是技术推动者,也是理想主义创作者的创业者,探讨一个正在重塑内容产业的问题:AI 能否真正成为创意的伙伴,而不是掘墓人?
Runway 是当今最引人注目的 AI 视频生成平台之一,它让一个没有预算、没有拍摄团队、甚至没有相机的普通人,也能用自然语言生成高质量视频。但正如你会在节目中听到的,Runway 所引发的远不止技术革新,更是对电影工业、广告生态、创作者角色乃至版权法律的全面挑战。
Cris 坦言,他不是想颠覆电影业,而是想扩大创作的入口。他和团队正在与狮门影业、AMC 等大片厂合作,但与此同时,也卷入了 AI 训练数据侵犯艺术作品版权的集体诉讼。我们在节目中直面这一争议——如果未来模型都要为使用过的内容买单,这场 AI 创作浪潮还能走多远?
此外,Cris 还聊到 Runway 的内部组织结构、他们如何在高速演化的模型面前快速做产品决策,以及在“AI 吞噬产品”的节奏中,如何留住用户体验的灵魂。
Z Highlights
这是关于 AI 与艺术的激烈碰撞,也是一次从技术、商业到情感的全面拆解。以下是全文翻译。
Nilay Patel: 你们是在这波 AI 热潮真正爆发之前就创立了 Runway。我们刚才还在开玩笑,说你们的网址是 Runway.ml,因为那时候大家还普遍叫它“机器学习”。从那时到现在,随着 AI 的爆火,你们的思路有什么转变吗?比如说,现在每个人都知道什么是训练模型了,GPU 的市场也变得更贵。你们经历了哪些变化?
Cris Valenzuela: 变化非常大。我们是在 2018 年创办公司的,那时候“机器学习”还算是我们对整个 AI 领域的统称。到现在,几个关键点已经发生了改变。
首先,模型的能力确实大幅提升了——这一点大家都能感受到。我希望现在在场的每一个人都已经用过 AI 模型了,我猜你们应该都体验过。七年前,还几乎没人真正接触过 AI。如今,从一致性、生成质量到整体表现,模型的能力都有了质的飞跃,这极大地改变了人们对 AI 的感知和使用体验。
第二个变化是,模型的价值和实用性变得越来越明确。以前很多人觉得 AI 是一种“未来可能有用”的东西,更多还是停留在理论层面。而现在,AI 的价值正在变得切实可见。当然,在很多领域我们仍不确定 AI 会如何改变现状,但在一些方向上,它确实已经带来了根本性变化。
比如在教育领域,基本可以确定的是,从现在开始直到未来,每一位学生都会在学习过程中使用 AI 模型。这已经不是假设,而是现实。
还有一个很大的变化就是——竞争的到来。现在,所有人都开始关注这个领域。而我们刚起步的时候,几乎没有人在做这件事。如果你在八年前跟别人说,“我们将来会拥有能生成超逼真视频的 AI 模型”,大多数人可能会觉得你疯了。但今天,这已经成了一个显而易见的发展方向,也有越来越多的团队加入进来,想要解决同一个问题。
Nilay Patel: 在创业初期,你们的研发能力有没有受到算力限制?你们现在取得的成果,是不是主要归功于scaling laws?
Cris Valenzuela: 规模确实是关键因素之一。我认为,整个行业已经逐渐意识到,规模真的很重要。我们这几年得到的一个主要经验是:只要把算力规模提升上去,模型的表现就会显著提升。不过这一点在最初其实并不那么明显,是这两年才逐渐被验证的。
当然,算力越多肯定越有帮助,但真正推动进步的不只是算力,还有更大的数据规模和更高效的算法设计。所以,它并不是靠某一个因素单独驱动的。不能说只要有更多的算力,一切就都会变好。它其实是多个因素共同作用的结果。
Nilay Patel: 你能给我们具体举个例子吗?你们刚开始做的时候,渲染一帧视频需要多长时间?跟现在相比有什么变化?
Cris Valenzuela: 我们最开始的时候——根本还做不到渲染视频。这才是关键。当时我们做的第一个模型,是一个文本生成图像的模型,只能生成宽度 256 像素的图。如果你看过马克·罗斯科(Mark Rothko)的画,那种抽象、色块堆叠的风格,就是我们当时生成效果最接近的样子。
你想生成一张人脸、一栋房子之类的图像,它大概能抓到颜色,但整体还是非常模糊、错位的。从那个阶段的马赛克式低分辨率图像,到现在可以生成长达 20 秒、分辨率达到 4K 的视频,且包含复杂动作与镜头运动,这之间的飞跃是巨大的。
我们最初甚至都没把“视频生成”当成是可实现的目标。但随着时间推移,它真的变得可行了。
现在我们开玩笑说,我们一直在“不断往前挪球门线”(不断提高标准)。比如我们从 Runway 用户那里收到的反馈可能是:“很好,Cris,你现在能在火星上生成一个弹跳的球了,但第 27 帧时球的运动轨迹有点偏。”
我的反应通常是:“太好了,这种反馈特别棒。”因为我们会去解决它。但与此同时,我也会提醒大家:你们可能忘了,仅仅一年前,我们还觉得这根本是不可能的事。
Nilay Patel:我注意到现在很多大型平台公司之所以如此重金投入视频生成,尤其是因为他们都在对准广告行业。你也提到 Runway 有广告客户。马克·扎克伯格现在都不掩饰了,直接放话说:“我要彻底颠覆广告行业。”他就这么直说。
他几周前在 Stripe Sessions 上也说了类似的话。他的意思大概是:“你根本不需要动手。来找我们,说清楚你想要多少客户,大概介绍一下你的产品,我们就能自动生成广告视频,把它们投放到信息流里,然后你只需要看着收入滚滚而来。”这就是典型的扎克伯格思维方式。而这也是第一个真正成熟的市场——通过大幅降低广告制作成本,带来实际回报。那你们现在的客户需求,也主要来自这一方向吗?
Cris Valenzuela: 我觉得对很多人来说,这是一个极具吸引力的愿景,尤其是那些从来没有机会制作广告的人。现实中,很多企业根本负担不起去找广告代理公司拍摄一支专业广告片,更不用说什么顶级制作团队了。
所以,如果你能真正帮到这些企业,让他们也能做出广告,我觉得这是好事。它确实在某种程度上“提升了门槛”,因为现在几乎任何人都可以参与内容制作。
但我认为这并不是要“消灭广告公司”——那种说法有些过于简化了。我更倾向于认为:AI 是在缩短广告制作的周期和流程。
理想情况下,未来任何内容的制作成本,都可以降到接近模型推理的成本。如果你本身擅长构思和创意,你就可以借助这些工具生成所需内容——但你依然需要一个好点子。
所以,广告代理公司、创意人才依旧重要,只不过他们的制作周期会被大幅压缩。而这也有可能让更多原本无力承担内容生产的人,也能参与进来,做出自己的作品。
Nilay Patel: 是啊,我的意思是,我真的觉得马克·扎克伯格就是想干掉整个广告行业。
Cris Valenzuela:(笑)哈哈,也许我们该亲自去问问他,我也不知道。
Nilay Patel: 他是个行动风格非常激进的人。但我之所以这样问,是因为我看到现在有这么多 AI 产品、这么多新能力,却很少能直接转化为实际的商业成果。IBM 上个月有一项研究指出,在他们调研的企业中,只有 25% 的 AI 投资带来了回报——这是一个非常低的比例。现在大家都在尝试、在摸索,我可以理解在广告领域这条路是说得通的,毕竟那就是客户获取成本的问题。但在影视公司或其他领域,你是否看到过这样的场景:光是节省成本本身就足以值得投资?
Cris Valenzuela: 当然看到了。我就在这场访谈开始前,刚和一家电影公司开完电话会议。他们拿了一份剧本,想通过 Runway 来做测试。
不知道你们有没有参与过电影制作流程——通常你写完剧本之后,下一步是制作分镜图(storyboard)。这就意味着会有专人花上一到两周的时间手绘场景图,而且通常只是一两个镜头,而不是整部电影。这个过程非常耗时、成本也很高。
他们一边念着需要 Runway 协助的剧本段落,我这边就实时生成了分镜图。等他们读完剧本,我那边的分镜图也完成了。
他们最初甚至还没意识到发生了什么,因为他们从未体验过这种工作节奏和效率。对他们来说,速度就意味着成本。如果你把传统人工绘制分镜所需的时间加总起来,会发现原本拖延数周的工作,现在可以由编剧实时配合 AI 完成,极大缩短了开发周期,也推进了整个项目流程。
所以你会发现,在很多创意行业,很多流程至今仍是手工完成的。AI 在这些“缝隙”中提供的,不仅是效率提升,更是赋能创意者以更高的生产节奏去推进项目。
Nilay Patel:我其实特别想问你这个问题,因为我知道你一直很关注创意产业,以及“创作”本身的过程。反对者会说:正是编剧和分镜师之间的“沟通时间差”、信息传达与理解的过程,才是创作中最有魔力的部分。而当 AI 把这个过程简化成一种“机械式”的产出,而不是一场有机的创作协作时,反而会削弱内容的质量。你怎么看?
Cris Valenzuela: 我不太完全认同这种观点。我觉得我们有时候太过执着于“创作的过程本身”。
编剧的目标,是把脑子里的世界、想法、情感表达出来。如果你可以利用手边的工具更快地做到这件事,我觉得这不是问题,反而是好事。你可以更快地迭代概念,更快地理解自己的创意,更容易与他人协作,也能产出更多内容。
现在媒体创作的一个最大瓶颈在于:一个人可能花三四年做一个项目,结果项目在制作阶段被砍了,根本没机会面世——原因可能是预算问题、市场策略变化,或者公司内部决策等等。
你想想看,一个创作者可能四年心血付诸东流。这在当下非常常见。我想说的是:未来你不需要一辈子只做一个项目,你应该可以做十个、二十个。
所以除了“质量”,我们也应该考虑“数量”维度。当前的工作流程实在太慢、太受限了,限制了创意表达。如果我们能用 AI 去提升它,那么创作者就可以释放出更多的产能和可能性。
从这个角度来说,我认为这是一件非常棒的事。
Nilay Patel: 这就是你们的商业模型吗?你是认为“数量”会驱动业务增长?
Cris Valenzuela: 我认为,数量最终会带来质量。对一个艺术家来说,作品做得越多,水平才会越高。没有哪位艺术家只画过一次画就顿悟成了大师。毕加索创作了成千上万幅作品,而我们大多数人只见过其中不到 1%。音乐人也是一样,每天都在创作、试错,直到某个时刻,才终于做出打动人心的作品。
我认为,AI 工具就该扮演这样的角色:提升创作效率,让你做得更多,但最终的判断权依然在你手中——由你决定什么是好作品。
但说实话,我之所以创办 Runway,是因为我一直想拍电影。我在智利长大,小时候连买一台相机的条件都没有。我直到 27 岁才拥有了人生第一台相机,确实挺晚的,一方面也是因为设备太贵。
那时 Adobe 的软件价格高得离谱,我根本负担不起。也许我未必能成为一位优秀的导演,但如果能早点拥有表达脑中故事的工具,那对我来说就已经很棒了。是技术门槛阻止了我开始创作。
而现在,世界各地的孩子都在用 Runway,把自己的想法变成影像。这让我特别兴奋,也觉得很欣慰。
Nilay Patel: 那 Runway 的定价是怎么设计的?你们的收入来源主要是什么?商业模式是什么样的?
Cris Valenzuela: 非常简单,我们是订阅制收费模式。你付费后就可以使用平台上的不同功能。当然,我们也提供免费套餐,用户可以免费体验部分功能。
此外,我们还与学校合作。比如纽约大学(NYU)的电影学院就开设了专门教授学生使用 Runway 的课程。现在,学生上电影课,拿到的不再是一台相机,而是一套 AI 工具。我们也和其他学校有类似合作,这些教育场景下我们通常都是免费开放平台使用权限。
Nilay Patel: 你们与合作的影视公司,他们是花了很多钱购买服务吗?还是说他们在某种程度上是在为普通用户“补贴”?
Cris Valenzuela: 不,我们对企业是收费的。学生也可以付费,但他们之所以愿意付费,是因为 Runway 对他们确实有帮助。只要这个工具能让你完成事情,那它就有价值,值得投入。
Nilay Patel: 你们现在实现盈利了吗?
Cris Valenzuela: 还没有。我们仍处在快速增长阶段。当前我们投入最多的,其实是研发,而不是商业化。
Nilay Patel: 那你们的“Runway”(运营现金流)还能维持多久?
Cris Valenzuela: (笑)我们一直都在非常认真地思考这个问题。过去 12 到 18 个月里,我们的模型已经达到了一个非常成熟的阶段,现在你真的可以用 Runway 做出非常不错的作品。
对于任何公司来说,总会面临一个“优化函数”的选择:你是要优化当下的业务,还是继续押注未来的成长?
对我们而言,我们更倾向于继续增长。有很多值得深入投入的研究方向,还有很多潜在的机会等待我们去探索。
我们现在一直面临的张力是:**是停下来打磨现有的,还是继续向前?**我们选择的是后者。
因为我们相信,还有很多我们尚未触及、但值得去做的事情——这些才是我们真正想投入的方向。
Nilay Patel: 在 Decoder 节目中我都会问嘉宾一个问题:Runway 是怎么架构的?你们是如何组织公司的?
Cris Valenzuela: 我们非常精简。前几天有人以为我们有 1000 人,我听了觉得这大概是对我最好的夸奖了(笑)。其实我们只有大约 100 人左右。
公司结构非常扁平,我们更强调的是“自主性”而不是传统的目标驱动。我们不是那种设定一堆 OKR 的公司,实际上我们对“设定目标”这件事并不认同。
我们的工作方式是:设定边界和探索方向,而不是告诉你具体要怎么做。因为很多我们正在尝试的事情,从来没有人做过。如果我告诉你“该怎么实现”,那我可能也是错的——因为我们自己也还没走过这条路。
所以这本质上是一个科研式的组织,必须通过试验和失败不断推进。我们所做的,是为团队设定清晰的约束条件和探索边界,在这个范围内,你可以自由尝试。
我们过往最好的成果,往往来自“给出正确边界后,让人自由发挥”——大家自主探索、自主解决问题,这种模式反而效率更高。
Nilay Patel: 所以你们是全套“全员自组织”(holacracy)吗?完全没有组织架构图?
Cris Valenzuela: 呃,也不能说完全没有,我们在某种意义上还是有一些组织结构的,但协作是跨职能、跨边界的。
我们内部设有一个“Studio”,里面有创意人员、制片人、电影人和研究人员,他们都坐在一张桌子上,一起工作、用同一种语言交流。虽然大家背景不同,但却能高效协作。
所以,是的,我们所追求的,就是这种协作方式——跨界融合、去层级化、面向创造力。
Nilay Patel:我之所以问这个问题,特别是针对像 Runway 这样规模的 AI 公司,是因为你们的产品能力、背后的模型研发、以及产品形态之间,有非常紧密的联系。我目前还没看到太多真正“聚焦且打磨得很好”的 AI 产品——Runway 可能是其中的少数几个。
大多数情况像是 ChatGPT —— 一个开放式接口连接前沿大模型,然后我们再看它能做些什么。那你怎么看?随着公司做大,你们的产品会变得更加聚焦吗?还是你觉得必须要保留模型研发团队和产品团队之间的紧密联动?
Cris Valenzuela: 我认为产品和模型之间的联动,是为了让产品团队更好地预判技术走向。以前技术研发的周期很长,现在研究的节奏非常快。
这带来了一个难题:产品开发变成了当下最难做的一件事之一。你规划好产品方向、设计、开始开发——但等你做完时,它可能已经被新一代模型淘汰了。可能六个月白干了。
所以现在产品团队也必须像研究团队一样去运作。我们在公司内部的理念是:虽然只有研究科学家在做模型训练,但其实每个人都是“科学家”,每个人都在做实验。
在你投入大量时间去做某件事之前,先跑一个实验,做一个简单原型,看看值不值得继续投入。然后再跟研究团队沟通,确认这个方向未来是否还有价值,或者是否马上就会被下一个模型版本覆盖。
我们经常遇到客户问:“这个模型能做到 A,但做不到 B,能不能帮我做个专门产品来解决这个?”我们也会评估——是现在就做一个定制产品,还是等下一代模型能直接自动搞定这一切?
这就是难点所在——你总是在追赶技术的前沿。所以我认为,那些理解研究逻辑的公司,会比那些单纯做产品追热点的公司更有优势。
Nilay Patel: 我总会拿这个比喻(你可能不喜欢),但我还是想说。我很早就开始报道科技行业了,头发白了,胡子也长了。当年蓝牙刚出来时,大家都知道“最终形态”是什么样的:无线耳机。
美国每个房地产中介都戴着一只巨大的摩托罗拉蓝牙耳机,大家都说,“哦,我们想要的是 AirPods!”但蓝牙协议根本没准备好,直到十年后,苹果才自己构建了一套私有层,才把 AirPods 做出来。
这一切花了十年——因为当时技术根本还不支持这个愿景。那个年代一直在反复权衡:“我们想要什么样的产品?我们能不能做出来?技术是否跟得上?”
你刚刚的描述,其实和当年是一模一样的。而让我最惊讶的是,现在大模型一次次“吞掉”已有产品形态——你们怎么知道该做什么产品?
Cris Valenzuela: 确实,非常难。
Nilay Patel: 因为“AirPods 长什么样”大家都能想象——“电脑要和我对话”,这点大家也懂。
Cris Valenzuela: 是的,但这不只是“电脑能说话”这么简单。它怎么说?它有没有情绪?情绪在何时被调动?这些细节都是产品的一部分,而这些反过来又会推动研究方向。
说实话,现在没有人真的能明确描述未来的产品体验会是什么样子。因为我们正处在一种我们从未想象过的交互方式中。
你只有在用户真正开始使用之后,才能发现问题——这在研究中也常见。你可能花了很长时间做训练,结果模型一上线,用户两分钟就用出了完全不同的新玩法。
我反倒觉得这特别好。这也说明,上一代软件产品的逻辑是“你选一个垂直领域,然后往里深耕”;而下一代软件产品的逻辑应该是:“你选一种思维方式或世界观,然后围绕它构建模型。”
对我们来说,我们的“世界观”是:未来你所看到的图像,大多数都是被生成的、是模拟出来的。这是我们的出发点。
基于这个原则,我们就可以构建出很多不同方向的产品。这也是我们和传统“找一个用例、深挖下去”的产品思维之间的根本区别。
文章来自公众号“Z Finance”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)