告别“剪映模式”：一位前字节负责人对 AI 视频产品的终极思考

7815点击 2026-01-05 15:07

短视频平台把创作门槛压进手机屏幕，完成了一次“即创即消”的效率革命。

生成式 AI 的到来，则正在把视频创作从“操作工具”，推向“直接表达想象”。

从“现实切片”走向“虚拟构建”，创作范式正在换挡。站在这个转折点上，前字节跳动智能创作工程与研发负责人黄严，给出了自己的答案。

今年10月，他创办的 ArtArch 发布了首款产品——Skira。在Skira中，复杂的剪辑与编排被封装成“玩法”（Gameplay）。用户只需输入简单指令或素材，就能调用底层能力，一键生成爆款作品。

Skira 的目标只有一个：让 AI 创作真正走向平权，实现“所想即所得”。

2025 年初，ArtArch 已完成种子轮融资，投资方包括锦秋基金、九合创投和 BV 百度风投。

/ 01 /

从即创即消，到所想即所得

硅基君：Skira的核心定位是什么？

黄严：我们想做的是一个AI Native（AI原生）的创作者社区。

以前的创作叫 NLE（Non-Linear Editing，非线性编辑）。无论是 Photoshop，还是手机时代的剪映、快手，本质都是NLE——基于轨道、图层进行编辑。

NLE 时代有三个角色：需求方（甲方）、设计师（操作者）、工具。这导致创作门槛很高，你需要先学工具。短视频时代把 NLE 搬到了手机上，同时加强了分发能力，实现了“即创即消”，大大加速了循环。

但AI Native 时代，由于 AI 拓展了从现实到虚拟的想象力空间，过去的创作更多基于现实，而现在创作空间可以完全基于一个想象的虚拟空间，比如爆改甄嬛。一个服务于现实，一个服务于想象力。

而且，现在我们不再需要一个专门学工具的“设计师”角色，工具可以直接服务于“想象力”。我们做的 Image Engine（想象力引擎），就是要让创作平权，即所想即所得。

硅基君：具体的变革体现在哪里？

黄严：以前我们拍片子，原素材必须来自现实（拍摄），后期再去拼接。现在，任何素材都可以由AI 生成或加持。本质变了：从“如何操作工具”转变为“如何拆解创意”。

为了让创作更顺滑，我们把创作过程变成了一套Workflow（工作流）。

第一步，让AI先理解创作者的“语境”与“世界观”。创作者心里其实有画面、有情绪、有氛围，但用语言说出来就困难。

AI 要解决的是：让机器理解“创作者真正想表达的内容”，而不是理解字面意思。这是整个系统最重要的一步。这就是他们说的 “所想即所得”。

第二步，用AI 把“想法”转成结构化的创作蓝图。比如拍一个 30 秒短片，传统流程包含：剧本结构、分镜、主体角色、背景转场、特效声音、音乐节奏、剪辑。

这些原本需要专业团队逐步完成的环节，现在在系统里是“一盘棋”编排的。你可以像编辑思维导图一样调整每个步骤。

硅基君：能不能展开讲讲用Skira和直接用视频模型有什么区别？

黄严：区别在于表现力，而这背后就是“理解语境”能力的差异。大模型生成的视频往往是“千人一面”的，它理解的是概率上的共识。

但创作往往需要“特异性”。比如，编剧写剧本：“一个男人回家，快速划掉手机屏幕。”这一句话就暗示了出轨、紧张、心虚，这是语境。

如果你直接把这句话给大模型，它可能就真生成一个男人划手机，平铺直叙。我们的系统里有导演Agent。它会理解这个语境，然后设计分镜：

镜头A：特写男人的汗珠。

镜头B：手机屏幕的特写，手指慌乱的动作。

配合心跳声的音效、昏暗的滤镜。这就是我们做的：把“语境”翻译成具有表现力的“视听语言”，而不仅仅是生成一个画面，用最大化的表现方式去击中观众。

硅基君：听起来很厉害，从技术上是怎么实现的？

黄严：我们底层构建了一套Image DSL（领域特定语言）。你可以理解为，我们为视频创作发明了一套编程语言。

这套语言里包含了生成类、主体类、渲染类、特效类等各种定义。通过这套语言，我们把一个感性的“剧本”，编译成了一套可执行的计算机程序。

在这个架构之上，我们有执行工作流的Agent 引擎。这里面有不同的 Agent 角色：

编剧Agent：理解你的意图，生成世界观和叙事结构。

导演Agent：负责分镜设计、镜头调度。

演员Agent：负责角色的演绎和互动。

最上层是玩法引擎。玩法可以理解为一种特定剪辑方式，比如A/B Transfer（转场特效）或者比较火AI宠物视频。

我们把这些复杂的编排封装成“玩法”（Gameplay），用户只需要输入简单的指令或图片，就能调用这套复杂的底层能力。

硅基君：这里的Agent，具体是如何工作的，比如编剧 Agent？

黄严：每个Agent 都有独特的 ID 和背后的领域知识库，不仅仅是靠 Prompt 驱动。在训练过程中，也会通过强化学习，根据反馈（这个生成得好不好）来更新自己的策略。

硅基君：如果未来视频大模型（如Sora）变强了，还需要这套工程架构吗？

黄严：这涉及到一个核心判断：大模型变强，能解决局部复杂度，但解决不了整体创作的复杂度。

举个例子，主体保持（Consistency）目前大模型做得还不够好。为了让一个角色在不同镜头里长得一样，我需要在模型周围打很多“补丁”，用工程化手段（比如特有的渲染引擎、LoRA等）去约束它。

如果大模型变强了，这部分工作会被简化。但是，人的审美天花板永远在提升。就像小时候看《大闹天宫》觉得很牛，现在觉得太简单了。当模型能力提升，人类会要求更复杂的叙事、更精细的控制（比如希区柯克式变焦、蒙太奇剪辑）。

所以，工程架构是连接“人类无限的复杂想象力”和“模型有限的能力”之间的桥梁。这种沉淀下来的系统设计能力，才是壁垒。

硅基君：所以，工程也是一种壁垒？

黄严：短期来看，工程不是壁垒，工程师只是负责实现。工具本身可以很快做出来。

长期来看，随着时间积累，构建起来的这套体系和沉淀会成为壁垒。只有当系统跑起来，随着服务的人群越来越广、时间越来越长、场景越来越复杂，你沉淀下来的那套“如何支持复杂创作”的经验，才是真正的技术核心。

/ 02 /

剪映之外：一个面向“表达”的 AI 原生创作社区

硅基君：Skira的用户是谁？

黄严：我们把用户分为两层，形成一个对流：

P层（Producers，制作人）：技术流大神、艺术家。他们懂镜头、懂审美、甚至懂一点技术。他们利用我们的底层工具（DSL、工作流）去创作“玩法”和“模版”。

C层（Creators，普通创作者）：大众用户。他们有表达欲，但不想学复杂工具。他们直接使用 P 层创造的“玩法”，上传自己的照片或素材，快速生成高质量内容。

我们作为平台，连接这两端,让大家的思想、创意流转起来。

硅基君:怎么实现这种流转？

黄严：核心在于平台如何分配利益，我们通过“收益流转”来解决这个问题。

平台会给制作人提供收益：越多人使用你开发的“玩法”，你就能拿到越多的收益。

1. 经济收益：包括平台的基础点数（Credit），以及未来的分佣分成。

2. 声誉归属：这个玩法是属于该制作人的，他的 Profile（个人主页）会展示这些成就。

所以，无论是制作人还是C 端用户，他们都在同一个社群里。制作人通过提供玩法获得分成和声誉，大众通过使用玩法获得流量和表达。平台则作为一个放大器，让热点和创意在两者之间高效流转。

硅基君：目前，这个创作者群体够大吗？

黄严：AI硬核创作者是小众的，但“泛创作者”（发抖音、做号的人）体量已经很大了。这些泛创作者没有平台忠诚度，哪里能帮他们“快、好、追热点”，他们就去哪里。

硅基君：Skira的付费模式是什么？

黄严：C端为算力付费，为高级玩法付费。P 端则为创作工具付费，但目前更多是不仅不付费，我们还会给他们分成，因为他们是生态的供给方。

硅基君：在Skira上，有哪些内容会比较火？

黄严：从我观察来说，目前主要有三类内容比较火：

一类是AI萌宠类：拟人化的宠物内容；第二类是AI Me（AI自我）：平行世界的变装、风格化，展示“外人眼中的我”；第三轮是虚幻/IP共创：基于某种IP或意识形态的延展（比如基于《甄嬛传》或《三国》改出的幽默/奇怪剧情）。

硅基君：这些火了的“玩法”，如果大平台复刻，我们的护城河在哪？

黄严：第一，供给的多样性，比如“疯狂动物城”热点，抖音上可能只有 2-3 种官方玩法，但我们平台上有海量制作人提供各种不同的风格。

第二，交互形式的演进。“玩法”不仅仅是模板，还在进化出新的交互形式。比如，用户与 AI IP 的互动（@某个角色）、合拍、共创。这些带有社交属性的新玩法，大平台不一定能迅速兼容或覆盖。

第三，定位的不同。大平台需要关注最广大基数用户的基本诉求（如剪辑工具的易用性）。而我们可以作为一个创作社区，专注于创作范式和玩法的独立演变，把我们作为“生产端”，大平台作为“分发/消费端”。我们是连接的桥梁，不完全冲突。

硅基君：市面上很多AI公司也在做“一站式创作平台”，Skira和他们的差异在哪里？

黄严：“一站式”是行业趋势，大家都在往自动化方向走。但我们的本质区别在于对“创作”本身的理解深度。

我们不仅仅是做自动化，而是深入到创作者语境、元素拆解、表现力合成。如果只是单纯的工程自动化，做出来的东西往往“牛头不对马嘴”，缺乏灵魂。

硅基君：作为一个AI产品，您最关心的指标是什么？

黄严：是创作量，或者叫Creation DAU（日均创作用户数）。这是一个基于工具演化出的创作社区，最核心的是大家来这里产生创作行为。如果用户来了只是看而不创作，那他们应该去消费社区（如抖音/小红书）。

硅基君：关于用户心智（User Mindset），比如提到剪映大家就想到“剪辑”。你们希望占据什么样户心智？

黄严：如果用一句话概括，Skira 是一个以“表达”为起点的 AI 原生创作社区。

当用户脑子里出现一个画面、一个情绪、一个想法，却不知道该怎么把它变成内容时，他会想到 Skira。Skira核心的Slogan就是“Worlds in your mind”

文章来自于“硅基观察Pro”，作者 “林白”。

关键词: AI新闻 , AI剪辑 , Skira , AI剪映

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0