短视频平台把创作门槛压进手机屏幕,完成了一次“即创即消”的效率革命。
生成式 AI 的到来,则正在把视频创作从“操作工具”,推向“直接表达想象”。
从“现实切片”走向“虚拟构建”,创作范式正在换挡。站在这个转折点上,前字节跳动智能创作工程与研发负责人黄严,给出了自己的答案。
今年10月,他创办的 ArtArch 发布了首款产品——Skira。在Skira中,复杂的剪辑与编排被封装成“玩法”(Gameplay)。用户只需输入简单指令或素材,就能调用底层能力,一键生成爆款作品。
Skira 的目标只有一个:让 AI 创作真正走向平权,实现“所想即所得”。
2025 年初,ArtArch 已完成种子轮融资,投资方包括锦秋基金、九合创投和 BV 百度风投。
硅基君:Skira的核心定位是什么?
黄严:我们想做的是一个AI Native(AI原生)的创作者社区。
以前的创作叫 NLE(Non-Linear Editing,非线性编辑)。无论是 Photoshop,还是手机时代的剪映、快手,本质都是NLE——基于轨道、图层进行编辑。
NLE 时代有三个角色:需求方(甲方)、设计师(操作者)、工具。这导致创作门槛很高,你需要先学工具。短视频时代把 NLE 搬到了手机上,同时加强了分发能力,实现了“即创即消”,大大加速了循环。
但AI Native 时代,由于 AI 拓展了从现实到虚拟的想象力空间,过去的创作更多基于现实,而现在创作空间可以完全基于一个想象的虚拟空间,比如爆改甄嬛。一个服务于现实,一个服务于想象力。
而且,现在我们不再需要一个专门学工具的“设计师”角色,工具可以直接服务于“想象力”。我们做的 Image Engine(想象力引擎),就是要让创作平权,即所想即所得。
硅基君:具体的变革体现在哪里?
黄严:以前我们拍片子,原素材必须来自现实(拍摄),后期再去拼接。现在,任何素材都可以由AI 生成或加持。本质变了:从“如何操作工具”转变为“如何拆解创意”。
为了让创作更顺滑,我们把创作过程变成了一套Workflow(工作流)。
第一步,让AI先理解创作者的“语境”与“世界观”。创作者心里其实有画面、有情绪、有氛围,但用语言说出来就困难。
AI 要解决的是:让机器理解“创作者真正想表达的内容”,而不是理解字面意思。这是整个系统最重要的一步。这就是他们说的 “所想即所得”。
第二步,用AI 把“想法”转成结构化的创作蓝图。比如拍一个 30 秒短片,传统流程包含:剧本结构、分镜、主体角色、背景转场、特效声音、音乐节奏、剪辑。
这些原本需要专业团队逐步完成的环节,现在在系统里是“一盘棋”编排的。你可以像编辑思维导图一样调整每个步骤。
硅基君:能不能展开讲讲用Skira和直接用视频模型有什么区别?
黄严:区别在于表现力,而这背后就是“理解语境”能力的差异。大模型生成的视频往往是“千人一面”的,它理解的是概率上的共识。
但创作往往需要“特异性”。比如,编剧写剧本:“一个男人回家,快速划掉手机屏幕。”这一句话就暗示了出轨、紧张、心虚,这是语境。
如果你直接把这句话给大模型,它可能就真生成一个男人划手机,平铺直叙。我们的系统里有导演Agent。它会理解这个语境,然后设计分镜:
镜头A:特写男人的汗珠。
镜头B:手机屏幕的特写,手指慌乱的动作。
配合心跳声的音效、昏暗的滤镜。这就是我们做的:把“语境”翻译成具有表现力的“视听语言”,而不仅仅是生成一个画面,用最大化的表现方式去击中观众。
硅基君:听起来很厉害,从技术上是怎么实现的?
黄严:我们底层构建了一套Image DSL(领域特定语言)。你可以理解为,我们为视频创作发明了一套编程语言。
这套语言里包含了生成类、主体类、渲染类、特效类等各种定义。通过这套语言,我们把一个感性的“剧本”,编译成了一套可执行的计算机程序。
在这个架构之上,我们有执行工作流的Agent 引擎。这里面有不同的 Agent 角色:
编剧Agent: 理解你的意图,生成世界观和叙事结构。
导演Agent: 负责分镜设计、镜头调度。
演员Agent: 负责角色的演绎和互动。
最上层是玩法引擎。玩法可以理解为一种特定剪辑方式,比如A/B Transfer(转场特效)或者比较火AI宠物视频。
我们把这些复杂的编排封装成“玩法”(Gameplay),用户只需要输入简单的指令或图片,就能调用这套复杂的底层能力。
硅基君:这里的Agent,具体是如何工作的,比如编剧 Agent?
黄严:每个Agent 都有独特的 ID 和背后的领域知识库,不仅仅是靠 Prompt 驱动。在训练过程中,也会通过强化学习,根据反馈(这个生成得好不好)来更新自己的策略。
硅基君:如果未来视频大模型(如Sora)变强了,还需要这套工程架构吗?
黄严:这涉及到一个核心判断:大模型变强,能解决局部复杂度,但解决不了整体创作的复杂度。
举个例子,主体保持(Consistency) 目前大模型做得还不够好。为了让一个角色在不同镜头里长得一样,我需要在模型周围打很多“补丁”,用工程化手段(比如特有的渲染引擎、LoRA等)去约束它。
如果大模型变强了,这部分工作会被简化。但是,人的审美天花板永远在提升。就像小时候看《大闹天宫》觉得很牛,现在觉得太简单了。当模型能力提升,人类会要求更复杂的叙事、更精细的控制(比如希区柯克式变焦、蒙太奇剪辑)。
所以,工程架构是连接“人类无限的复杂想象力”和“模型有限的能力”之间的桥梁。这种沉淀下来的系统设计能力,才是壁垒。
硅基君:所以,工程也是一种壁垒?
黄严:短期来看,工程不是壁垒,工程师只是负责实现。工具本身可以很快做出来。
长期来看,随着时间积累,构建起来的这套体系和沉淀会成为壁垒。只有当系统跑起来,随着服务的人群越来越广、时间越来越长、场景越来越复杂,你沉淀下来的那套“如何支持复杂创作”的经验,才是真正的技术核心。
硅基君:Skira的用户是谁?
黄严:我们把用户分为两层,形成一个对流:
P层(Producers,制作人): 技术流大神、艺术家。他们懂镜头、懂审美、甚至懂一点技术。他们利用我们的底层工具(DSL、工作流)去创作“玩法”和“模版”。
C层(Creators,普通创作者): 大众用户。他们有表达欲,但不想学复杂工具。他们直接使用 P 层创造的“玩法”,上传自己的照片或素材,快速生成高质量内容。
我们作为平台,连接这两端,让大家的思想、创意流转起来。
硅基君:怎么实现这种流转?
黄严:核心在于平台如何分配利益,我们通过“收益流转”来解决这个问题。
平台会给制作人提供收益:越多人使用你开发的“玩法”,你就能拿到越多的收益。
1. 经济收益:包括平台的基础点数(Credit),以及未来的分佣分成。
2. 声誉归属:这个玩法是属于该制作人的,他的 Profile(个人主页)会展示这些成就。
所以,无论是制作人还是C 端用户,他们都在同一个社群里。制作人通过提供玩法获得分成和声誉,大众通过使用玩法获得流量和表达。平台则作为一个放大器,让热点和创意在两者之间高效流转。
硅基君:目前,这个创作者群体够大吗?
黄严:AI硬核创作者是小众的,但“泛创作者”(发抖音、做号的人)体量已经很大了。这些泛创作者没有平台忠诚度,哪里能帮他们“快、好、追热点”,他们就去哪里。
硅基君:Skira的付费模式是什么?
黄严:C端为算力付费,为高级玩法付费。P 端则为创作工具付费,但目前更多是不仅不付费,我们还会给他们分成,因为他们是生态的供给方。
硅基君:在Skira上,有哪些内容会比较火?
黄严:从我观察来说,目前主要有三类内容比较火:
一类是AI萌宠类:拟人化的宠物内容;第二类是AI Me(AI自我): 平行世界的变装、风格化,展示“外人眼中的我”;第三轮是虚幻/IP共创:基于某种IP或意识形态的延展(比如基于《甄嬛传》或《三国》改出的幽默/奇怪剧情)。
硅基君:这些火了的“玩法”,如果大平台复刻,我们的护城河在哪?
黄严:第一,供给的多样性,比如“疯狂动物城”热点,抖音上可能只有 2-3 种官方玩法,但我们平台上有海量制作人提供各种不同的风格。
第二,交互形式的演进。“玩法”不仅仅是模板,还在进化出新的交互形式。比如,用户与 AI IP 的互动(@某个角色)、合拍、共创。这些带有社交属性的新玩法,大平台不一定能迅速兼容或覆盖。
第三,定位的不同。大平台需要关注最广大基数用户的基本诉求(如剪辑工具的易用性)。而我们可以作为一个创作社区,专注于创作范式和玩法的独立演变,把我们作为“生产端”,大平台作为“分发/消费端”。我们是连接的桥梁,不完全冲突。
硅基君:市面上很多AI公司也在做“一站式创作平台”,Skira和他们的差异在哪里?
黄严:“一站式”是行业趋势,大家都在往自动化方向走。但我们的本质区别在于对“创作”本身的理解深度。
我们不仅仅是做自动化,而是深入到创作者语境、元素拆解、表现力合成。如果只是单纯的工程自动化,做出来的东西往往“牛头不对马嘴”,缺乏灵魂。
硅基君:作为一个AI产品,您最关心的指标是什么?
黄严:是创作量,或者叫Creation DAU(日均创作用户数)。这是一个基于工具演化出的创作社区,最核心的是大家来这里产生创作行为。如果用户来了只是看而不创作,那他们应该去消费社区(如抖音/小红书)。
硅基君:关于用户心智(User Mindset),比如提到剪映大家就想到“剪辑”。你们希望占据什么样户心智?
黄严:如果用一句话概括,Skira 是一个以“表达”为起点的 AI 原生创作社区。
当用户脑子里出现一个画面、一个情绪、一个想法,却不知道该怎么把它变成内容时,他会想到 Skira。Skira核心的Slogan就是“Worlds in your mind”
文章来自于“硅基观察Pro”,作者 “林白”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0