融资2000万美元，她想教会AI什么叫「有品味」

9414点击 2026-06-12 14:29

用户想要脑机接口，想一下视频就出来

近期，AI内容创作公司感知阶跃宣布完成新一轮融资，逾2000万美元，由红点创投与创世伙伴CCV共同投资。

感知阶跃成立5年，核心团队不足30人，靠服务电商起家。最初的产品ZMO.ai是给电商做模特图，在预见视频会是更大的市场后开始做Creati.ai，也是真正被市场记住的一款产品——依旧面向中小商家，但受众面增加了视频创作者的AI视频生成工具——使用者在手机上输入一段文案或上传一张产品图，就能产出可直接投放到TikTok、Instagram的短视频。而它更像一台“爆款复刻机”，会自动拆解当前爆款视频元素，并混剪进自己的素材，以达到病毒式传播的效果。

Creati.ai很快积累了超2500万用户与千万美元级ARR。在AI视频赛道普遍深陷“烧钱”泥潭的当下，这是一个切实做出过高盈利产品的极少数团队。出色的自我造血能力，使得这家公司在三年多的时间内没再出现于资本市场。

这一次重新打开融资窗口，是为了公司的最新产品Buzzy。如果Creati回答的是“如何更高效地生成一条爆款视频”，Buzzy所瞄准的则是视频生成前、后的两个更难的环节——创意与编辑。

创始人张诗莹想打造一个能够习得用户审美的智能体：用户在任意平台浏览到感兴趣的内容，将其转发给智能体，后者便在全网检索相关素材，为用户构建个性化的灵感库，推动其迈出创作的第一步。

之后，创作者可以面对一段已有视频提出具体要求——不需要严谨的提示词，自然语言就可以——调整光线、移除路人、变化角度等， AI可以准确修改指定内容，其余部分维持原状。基于这部分功能，团队给Buzzy暂定了一个定位——视频版Photoshop。因为它最直观，也最好对外传播。

可编辑只是末端——她真正想做的是一个AI副导演，她相信人人都是导演，让一个Agent副导演，接管从找灵感到成片的整条流程。

这套“inspire—create—edit”的闭环，直指AI视频行业两个最普遍的痛点：用户缺乏核心创意，或者提示词词不达意；而当生成结果仅差毫厘时，没有人愿意以“抽卡”的方式推倒重来。

融资2000万美元，她想教会AI什么叫「有品味」

张诗莹

张诗莹曾在苹果、Oculus VR、Google负责核心产品。作为AirPods创始团队核心成员，完整经历了这款明星产品硬件设计落地的全过程。

此后她转入谷歌，担任AR产品的系统架构师，在隔壁团队的研究中“大受震撼”。2020年，她看到了正在研究GAN（生成对抗网络）的小组生成了一张像素256×256的人脸，从随机噪声中逐渐成形。

那是张诗莹第一次看到AI“生成”了一张图片。结合对内容价值的判断，她立刻开始行动。她想创业，就做GAN。

那不是属于生成的年代，对于AI能做什么，人类的想象力是匮乏的。当时大部分商业项目和科研力量都押在图像识别上，生成被视为冷门方向，没人愿意抛弃大厂的高薪，跟她一起纵身入局。

张诗莹检索了全球GAN领域论文引用量排名前100位的作者，逐一发送邮件。虽然回复率不足10%，但就是在这回复的10个人里，她找到了后来的联合创始人兼CTO——一位在欧洲实验室专注人体驱动生成、被同行视为“冷门方向”的博士生。

两人一拍即合。隔着大西洋与六个时区，他们以纯线上协作的方式启动了公司，一步步迭代着创业目标。即便到了Buzzy，张诗莹也不相信“今天的产品形态就是终局”——模型在变强，市场在变快，用户习惯在变迁，唯一能做的就是持续迭代。而显然，她也同样有着对市场的敏锐嗅觉与转型的果敢。

张诗莹之所以想做一个能学习人类品味的bot，是为了让更多普通人能做内容，她觉得人活着不应该只是种田NPC，在生成可以被精准修改的未来，人人都能创作独属于自己的世界，如果可以选，她想把自己放进《仙剑奇侠传》，去做李逍遥。

视频版Photoshop

未来人类实验室（以下简称未来）：从你最早创业做ZMO.ai，给电商做AI模特图，到做Creati.ai，再到这次的Buzzy，中间经历了两次转变，而且以往两个产品多为toB，而Buzzy更toC，做B端的生意跟C端是有很大不同的，为什么会有如此大的转变？

张诗莹：大客户战线拖得很长。各种需求是不是大规模采用，是一个很漫长的流程。而且AI 模型变化太快。上个月跟你说好的方案，下个月就不一样了，只能重来。我觉得AI不太适合那种old school的打法。

还有一个问题，toB你得驻场，团队会越来越大，而且我也不想变成销售，我讨厌同一个事情说很多次。

所以我们做了Creati，当时做了两个改动，第一个就是决定要面向所有用户，包括中小企业和C端用户。第二，我们判断视频一定比图片有更大的增量市场。

未来：视频比图片更有市场，这个判断是怎么形成的？

张诗莹：视频的信息量更大、参与度更强、能产生的流量更大。我们认为图片最后一定会迁移到视频，这是必然发生的。

第一是用户对视频的粘性很强，他会一直看视频。第二是视频的信息容量更大。

我们发现用户自己P图其实没有那么难，现成的图片过来，把不同的衣服P上去，企业觉得招两个小时工就弄完了，我干嘛非要付钱给这个软件？这软件死贵的。

但是视频他们P不了，很难。一个女生在那转两圈，还扯了一下，说这个衣服质量好，只卖39块。但别人可能只卖19块，对吧？你不好改，他就只能找人拍，这个成本就很贵了。

但是视频的传播效率肯定是更高的，对很多商家的广告来说，单纯的图片信息表达不了他产品的很多卖点。还有内容多了之后，需要迭代效率非常高。以前一个热点能火一周，现在两三天就没有了。频次更短，需要的量就更大。

所以我们认为未来整个广告的盘子应该90% 是视频。

未来：既然Creati这么有市场，而且商业化已经很好了，为什么又做新产品？

张诗莹：做Creati的过程中我们发现两个核心痛点。

第一，大量用户觉得写提示词非常痛苦。在手机上写提示词动辄很长，商家根本不想研究，小博主也不想花很多时间——他们的逻辑是“我不知道这条能不能起，那我就多做几条”，他希望更快产出。甚至有用户跟我们说他想要脑机接口，想一下就出来。

第二，生成出来效果不好，又不想重新抽卡。好不容易有一版觉得98% 完美了，结果重新抽又全变了。就觉得在浪费钱和时间。这两个痛点在我看来已经跟”生成”无关了。它是生成的前置和后置问题。

未来：Buzzy的定位是“视频版Photoshop”，但我觉得你们更像视频创作版的字节——用算法投喂灵感。

张诗莹：我非常同意。有一点很清楚：我们不去解决大模型本身要解决的问题。大模型越强，我们也越强——它生成得越好，用户越需要精细编辑和个性化，是双赢。

融资2000万美元，她想教会AI什么叫「有品味」

Creati

未来：那Buzzy的重点到底在前面的创意，还是后面的编辑？

张诗莹：这是一个很好的问题。其实我们想做的是全流程——找灵感、创作、再编辑。之所以先重押编辑，是因为它是用户一眼就能感知到差别的那一环，最直观、最有wow effect；可只盯着“编辑”，又会盖住整个工作流被颠覆的逻辑。真正卡住用户的其实是灵感——没有灵感、没法创作，也就没有东西可改。所以这两块，我们其实一直在一起做。

让AI学搞笑

未来：你们怎么训练AI理解“品味”这种抽象的东西？

张诗莹：我们做了大量的视频理解和背后的“梗”的理解。你要帮用户找灵感，核心是把视频里面的taste抽象出来，你才能去找。

我们发现AI之所以“笨”、创意不行，是因为它对内容理解不了。我们给它看搞笑视频，它觉得不搞笑。

未来：搞笑、高级感……这些应该是最难定义的。

张诗莹：最难的。比如抖音上小猫短剧——小猫玩手机被主人发现了，它就装睡。大家觉得好可爱好好笑。AI说，有什么好笑的？

我们训它的时候用了很多抖音视频加底下的评论。它得像模仿一个小孩子一样去理解——这个猫被主人发现了，人类把宠物当作宝宝，所以觉得这个行为像小孩子被抓现行一样好笑。它得理解这个逻辑。

而且视频有时间维度和语义维度。你觉得好笑不是因为“猫”这个画面，是因为这个叙事。所以不能用以图搜图的逻辑——你要找的不是另一个猫的视频，而是另一个“同样好笑”的视频，可能是狗、是仓鼠。

AI没有创意，但学习能力很强。它只要理解能力逐步变强，就能有创意——它的创意来自把大量人类的反馈映射到“有梗的”“好笑的”“高级的”上面，再抽出来给你。

融资2000万美元，她想教会AI什么叫「有品味」

Buzzy

未来：Runway、可灵都做过编辑，大家都知道是痛点，为什么做好这么难？

张诗莹：编辑比生成难一个level。生成的解空间很大，你说“一只猫”，什么猫都行。但编辑是你给了一个框，“就这个视频，就改这一点，其他不动”，解空间很小，找到正确答案就很难。

而且不只是“改局部”这么简单。你还得符合用户意图——商家卖旗袍，你换完不能不长成旗袍的样子。你既要跟用户的修改目标一致，又要跟原视频的光影、动作、时序完全一致。需要inpainting模型把局部抠出来再填回去，还要保证时序一致。这很难。从基模能力来说，编辑一直都比生成更难。

未来：你们的壁垒是什么？

张诗莹：是这个bot学习了你的品味。我们认为用户的创作流程应该是：首先知道你想做什么、你喜欢什么。每个人对内容创作的喜好和内容消费的喜好是不一样的——比如我可能喜欢看小猫小狗，但创作的是纪录片。

我们的bot会根据你发来的灵感，在各个平台帮你爬取相关素材，形成你的personalized Pinterest。你勤快就多发链接，你不勤快bot也会主动每天推几条给你，你告诉我哪个好就行。然后基于这些灵感帮你创作，你不喜欢的地方说一声，它帮你改。入口就不再是“想一段很长的提示词”。

最重要的还是沉淀用户的个性化。一旦bot懂你了，你懒得换。就像换外包商——你跟A合作了几个项目，它知道你要123，你换成B得重说一遍，挺累的。

做一件很酷的事情

未来：新融的2000万美金打算怎么花？

张诗莹：到目前为止花最多的还是在研发上。我相信一个点——我们应该做慢而正确的事情。

未来：视频产品烧钱吧？

张诗莹：视频产品需要尽快赚钱，因为视频很贵。Sora给了一个先例——有钱如OpenAI也烧不起。视频本身就应该是生产力工具，用户心甘情愿付费才能持续。快钱的好处一个是快，第二个是你更容易更快得到正反馈，更容易知道下一步自己要怎么做。

未来：最近这轮投资人最看中你们什么？

张诗莹：一是Creati的增长还是比较快的，二是他们believe in AI video这个赛道，三是我们讲了Buzzy在做什么——他们觉得蛮有创新力和前瞻性。

更多是我们在跟他们align一件事：为什么不继续只做Creati？因为Creati明明做得好好的。我们在说的是——Buzzy定义的是面向未来生成模型更强之后，真正适合用户的体验。它不应该是大量写提示词。

融资2000万美元，她想教会AI什么叫「有品味」

Buzzy

未来：之前做硬件的经历对你创业有什么影响？

张诗莹：更偏向从用户体验出发看事情，而不是商业化。我在Airpods负责的部分叫system Architecture。Airpods它本身需要很轻，用户戴着才不会累，但是用户又希望它是能够听比较长的时间的，对电池续航也有要求。

因为PCB板中间有很多的零件，它需要很小很省电，包括蓝牙技术当时也是一个专利，另外传感器怎么知道你把耳机放到耳朵里面了？这些都是很细节的东西。我们当时定制了很多的元件，这个元件之前是不存在的，电路也都要对应去调整。

每年我们都说做得挺好了，但每年都不发，因为还可以更好。

直到AirPods发布那天，我们整个组坐在会议室看发布会，出来之后就欢呼。然后刷社交媒体，底下全是骂，团队士气影响很大。过了三到六个月，用户真正用了之后，才有正向反馈。

所以我在苹果练就了一种能力：在很长期没有正向反馈的时候，还是去做你认为正确的事情。

未来：你反复强调“先做对的事、先做产品”。怎么去平衡和“赚钱”之间的关系？

张诗莹：你不能冲着这个去。对吧？不是说我为了赚用户的钱去赚用户的钱，而是说我先去做了一个好产品，解决了他的问题，自然就会挣到钱。

未来：你有没有觉得“不该出来创业”的时刻？

张诗莹：我每天都会不想干。我每天都会想——如果当时在谷歌，现在应该很开心。这是实话。

但人的开心分表层和底层。表层上，创业肯定全是烦心事，但底层觉得在做想做的事是开心的。就像仙剑的主角，表层上各种被砍被劈很痛苦，但你觉得自己在打一个很酷的游戏，在通关，所以底层是开心的。而旁边那个NPC农民伯伯每天只用说“今天天气真好”然后回去了，好像表层看他快乐一点，但底层过的是食之无味的人生，也挺无趣的。

文章来自于"未来人类实验室"，作者 "熊晚酌"。

AI新闻感知阶跃 Buzzy 视频版Photoshop 张诗莹

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0