融资2000万美元,她想教会AI什么叫「有品味」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
融资2000万美元,她想教会AI什么叫「有品味」
8438点击    2026-06-12 14:29

融资2000万美元,她想教会AI什么叫「有品味」


用户想要脑机接口,想一下视频就出来


近期,AI内容创作公司感知阶跃宣布完成新一轮融资,逾2000万美元,由红点创投与创世伙伴CCV共同投资。


感知阶跃成立5年,核心团队不足30人,靠服务电商起家。最初的产品ZMO.ai是给电商做模特图,在预见视频会是更大的市场后开始做Creati.ai,也是真正被市场记住的一款产品——依旧面向中小商家,但受众面增加了视频创作者的AI视频生成工具——使用者在手机上输入一段文案或上传一张产品图,就能产出可直接投放到TikTok、Instagram的短视频。而它更像一台“爆款复刻机”,会自动拆解当前爆款视频元素,并混剪进自己的素材,以达到病毒式传播的效果。


Creati.ai很快积累了超2500万用户与千万美元级ARR。在AI视频赛道普遍深陷“烧钱”泥潭的当下,这是一个切实做出过高盈利产品的极少数团队。出色的自我造血能力,使得这家公司在三年多的时间内没再出现于资本市场。


这一次重新打开融资窗口,是为了公司的最新产品Buzzy。如果Creati回答的是“如何更高效地生成一条爆款视频”,Buzzy所瞄准的则是视频生成前、后的两个更难的环节——创意与编辑。


创始人张诗莹想打造一个能够习得用户审美的智能体:用户在任意平台浏览到感兴趣的内容,将其转发给智能体,后者便在全网检索相关素材,为用户构建个性化的灵感库,推动其迈出创作的第一步。


之后,创作者可以面对一段已有视频提出具体要求——不需要严谨的提示词,自然语言就可以——调整光线、移除路人、变化角度等, AI可以准确修改指定内容,其余部分维持原状。基于这部分功能,团队给Buzzy暂定了一个定位——视频版Photoshop。因为它最直观,也最好对外传播。


可编辑只是末端——她真正想做的是一个AI副导演,她相信人人都是导演,让一个Agent副导演,接管从找灵感到成片的整条流程。


这套“inspire—create—edit”的闭环,直指AI视频行业两个最普遍的痛点:用户缺乏核心创意,或者提示词词不达意;而当生成结果仅差毫厘时,没有人愿意以“抽卡”的方式推倒重来。


融资2000万美元,她想教会AI什么叫「有品味」

张诗莹


张诗莹曾在苹果、Oculus VR、Google负责核心产品。作为AirPods创始团队核心成员,完整经历了这款明星产品硬件设计落地的全过程。


此后她转入谷歌,担任AR产品的系统架构师,在隔壁团队的研究中“大受震撼”。2020年,她看到了正在研究GAN(生成对抗网络)的小组生成了一张像素256×256的人脸,从随机噪声中逐渐成形。


那是张诗莹第一次看到AI“生成”了一张图片。结合对内容价值的判断,她立刻开始行动。她想创业,就做GAN。


那不是属于生成的年代,对于AI能做什么,人类的想象力是匮乏的当时大部分商业项目和科研力量都押在图像识别上,生成被视为冷门方向,没人愿意抛弃大厂的高薪,跟她一起纵身入局。


张诗莹检索了全球GAN领域论文引用量排名前100位的作者,逐一发送邮件。虽然回复率不足10%,但就是在这回复的10个人里,她找到了后来的联合创始人兼CTO——一位在欧洲实验室专注人体驱动生成、被同行视为“冷门方向”的博士生。


两人一拍即合。隔着大西洋与六个时区,他们以纯线上协作的方式启动了公司,一步步迭代着创业目标。即便到了Buzzy,张诗莹也不相信“今天的产品形态就是终局”——模型在变强,市场在变快,用户习惯在变迁,唯一能做的就是持续迭代而显然,她也同样有着对市场的敏锐嗅觉与转型的果敢。


张诗莹之所以想做一个能学习人类品味的bot,是为了让更多普通人能做内容,她觉得人活着不应该只是种田NPC,在生成可以被精准修改的未来,人人都能创作独属于自己的世界,如果可以选,她想把自己放进《仙剑奇侠传》,去做李逍遥。


视频版Photoshop


未来人类实验室(以下简称未来):从你最早创业做ZMO.ai,给电商做AI模特图,到做Creati.ai,再到这次的Buzzy,中间经历了两次转变,而且以往两个产品多为toB,而Buzzy更toC,做B端的生意跟C端是有很大不同的,为什么会有如此大的转变?


张诗莹:大客户战线拖得很长。各种需求是不是大规模采用,是一个很漫长的流程。而且AI 模型变化太快。上个月跟你说好的方案,下个月就不一样了,只能重来。我觉得AI不太适合那种old school的打法。


还有一个问题,toB你得驻场,团队会越来越大,而且我也不想变成销售,我讨厌同一个事情说很多次。


所以我们做了Creati,当时做了两个改动,第一个就是决定要面向所有用户,包括中小企业和C端用户。第二,我们判断视频一定比图片有更大的增量市场。


未来:视频比图片更有市场,这个判断是怎么形成的?


张诗莹:视频的信息量更大、参与度更强、能产生的流量更大。我们认为图片最后一定会迁移到视频,这是必然发生的。


第一是用户对视频的粘性很强,他会一直看视频。第二是视频的信息容量更大。


我们发现用户自己P图其实没有那么难,现成的图片过来,把不同的衣服P上去,企业觉得招两个小时工就弄完了,我干嘛非要付钱给这个软件?这软件死贵的。


但是视频他们P不了,很难。一个女生在那转两圈,还扯了一下,说这个衣服质量好,只卖39块。但别人可能只卖19块,对吧?你不好改,他就只能找人拍,这个成本就很贵了。


但是视频的传播效率肯定是更高的,对很多商家的广告来说,单纯的图片信息表达不了他产品的很多卖点。还有内容多了之后,需要迭代效率非常高。以前一个热点能火一周,现在两三天就没有了。频次更短,需要的量就更大。


所以我们认为未来整个广告的盘子应该90% 是视频。


未来:既然Creati这么有市场,而且商业化已经很好了,为什么又做新产品?


张诗莹:做Creati的过程中我们发现两个核心痛点。


第一,大量用户觉得写提示词非常痛苦。在手机上写提示词动辄很长,商家根本不想研究,小博主也不想花很多时间——他们的逻辑是“我不知道这条能不能起,那我就多做几条”,他希望更快产出。甚至有用户跟我们说他想要脑机接口,想一下就出来。


第二,生成出来效果不好,又不想重新抽卡。好不容易有一版觉得98% 完美了,结果重新抽又全变了。就觉得在浪费钱和时间。这两个痛点在我看来已经跟”生成”无关了。它是生成的前置和后置问题。


未来:Buzzy的定位是“视频版Photoshop”,但我觉得你们更像视频创作版的字节——用算法投喂灵感。


张诗莹:我非常同意。有一点很清楚:我们不去解决大模型本身要解决的问题。大模型越强,我们也越强——它生成得越好,用户越需要精细编辑和个性化,是双赢。


融资2000万美元,她想教会AI什么叫「有品味」

Creati


未来:那Buzzy的重点到底在前面的创意,还是后面的编辑?


张诗莹:这是一个很好的问题。其实我们想做的是全流程——找灵感、创作、再编辑。之所以先重押编辑,是因为它是用户一眼就能感知到差别的那一环,最直观、最有wow effect;可只盯着“编辑”,又会盖住整个工作流被颠覆的逻辑。真正卡住用户的其实是灵感——没有灵感、没法创作,也就没有东西可改。所以这两块,我们其实一直在一起做。


让AI学搞笑


未来:你们怎么训练AI理解“品味”这种抽象的东西?


张诗莹:我们做了大量的视频理解和背后的“梗”的理解。你要帮用户找灵感,核心是把视频里面的taste抽象出来,你才能去找。


我们发现AI之所以“笨”、创意不行,是因为它对内容理解不了。我们给它看搞笑视频,它觉得不搞笑。


未来:搞笑、高级感……这些应该是最难定义的。


张诗莹:最难的。比如抖音上小猫短剧——小猫玩手机被主人发现了,它就装睡。大家觉得好可爱好好笑。AI说,有什么好笑的?


我们训它的时候用了很多抖音视频加底下的评论。它得像模仿一个小孩子一样去理解——这个猫被主人发现了,人类把宠物当作宝宝,所以觉得这个行为像小孩子被抓现行一样好笑。它得理解这个逻辑。


而且视频有时间维度和语义维度。你觉得好笑不是因为“猫”这个画面,是因为这个叙事。所以不能用以图搜图的逻辑——你要找的不是另一个猫的视频,而是另一个“同样好笑”的视频,可能是狗、是仓鼠。


AI没有创意,但学习能力很强。它只要理解能力逐步变强,就能有创意——它的创意来自把大量人类的反馈映射到“有梗的”“好笑的”“高级的”上面,再抽出来给你。


融资2000万美元,她想教会AI什么叫「有品味」

Buzzy


未来:Runway、可灵都做过编辑,大家都知道是痛点,为什么做好这么难?


张诗莹:编辑比生成难一个level。生成的解空间很大,你说“一只猫”,什么猫都行。但编辑是你给了一个框,“就这个视频,就改这一点,其他不动”,解空间很小,找到正确答案就很难。


而且不只是“改局部”这么简单。你还得符合用户意图——商家卖旗袍,你换完不能不长成旗袍的样子。你既要跟用户的修改目标一致,又要跟原视频的光影、动作、时序完全一致。需要inpainting模型把局部抠出来再填回去,还要保证时序一致。这很难。从基模能力来说,编辑一直都比生成更难。


未来:你们的壁垒是什么?


张诗莹:是这个bot学习了你的品味。我们认为用户的创作流程应该是:首先知道你想做什么、你喜欢什么。每个人对内容创作的喜好和内容消费的喜好是不一样的——比如我可能喜欢看小猫小狗,但创作的是纪录片。


我们的bot会根据你发来的灵感,在各个平台帮你爬取相关素材,形成你的personalized Pinterest。你勤快就多发链接,你不勤快bot也会主动每天推几条给你,你告诉我哪个好就行。然后基于这些灵感帮你创作,你不喜欢的地方说一声,它帮你改。入口就不再是“想一段很长的提示词”。


最重要的还是沉淀用户的个性化。一旦bot懂你了,你懒得换。就像换外包商——你跟A合作了几个项目,它知道你要123,你换成B得重说一遍,挺累的。


做一件很酷的事情


未来:新融的2000万美金打算怎么花?


张诗莹:到目前为止花最多的还是在研发上。我相信一个点——我们应该做慢而正确的事情。


未来:视频产品烧钱吧?


张诗莹:视频产品需要尽快赚钱,因为视频很贵。Sora给了一个先例——有钱如OpenAI也烧不起。视频本身就应该是生产力工具,用户心甘情愿付费才能持续。快钱的好处一个是快,第二个是你更容易更快得到正反馈,更容易知道下一步自己要怎么做。


未来:最近这轮投资人最看中你们什么?


张诗莹:一是Creati的增长还是比较快的,二是他们believe in AI video这个赛道,三是我们讲了Buzzy在做什么——他们觉得蛮有创新力和前瞻性。


更多是我们在跟他们align一件事:为什么不继续只做Creati?因为Creati明明做得好好的。我们在说的是——Buzzy定义的是面向未来生成模型更强之后,真正适合用户的体验。它不应该是大量写提示词。


融资2000万美元,她想教会AI什么叫「有品味」

Buzzy


未来:之前做硬件的经历对你创业有什么影响?


张诗莹:更偏向从用户体验出发看事情,而不是商业化。我在Airpods负责的部分叫system Architecture。Airpods它本身需要很轻,用户戴着才不会累,但是用户又希望它是能够听比较长的时间的,对电池续航也有要求。


因为PCB板中间有很多的零件,它需要很小很省电,包括蓝牙技术当时也是一个专利,另外传感器怎么知道你把耳机放到耳朵里面了?这些都是很细节的东西。我们当时定制了很多的元件,这个元件之前是不存在的,电路也都要对应去调整。


每年我们都说做得挺好了,但每年都不发,因为还可以更好。


直到AirPods发布那天,我们整个组坐在会议室看发布会,出来之后就欢呼。然后刷社交媒体,底下全是骂,团队士气影响很大。过了三到六个月,用户真正用了之后,才有正向反馈。


所以我在苹果练就了一种能力:在很长期没有正向反馈的时候,还是去做你认为正确的事情。


未来:你反复强调“先做对的事、先做产品”。怎么去平衡和“赚钱”之间的关系?


张诗莹:你不能冲着这个去。对吧?不是说我为了赚用户的钱去赚用户的钱,而是说我先去做了一个好产品,解决了他的问题,自然就会挣到钱。


未来:你有没有觉得“不该出来创业”的时刻?


张诗莹:我每天都会不想干。我每天都会想——如果当时在谷歌,现在应该很开心。这是实话。


但人的开心分表层和底层。表层上,创业肯定全是烦心事,但底层觉得在做想做的事是开心的。就像仙剑的主角,表层上各种被砍被劈很痛苦,但你觉得自己在打一个很酷的游戏,在通关,所以底层是开心的。而旁边那个NPC农民伯伯每天只用说“今天天气真好”然后回去了,好像表层看他快乐一点,但底层过的是食之无味的人生,也挺无趣的。


文章来自于"未来人类实验室",作者 "熊晚酌"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0