上周,AI 视频生成工具 Medeo[1] 发布,用户输入文字描述,它会自动完成拆分镜头、生成脚本、添加音乐和生成视频等一系列操作,当天在我们的朋友圈里引发了小型「刷屏」。
这个产品来自 ONE2X,由前月之暗面大模型产品负责人王冠于 2024 年年初创办,创业方向为 AI 视频。本期播客,我们邀请 Medeo 的产品负责人晨然,和我们分享做 Medeo 的过程,他对 Agent + 视频,以及目前一些行业共识的思考。
在我们的聊天中,晨然频频提起 Cursor,除了讲述 Cursor 给他带来的产品启发,我们也就此和他聊了聊对当下 AI 产品的感受、以及他自己会不停的做 demo 去感受最新的模型或者最新的 AI 应用的故事。让我们很有感触的是,晨然说,做这些 demo 的过程中,他没有什么目的,只是为了好玩。
「好玩」,给了他很多积极的正反馈。正如他所说,「好玩」在这个时代是一个很稀有、很珍贵的品质。我们相信,还有许多像晨然一样的年轻人,也将会有越来越多的这样的年轻人,也通过这期播客说一声:enjoy it.
微信收听播客:
小宇宙收听播客:
👦🏻 Koji
本周《十字路口》的嘉宾是晨然。他所在的团队叫 One2X,最近刚发布了一款 AI 视频编辑产品——Medeo。这款产品由小型刷屏收获了不少好评。我认识晨然已有一年多,从一开始手搓 demo 的产品经理,到现在可以独立主导一个高复杂度的 AI 项目。我从他身上看到了竹笋般的生长的速度和生命力,也体现出十字路口所倡导的“AI 时代的积极行动者”精神。他是这个理念的典型代表。
本期播客我们会和晨然聊两个方面:一是 Medeo 如何在竞争激烈的 AI 视频赛道中突围;二是他的个人成长——这一代年轻人如何把握 AI 带来的机会。我们先来进行一下快问快答的环节。
👦🏻 Koji
首先请问晨然的年龄?
👦🏻 晨然
25。
👦🏻 Koji
毕业院校?
👦🏻 晨然
本科在复旦读计算机,研究生在康奈尔继续学计算机。
👦🏻 Koji
在 Medeo 之前你做过一些什么?
👦🏻 晨然
毕业后我在大厂呆了不到 9 个月,我们就加入了 One2X。之前做过不少全栈项目,比如和新世相合作的 「AI 遗嘱」项目,也自己尝试过一些 Agent 方向的小项目。
👦🏻 Koji
对,👦🏻 晨然和我一起做过一个叫做「AI 遗嘱」的项目,等下我们会聊到。
👦🏻 Koji
MBTI 和星座是?
👦🏻 晨然
ENFP,双子座。
👦🏻 Koji
如果用一句话安利 Medeo,你会怎么说?
👦🏻 晨然:它是一款能让小白和专业用户都用一句话生成专业视频的 AI 工作室。
👦🏻 Koji
目前 Medeo 生成的视频里,你目前看到最大的一个爆款是什么?
👦🏻 晨然
没有什么爆款,但有一个我非常喜欢:有人把我在 Twitter 上发的文字故事用 Medeo 转成了视频,还 @了我。我觉得还蛮有意思的,我完全没想到他会把我的故事转成一个视频。
「Medeo视频示例」[2]
👦🏻 Koji
我们上次见是在 AI Hacker House,那时 Flowith 在发布新产品 Neo,而你们也刚发布 Medeo,结果服务器被冲爆了,好像你们还通宵修复。但你还是决定来 AI Hacker House, 想来看一看 Agent Neo 的那一场发布会。那你这一周收到的用户反馈和整体感受如何?
👦🏻 晨然
其实这次发布没有让我产生特别强的实感。虽然是我们正式上线,但整个流程规划了很久,像是完成了一个阶段性的任务。但是比较令我欣喜的是,有用户反馈说我们的功能和区域划分做得很清晰,说明这几个月的努力没有白费。
👦🏻 Koji
这个反馈和用户传播效果和你的预期相比如何?
👦🏻 晨然
其实我们没有设定明确的传播目标,这次发布算是一个雏形阶段的尝试。选择在这个时间点上线,是希望跟上节奏。没想到还有一些公众号和 KOL 自发转发,算是超出预期了,蛮欣慰的。
👦🏻 Koji
现在很多 AI 产品发布都讲究“发布会 + 邀请码 + KOL 造势”,但看起来 Medeo 并没有走这个路径,没有当作发布 campaign来做,是出于什么考虑?
👦🏻 晨然
主要有两个原因。一是 AI 工具型产品本就需要较长时间打磨,我们到现在为止也没有做特别久。我认为工具产品本身需要以年为单位去打磨产品细节。现在 Medeo还在早期阶段,还称不上是“完成度很高”的产品。二是我们团队的风格不是为了流量去做噱头式发布,更希望沉下心来慢慢打磨产品,通过积累用户口碑,而不是过早聚焦 DAU 这类指标。
👦🏻 Koji
那你当初为什么选择做 Medeo?
👦🏻 晨然
我先说说我是怎么加入 One2X 的。最初团队由王冠、遥行和另一位技术联合创始人组建。王冠之前是 Kimi 的产品负责人,主导模型训练效果的。他当时很想往应用层探索,就和我聊到了 AI 视频。
我本身背景比较交叉,既是程序员,也做过导演、内容创作等。AI 视频这个方向,刚好可以把我的两个特长(内容创作、技术开发)发挥到最大,融合起来,做出一款属于自己的工具产品。
至于为什么是现在做 Medeo,一方面是视频生成越来越成熟。虽然去年我们判断自动生成视频仍受限于成本和稳定性,但今年我们看到不少新玩法,说明市场的时机差不多到了。其实 Medeo 最初的定位是做视频剪辑,现在依然是,只不过我们强调的是端到端生成可交付的视频,同时还可以拿到工程文件进行后期修改。它不是简单的“剪辑”或“生成”,我们两个方向都会继续探索。
👩🏻 Ronghui
是在很多方向中选了这个,还是一开始就很明确要做视频?
👦🏻 晨然
一开始就很明确,一定要做视频。我们判断,只要模态升维——把文字或语音这些信息转成视频形式,它就能带来更高的经济效益,能更快拿到一个经济结果。而且现在大家看视频的习惯越来越强,其实一篇公众号文章,如果它有视频版本,很多人更愿意看视频。所以我们一开始就有这个非常直觉的判断。
定了做视频之后,视频其实范围很大嘛,我们最早就选了“自动剪辑”这个赛道,就是做“URL 转视频”:一篇文章,它有图文,我们把它转成一个自动剪辑的视频。
后来我们看到视频生成技术越来越成熟,就决定把“一键生成视频”作为主打功能。但其实我觉得这两个方向不冲突,我们都希望在视频制作上有技术探索。无论是生成的、剪辑的,还是检索的,只要观众愿意看,是一个好的视频,那怎么制作就是 Medeo 背后的 AI 去解决的,用户不用太在意。
👩🏻 Ronghui
你刚刚说到“经济效益”这个判断,可以展开说说吗?有没有一些具体的测算或评估?
👦🏻 晨然
我们当时确实做了些实验,比如把文章转成视频,我们发现这样的视频确实有人看。哪怕原来的文章只有几百的阅读量,但转成视频后,播放量可能会更高。而且我们还观察到一个点:视频的信息密度其实没有文章高,但传播速度更快、观众更愿意看。
所以我们一直有个理念,就是把高信息密度的文字做一次升维,转成视频。我们还做了一个小型 MVP,验证这件事是有价值的。我们自己还做了一个新闻类账号,专门讲 AI 新闻。虽然不方便说是哪个号,但它是面向普通用户的,大家可能看了会觉得挺傻的,但数据反馈还不错。
其实很难有一个非常精准的数据支撑,更多是体感。现在十字路口也在做视频了,大家都愿意看视频。我的感觉是,模态升维是一个“碾压性”的经济提升,比如一段文字它传递的转成视频之后,它的“单价”可能是原来的十倍,当然这是我猜的,不能精确验证。
👩🏻 Ronghui
那你们在早期测试“文章转视频”时有没有遇到什么挑战?因为写过脚本的人都知道,脚本和文章其实差别挺大的。可以讲讲你们在 MVP 中有学到什么比较有价值的东西吗?
👦🏻 晨然
你观察得很敏锐。我做这个的过程中,因为我自己也有一些做导演的经验,虽然不是短视频,我非常清晰地感受到:逐字稿的脚本跟视频语法完全不同,它不需要和文章强关联。
视频有自己的语言体系,比如 hook 怎么写,结尾怎么收,中间如何提供情绪价值、让人看下去……这些都是视频在意的,而不是文章里那些最强调的信息密度。比如数据、表格这些,在视频里反而是“扣分项”——你一念,观众就跑了。但如果你能给出“干货感”,比干货本身更有用。观众需要的是“我看了觉得收获了”,而不是一堆冷冰冰的数字。
👦🏻 Koji
那遇到有表格的文章你们怎么处理?
👦🏻 晨然
最理想的情况就是表格本身是图片,我们可以直接插到视频里,或者我们也在尝试更可视化的方式,让表格动起来,展示得更有趣。
👩🏻 Ronghui
那是不是要拆成不同脚本模板?
👦🏻 晨然
我们现在还没那么精细地做,还是比较草台班子,没有针对不同品类写模板。虽然我也认同,不同类型应该有不同 SOP,但我们还没做过。
👦🏻 Koji
这是精力不够,还是有意不做?会不会你们相信模型之后可以自己搞定,不用现在就上模板和 workflow?
👦🏻 晨然
一个是最大的原因是精力确实有限,没那么多时间去搞太细的东西。另一方面,我确实相信模型升级之后,它在这些写稿、视频类任务上,可以做到不依赖太多结构化的指导。
我觉得,「less structure 是关键」。一开始就上重模板,反而限制模型发挥。放权给模型,效果可能更好——我们自己就是有这个深切的体会。
👦🏻 Koji
你刚刚说精力不够,那你大部分时间花在哪里?
👦🏻 晨然
虽然我对外说我是 Medeo 的产品负责人,其实我主要是负责视频效果的优化。我的核心工作是调研视频方向,预判未来可能的玩法,比如 AI 一键生成视频、AI 自动剪辑这些技术路径。我会思考什么是“新的视频品类”,定义这个视频品类怎么通过 AI 做出来。然后我可能会手动剪几个 demo,再去开发自动化版本。还有一部分是做 Prompt 工程、Workflow 或 Agent 的搭建,这套视频生成的算法框架,基本是我搭的。
我花最多时间的其实是:刷视频。我会沉浸在抖音、小红书、YouTube Shorts,各种视频里。只有你刷得多了,沉在 vibe 里,才能真的 get 到视频里的情绪是怎么传递出来的。接着我会手动模仿他们剪视频,分析他们怎么做,最后沉淀成代码。因为我是全栈工程师,内容理解完我就能开发出来。
所以我一半做内容,一半写代码——内容是感性的,代码是理性的。我要梳理结构,拆解它应该是怎么样的;也要刷出感觉,看这些视频怎么传第一个观点,节奏感是什么样的。这两个都是必须的。
👩🏻 Ronghui
你说你刷了很多短视频,感受那种讲故事、传情绪的方式。你主要刷什么类型?视频有多短?你总结出来他们的套路了吗?
👦🏻 晨然
我没有特别定向刷,基本什么都刷,但确实有一些感受。
比如抖音的视频节奏感特别一致,因为能在这种上滑下滑的流里活下来的,基本调性都差不多。我一直在想,这种调性能不能结构化表达,或者其实不该用结构化的方式去表达,这个我还不能很好感受,但它确实有一种共通的情绪传达。我现在会有一种感性判断:这个视频能不能在抖音活下来——这种判断是刷出来的。
另一个是我定向刷 YouTube Shorts 上的科普视频或者新闻视频,比如那种主播对着白板讲宇宙、讲概念那种。他们几乎风格一致,虽然有自己的语速和口音,但既然风格统一,就说明它是可以结构化的。他们的视频让我感受到:「情绪价值比知识信息更重要。」看到后面,我越发觉得,视频不是在传递“知识密度”,而是在传递“情绪体验”。看完觉得舒服,才是关键。
👦🏻 Koji
我们今天想和 Medeo 的团队聊聊。One2X 有两位联合创始人,王冠和遥行,我们也都认识,也都很喜欢他们,是非常特别的创业者。但这次 Medeo 发布之后,我和 Ronghui 反而最想邀请的是晨然。一方面我们之间更熟,每个月几乎都会见面;另一方面,其实我们播客邀请了很多创始人,但一线做产品、搞设计、做研发的人比较少。今天也想和你聊聊一线的实战感受。刚才你也提到,你一方面做内容,一方面做研发。我挺好奇,你在团队里是怎么定义自己的角色?又是怎么和其他人配合的?因为听起来你好像一个人就是一个小团队,什么都能做。
👦🏻 晨然
确实,我大部分时间都在做预研和调研的工作,基本上是一个人完成的。团队是我坚实的后盾,他们负责工程化、产品落地等部分。我一般会把工作推进到 demo 阶段,然后交接出去。我的角色更像“预言家”——我喜欢玩各种 AI 工具,新出的生成式视频工具我都会试一遍。比如昨天刚发布了 Claude 4.0,我守着直播,一出来就开始测试,测完之后觉得“果然牛逼”。
我会花大量时间做 demo,因为只有把东西跑通了,做出第一个视频、十个视频、一百个视频之后,才能真的体会这个东西是什么。这个过程对我来说像在“画画”,很有创造力,也很好玩。
👦🏻 Koji
之前我和晨然合作过一个叫“AI 遗嘱[3]”的项目,我们鼓励每个年轻人花 10 分钟写一份 AI 引导下的遗嘱,思考人生中真正重要的东西。晨然当时不仅做了研发,还负责产品和设计,那张非常有美感的海报就是他做的。看到那张海报后我就意识到,在 AI 时代,审美依然非常关键。我们都知道怎么用 AI 生图,但 prompt 怎么写,生成后怎么选择才好看,这些最终决定了产品的感觉。
说回来,你们团队是远程办公的,王冠和姚勤也都在北京,但不是天天见面。这个组织形态很特别,能不能讲讲你们的团队结构?你和他们之间的配合是怎样的?
👦🏻 晨然
我们是全员远程办公。我之前在美国 TikTok 实习时就经历过远程,所以对我来说不是新鲜事。但这是我第一次体验所有人都远程办公的组织状态。
首先,会议效率提升了。我们会刻意控制时间,比如日会控制在 30 分钟内,全员会一小时内解决。更多时间大家是在独立思考和解决问题。这对主动性要求很高,但我们团队磨合得非常好。我们有了自主选择权去分配时间之后,每个人其实更能够专心的把这事干好。我们不设 KPI,关键是招到对的人,给他一个创新友好的环境,他就能做出好东西。这也是 One2X 的一个文化基因。
至于我和王冠、遥行的配合,其实不算特别多。我大部分时间在写代码、调模型、调研工具,和他们更多是战略上的沟通,比如决定什么时候做什么,看到新论文时的方向判断。有时候一篇论文会让我们验证之前的技术假设,从而确定产品方向。但执行层面上的细节工作,我自己就能处理掉。
👦🏻 Koji
你刚才提到,会根据一些新论文来判断技术方向。能不能举个例子,比如最近一次是怎样一个论文出来之后,你们觉得“对了”,技术方向得到了验证?
👦🏻 晨然
我们去年一直在关注强化学习,相信这条路会有重大突破。直到 DeepSeek 出现那个关键节点之后,我们特别兴奋,觉得压对了方向。我们很多产品假设其实就是基于这个技术假设去做的。
遥行每周例会上都会总结最近的论文进展。他用 O3 帮忙读论文,把这周整个 AI 圈的新论文都过一遍,再筛出最重要的技术路径。我们也一直在关注谷歌的“统一多模态”路线,这太强了。去年我们就在压这个方向,最近谷歌又发布了新成果,这也进一步验证了我们的判断。Medeo 本身的技术路径也是基于这些判断来的。
👦🏻 Koji
在你看来,你们最大的竞品是哪些?你怎么看外界说 Medeo 是在做 Veed.io、Invideo 一年前就能做的事?这些同质化的声音怎么看?或者有没有什么差异化大家没有看到,才会出现这样的负面声音?
👦🏻 晨然
这种声音肯定有的。我们做这个方向时就已经看到这些比较头部的竞品了,但我们公司成立的使命不是往这个方向去走。初期产品形态确实相似。AI 视频剪辑产品的基础功能是趋同的,无法脱离掉视频表达本身所需要的产品的功能。做编辑器长得也差不多,这些有 SOP。在这种前提下,产品应该做的是去找那种 3% 的创新。我们更关注的,是如何用更智慧的方式提供更高质量的信息商品。我们希望模型能表达出更强的“放话性”,用更少的 token 产出更高价值的视频。这意味着更好的视觉效果和内容质量。我们的目标不是再做一个剪映或 Invideo,而是做一个让“不会表达”的人也能通过视频表达的人。
在这一段时间看起来很像也是很正常的,未来的迭代就会很不一样了。
👦🏻 Koji
刚才其实你有提到,你虽然和他们很像,但是其实使命不一样。那在你看来,你们的使命是什么?他们的使命是什么?
👦🏻 晨然
我刚才可能没表达清楚,我的意思是:人是经过语言训练的,大家熟悉语言的语法规则,毕竟都学过语文;但人没有天然接受过视频语法的训练。你去用视频剪辑工具剪一个视频,不仅要学会工具本身,更重要的是你不知道怎么用“视频语言”去表达一件事。比如你拍 Vlog,要怎么讲故事,怎么叙事、怎么安排剪辑顺序,这些其实是没有经过训练的人不会的。
我们想解决的问题,就是让这个表达的过程没那么痛苦,让没有训练的小白,甚至有经验的专业用户,也能快速通过工具去表达他们的想法——无论是新闻、科普、故事还是广告。其实我们现在还没明确定义 Medeo 要服务哪一类品类视频,这也取决于市场反馈和技术的方向。One2X 相信视频会像文字一样,成为重要的信息表达方式,而我们希望 Medeo 能让每个人都能用视频充分表达自己。
我们也相信 One2X 是在帮助大家表达信息。我们最认同的一句话是“一份信息,多种表达”。因为在 AI 加工方式的支持下,人们未来可能不会在意中间的剪辑和生成过程,更关注的是结果——而这个结果可以有多种表达方式。比如相同的一份信息,你可能想分别给老人、小孩、年轻人或不同思潮的人看,那表达方式肯定不同。但本质上它还是“一份信息的多种表达”。我们想做的,就是尽可能降低从一份信息到多份表达的中间痛苦。而视频,是我们选的第一个表达媒介。
👦🏻 Koji
我听完还是有些困惑。你刚才提到产品虽然看起来一样,但使命不同,所以你们不担心同质化。但你说的这个使命,Veed.io、Invideo 也可能认可。他们可能一年前就做了你们现在做的事,那这个竞争怎么理解?
👦🏻 晨然
这是个合理的质疑。我认为视频是一个非常宽广的赛道,它的语言表达体系很复杂。比如营销视频和播客视频的剪辑,所需的工具完全不同。播客可能更依赖语音和文字信息,而营销视频更依赖情绪、音效、转场和商品展示,因此做出来的工具也会完全不同。
我们目前选择的品类是新闻、科普、知识类或故事类视频,它们不同于带人像上字幕的短视频。视频剪辑工具的发展方向取决于你想服务的品类,方向定了,工具就会差异化。最开始大家都像一个通用的剪辑工具,但我们不会做另一个剪映。剪映像是一个可以完成各种代码的 IDE,但它什么都可以做,也有垂类的场景等着去探索。但现在为时尚早,我们很难固化我们一定往哪个方向走。
👦🏻 Koji
所以你们还没固化方向,这也是为什么现在产品看起来都差不多。但像 Veed.io、Invideo 这些团队做了很久,也没走向某个明确方向,是不是也可能最终不会垂直,而是赢家通吃?
👦🏻 晨然
我不太认为视频这个赛道会被一个工具通吃。就像你说 Veed.io 没有固化方向,我觉得它已经固化了。你看它所有的宣传点,基本都围绕“口播视频加字幕”,解决的是带人像视频加字幕的问题,而且做得很好,特效字幕也出圈了。我觉得每个团队最终都会选择自己擅长的表达领域。
视频表达本身就足够复杂:你可以在字幕上做到极致,也可以在音效或生成上深挖。但你想要样样精通是不可能的,除非是像剪映这样的大玩家。但即便是剪映、PR 这样的头部视频剪辑工具,也可能因为臃肿而让人更想用一个轻量化工具来专注做某一类剪辑。
比如专为播客打造的剪辑工具,只需要加字幕,没必要上那么重的系统。垂类工具反而能做出极致体验,比如训一个模型做特定任务、优化每一个细节,这种产品用户是愿意买单的。
至于 Agent,现在也有很多做 Agent 的团队说他们也能做视频,那用户一定会问你们有什么不同。我觉得区别还是存在的——比如用户想改字幕的时候,还是需要一个编辑器,一个 GUI,因为剪辑产品有一些基本细节是绕不过去的。而 Agent 虽然能生成内容,但很难改。这也是它的弊端。
最后的产品可能长得像,但用户使用路径会非常不同,而且用户去完成一个产品的生产过程的路径也会很不一样。
👦🏻 Koji
LoveArt 作为一个 Design Agent 已经可以生成视频了,虽然目前没法编辑,但之后可能会加上。你怎么看如今大家都在做 AI Agent 这件事?你们的想法有什么不同?
👦🏻 晨然
我们内部也讨论过 Agent 和 Workflow 的优缺点。什么时候用 Agent ? 什么时候用 Workflow ? 至少在 Medeo 这个产品中,剪辑领域本身是有 SOP 的。比如导演或剪辑师工作时,通常会先整理素材、理解素材、构思脚本,再粗剪、精剪、最后加字幕和包装。这是一个流程化的过程。
既然人的思维方式已经流程化了,那我觉得 Agent 在这个场景下可能就没有那么适合。我更愿意提的另外一个词叫 Agentic。Agent 更像是一个实体,一个打工人。Agentic 是一种技术方式。如果你想要解决的问题是开放的,你不知道用户会干什么,那可能 Agentic 是更适合的,因为开放的问题需要用开放的解法去回答。但视频创作 SOP 已经非常成熟了,所以我们认为这更适合用 Workflow 去解决,Agentic 只是个辅助技术方式。「我们更相信视频领域是 80% Workflow、20% Agentic」,只有这样,结果才能稳定交付。
👦🏻 Koji
那你有没有最近在 AI 圈子里看到哪些大家热捧的共识,但你特别不认可的?
👦🏻 晨然
我对 MCP 持谨慎态度。它本质是个协议,解决的是生态问题,便携性的问题,它并没有带来一个非常跨时代的技术。比如模型和工具的互通性,和技术突破没太大关系。它归根结底还是一种提示词管理方式,但提示词也可以有很多别的管理方式,你可以自己决定你如何管理这种上下文,如何处理模型的输出结果、如何结构化、如何省你的成本。
目前市场对 MCP 讨论很热,媒体宣传也多,但在我们做垂类场景时,其实没那么需要生态扩展,所以 MCP 对我们帮助不是特别大。当然,如果你是做平台的,比如 Coze,还有 Agent,那用 MCP 打通插件是有价值的。但如果你要做一个垂类的产品,可以不用优先考虑 MCP 因为它又给你代码工程上带来一个复杂度,但它也没有解决你的技术实际问题。
另一个认知是:解决用户需求,不一定非得用最优技术。比如不一定要用最强的模型,很多 AI 产品现在都是通过多模型混合、系统组合来实现功能的。中间每个节点未必需要用最好的模型。我甚至发现,有时候从 3.5 Sonnet 切到 3.7 Sonnet,效果反而变差了。这种差异有时很微妙,比如不同模型在指令遵循、对齐上差异很大。Claude 系列在提升 coding 能力的同时,在其他任务上可能会出现一些奇怪的小 bug。
这些问题往往你不测就发现不了,新闻里也看不到,只有一线调 prompt 的人才能体会到。而这些认知一般都不会在市面上去流通,它可能会在某一个论坛的某一个小角落出现,但是这样的信息很难找到二次验证,只有自己去用自己的眼睛看到才知道。所以我的认知是:不要盲目信任所谓“最好的技术”,能解决问题的技术才是好技术。
👦🏻 Koji
这里我想轻松聊个话题。我最近发现,大家用的模型五花八门,不光是编程,连日常问答用的模型选择也越来越分化,每个人的喜好都不太一样。比如我最近主要用 ChatGPT,一个原因是它加了 Memory 功能,另一个是我有个朋友在 OpenAI 工作,送了我免费的 Pro 会员。这两个叠加起来,我现在越来越被整个 ChatGPT 的生态系统“套住”了,基本每天都在和它聊天。晨然你最近用什么用的最多?
👦🏻 晨然
我大部分时间都在用 Cursor。Cursor 里能接入的模型我基本都会试一遍。如果是写代码,我最常用的是 Claude 系列,我最喜欢的就是 Gemini 和 Claude 这两个模型,因为它们各有性格。
我觉得 Gemini 的输出审美好一些,可能是因为它在多模态训练上更下功夫吧。但它的输出相对比较“克制”,不会太复杂。而 Claude 3.7,我一直说它像个多动症小孩。你已经完成一个任务了,它还会主动去帮你重构代码、优化逻辑、多加几个文件、多建几个函数,总是在“加戏”。尤其在 Cursor 里,它有时候显得过于主动。但 Claude 的指令跟随能力反而不如 Claude 3.5 好。两个模型我都经常用,用多了你真能感觉到它们“性格”的不同。
相比之下,我现在用 OpenAI 的模型反而少了,只会在图像处理时用一下。OpenAI 给我的感觉是很“严肃”、很“数学”。它输出内容特别结构化,经常给我整张表格出来,我其实不太喜欢表格。但像我朋友遥行就非常喜欢 OpenAI 的模型,他重度使用 GPT,因为它输出干货、不啰嗦,非常规整——就像是标准的 J 人。而我可能偏 P 人,更需要一点情绪价值。
👦🏻 Koji
对,我也一样。有些人就是看到表格就高兴,觉得这混乱的信息能被它梳理出一个清晰的结构,世界顿时明朗了。
👦🏻 晨然
但我看到表格就头晕,我非常讨厌表格。所以我对 OpenAI 模型的偏好就没那么强。最近 Grok 也挺多人在用,我在小红书上刷到很多用户在试它的文字模型。感觉大家都有自己的偏好,特别是在日常问答的场景下,其实现在各家模型表现差距也不大。
👩🏻 Ronghui
那晨然你作为一个 PM,在做 Medeo 的过程中,思考最多、或者你认为最重要的问题是什么?
👦🏻 晨然
我在做 Medeo 的时候,其实一直在看另一个我很喜欢的产品——Cursor,我们也提了很多次。相信大家在做 AI 产品时都会受到 Cursor 的启发。Cursor 解决了“三端关系”的问题。以前我们做产品时,考虑的是传统工具本体和用户之间的交互,这属于“两端一边”的关系。产品的用户路径,在用户进入产品之前基本是可以完整梳理出来的,是非常确定性的,有分支、有决策树。
但在 AI 加持下,产品的结构变成了“人、AI、工具”三个顶点,形成三条边的结构。例如我们做 AI 剪辑产品,首先得有一个剪辑软件,然后考虑“人”如何与这个软件交互,这部分相对容易。真正复杂的是,AI 在其中要“干什么”、怎么介入人的创造过程,以及如何让人指挥 AI 干活、再去修改。
现在几乎所有 AI 产品都是在处理这三端的关系。Cursor 做得好的地方在于,它对 AI 的角色划分非常明确。它设置了不同层级的功能:从最底层的 inline hint,再往上是 edit 模式,再是 chat 模式,最后是 agent 模式。每一层的能力和触发逻辑都非常清晰,整个交互路径也很明确。它很好地解决了三端之间的关系。
我在 Medeo 最常思考的就是这个问题:这个三端关系到底怎么处理?传统剪辑软件和人的交互逻辑比较清晰,但 AI 要在这个软件里做什么,是很难界定的。因为你相当于把原本属于用户的创造过程嵌入到了工具中——这是以前传统产品不需要考虑的。你不会考虑用户来之前,工具就要先产出点什么。但 AI 产品往往就是你得先“成为创作者”,让 AI 先产出一个初始内容,然后再等用户来修改。这种模式下,产品路径就不再是确定的了,因为 AI 的产出具备无限可能性,所以这个三端关系的构建是我觉得最难的部分。
另一个我经常思考的问题是关于 AI 创造力的。我发现 AI 很难生成超越人类想象的内容。比如它写的稿子、分镜,我测试多了以后,大概能猜到它会输出什么,能带来“aha moment”(灵光一现)的情况其实很少。所以我才会持续关注新的模型,想知道它们有没有带来新的“aha moment”。
但总体来看,我觉得 AI 更适合承担“带有理解能力的执行角色”,而不是替代人类创意的角色。
像是有 SOP 的重复性任务最适合交给 AI,比如:
这些都是 AI 擅长的事情:它既有理解能力,也有强大的算力和时间优势。这些能力应该被最大化地使用。
但如果你期待它给出非常惊艳的创意,往往会碰壁。所以,我经常思考的问题之一就是:如何构建适合 AI 执行的 SOP,让它在可控的流程中展现优势,而不是把它推向一个它无法胜任的创意角色。
👩🏻 Ronghui
刚刚你提到了 Cursor,也说自己非常喜欢这个产品。那我们换个角度聊聊:在你日常做产品的过程中,有哪些你自己特别喜欢、常常使用的产品?除了 Cursor,还有哪些产品给你传达了特别好的用户感受?以及你现在的一天大概是怎么度过的?我们今天是周五录制,也想听听你最近试用的一些新模型或产品中,有没有特别想推荐给大家的。
👦🏻 晨然
先说我一天是怎么度过的吧。刚才聊了些我在工作中主要负责的内容,其实在休息时间,我反而会投入更多精力去“输入”。比如看电影、看剧、听歌、研究一些影视潮流和文化趋势,也会看书、做“拉片”(分析影片分镜结构等)。最近我在补一些编剧相关的知识,因为我没有在电影学院上过课,但觉得这些知识对我做产品很重要,所以正在补编剧原理这块。
我平时吃饭的时候也会看一些拉片内容,睡前也会读点书。总之我一直在探索如何成为一个创作者。我觉得在工作之外保留住“创作欲”是一件很难的事情——你们也在创作,我记得你们来之前就说过,不需要现在立刻去表达创作欲,它自然会流露。但这个“创作欲”真的非常脆弱,我现在也还在摸索,怎么样去最大化地保护和激发它。
再说你刚刚问的另一个问题:最近试用的产品。我还是想再提一次 Cursor。虽然它是去年发布的产品,但我仍然认为它是做得最好的 AI 产品之一。它真正做到了“落地生产”,解决了 AI 和人之间的交互问题,明确界定了 AI 的功能边界,同时也能在实际使用中稳定输出结果。现在很多 AI 产品还停留在概念或雏形阶段,包括我们自己的产品也算是雏形,要做到真正稳定交付其实很难。但 Cursor 做到了。它能做到,是因为它聚焦在“AI 写代码”这件事上,充分调动了模型当前最强的能力。这其实是一个反直觉的事情:「稳定落地本应是产品的基本要求,但在 AI 产品中反而是最难实现的事情。」
AI 产品本质上是在“随机性”中寻找“确定性”。而想要从高熵(不确定)状态中提取确定性,就需要付出巨大的系统性努力,这点真的非常难。最近我也在测试一些 Agent 产品,比如 Manus 和 LovArt,它们也给了我不少惊喜,相信大家也有看到过相关内容。
👩🏻 Ronghui
你刚才提到“稳定交付”这个关键词,我想追问一个问题。你觉得在短期,比如一年内,或是相对长期,两三年内,会发生什么变化,能让稳定交付这件事更普遍一些?
👦🏻 晨然
我认为稳定交付更多是产品层面要解决的问题,而不是一个必须依赖新技术才能解决的事。所谓稳定性,是指用户在进行相同操作时,希望能大致得到相同的结果。就算有随机性,那种随机性也应该是一种“可调参数”,就像 Midjourney 里有一个 Randomness 滑块,你滑得越高,预期的结果就越随机。
但现在的问题是,大部分产品还做不到这种“可控随机性”。比如说当前的 Agent 产品,你第一次用可能会非常惊艳,但你会希望下次还能复现同样的体验。但其实复现的可能性非常低。哪怕只是让它做个网页,下次它可能给你做的网页用的技术栈都完全不一样了。
用户的心理预期是“我想要稳定的结果”,但现在的产品很难满足。这并不是因为技术不够,而是因为“工程化”难度太大。所以我觉得不是等下一个技术突破,而是需要给产品时间去成熟。
👩🏻 Ronghui
确实,大家都知道“稳定”很重要,尤其是 PM。但正如你说的,这和用户的预期之间始终存在一个鸿沟。你觉得这个鸿沟是什么?
👦🏻 晨然
我相信所有 PM 都明白,稳定路径和可预测体验是用户需要的,而且最好还能“超出预期”。但 AI 产品难就难在这一点:你要在“随机性”中提炼“确定性”。过去做传统产品时,用户还没来你就能画好 roadmap。他第一步点了哪里,触发什么,下一步去哪,全都能设计得清清楚楚。但 AI 产品不同,它的每一步都有随机性,而且步骤很多。如果是一个包含 100 步的 AI 问答流程,那最后输出什么结果是人类完全无法掌控的。我们当然希望保留 AI 的“随机魅力”,但这个“随机”是否可控,就非常难。
我经常举塞尔达(《旷野之息》、《王国之泪》)的例子。他们做开放世界游戏,不是让你毫无限制地乱走,而是在限定范围内给予自由探索的体验。他们设定了大目标,比如塔,也设置了小奖励点,比如 呀哈哈。在你探索过程中,你会被这些点吸引,从而偏离直线、绕路前进,形成独特旅程。
AI 产品也是如此——我们希望每个用户的使用路径都独一无二,但这种“随机”要靠设计来引导,让人感到“值得”“惊喜”。这背后需要大量时间和打磨。行业还不够成熟,产品需要更多试错和积累,它需要一定的时间去孵化一个更好的产品。
👩🏻 Ronghui
换个角度来看,这是否也意味着有巨大的机会?
👦🏻 晨然
我觉得确实是。但这个机会也只能“等”——可能是我们做出来,也可能是别人做出来。
就像塞尔达发售的那一刻,大家看到它的“aha moment”了。同样地,某个 AI 产品未来也可能会给出那样的 aha moment。每个用户都能有独特的 use case,有自己开放世界的体验。AI 产品本质上就是一种开放世界,每个人的路径都不一样。但只有等那个产品真正出现时,我们才知道“就是它了”。大家都在往那个方向尝试,我们也是。
👩🏻 Ronghui
你有看到你身边的人也在积极抓住这种机会吗?
👦🏻 晨然
我身边基本都是做 AI 的创业者。比如你们播客请过的海辛、阿文,还有获得小红书独立开发者金奖的“倪豪”。他们都是非常强的超级个体,在审美和开发能力上都走出自己的独特路径。他们并不是靠学校里学到的知识,而是靠兴趣驱动,一步步钻研出来的。这也说明了 AI 时代打破了传统学习路径的限制。
以前你要学前端,必须从 HTML、CSS、JavaScript 一步步学。但现在有了 AI,你可以选择自己想做的事情,再去找 AI 学相关技能。每个人都能根据兴趣构建属于自己的技术栈。我觉得这对年轻人是非常大的机会。比如我,99 年出生,没什么市场经验,也缺少商业 sense。但这并不重要,因为我们反而不容易被传统经验框住手脚。
AI 是一个全新的领域,很多有经验的人反而会被旧思维限制,而年轻人胆子大、敢试错,就能做出很多有趣的事。在大厂的时候我深刻体会到,大家都不懂,我反而成了最懂的那一个。「AI 这个新时代,确实是“众生平等”。」
👩🏻 Ronghui
这让我想到我们之前请的嘉宾童超,他说他最大的感受就是,在 AI 时代,没有谁的认知比谁更超前,大家拼的是“迭代速度”。
👦🏻 晨然
我也承认我是年轻人,所以会这样说。但确实,迭代快真的很重要,这是给我带来很大的机会。我也不敢说我的经验比别人更丰富,但是大家都在同一水平线去做这件事情的话,勇于去尝试做 demo 是一件非常重要的事情。我现在花大量时间在做 demo。甚至工作之外,我也在做各种小 demo、小玩具,去试验。我不一定非要追求产出结果,而是通过这些尝试获取“体感”。很多 demo 的作用就是找感觉,因为在 AI 产品真正做出来之前,你根本不知道那个“感觉”是什么。而认知就是靠一次次体感快速迭代出来的。
比如昨天 Claude 4.0 一发布,又会引发新的产品形态。再比如 GPT-4o 的 image-to-image 能力第一次实现了图片生成的一致性,因此 LoveArt 这类工具一下子爆火了。因为它中间用的基本就是 GPT-4o 来保证一致性。你只有在第一时间快速试用这些技术,才能第一时间建立新的感知认知。
👩🏻 Ronghui
你前面说过,只有 demo 做出来,才能真正体会产品的“感觉”。那如果限定在最近一个月内,你大概做了多少个 demo?你觉得这些 demo 给你带来哪些比较实际的收获?或者说,“感觉”内化成了什么?
👦🏻 晨然
我在做 demo 或测工具时,基本没有明确的目的性。我是个典型的 P 人,很多事情都是随机发生的。我不会计划“这周必须做个 demo”,通常都是某天灵光一闪,就顺着那个想法做下去了。在这个过程中,我是在享受“做”的过程,而不是非要得到一个具体结果。
坦白讲,我做的大部分 demo 回头看都是没意义的。但这些经验会在某个时刻突然派上用场。当你回头正向推导“我做这个是为了将来用”,反而做不出来。还不如就是对什么感兴趣就去碰,比如我最近一直在测 Gemini 2.5 Pro 的自动剪辑功能。我是单纯觉得视频是 AI 应该接手的领域,我想看看它的能力上限。不是因为工作需要,而是出于热爱。
我对“好玩”这个事一直有很深的体会。最早是我还在美国读书,ChatGPT 刚上线那天我就开始用了。周围没有人讨论,但我立刻两眼放光。原来我学的 NLP 和计算机视觉也可以这么好玩!之前我一直觉得这个专业就是做人脸识别,挺无聊的。但 GPT 的对话让我一下被击中了。我开始熬夜玩它,跟它打辩论、玩海龟汤、做情感陪伴,各种玩法都试过。
那时候我没有意识到这是个“赛道”,只是觉得太好玩了。后来我意识到:如果你觉得一件事好玩,用户大概率也会觉得它好玩。一个真正能传递情绪的产品,背后一定是个情绪饱满、热爱其中的创作者。我一直希望自己保持这种情绪充沛的状态,随机去做一些情感饱满的探索。如果我能找到那个“aha moment”,我相信用户也一定能感受到。
👩🏻 Ronghui
我这个问题其实不是想问你是否有目的性,而是更想知道——在很多事做完之后,如果你停下来总结一下,这些 demo 有没有在潜移默化中变成你的某种习惯,或者是体会?就像我做这个播客,最初也不是为了提升表达力,但今年某个时候我忽然意识到:说话时不再像以前那样紧张了。
👦🏻 晨然
是的,我明白你想问的。我觉得最核心的收获还是“好玩”本身。因为我很多情绪上的正反馈,确实是来源于做出来一些好玩的 demo。做 demo 的过程对我来说很像拼乐高,是一种很纯粹的娱乐方式。
而且现在我们这群做 AI 创业的朋友之间也会分享自己的 demo,比如海辛发起的 demoInn,我们都会在群里互相展示自己最近“凭热爱”做出来的新东西。这个过程中没有什么特别大的技术提升,但它带来的是一种生活方式,是一种持续探索的状态。你会享受它,我也没有企图从当中获得些什么。
👦🏻 Koji
你这个让我想起 Paul Graham 那篇《How to Do Great Work[4]》。他说,要找到那些你做起来轻松、有乐趣、别人却觉得难的事。认真去做它,也许你就能获得很大的回报。可能你做的 demo 恰好碰上了最热的 AI 赛道,但换成别人,也许是钓鱼、观鸟,只要是那个你擅长、做起来很轻松的事,就会有成就感。找到这样的事情其实就是一个人非常大的幸运。
👦🏻 晨然
是的,说到底,我觉得“享受”这件事听起来很“小我”,但其实现在很难再去谈什么“超级英雄主义”了。我特别能体会到这代人面临的下行周期。找工作越来越难,很多人连情绪稳定都成了奢侈,更别说有什么远大的梦想了。
但我一直保留着梦想。哪怕经济不好,哪怕大家都只顾自己,我还是相信创作是有意义的。我现在做 Medeo,本质上就是我大学时的梦想。我大一开始自学拍视频、做导演,也没想到后来能和 AI 结合,把我的专业和兴趣连起来。现在我做的事,就是我曾经最想做的事。
只是现在这个时代,最难保留的,其实是“创作欲”和“激情”。在一个低迷的环境里,要维持创作的热情太难了。我和朋友聊自己的梦想时,他们最多只能说“挺好的”,但不会觉得跟自己有关系。现在就是这个状态。所以我觉得,保留那份激情和创造的冲动非常关键。我自己也在不断寻找新的创作欲。也许我阅历还不够,但至少我在这条路上,希望我的经历能给别人带来一点点启发。
👩🏻 Ronghui
我特别能共情你说的“想保留创作欲”。因为现在的挑战真的挺大,一方面是很多事情 AI 都能替代了,另一方面是社交媒体上大家的表达越来越公式化、越来越“标准答案”——那些烂大街的表达你甚至不用想,就能自动背出来。 你刚刚提到一个点我特别想接着问,你说你在大学的时候其实一度觉得自己的专业没有用了,那时候是什么情况?比如当时整个行业氛围是怎么样的?然后你看到 ChatGPT 的第一感觉是什么?
👦🏻 晨然
我 2021 年本科毕业。其实那会儿整体看还算是互联网的高峰期,大家找工作也不难,工资也还不错。但现在回头看,那已经是顶点了,只是当时我们没意识到什么叫“经济周期”,什么叫“时代的尽头”。那个时候我最大的感受是:一切都太成熟了。各种应用、各种商业化路径都已经跑通。技术也没有什么特别大的突破。在这样一套既定秩序里,最吃香的反而是那些经验丰富的老手——他们熟悉规则,知道怎么优化。但对我们这些刚毕业的新人来说,一切都得从零开始,老老实实学,很难有什么创造力的空间。我当时真的觉得这个专业——计算机——对我来说只是个工具,就图个“能赚钱”。
然后,GPT 出现了。我第一眼就知道,它是完全不一样的东西。这玩意儿不是在优化现有的框架,而是创造了一个全新的框架。它的出现,直接把“我们专业能做到什么”这条线往外拉了一大截。它能对话、能生成文字,甚至可以模仿人的风格。我那时候就天天在玩它、hack 它。其实当时根本不知道什么叫“Prompt Engineer”,也没想过这些玩法将来会变成一个“赛道”。我就是单纯觉得:太有意思了。
👦🏻 Koji
我听你讲这个特别有共鸣。你说你那时候看到 ChatGPT 很兴奋,但周围人都不动声色。这个经历我也有。我前阵子搞了个 AI Hacker House,大家都在问我为什么要搞。其实一开始我也说不出个所以然,只是有个强烈的冲动,想做。
直到有一天我突然想明白了——我人生中最美好的阶段,是 2010 年前后,那是我的“五道口时代”。当时我刚毕业,同学们都往微软亚洲研究院、IBM 这种大厂跑,没人关心 Web 2.0。但我特别喜欢 Twitter、Facebook,觉得那种用户生成内容的东西太棒了。只是学校里没人玩,我一直挺孤独的。
但到了五道口之后,我立即遇到了同类——一群愿意从早十点干到晚十点、一周六天,把所有时间投入到自己真心喜欢的产品上的人。我们互相理解、互相鼓励,还能开眼界。
现在回头看,我做 AI Hacker House 也是为了给今天的年轻人、给像 2010 年的我和现在的你一样的人,创造一个“找到同类”的空间,不那么孤单。
👦🏻 晨然
挺类似的这种感觉。
👦🏻 Koji
好,又被我植入广告了。
👩🏻 Ronghui
晨然你给我的感觉就是特别的年轻意气风发。
👦🏻 晨然
有吗?我一直会担心,比如说很多嘉宾他们说的都比较言之有物。但说实话,去年我也是听播客才理解到创业者是在干嘛的。我就天天通过听播客给“反洗脑”自己,听一些创业者的故事,然后没想到我这个时候来上了一个播客。
👩🏻 Ronghui
你刚刚讲到“创作欲”,我特别好奇——你有刻意在做什么去保护它吗?比如说前面讲的多做 demo 可能是一种,那还有别的方式吗?
👦🏻 晨然
这个问题我真的思考了很久。可以说是这几年最反复思考的事。我创作欲最强的时候其实是在大学,当时拍片、写东西、折腾频道。但从毕业开始它就慢慢消失了,我不知道为什么,也一直没能找回来。明明知道自己还有表达的欲望,但就是差了一点力气、一个契机。
现在我开始用一些很物理的方式来“保护”它。比如我搬去了浦东,住得安静一点。不是不社交,但我觉得社交应该是“主动发生”的,不是“必须发生”。再比如我开始“戒设备”。我有个手机锁,会把手机真的锁起来。我刷视频刷到腻,甚至觉得抖音是毒瘤,我就不想再被它绑架了。取而代之,我开始读书。读书真的很管用,它会让你静下来,也能给你新的输入。
我是那种必须有很多输入,才能有输出的人。现在可能就是一个蓄能阶段。但说实话,我还没完全找到自己的那个“创作点”。我现在脑子里有很多 idea,但都只有三成模样,没法落地。我创作欲最强的时候,往往是情绪特别饱满的时候。尤其是痛苦。前几天我坐高铁的时候就突然情绪上来了,莫名其妙开始哭,一路都在哭。但那种哭特别舒服,就像终于找到自己的某个情感通道了。以前我拍片,也是因为某个阶段太痛了,我就想把那种痛传达出去。对我来说,那就是创作。
👩🏻 Ronghui
我觉得这完全不诡异。你看很多艺术家、电影人、作家,他们最巅峰的创作期,往往都不是最快乐的时候。
👦🏻 Koji
好呀,今天真的谢谢晨然。我们聊了 Medeo,也聊了你们团队那些“反主流”的做事方式。我自己也很受启发。后半段关于你自己的那部分,我觉得也能给不少人一些力量。我们说了创作、说了成长、说了生活状态。我相信这期播客,不光是好听,也会让很多人有所触动。我们谢谢你的时间,也期待你再来十字路口。拜拜。
👩🏻 Ronghui
拜拜。
👦🏻 晨然
拜拜。
[1]Medeo: https://www.medeo.app/
[2]「Medeo视频示例」: https://x.com/huangyun_122/status/1924166263926132884
[3]AI 遗嘱: https://pagen.so/page/qnbud4m04yiwqj
[4]How to Do Great Work: https://paulgraham.com/greatwork.html
文章来自于“十字路口Crossing”,作者“十字路口”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales