
2020年,吴迪读研一,张启煊念大三,他们跟同为上海科技大学学生的张龙文、曾初啸一起创办了影眸科技。公司早期做过一系列有关3D与生成的探索——做过穹顶光场扫描,做过二次元APP,做过数字人,踩过元宇宙的尾巴,也经历过几乎没有现金流的至暗时刻。2024年,他们几乎把所有筹码押在一个当时没人做出来过的东西上——原生3D生成大模型Hyper3D Rodin。然而,正是这一赌注,引领了整个行业的主流技术转向。
Rodin Gen-1发布约半年后,影眸科技在2025年的7个月时间里快速完成了2轮千万美元级融资——1月由美团龙珠、字节跳动领投A轮,8月由蓝驰创投领投A+轮。近日,影眸科技宣布完成新一轮数亿元人民币融资。本轮融资由凯辉基金、上海国投先导领投,老股东持续跟投。与此同时,Hyper3D Rodin大模型也迭代到了Gen-2.5。作为全球首个千万面级3D生成模型,Rodin Gen-2.5首次将类大语言模型的“先思考、再生成”运行逻辑引入3D生成领域,并同步推出全球首个12K精度的原生3D贴图模型。
在此之前,影眸已经陆续上线了业内唯一的3D编辑、递归分件技术BANG、以及支持边框盒/体素/点云的3D ControlNet,将3D生成从"抽卡"推进到了可编辑、可控制的生产工作流。
他们是业内唯一连续多年拿到国际图形学顶级会议SIGGRAPH最佳论文及提名的商业公司,其算法团队每2人中就有1人获得或提名最佳论文。他们的研发体系和DeepSeek高度相似:没有KPI,不打卡,本科生直接lead项目。
有意思的是,这样一家公司几乎不为自己吆喝。曾有投资人为此给吴迪打了三个小时电话,催他PR再用力一点,这样增长能再快一点。彼时竞对正以惊人的速度融资、扩张、刷估值。吴迪有时候会焦虑上几天,但穿越过周期的沉淀让他更能守住长期节奏——产品增速可观,留存也领先行业。于是,他依旧该干嘛干嘛——上一轮融资照样没怎么发PR。我们采访前想搜点近期访谈做参考,几乎一无所获。
与外界的节奏相比,他们的另一组数字是这样的:截至目前,他们B端的订单量,超过了同赛道其他公司之和;Rodin Gen-2.5发布后首月,订阅用户与ARR环比增速均超400%;过去一年里,客户没有流失过一个;运营团队只有同行的十分之一;平均每九天上线一个新功能。英伟达CES Keynote的主视觉,用的是他们生成的3D资产;Unity AI接入了他们的引擎;OpenAI首届Codex Hackathon的冠军项目,也选择了Hyper3D。
但吴迪更愿意聊的不是这些光环。他说,为了搞清楚3D打印到底需要什么样的模型,影眸买了一堆打印机自己打;为了适配工业设计,研究员跑去学Rhino和各种CAD软件;训模型的人,都得会接Blender的渲染节点,每一篇技术报告的演示视频都由技术团队使用Blender亲自制作。他觉得3D大模型的壁垒不在基模——可能再过一两年大家都会拉齐基模能力——真正的壁垒藏在这些大厂不愿碰的脏活累活里。影眸科技在近期发布了最新一代模型Hyper3D Rodin Gen-2.5。这是全球首个具备千万面级生成能力的3D大模型,首次将类大语言模型的“先思考、再生成”运行逻辑引入3D生成领域(3D几何生成与贴图生成),同一套模型自适应响应从创意探索到生产交付的全链路需求,将3D生成的可控性推进至全新阶段。
要做到行业领先的可控性并不容易,影眸科技认为他们的优势在于没有“学术惯性”。例如,他们最开始坚持3D原生,不走2D升维;后来研究分件技术,不照搬做分类的方法——总在探索新技术时绕开那条"看起来对"的路。这次访谈里,他们聊了不少平时不太公开说的判断:3D根本不是一个行业;Scaling Law在3D领域撞墙比语言模型更早;3D生成是world model的必需品,但他们不愿蹭“世界模型”的概念。
访谈当天,恰好是影眸科技成立六周年。两个人都还很年轻,却已经完整经历过元宇宙泡沫、融资寒冬和大厂入场的几轮周期。吴迪说,现在不太会被市场上那些疯狂的情绪裹挟了。
以下是他们难得的一次完整对话。
张启煊:这次最大的特点是我们引入了一个叫Thinking Effort的机制。Gen-2.5 对生成时长的控制是连续的——从4秒到80秒之间平滑可调,并非几个相互割裂的固定模式。为便于使用,产品将这一连续能力归纳为五档Thinking Effort,覆盖从快速草稿到极致精模的不同场景。。这让三维生成模型第一次有了类似大语言模型的"思考"调度能力——针对不同任务难度分配不同的计算量。
比如UGC项目基本会选最快的模式或中等速度模式,25秒左右,是比较合理的响应时间。美术流程要的高精度模型,就可能选80秒雕塑级的。不需要那么多细节的——细节多了美术还要手动抹掉——可能选40秒。
背后是我们对过去一两年整个3D生成行业的观察:很多用户在不同需求下会选择不同供应商的模型。我们想做的就是通过一套机制,让模型自动去fit用户不同的需求。
张启煊:时间其实是这个设计的附加产物,我们真正要解决的不是用户对不同时间的需求,而是对不同模型风格的需求。比如这里有个包,表面有很多小纹路——他是希望这些纹路体现在贴图上,还是在模型表面有这些纹路?不同人有不同需求。如果是做雕塑,可能就希望体现在表面,因为没有贴图;如果最后是要真的去生产这个包,可能就希望体现在贴图上。
怎么去控制这个点?我们发现token长度是一个好的媒介——token越长,它会越倾向于表示更多细节;token越短,它没有这个细节表示能力,自然就不会去表示这些细节。但token长短带来的附加产物就是推理时间的长短。这是一整个逻辑链条。顺便,推理时间更快了还能满足更多UGC的玩法需求。
张启煊:他可以花更少的钱,体验到更多模型的效果。在Rodin Gen-2.5的Medium模式下,用户可以一口气生成10个模型。之前即使是我们这样高度可控的模型,抽卡还是件很烦的事,只能一个个抽。现在生成速度快了之后可以一口气抽10个再选,对我们服务器也不会造成太大压力。
张启煊:语言模型为什么能做到?因为它是next token prediction,token本来就是变长的。但三维生成我们用的是flow matching路线,token大部分情况下是定长的。不过我们在最开始提出CLAY(2024年Rodin Gen-1的核心框架,该技术论文获2024年计算机图形学顶级会议ACM SIGGRAPH的最佳论文提名。)的时候就引入了变长的设计,只是当时引入变长设计只是为了方便训练,没有去探索它更深的价值。这次在Gen2.5里我们更深地探索了它背后的潜在价值,激发了这个能力。据我们所知,之前也没有人做过。
吴迪:直接决定了贴图的可用性。3D生成就两部分,模型和材质。原来AI 3D生成的材质,都只能用来看看。真的要接到生产流程里基本得重做一遍,除非放在边角的位置。我们这一代用了一个全新的框架做材质,难度不亚于完整训练一个图像生成模型,才把材质推到了可用线上。
张启煊:我举个更具象的例子。图像生成里面文字绘制一直是个很难的问题,直到去年下半年才逐步被解决,到现在已经是标配了。我们给3D贴图模型投入了与图像生成同等量级的训练资源,VAE性能甚至超越了Flux 2。
它不仅具备文字绘制的能力,更在12K精度下实现了超越实景扫描的几何精度和材质保真度。例如,你去生成一个人脸,它能够生成到眼角的细小皱纹都能看清楚。我们原来做人脸扫描,这是个相当难的事情,就算拿20多台高精度相机都不一定能拍得那么清晰。
张启煊:中间版本。整数版是全新架构,点五版是在整数版基础上验证新架构。Gen-2.5基座模型用的还是Gen-2。到Gen-3,我们会从零开始用新基座训新架构。版本间隔基本上是6个月,中间每隔2到4个月会发一个小版本。
吴迪:这个有点难以预期,尤其是3D在不同场景里需求不一样。就以游戏举例,高质量的3A游戏和《蛋仔派对》这样的手游,对模型需求都是不一样的。我觉得Gen-2.5已经带来了一个巨大的人工修改成本下降。
张启煊:其实部分场景已经能直接投产了,比如3D打印,比如《蛋仔派对》——可以认为它在部分游戏行业已经能够投产。
张启煊:我现在感触最深的一点是,它跟GPT的路线还是不一样的。GPT一直到GPT-4是一个重要的飞跃,Scaling Law被验证。但从GPT-4开始大家就质疑Scaling Law有没有碰壁。这件事情在3D上发生得更早——差不多在4B参数左右的时候,我们就开始思考,是不是加更多参数跟更多数据量就能达到更好的效果。我们当时的判断是"不是",现在看起来有点失误,但核心逻辑是对的:3D跟语言模型相比,不是光靠加参数就能scaling的。
3D的scaling会发生在应用场景上,需要你为各个场景做专用的适配、各种风格的迁移。所以我们在Gen-1.5的时候做了一个专门的RLHF版本,针对不同的模型风格做了不同的后训练,希望它能满足不同行业的需求。它们的发展路线跟语言模型是不同的。
语言模型到现在为止,我们没有看到特别出色的垂直模型——除了Coding,但现在Coding模型跟主模型也已经基本合并了。而在3D上,各个领域的垂直模型是特别重要的。这个点集中体现在我们在Gen 2.5里引入了Thinking Effort。所以如果一定要跟语言模型比的话,现在其实到O1的那个阶段了,大家通过不同的thinking能够实现test-time的scaling。
吴迪:这是我们非常和其他家不一样的想法。3D是由不同的下游场景构成的,就像大语言模型可以用在Coding、法律各种东西里面一样,3D的下游可能有游戏、3D打印、CAD产品设计、智能制造。所以3D不是一个领域,它是不同的分门别类的领域。这是所有人对3D的一个误区。
评测是很难做的,大家现在看3D模型好不好,最多看细节量大不大,能不能把皮肤褶皱表达出来。但不同垂直场景里需求不同。比如3D打印——尤其是光固化——确实需要高精度,把细节全部体现在模型上。但游戏反而需要更低面、拓扑更好的模型,加上比较好的材质。工业需要的是倒角清晰、硬表面光滑。图像和视频的消费级模态已经非常清晰了,但3D并不是这样。
张启煊:有一个比较欣喜的事情。你会发现在大语言模型实现突飞猛进、头部主流厂商都选择闭源之后,整个学术圈对语言模型的突破性研究越来越少。图像生成领域现在是开源厂商主导的,学术圈开源的图像工作依然很活跃。3D生成介于两者之间——顶级模型现在都是闭源的,包括我们和友商的各种商业模型——但这并没有让3D的开源和学术研究生态受到很大影响。过去一年,大量的3D生成工作依然在学术圈有很大的号召力和吸引力,今年刚结束的CVPR最佳学生论文就颁发给了3D生成领域的开源之王TRELLIS.2。
一个有意思的巧合是,TRELLIS.2之前我们CLAY也拿了应该是3D生成第一个Best Paper提名,跟TRELLIS.2拿Best Paper的刚好在同个地点——都是在丹佛举办的CVPR和SIGGRAPH,同一个会议厅。3D生成依然是一个开放的生态。
张启煊:优先级很简单,先做简单的。如果这个东西只需要对数据进行一些编排,那我们就探索性地去做。比如分件,我们做了一年半——第一年浪费在错误的方向上,然后花了两个月实现了一个特别的技术突破,又花了四个月把它巩固到最新的基座模型上。
吴迪:分件这件事花了很多精力。因为“分件”实在是太明确的需求——建模这个事就离不开分件,不分件的模型就很难用。所以我们一开始就开始做。但第一想法——就像当年大家做3D先用2D升维一样——肯定是先聚类,先判断物体上某些点属于哪个part,再做分割。但这条路径我们迭代了很久,一直都是错的。直到一个新的技术路径被想出来,才到了可用的状态。但我们不会急着让它以不可用的状态上线。
张启煊:所以我们其实不是第一个上线分件功能的。但我们上线的时候,业内已经上线的分件方案就是我们pass掉的方案,因为效果对我们来说不够。
吴迪:我觉得只能归纳为我们对底层模型、底层架构更加了解。
张启煊:我觉得是我们团队本身比较善于摆脱学术惯性。现在大部分方向都有很强的学术惯性,比如做3D原生生成的时候学术惯性是2D升维,做分件的时候学术惯性是直接做理解、做分类。我们现在的editing还有很多后面新的东西,都是在这个"Understanding by Generating"的框架下进行的。
张启煊:我们今年年初最大的工作流变化是编辑。Nano Banana很火,它重新定义了图像领域的路线。我们的3D编辑逻辑相同,拖入任何一个3D模型,用文本直接改。
之前是AI生成模型、人去修,很累。现在自己做个模型丢给AI改。有个用户做了一个马年的玩偶,老板要求改成龙头——丢进我们的工具,说"把头变成龙",直接就改好了。
工作流反过来了:原来先AI再人,现在先人再AI也行了。而且任何第三方平台生成的模型也可以拿到我们这来编辑,不要求是我们平台生成的。
张启煊: 确实存在像素级复刻我们产品的情况,UI连提示都设计得一模一样,有些功能——像我们的DCC Bridge——连小窗设计各种都做得一模一样。
但这些产品上的设计确实门槛很低。现在是模型即产品,模型上的设计他们想要学习和模仿需要更多的时间。举个例子,我们的3D ControlNet可以在生成前实现长宽高跟大体外形的控制,但到目前为止,几乎没有业内同行可以复刻。
行业也有玩家在去年年底做用户统计,统计出来他们用户最想要的功能是我们的3D editing。但过去快半年了,他们也还没有顺利做出这个功能。所以在模型层面的设计上,这个事情是需要更多时间才能攻克的。
张启煊: 我们对行业的需求一直比较敏锐,甚至很多后面才解决的问题,其实第一天就知道它存在。但我们并不是对所有问题都一直有解法。有些灵感来自开源社区跟学术社区的新进展,有些甚至来自其他模态。比如Gen-2的时候一个很重要的变化是我们从标准的Diffusion Transformer变成了flow matching,这个明显是在其他模态上得到了验证。一般如果一条路线我们觉得可行就会立刻去做;如果不行就再想想,所以更多时间其实花在思考跟实验上。
吴迪:我们会对一个产品没有达到可用就deliver出来这件事有非常大的反感。
张启煊: 对。基本上你看到一个功能上线了,我们内部会认为它已经是能满足部分行业需求的状态了。
我们现在内部统计,每9天就会上线一个新的feature。模型的更新频率差不多是2到4个月,整个迭代节奏确实非常快。
吴迪:而且随着组织和团队的扩大,包括agent的不断加入,这个速度会越来越快。
张启煊:跟我们整个团队关注的方向都息息相关,有几篇我要特别介绍。
第一个是CAD生成。现在大家做的3D生成更多是娱乐向的,CAD是直接跟工业生产相关的。我们希望未来3D生成除了在娱乐向的内容上展现价值,还能在智能制造、工业设计这些更深的领域发挥作用,真正提供生产级的能力。
第二个是low poly生成,这是现在3D生成在游戏行业应用面临的巨大问题。我们的Gen 2.5提供了雕塑级的千万面模型,但游戏里要的是性能跟质量并存的均衡模型,往往用low poly表示。但low poly的生成用我们之前flow matching的技术框架往往没有办法完成,所以我们用了auto regressive——更像GPT的方式——去逐个生成面片,这是一条新的技术路线,对团队也是一次新的探索。相关成果的升级版本在我们平台上也可以用到了。
然后还有一项不得不提,但它不在六项之内。我们一共投了8篇,其中有一篇被拒了——是一个三维原生的贴图模型。3D生成我们完成了一次从二维升维到三维原生的技术转变,让它成为了技术主流。但在贴图生成上,之前都还是拿二维升维的方式——生成多角度图像然后投影。我们这次完成的就是三维原生的贴图框架。遗憾的是它被拒了,但我们相信每一篇神作都会有被拒绝的日子——NeRF被拒了一次,Yann LeCun有好多文章被拒了。这可能让这篇文章有成为神作的潜质,需要更多时间检验它的价值。
吴迪:商业化路径比较脚踏实地。今年会比去年更激进,包括投放、marketing。但近两三年——除非看到非常大的变化——核心群体定位在B端专业化使用场景。
3D还不是一个C端的模态。C端用户拿到3D模型不知道干嘛。带来变化的可能是VR/AR,是3D打印普及,但这个预期不在我们这一边。
张启煊:我们认同现阶段要占品牌心智——说到3D就得想到Hyper3D、Rodin。但希望更高效地达成,而不是每个月投几百万的流量费。
吴迪:我们客户留存很好——过去一年里,除了倒闭的,没有流失。底层模型稳稳在第一梯队,edit、材质、可控性这些独占功能越来越多。
张启煊:我们的产品和定价策略筛选出来的大部分都是专业用户,甚至是准B端,粘性比投流找来的高很多。2.5上线后开始投放,增长很惊人,留存没有变化。
张启煊:据我们所知,我们B端的订单量跟订单金额,比另外两家头部加起来还多。
去年CES上黄仁勋Keynote主页最大的那张图,背后就是用我们生成的模型。OpenAI首届Codex Hackathon,冠军项目用Rodin做的。顶级游戏引擎方面,Unity AI接了两家3D生成模型,一家来自某大厂,另一家就是我们。也和网易蛋仔派对、拓竹等有深度合作。
吴迪: 分短期和长期看。短期3到5年内,专业3D就是我们场景的天花板,这个天花板其实不低。全球百万数量级的建模师,Autodesk一年大几十亿美金的营收都集中在3D领域,游戏每年要花一两百亿美金在外包建模上。从专业化使用场景来说,至少是一个500到1000亿美金的市场。
张启煊:但我们现在模型能力探索的即使是专业化场景也比较局限,更多驻在娱乐向的内容探索上——游戏、影视的3D模型,3D打印现在也很多是for fun。但3D领域很大的一个前景是生产和工业向的——汽车的外形、充电宝的外形,甚至医学上用的模型。我们希望未来3D生成在这些行业也能发挥作用,这起码是现在两倍以上的市场。
吴迪: 再往后到3D打印和AR/VR真正普及到个人C端,3D生成就会变成一个底层框架,就像现在手机拍照一样。
张启煊:而且现在大家对3D的重视程度也在提升,刚结束的WWDC上苹果也在它的Foundation Model里内置了三维生成模型。
吴迪:改变的可能是大家对这个行业的关注度。但没有改变创业公司仍然是最强模型开发者的局面。
吴迪:大厂的使命和我们的使命不一样,他在AI里面需要站到的角色位置和我们要站到的角色定位也不一样,所以是比较差异化的。3D正因为它在不同应用场景里有不同的模型需求和脏活累活要做,这反而能构成和大厂的差异化。大厂的目标主要是得证明"我技术上必须有这个模态",但他不会去做太多针对某个场景非常深入的适配。
张启煊:没发现。腾讯一度开源过,但现在主流模型也不开源了。
吴迪:至少可以翻到百分之六七十的估值,那对我没有影响,而且我花费也是他们的百分之六七十,所以约等于多了30%的空间。
吴迪:会。之前有股东给我打了三个小时电话,“喷”我们增长不够快、PR不够用力。确实有的时候会有压力,有时候心里也会因为这些事焦虑几天睡不着觉。
但后来慢慢就不焦虑了。一方面,我们的增长其实在变得越来越快,更重要的是,我们的留存远比其他家好——产品确实solid,过来的也都是真实用户,不是靠投放堆出来的数字。当你知道自己的真实增长,外面的声音就没有那么容易动摇你。
其实我挺感激这些股东的。会花三个小时打电话“喷”你的投资人,是真正在乎这家公司的。而且说白了,大家最后看我们在行业的位置,还是要回到横向比较产品,从这个角度看,友商估值的锚定对我们反而是好事。
我们是经历过好几个周期的。从创业到现在,至少经历过元宇宙潮起潮落,又赶上22、23年那一波创投退潮期,所以我们不太会被市场上非常疯狂的情绪裹挟——判断要建立在产品和真实用户上,而不是建立在别人的增长曲线上。
这一点上我们也很幸运,遇到的投资人大多也是这么看的:他们认的不是短期的增长曲线,而是技术路线和长期价值。
吴迪:3D生成是world model的必需品,但最大的问题是world model本身还没有明确的定义——是控制机器人的模型,还是生成场景的模型?
我们不把自己定义成世界模型,一个是大家已经审美疲劳了,另一个是我们有自己的想法。我们马上要上线场景级生成,可以算world model,但没有到能模拟世界的程度。
张启煊:另一个我们比较冷静的点是——在元宇宙那一波的时候,包括当时影眸也是做元宇宙的,那时候有一个很大的特点:创业公司会跟着概念去设计产品规划,而不是做的产品刚好fit这个概念。现在世界模型有点像当年的元宇宙。撕开世界模型这个标签,大家本质上做的还是机器人行为策略、实时视频生成、三维场景生成。我们更希望把注意力放在撕开标签后本身的任务定义上。
张启煊:我们25年拿最佳论文的CAST做的就是场景生成。Object生成完成后,我们往两个方向延伸:往内部走理解部件关系,衍生出BANG;往外部走理解物品间关系,衍生出CAST。
场景级生成需要理解物品间的力学关系、位置关系和使用意义,CAST通过结合语言模型与深度估计模型来实现。过去一年半我们主要在解决多模块级联导致的成功率下降问题,现在已经完成了更多端到端的整合。虚拟场景体验、游戏概念设计、具身智能的仿真环境训练都会直接受益。
张启煊: 跟DeepSeek比较像。在我们这,很多项目都是本科生lead的,他可能之前一个项目经验都没有,我们都会让他去lead一个独立的方向。没有KPI,也不强制加班。
吴迪: 我们到目前为止整个公司都不打卡。
张启煊:我们现在大量模块都是auto research出来的,就是让AI自己在那写。因为研发项目很多是传统算法的优化,也有新框架的引入。之前大家大量时间花在传统算法优化上,现在这一块完全用AI agent完成了。
另外之前一个很大困难是怎么优化推理性能和调度性能。之前更厉害的人都在其他模态,3D很难找到人专门做性能优化。AI引入之后,对整体推理性能和成本控制有很大帮助。
吴迪:包括产品开发迭代上线的周期——原来四五个人一个功能可能写一两周,现在可能一两天就能搞定。代码合并、PR、review这些也都用得很深入。如果没有Agent的飞速发展,我们现在肯定得150人以上的团队规模。
吴迪:一直都在被教育、被推着成长。我们是没经历过成熟商业化体系、成熟组织体系的人创的业,硕士还没毕业就开始干。每一轮融资虽然都站在了风口末端,但也都没真正赶上风口,所以一直是看上去挺顺、其实没那么顺的状态。
每个阶段考虑的问题都不一样——最开始考虑研发出来的东西怎么和市场结合,接下来考虑钱不够了怎么办,再往后考虑怎么做下一代产品,现在考虑的是怎么把公司的估值和故事抬上去、怎么建设更成熟的组织、怎么吸引更多研发人才、怎么并行推进不同项目。每个阶段对我们的逼迫性成长要求都很大。
张启煊:但从3D生成做出来之后,整个团队更多是主动去成长了。做人脸和元宇宙那会儿确实很多是逼迫性增长,因为刚进这个行业、刚做这家公司,更多是follow——尤其做人脸那阶段是follow海外的先进做法。但现在我们是引领的团队,没法再被动成长了,更多是无人区探索。
吴迪:首先我不算一个传统意义上的researcher。我在上科大是GPA吊车尾的存在,大四GPA只有2.8,研究生是裸考考进去的。上科大80%的人都有保研名额,我是剩下的20%(笑)。大家本科都已经发SCI了,我本科结束一篇都没有,在实验室更多是负责组建和项目管理。不过在上科大待那么多年本身就很有创业感——我进去的时候招生才第二年,整个学校只有一栋宿舍楼能用,很多东西都是一手搭出来的。所以我本来就不是传统researcher的画像。
张启煊:有一个祛魅的过程。最开始你会很崇拜发文章的学长学姐,但真做了公司才发现,学术成就不代表东西靠不靠谱。不追逐文章之后反而进入了良性循环——我们两年三项最佳论文提名,都不是为发而发,都是做了一年研发、在产品里有了突破才写的,所以周期都很长。只有当一个学者没有毕业压力之后,他才会真的去做代表作。还有一件挺有面子的事——我们训模型的同学都知道Blender的渲染节点该怎么接,因为你不调这些东西,根本不知道行业里为什么这个要这么做。从学术实验室迈向做公司,你得把这些东西全转过去。
张启煊:我好像没克服过什么心理瓶颈——遇到我觉得搞不定的事,就推给吴迪(笑)。
吴迪:毕竟我还是要为这个公司兜底的。我觉得我最重要的原则,就是敢于承认自己的不足。过去哪里做得不好,就大大方方承认,然后去把它做得更好。没有什么个人偶像包袱。
吴迪: 两件事。一个是3D接下来该怎么发展,会不会哪天被什么模态干掉。另一个是怎么把公司变成一个能打仗的组织。
张启煊: 我觉得是3D整个应用场景怎么去scale。模型的scaling我们从Gen 2开始已经达成了,整个团队从训练小模型的团队真正变成了训练大模型的团队。但market和product怎么做scaling,依然是我们很重要的课题。
请注意,本次访谈内容已经过编辑整理并已获得影眸科技的认可,仅代表受访者个人观点。欢迎读者通过留言互动,分享您对本访谈或影眸科技的看法。Z Potentials 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
文章来自于"Z Potentials",作者 "Z Potentials"。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales