跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee
7260点击    2025-11-02 10:22

聊个天的功夫,就能生成一首歌了。


这不,用国内首个音乐生成Agent产品Tunee生成了一首歌,一起感受下。

跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee


歌词、节奏都很流畅,音乐风格舒服,有点子专业在身上。(自恋ing,觉得是可以发抖音的程度了)


人人都能玩点音乐”,Tunee真的做到了。


这也说明,AI创作领域产品真的从“工具产品”迈向“智能体交互产品”了。


在AI创作领域,玩家可不少。诸如星流、Manus、海螺AI、美图秀秀等成熟玩家,以及近期爆火的Liblib AI纷纷入场卷起Agent能力,产品功能或围绕平台生态、或深入垂直场景不断迭代优化细节。


与AI平面设计、AI视频生成等其他创作垂类赛道不同,AI音乐生成具有自由度高审美高度个性化的特点。


如何将用户的个性化音乐表达需求与AI Agent能力结合,是音乐生成领域需要持续思考的问题。


这意味着,音乐生成Agent的产品设计路径技术底座,会展现出与其他创作赛道Agent的巨大差异性。


为了了解这一新兴赛道,量子位智库邀请了国内首个音乐创作Agent产品Tunee负责人贾朔,进行了一场深入交流。


结合贾朔老师的分享,我们了解到这款音乐Agent产品背后的思考,也看到了AI音乐创作领域,多次对话式交互天然匹配用户多番创作迭代的需求,Agent生成精准音乐指令背后是大量人工创作判断融入训练的结果。


跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee


Tunee访谈直播


关于Tunee


作为音乐创作智能体领域的代表性产品,Tunee目前已积累一批高质量用户,该产品通过对话式交互与智能引导,显著降低了音乐创作门槛,为用户提供从创意到成品的全流程创作支持。


具体功能如下:


智能对话式创作流程:对话式交互支持输入模糊或抽象的音乐灵感,系统通过智能对话模式主动分析用户意图并提供风格推荐、创意询问与引导、细化并完善创意并生成可执行的创作指令,并在交互过程中实时展示思考路径,支持用户随时调整方向或深化特定需求,支持生成后的多轮修改与迭代优化。


专业化生成与多场景输出:支持通过对话生成完整音乐作品,也允许用户输入已准备好的歌词进行精确指令生成。其输出涵盖从专业级音频文件、可用于发行的分轨文件,到适配社交媒体传播的MV视频等。


跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee

Tunee 主界面


以下为Tunee负责人贾朔和量子位智库的详细对谈内容。在不改变原意的基础上,量子位智库对部分内容进行了修改及简化。


访谈实录


01、音乐智能体产品适配哪些用户群体和场景?用户核心需求是什么?


量子位智库:Tunee目前的主要目标用户与场景是什么?是否主要为对音乐有审美追求但属于泛爱好者的人群?使用场景主要是个人娱乐,还是已出现更多场景?


Tunee用户具备音乐审美追求确实是我们用户群的显著特点之一。他们不满足于仅在Spotify或网易云听歌,更希望追寻自身特定喜好风格的创作,并基于个人意图与歌词内容进行创作。所以有部分用户是不具备专业制作经验与技能但拥有强烈爱好的人士,这就是当前部分用户群体的构成。


但是,在整体占比中,可能更大的群体是内容创作者。这些用户在不同平台发布不同媒介载体的内容,可能是文字创作者或视频创作者,但需要音乐在其内容载体中发挥传递情绪的作用。


跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee


Tunee产品界面


他们对音乐有非常精确的要求与需求。这类用户也会找到我们的产品形态,在对话过程中将其对内容的需求告知智能体,从而获得所需效果。这种场景就更接近先前举例中需聘请乙方音乐制作人定制音乐内容的情况,智能体在交互效率与质量方面就都具备一定竞争力。


量子位智库:对于Tunee未来潜在的用户规模,是否有大致预估?


Tunee:作为产品团队,我们可能最后才考虑绝对规模的预估,更多会从人群画像出发,优先解决某一画像用户的需求。若该需求已很好满足且无更多增长空间,我们才会考虑逐步扩展。


我认为,规模预测是创始人或团队经常忍不住就进行的行为,但从经验来看,此类预测大多不会太准确。所以我们目前不倾向于过多预测。


量子位智库:预测不准确的原因是否为产品未来可能进一步拓展至不同场景,或用户群体的需求与偏好会进一步变化?您认为偏差的主要来源是什么?


Tunee:这可能是一个非常朴素的观点:市场最终难以预测


如果您提出的解决方案大幅超出市场需求,则可能获得惊喜的答案;若产品未满足市场需求,则结果将远低于预期。


因此,预测相对不可事前控制,我们唯一能做的是更深入理解用户,尽可能提供令他们满意的解决方案。


量子位智库:在我们对这两类用户群体的了解中,他们对音乐生成类产品最关注的体验是什么?例如生成质量、速度、使用体验等。目前看来,是否存在某些他们关注但未被市场注意到的点,或在使用过程中逐渐体会到的点?


Tunee:我们认为要求最高的点可能是指令的遵循性


举例来说,当您真正需要找人制作音乐时,您更愿意与不听指挥、只能自行发挥的艺术家合作,还是与能明确满足需求的专业制作机构合作?其实更类似后者。


我们认为,这对模型的潜在挑战在于其是否能真实响应用户需求。


我们过去接触过许多产品,不限于音乐类,例如用户输入一段精确的提示词指令,即使已跨越第一步门槛,但用户负反馈与抱怨最多的时候是生成结果与预期不符。这类似老板对下属的视角:交付物非其所要,可能引发较大负面情绪。


02、为何选择“智能体+对话形式”作为核心交互形式?如何发现产品达到产品-市场匹配(PMF)状态的?


量子位智库:Tunee为用户创造了哪些核心价值?


Tunee:价值主要体现在两方面:


首先,通过自然语言交互,提供了更低门槛、更直接的交流方式。传统生成工具需要用户自行构思提示词,掌握诸如音乐风格、专业术语等知识。


对话式交互不仅简化了操作,更重要的价值在于通过多轮对话主动提供建议。用户无需知晓精确方案,智能体会推测其意图,并将可能的选项呈现在用户面前,使用户只需进行选择而非填空。


这种交互方式更接近我们对专业代理服务的理解。日常生活中,用户因自身知识不全面而寻求行业专家或咨询服务时,期望获得的是专业建议与方案。


Tunee以同样方式响应用户:当用户对音乐有需求但可能不了解细节时,可通过该智能体获得专业创作建议,并由其将创意落地。


量子位智库:早期市场的某种认知认为,为了达到产品最终交付结果的可控精度,需要在过程中增加不同按钮或类似传统交互修改方式。Tunee是如何通过“智能体+对话形式”实现相同效果的?


Tunee:我们认为,我们构建了一款更符合用户使用需求的产品。同类产品中,既有我们自身开发的,也包括市面上各类优秀产品,我们均有关注。


尽管从效果层面看,当前AI音乐生成的成熟度已相当高——例如,将生成结果提供给非行业人士试听,他们可能已难以区分是否为人工制作,完成度极高。但我发现,身边非AI行业或关注科技圈的人士,对这方面技术进展的感知仍相对滞后,渗透速度低于预期。


尽管他们认为生成效果不错,但在面对传统交互形式时,仍会感到茫然。用户需要对输入框提供精确指令,这一步的阻碍程度超出了原有预期。


基于该观察,我们思考如何使交互更自然。当前AI产品形态中,渗透率最高、应用最广的仍是GPT式对话形态。这可能是一种虽非效率最高、但几乎每个人都能接受的交互方式。


此外,音乐与其他任务类应用不同,例如使用综合智能体制定旅行计划或工作安排,此类任务无需多次交互,且结果可客观验收,路径较短。


而音乐具有高度主观性与艺术性,同一结果可能被某用户认为优秀,而被另一用户视为不理想。因此,涉及主观内容时,如何交付成果成为关键。智能体相比传统形态,业内的共识在于其能自动化执行任务并将结果交付用户。


但音乐品类的特殊性在于,若交付结果用户不满意,应如何处理?现实中,若用户聘请音乐制作人,常见情况是制作人交稿后,结果可能不符合用户预期。


所以我们就发现了另一需求:音乐制作客观上需要多轮对话交互与反复修改,最终在多次迭代后获得用户满意的成果。


这也是我们发现选择对话式交互后,其能良好支持框架拓展的原因。该形态非常适合进行多轮修改,相比传统单次文本提示词对话框的单次交互,它能支撑多轮交互,而多轮交互非常适配音乐这类媒介形态,使智能体能够以标准方式向用户交付成果。


跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee


Tunee产品界面


量子位智库:与Suno等上一代音乐生成平台相比,这样的方式让产品更具普适性,是么?


Tunee:是的。当然对该问题的看法也不绝对,更多取决于产品希望服务的用户群体。


有两种设计思路,一是面对专业人群,比如餐饮垂类中某一生态位,若选择服务厨师,由于他们本身非常专业,对用户选项则复杂度与数量不会有太强的认知负担,将按钮全部展示并无问题。


二是面向非专业人士,如餐饮垂类生态中的顾客端,例如日料的Omakase吧台,顾客入座后可能不知想吃什么,此类顾客更需要有人在吧台对面提供建议,询问忌口等。若服务对象为厨师端,则暴露更多UI元素、采用相对复杂、类似传统Office或工作站的交互形态具有意义。这即为不同产品定位带来的设计思路差异。


但如果我们对本次技术变革的理解是,其潜力应服务更多目前尚不熟悉制作过程、更多是想品尝结果并了解概况的人群,则服务于Omakase吧台对面顾客的视角,将产品设计为更自然的对话、主动提供建议并自动执行的思路,可能是另一条设计路径。我认为两种设计思路均存在满足用户需求的机会。


03、如何解决用户音乐生成需求的模糊性问题?如何满足不同用户个性化的审美要求?


量子位智库:Tunee在第一轮提供三个备选项时,已进行精准的音乐风格翻译,并在后续追问中给出古典设计、乐器设计乃至渐入渐出等具体专业的设计细节。与其他产品相比,在丰富性、专业性与细节性方面,Tunee是如何在技术底层或产品工程化层面实现的?即如何将用户需求尽可能专业翻译并落地至产品中?


Tunee:这更多分两方面:一方面是我们对场景及用户期待的服务本身的理解;另一方面是技术实现方式。


与纯技术团队背景不同,尽管我们团队拥有来自各大高校的资深研究员,但还有一个要素是我们团队中包含许多经验丰富的音乐制作人。他们接触过此类用户需求,了解用户模糊表达背后可能隐藏的意图。


例如,前段时间我们服务一位线下客户,提供一版方案后,客户听完给出非常模糊的反馈:“虽然听起来不错,但好像有点不走心。”这类话术常见于甲方或老板,较为抽象模糊。若止步于此,简单提供下一版方案,大概率仍无法获得满意的交付结果。


跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee


这些抽象反馈我们会基于专业知识与判断,在智能体设计中增加大量人工创作的思考决策。这是我们在设计上刻意处理的点,也是其能将抽象需求在对话中逐步询问清楚,并翻译为AI可理解的精准话术的原因。这也是我们在落地设计上投入较多的环节。


技术实现上,我们参考了当前主流智能体框架,并在实现过程中克服了许多挑战。


量子位智库:当用户需求提交至Tunee后,其内部工作流程大致如何?


Tunee:在最终提交模型生成前,我们希望从用户处获取相对完整的需求清单,即从智能体视角思考。比如若要填满简报的所有字段,还需哪些信息才能发起本次生成。智能体作为智能语台,会自行思考如何在对话中从用户处获取所需信息。


当信息完备后,它可能还会测试多版方案,确认是否符合用户意图,最终再发起一次生成。我认为这是在编排思路上的差异:并非先生成再说,而是在过程中明确需收集哪些信息,并在对话中尽可能与交互者收集这些信息


量子位智库:Tunee作为国内首款音乐生成智能体,是否思考过为何自身成为首个智能体产品?国内还有其他AI音乐生成产品,如海绵音乐等,您如何看待其他公司尚未推出智能体产品?


Tunee:说实话,我未曾深入思考此问题。


当然,从结果上看,我们并非首次在音乐品类中推出某一产品形态的先行者。我认为最主要的原因可能是过去六至七年我们一直专注于此赛道。若问原因,这应是最大因素:过去六至七年,我们持续思考如何让人与音乐的交互拥有更多可能性


因此,早在AI大模型之前,我们已开发如“唱鸭”APP等弹唱类产品。您会发现,弹唱需求现今可能被其他硬件产品形态发扬光大,但在2019年,我们率先提出该交互形式并首次找到产品市场匹配点。


在音乐大模型方面,我们亦属国内较早布局的团队。我们看到大型语言模型与扩散模型生成范式兴起后,用户与音乐进行更主动、深度交互的可能性增多。我们希望提供更优解决方案,因此不断尝试。


例如,去年推出的“天谱乐”实为全球首款支持多模态生成的音乐生成模型,具体而言,支持将图片与视频输入模型生成音乐,我们为全球最早落地该功能的团队,甚至早于Suno约三至六个月。


在此方面,由于我们持续专注此赛道,更多仍在探索还有哪些可能性。因此从结果上看,我们实现了一些首创,但成为首个或最早实现某功能从未是我们的出发点。


04、在已打造出头部AI音乐应用后,团队为何选择推出Tunee这款AI音乐智能体产品?


量子位智库:去年天谱乐已是AI音乐生成领域的领军产品。为何决定再开发Tunee?是否因Tunee在时间跨度上优于天谱乐,或是二者存在差异与不同定位?


Tunee:我认为在产品形态上,天谱乐更多是基于模型能力的相对直接载体。但从应用层视角看,它可能仍是较初级的形态。因此,您可以将其视为我们在拥有音乐模型能力后,对纯应用层产品形态与交互方式的新尝试。


此外,回到先前讨论,仍需看服务人群:若用户具备较强专业知识,需要高效的专业调用,则直接使用天谱乐或类似产品已可满足需求。


但不同产品形态需覆盖不同的用户需求与使用场景。由此角度,基于相同模型能力,应用层存在大量不同的尝试机会。


量子位智库:从天谱乐到Tunee的转变来看,您是否认为在所有AI创作工具中开发智能体是必然趋势?因开发者均希望产品更普适大众、市场更广。您认为智能体形态会是所有AI创作类产品的必然终点吗?


Tunee:不一定。更多取决于所需解决问题的范围。因为当前可能存在相对共识的观点:若现在开发非常综合的智能体,难度可能已非常大。


一方面,已有如Manus等知名成熟玩家;另一方面,主流模型自身可能逐步覆盖更多能力。


因此,多数人可能考虑开发垂类智能体。但垂类的问题在于,问题的范围已被切割后,其复杂度是否真需智能体解决?


这可能是需要思考的问题。若问题复杂度不高,则不一定仅考虑智能体形态。


量子位智库:问题复杂度能否举更具体例子?例如,您认为哪类场景无需智能体即可实现?


Tunee:其他场景我们思考不多,但这是在设计Tunee过程中我们自己在产品设计上考虑过的问题:若用户交互路径很短,例如使用工具形态一次交互即可完成,那么使用智能体最多仅增加一次交互。


若已足够,我们便需重新判断与思考智能体相比原产品形态提供了多少额外附加价值


05、相比于更成熟的深度研究(文字)和平面设计(图片)智能体,音乐智能体为何进度稍慢?


量子位智库:能否从底层模型等角度具体说明,Tunee如何确保任务执行成功,避免如许多智能体长时间跳转?尤其Tunee制作时间较短。其次,如何保证最终交付的音乐更具审美?


Tunee:关于幻觉及流程耗时、失败等问题,我认为以当前业内实现水平,大家或多或少都会遇到。但我们投入大量工程精力,尽可能优化体验。尤其在模型幻觉层面,我认为无法完全杜绝,至少现阶段仍需依赖模型本身的进一步进展。但我们可在智能体层通过相应处理,尽可能降低用户遇到不良体验的几率。


量子位智库:对Tunee而言,产出更具审美、专业的音乐作品,更多集中于底层音乐大模型的改进,还是后期在产品工程上的优化?


Tunee:两方面工作我们均在进行。首先在模型层面,我们尽可能提升模型本身的审美能力,这是我们投入较多的环节。在产品形态上,我们可在对话过程中收集用户审美偏好后,通过某些中间层提供更贴近用户需求的方案。


因此,这确实是艺术创作类智能体的重要问题。一部分适合在模型层面解决的,我们就在模型层面处理;中间对话调用环节也存在大量提升空间,来满足用户个性化审美需求。


量子位智库:目前我们看到落地较成熟的智能体主要有两类:深度研究与平面设计,它们在使用过程中采用类似形态,如初始对话后提供三个选项,再开始后续工作。音乐生成智能体进度略晚于它们,是否因音乐模态本身复杂度更高,或嵌入智能体难度更大?


Tunee:我认为这可能符合模型层面发布顺序的客观规律。


你会发现,先是文本,随后图片与文本进度相近,语音稍早,音乐在整体技术范式迭代上符合过去几年观察到的客观规律。


量子位智库:您认为这与音乐模态特性相关,还是与各公司产品开发进度不同?在设计底层智能体整体逻辑上,Tunee与星流等平面设计类智能体相比,有何不同?


Tunee:平面设计类智能体的潜在优势在于其交付结果为视觉化呈现,这很大程度上会影响产品设计思路。而音乐是音频维度交互,天然缺乏视觉信息支持。虽然可以借鉴部分图像类设计思路,但视觉信息的有无及强弱,会显著影响音乐智能体的产品架构与交互设计。


06、通过哪些数据判断Tunee的用户满意与留存意向?如何做好用户运营?


量子位智库:对Tunee现阶段而言,在功能迭代、产品性能、用户增长及未来变现等方面,最关注的指标或基准是什么?


Tunee:我们更关注用户的对话轮次深度与使用时长


量子位智库:对话轮次深度具体关联用户作品的精确度,还是作品的某些方面?


Tunee:这涉及两方面:我们通过该指标判断用户对对话交互的质量是否满意。


我们关注的不是绝对数字,而是评估对话中满意度的占比。因为对话轮次多可能有两种情况:特别满意或特别不满意。


我们更希望满意的对话轮次持续增长,这将是我们重点关注的方向。


量子位智库:这代表在用户眼中,Tunee是善解人意的乙方,能很好理解需求并对最终结果满意,对吗?


Tunee:是的,这是重要的产品迭代方向。


量子位智库:我们观察到Tunee在社群运营与用户对话、共创方面表现突出。在此方面,Tunee是否有独特贴近用户的心得或技巧可与读者分享?是否有特别有趣或有效的方法?


Tunee:我认为谈不上手段,更多是真诚响应,我们并未采用特别系统的方法论,更多是将基础动作执行到位。


在与用户交流过程中,会接触各类声音,有赞扬也有批评。此时,产品方无需过度反应,而应真诚倾听与回应。


例如,用户提出疑问或困惑,我们能否尽量第一时间响应与解答?与人打交道其实类似,单次互动质量即可影响关系远近,而关系远近可能影响平台与用户群之间的关系,进而影响您所说的社群运营效果或氛围。


量子位智库:在基础动作中,是否有某一动作特别有效甚至超出预期?


Tunee:我认为最大的思路转变可能是,早期我们尝试用语言向用户描述产品特点与优势,后来更多单纯分享产品使用效果。当更多人看到产品实际效果后,许多疑惑自然得以解答。


07、产品未来三个月的核心迭代方向是什么?如何给用户需求优先级排序?


量子位智库:在与用户交流过程中,可能涉及大量不同需求,尤其作为新产品。面对海量需求,我们如何判断优先级并保证迭代速度?


Tunee优先级方面,更多是判断产品需求是否为我们产品定位能解决的问题


首先确认该需求我们能否实现,因为有些需求虽知用户想要,但我们可能确实无法实现。因此,首先将用户反馈分为能做与不能做两类。从能做的需求中,再挑选出需紧急处理或中远期逐步交付的项。


此时考虑层面更多,包括需求影响面、感兴趣用户数量,也会加入技术可实现性因素。因为在当前AI发展阶段,虽有许多能力较过去两年成熟许多,但仍有不少需技术更成熟的条件支持。


量子位智库:Tunee最近三个月内的迭代核心方向或角度是什么?优先解决哪类性能问题?


Tunee:最基础的方向可能是将对话质量与稳定性这一最基础的价值点做好。即如何通过主动式对话,将用户需求从模糊到清晰梳理,并交付其想要的结果,且在交付后持续修改、多轮打磨交付物。我们可能将绝大多数精力聚焦于当前判断用户最关注的环节。


量子位智库:如刚才所述,Tunee产品迭代速度非常快,这是如何实现的?除团队规模外,是否有独特的组织方式、开发思路或模式方面的优势?Tunee自身是否观察到为何能快速迭代?


Tunee:快速迭代有多方面原因。


一方面,我们的产品、算法、技术团队对整个新开发范式及技术边界均处于持续积极探索状态。可能有些效果用旧开发方法实现较慢,但在当前,无论是辅助编码还是架构设计,每天均有新解决方案出现。


我们团队非常年轻,成员具备强烈的探索意愿与学习能力,在此方面投入大量时间主动拥抱新技术与解决方案,这可能是外界认为我们落地较快的原因之一。


量子位智库:Tunee作为国内首款音乐生成智能体,此前大部分智能体产品会强调“首个”定位以抢占用户心智。Tunee在用户宣传中是否会强调“首个”以强化认知,或更侧重其他点打动用户?


Tunee:我认为“首个”在一定时间段内或有价值,但最终我们仍需向用户清晰说明产品是什么。从用户视角看,长期而言“首个”可能并不那么重要。


量子位智库:如您先前提到,Tunee用户粘性及留存率非常高,使用时长亦很长。Tunee在复盘中发现做得最好的一点是什么?除产品过硬外,是否有产品设计辅助提升粘性?


Tunee:说实话,对此较难归因。因为当获得预期结果后反向归因,我持谨慎态度,不敢断然下定论。


但从团队心态上,一方面我们会在技术及客观体验上打磨质量;另一方面,大家会尝试处理一些有趣的细节。例如,Tunee有一个吉祥物造型,这是团队产品与设计同学趣味化的想法。


没想到部分国家地区的用户非常喜欢该吉祥物形态,甚至进行多种风格的二次创作。这可能也是我们始料未及的。


我们仅是一群满怀热情打造产品的人,将自身喜爱或有激情的元素投射至产品中。从结果看,部分用户因这些有趣元素被打动,可能更喜爱产品。但若说是否因吉祥物导致高粘性,我亦不敢断言。


08、在智能体软件形态之外,为何考虑推出AI吉他这样的智能硬件产品?


量子位智库:团队发布了一款智能硬件——生成式AI吉他。能否介绍下这个产品相关信息?


Tunee:这是我们团队孵化的另一款产品。因此,今年除在模型方面持续提升外,一方面是智能体产品形态,即大家已见的Tunee;另一方面,今年的云栖大会上发布了自主研发的全球首款生成式AI吉他——TemPolor Melo-D智能吉他。


出发点非常简单:首先,我们团队在2019年推出唱鸭APP,主打“自弹自唱,不会乐器也能弹唱”的卖点,我们也是市场上首个验证该需求的厂商。因此,我们对该需求非常熟悉,过去六年持续深耕此赛道,清楚用户群体的各类需求,这是第一个切入点。


第二个切入点是,拥有Tunee及背后的天谱乐模型能力后,我们思考AI音乐能力还能以何种形态呈现。


我认为Tunee这种偏结果交互的产品本质上是偏效率导向的解决方案,即用户想要个性化歌曲时,如何以更高效、结果更满意的方式实现。但音乐的特殊性在于,它另一面是体验型产品,是体验型消费。


对于偏体验性的内容,纯软件载体可能能力有限。因此,我们开始思考能否基于AI能力及对人群需求的理解,在音乐体验层面进行不同的产品设计,这是我们的出发点。


简而言之,为何定义其为生成式AI吉他?


因为我们确实将音乐模型嵌入吉他中,产生的音乐由AI模型生成。


另一方面,我们利用该技术解决一个非常朴素的问题:当您拿到乐器,可能是想弹奏一曲,或为弹奏某曲而学习乐器,但客观上学曲线陡峭,正反馈来得非常晚,需在获得正反馈前投入大量时间成本与热情。


我们尝试利用生成式AI技术,使正反馈更早到来。



文章来自于微信公众号 “量子位”,作者 “量子位”

关键词: AI新闻 , AI音乐 , Tunee , 音乐Agent
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

4
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

5
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales