独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent
8509点击    2026-02-28 10:59

VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资。本轮投资由同创伟业领投、老股东靖亚资本、小苗朗程持续加注,心流资本FlowCapital担任长期财务顾问。公司半年累计获得近亿元投资,所募资金将用于核心模型迭代、产品和商业化落地、全球人才引进及Voice Agent平台建设,进一步夯实公司在“超低延迟+情感交互+多模态智能体(Agent)+端侧模型”上的综合壁垒。


关于VUI Labs (宇生月伴)


VUI Labs(宇生月伴)是语音人工智能领域的先行者,专注于打造全球领先的多模态情感对话语音大模型与语音智能体平台。由教育部长江学者,上海交通大学计算机学院特聘教授和人工智能学院双聘教授、听觉认知与计算声学研究中心负责人钱彦旻教授创办。公司创始人兼CEO梅杰是一位连续成功创业者,毕业于浙江大学竺可桢学院创新与创业管理强化班。公司致力于构建全链路情感交互语音技术能力,以“让AI听懂情感,让交互充满温度”为使命,致力于打造下一代AI原生交互入口,为用户提供更智能、更自然的语音交互体验。


核心技术突破


VUI Labs 基于在端到端语音模型的深厚积累(团队于2019年在全球第一个提出端到端语音模型训练),自研了多模态情感交互语音大模型Luna系列。与此同时,公司覆盖全栈语音模型技术,在超低延时和丰富情感语音交互、丰富情感语音生成、多说话人理解等方面全面对标国内外的一线语音模型厂商,如Google ,ElevenLabs ,Open AI,HumeAI和Sesame等。


作为全球首个端到端情感语音交互模型,Luna-1在VoiceBench权威测评中取得79.05的高分,属于行业第一梯队,语音对话延迟仅1.4秒,达到行业领先水平,为实时交互体验奠定坚实基础。


独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent


VUI Labs的Luna-TTS-1语音合成模型延迟低至200毫秒,自然度、可控性、稳定性方面稳居 TTS行业第一梯队。公司依托由自主可控的高吞吐数据管线持续生产的高质量语音数据,通过深度场景化优化实现稳定可靠的输出效果,无需依赖“抽卡式” 生成,确保不同场景下均能提供一致的高品质表现。


独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent


LUNA播客模型生成的中文对话与Gemini的对比


团队在同声传译模型领域提出的SimulMEGA (Simultaneous Generation by Mixture-of-Experts Gating) 无监督策略学习框架,将基于前缀的训练与一个混合专家精炼器结合起来,以一种隐式方式学习有效的读/写决策,并且不会在推理阶段引入额外开销。基于该框架,Luna-Live-Translation-1是全球首个可端侧部署的同声传译模型,模型大小仅500M,延迟低至1.5秒,支持数十种语言互译,卓越的性能和鲁棒性,已经在某知名手机品牌的欧洲版本上落地商业应用。


独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent


SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation, NeurIPS 2025


Voice Agent - SaySo


VUI Labs将基于多领域的应用场景开发多模态Agent,致力于基于语音Agent交互提升用户体验。公司已于2026年1月推出首个C端语音智能体产品SaySo(sayso.ai),该产品定位为智能语音助手:能够精准理解上下文语境,优化输出内容,有效消除创意构思和表达落地之间的鸿沟。公司构建了完整的语音智能体技术框架,涵盖多步规划、工具调用、长时记忆与智能体编排等核心能力,实现从语音交互到任务执行的全链路打通。


与传统的语音转文字工具不同,SaySo不仅是听写员,更是懂思考的合作者。


产品在早期用户中获得极高的好评。不少深度用户惊叹于SaySo带来的颠覆性体验,@JaneismDu 直言“这感觉就像真正拥有了《钢铁侠》里的贾维斯(Jarvis)”。


一位资深内容创作者@小路爱读书分享道,SaySo彻底重塑了他的工作流:“过去需要坐在电脑前敲打1小时才能完成的稿件,现在通过口述与SaySo协作,不到10分钟就能搞定。最令人惊喜的是,其生成的文本完全不需要二次修改,我可以直接一键分发到各大社媒平台。”这种极致的效率提升,帮助他迅速转型为“高产博主”,并凭借高质量的高频更新,在短短一周内收获了几十万的爆款流量。


独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent


在早期测试阶段,SaySo展现出远超预期的用户粘性,正迅速演变为核心生产力界面:用户78%的文字产出已由其完成,横跨近50个主流应用,周处理的语音转文字生成量近千万。这种交互变革不可逆转——仅仅6周,中位数用户的键盘依赖度即断崖式降至20%,绝大部分数字化工作流已完全交由语音智能体接管。


SaySo仅是起点,它勾勒出未来技术雏形:语音将能统筹复杂的多步骤任务,同时作为 VUI Labs 核心智能体平台的验证基地,让语音精准解析复杂细腻的用户意图,指挥多个数字智能体协同执行任务,包括多人对话交互与实时动态适配等场景。


VUI Labs创始人钱彦旻教授表示:智能体要正确、高效地运行,需要人类提供明确清晰的上下文,以及可验证“问题是否已解决”的方法。仅依赖 GUI 能提供的信息量非常有限;自然语言正在成为新的编程语言,但键盘也逐渐成为束缚人类表达效率的枷锁。VUI Labs 致力于推动语音成为下一代人机交互的核心界面。通过端到端情感语音交互模型、高表现力语音合成模型、低延迟同声传译模型、多人对话语音理解模型,以及 Skill-based Voice Agent Framework,我们为 VUI 的落地与规模化提供关键基础设施。VUI Labs,Make voice as the new UI。


同创伟业董事总经理、数字经济基金负责人张昕表示:VUI Labs的Luna模型作为全球首个端到端情感语音交互模型,在各方面性能都已经达到全球领先水准,而多模态Agent场景也必将是未来AI应用的核心场景。下一代人机交互界面的核心技术在于语音,语音交互的核心在于时延与情感,宇生在这两方面的基础技术都非常优秀,超越Sonic 3与Elevenlabs,同时在产品化方面,基于端到端语音大模型驱动的SaySo智能助手在海外也引发了广泛关注。


靖亚资本合伙人骆银银表示:基于语音大模型的多模态Agent在To B和To C的应用场景中非常有价值,在海外市场,ElevenLabs的ARR已经突破3.3亿美金,估值也超过了110亿美金,与SaySo相似的Agent应用Wispr Flow公司也发展的非常好,估值超过7亿美金,我们十分看好宇生月伴公司的发展。


小苗朗程合伙人赵沛舟表示:语音交互作为 AI 时代全新的核心交互方式与重要信息入口,具备广阔的市场增量空间。钱教授在语音领域拥有深厚的算法技术积累与成熟的工程化落地经验,目前已推出行业领先的语音模型;再由连续成功创业者梅总主导商业化推进,二者强强联合将有力推动公司在语音赛道实现快速突破与规模化发展,小苗朗程坚定看好公司的发展。


文章来自于微信公众号 "Z Potentials",作者 "Z Potentials"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales