AI资讯新闻榜单内容搜索-语音模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语音模型
xAI再失华人大将:预训练负责人已离职,马斯克又留不住人了

xAI再失华人大将:预训练负责人已离职,马斯克又留不住人了

xAI再失华人大将:预训练负责人已离职,马斯克又留不住人了

刚刚,xAI再失一名华人大将。就在今天,预训练负责人庄钧堂官宣了自己的离职消息。此前,庄钧堂已经在xAI工作了两年。这期间,他主导了从Grok 2到Grok 5的全系列预训练,同时负责Grok在X和Tesla上的语音模型及xAI企业API模型。

来自主题: AI资讯
7848 点击    2026-05-09 13:17
2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景,在架构上引入Multi-Token Prediction(多Token预测)以提升推理效率,并通过扩展上下文窗口强化长内容识别能力。

来自主题: AI资讯
9373 点击    2026-04-25 10:22
这个模型让仿生人们第一次长出了嘴

这个模型让仿生人们第一次长出了嘴

这个模型让仿生人们第一次长出了嘴

看到标题《这个模型让机器人长出了嘴》,你可能会心生疑惑: AI不是早就懂语音播报了吗?

来自主题: AI资讯
6835 点击    2026-04-21 16:09
小米AI语音新框架:人人都能当声音导演

小米AI语音新框架:人人都能当声音导演

小米AI语音新框架:人人都能当声音导演

语音合成大家都不陌生,这两年市面上各种AI配音也层出不穷。

来自主题: AI技术研报
10283 点击    2026-04-08 16:58
张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩

张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩

张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩

面壁智能2B小模型VoxCPM 2惊艳开源,一众外国网友疯狂了!30种语言与9大方言它是信手拈来,复刻的贺炜激昂解说与徐志胜脱口秀,相似度简直直击灵魂。这哪是工具,分明是降维打击的生产力核武器!

来自主题: AI资讯
8656 点击    2026-04-08 16:28
美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚,美团LongCat团队发布了文本转语音模型LongCat-AudioDiT,并开源1B、3.5B参数量的版本。这一模型的最大特点,是彻底抛弃了梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说,这一模型直接根据声音本身的规律进行生成,“雕刻”出最原始的声音波形,从根源阻断数据转换的级联误差。

来自主题: AI资讯
8769 点击    2026-04-02 13:51
谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?

谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?

谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?

昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步开放,其中后者以预览版本向开发者提供。

来自主题: AI资讯
10500 点击    2026-03-27 14:41
独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资。本轮投资由同创伟业领投、老股东靖亚资本、小苗朗程持续加注,心流资本FlowCapital担任长期财务顾问。公司半年累计获得近亿元投资,所募资金

来自主题: AI资讯
9562 点击    2026-02-28 10:59
百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0

百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0

百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0

近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型。Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。

来自主题: AI资讯
9238 点击    2026-01-23 16:25