AI资讯新闻榜单内容搜索-语音模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语音模型
泄露文件揭马斯克xAI语音训练内幕:真人对话模拟时薪低至12美元

泄露文件揭马斯克xAI语音训练内幕:真人对话模拟时薪低至12美元

泄露文件揭马斯克xAI语音训练内幕:真人对话模拟时薪低至12美元

马斯克xAI联合Scale AI训练语音模型,提升自然对话与安全管控。6月6日消息,据媒体获取的文件显示,埃隆·马斯克旗下的人工智能公司xAI正利用一系列问题训练其AI语音模型

来自主题: AI资讯
7021 点击    2025-06-07 11:56
MiniMax登顶、多家创企融资,AI语音离“现实场景”还有多远?

MiniMax登顶、多家创企融资,AI语音离“现实场景”还有多远?

MiniMax登顶、多家创企融资,AI语音离“现实场景”还有多远?

2 月份,我们在《AI 语音,真的有感情了?》选题中,选取了知名影视剧《甄嬛传》中的片段来测试 4 款 AI 语音合成模型在情感表达上的表现。当时的结论是,AI 语音模型们的表现力依然不足,仍有待加强。

来自主题: AI资讯
6230 点击    2025-06-06 16:04
MiniMax正暗戳戳憋大招

MiniMax正暗戳戳憋大招

MiniMax正暗戳戳憋大招

MiniMax即将发布代号M+的文本推理模型,其表现将影响公司未来竞争力。面对DeepSeek R1的冲击,MiniMax采取国内C端不接入、海外接入的策略,并推出类Manus产品MiniMax Agent。公司通过品牌拆分(海螺AI更名)、纯API商业模式拓展市场,语音模型商业化效果显著,但未进入“基模五强”名单。新推理模型或成其保持行业地位的关键。

来自主题: AI资讯
7484 点击    2025-06-03 00:16
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。

来自主题: AI技术研报
7899 点击    2025-05-16 09:59
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成

速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成

速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成

两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。

来自主题: AI资讯
7077 点击    2025-04-23 15:21
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。

来自主题: AI技术研报
5932 点击    2025-04-15 15:26
给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报
6312 点击    2025-03-24 16:01
OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

来自主题: AI资讯
9127 点击    2025-03-21 08:27
速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

播客录制和编辑平台 Podcastle ,如今也加入了 AI 文本转语音竞赛,发布了其名为 Asyncflow v1.0 的 AI 模型。同时,还将为开发者提供 API,使他们能够直接将文本转语音模型集成到自己的应用中。

来自主题: AI资讯
5752 点击    2025-03-06 10:14
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。

来自主题: AI技术研报
5766 点击    2025-02-07 16:02