AI资讯新闻榜单内容搜索-Audio

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Audio

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

7129 点击 2025-10-31 15:00

清华大学x生数科技：从波形到隐空间，AudioLBM引领音频超分新范式

清华大学x生数科技：从波形到隐空间，AudioLBM引领音频超分新范式

清华大学x生数科技：从波形到隐空间，AudioLBM引领音频超分新范式

在这一背景下，清华大学与生数科技（Shengshu AI）团队围绕桥类生成模型与音频超分任务展开系统研究，先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果：

来自主题: AI技术研报

7942 点击 2025-10-13 10:30

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯

8083 点击 2025-09-21 19:22

刚刚！阿里发新模型，幻觉率爆降70%

刚刚！阿里发新模型，幻觉率爆降70%

刚刚！阿里发新模型，幻觉率爆降70%

智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，幻觉率从78.5%下降至10.7%，下降幅度接近70%。

来自主题: AI技术研报

8192 点击 2025-09-16 11:23

MiniMax创始人闫俊杰：AI正进化为更强的生产力

MiniMax创始人闫俊杰：AI正进化为更强的生产力

MiniMax创始人闫俊杰：AI正进化为更强的生产力

MiniMax的展台上，主要对外展示的也是MiniMax Agent、海螺AI、MiniMax Audio、星野等AI应用产品，包括智慧家居、穿戴设备、智能座舱、智能音响、智能耳机及交互设备等AI智能硬件产品，以及文旅、电商、办公、教育、游戏、医疗、金融等领域应用。

来自主题: AI资讯

8668 点击 2025-07-29 08:59

AI音效90秒长时可控生成！“狼嚎2秒，蟋蟀鸣8秒”精准搞定！清华&生数科技新研究入选ACM MM 2025

AI音效90秒长时可控生成！“狼嚎2秒，蟋蟀鸣8秒”精准搞定！清华&生数科技新研究入选ACM MM 2025

AI音效90秒长时可控生成！“狼嚎2秒，蟋蟀鸣8秒”精准搞定！清华&生数科技新研究入选ACM MM 2025

文生音频系统最新突破，实现精确时间控制与90秒长时音频生成！

来自主题: AI资讯

8765 点击 2025-07-23 15:18

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

今天咱们再聊聊TTS（文本转语音）这个话题。4月份给大家分享了MiniMax的TTS平台：MiniMax Audio当时我直呼它是最强中文TTS，那篇反响还不错，主要他们Speech-02-HD的效果确实NB

来自主题: AI资讯

8470 点击 2025-07-11 11:44

Z Potentials｜冷月，00后打造AI语音平台Fish Audio，半年增长500万美元ARR，打造永不背叛AI语音陪伴

Z Potentials｜冷月，00后打造AI语音平台Fish Audio，半年增长500万美元ARR，打造永不背叛AI语音陪伴

Z Potentials｜冷月，00后打造AI语音平台Fish Audio，半年增长500万美元ARR，打造永不背叛AI语音陪伴

从电话录音机到播客，从语音助手到虚拟主播，语音技术在过去几十年里经历了从“工具型服务”向“内容型产品”的演化。大模型的快速崛起让语音技术的发展进入了一个新的跃迁周期，人们对语音产品的期待从听懂”内容“逐渐跃迁到听懂”情绪“。

来自主题: AI资讯

5390 点击 2025-06-05 17:19

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

首个专为ALLMs（音频大语言模型）设计的多维度可信度评估基准来了。

来自主题: AI技术研报

9616 点击 2025-06-03 15:11

速递｜Stability AI联手Arm推出最快手机端免云模型，8秒生成11秒音频

速递｜Stability AI联手Arm推出最快手机端免云模型，8秒生成11秒音频

速递｜Stability AI联手Arm推出最快手机端免云模型，8秒生成11秒音频

AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的“立体声”音频生成 AI 模型，该公司宣称这是市场上速度最快的模型，且效率高到足以在智能手机上运行。

来自主题: AI资讯

9111 点击 2025-05-15 14:14

上一页当前第1页,共3页下一页