AI资讯新闻榜单内容搜索-音频生成

速递｜ElevenLabs发布独立语音检测模型，旨在精细化理解和转录语音

AI 初创公司 ElevenLabs，刚刚筹集了 1.8 亿美元巨额融资，主要以其音频生成能力而闻名。该公司通过推出首个独立语音转文本模型 Scribe，迈向了另一个技术方向。

来自主题: AI资讯

10469 点击 2025-02-27 14:33

ICLR 2025 Spotlight：音频生成新突破！港科北邮团队首次通过文本控制声源方向生成音频

兔子通过两只耳朵可以准确感知捕食者的一举一动，造就了不同品种广泛分布在世界各地的生命奇迹；同样人也需要通过双耳沉浸式享受电影视听盛宴、判断驾驶环境和感知周围活动状态。

来自主题: AI技术研报

9452 点击 2025-02-15 15:23

NeurIPS Spotlight｜从分类到生成：无训练的可控扩散生成

近年来，扩散模型（Diffusion Models）已成为生成模型领域的研究前沿，它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。

来自主题: AI技术研报

7765 点击 2024-12-05 11:49

NotebookLM为什么可以生成更加自然的对话？谷歌官方公布背后的技术细节

DeepMind 公布其正在开发一套创新的音频生成技术细节，也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性，还帮助多种应用在语音合成和对话生成上取得更大进展。

来自主题: AI技术研报

6692 点击 2024-10-31 15:26

音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

近期，来自字节跳动的视频生成模型 Loopy，一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频，对声音中呼吸，叹气，挑眉等细节都能生成的非常自然，让网友直呼哈利波特的魔法也不过如此。

来自主题: AI资讯

5504 点击 2024-09-12 14:29

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

OpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。

来自主题: AI资讯

12501 点击 2024-07-06 20:21

Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成

音频生成领域又有好消息：刚刚，Stability AI 宣布推出开放模型 Stable Audio Open，该模型能够生成高质量的音频数据。

来自主题: AI资讯

10296 点击 2024-06-07 10:40

字节大模型关键8人首次曝光！中科大北航西安交大校友，还有9000+被引数大佬

字节大模型团队，终于曝光！这不是，字节刚刚启动大模型校招计划，招揽人才嘛—— 计划取名Top Seed，薪资TOP级别、算力数据管够，但仅面向应届博士生；前沿课题覆盖大模型、图像&视频生成、机器学习算法和系统以及音频生成和理解等方向。另外还有一帮顶尖的技术导师团带队……等等，这不就是字节豆包大模型的背后团队吗？

来自主题: AI资讯

6935 点击 2024-05-22 18:42

吉他摇滚、电子音乐都能搞定，Meta开源音频生成新模型MAGNeT，非自回归7倍提速

在文本生成音频（或音乐）这个 AIGC 赛道，Meta 最近又有了新研究成果，而且开源了。前几日，在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT，一种在掩码生成序列建模方法。

来自主题: AI资讯

6335 点击 2024-02-07 21:52

霉霉演唱《稻香》，国内团队的Amphion音频生成火了

香港中文大学（深圳）数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion（安菲翁）。该系统旨在打造一个集语音合成转换、歌声合成转换、音效音乐生成等多功能为一体的开源平台。

来自主题: AI资讯

9197 点击 2023-12-20 18:04