AI资讯新闻榜单内容搜索-音频生成

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 音频生成
反直觉!扩散模型「跨界」复原: 只用卧室模型,竟能复原人脸

反直觉!扩散模型「跨界」复原: 只用卧室模型,竟能复原人脸

反直觉!扩散模型「跨界」复原: 只用卧室模型,竟能复原人脸

自扩散模型提出以来,它不仅在图像、视频和音频生成方面取得了优异效果,也正逐渐成为解决图像复原、超分辨率、去模糊等逆问题的重要工具。

来自主题: AI技术研报
9499 点击    2026-03-10 09:29
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报
7287 点击    2026-03-09 14:29
硬刚Sora 2,马斯克发视频大模型,免费可玩,前英伟达何宜晖参与

硬刚Sora 2,马斯克发视频大模型,免费可玩,前英伟达何宜晖参与

硬刚Sora 2,马斯克发视频大模型,免费可玩,前英伟达何宜晖参与

今天凌晨,马斯克的大模型独角兽xAI祭出最新视频生成模型Imagine v0.9,免费向所有用户开放。一周前,OpenAI发布了旗舰视频和音频生成模型Sora 2,此次更新或许是马斯克对Sora 2的直接回应。

来自主题: AI资讯
9008 点击    2025-10-08 22:35
ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

近年来,扩散模型(Diffusion Models)凭借出色的生成质量,迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像(如 Stable Diffusion),到高质量人脸合成、音频生成,再到三维形状建模,扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。

来自主题: AI技术研报
8093 点击    2025-08-03 13:04
速递|Stability AI联手Arm推出最快手机端免云模型,8秒生成11秒音频

速递|Stability AI联手Arm推出最快手机端免云模型,8秒生成11秒音频

速递|Stability AI联手Arm推出最快手机端免云模型,8秒生成11秒音频

AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的“立体声”音频生成 AI 模型,该公司宣称这是市场上速度最快的模型,且效率高到足以在智能手机上运行。

来自主题: AI资讯
9984 点击    2025-05-15 14:14
炸裂!DeepMind 发布 Lyria 2 音乐生成模型!

炸裂!DeepMind 发布 Lyria 2 音乐生成模型!

炸裂!DeepMind 发布 Lyria 2 音乐生成模型!

Google DeepMind正式发布其最新的音乐生成模型Lyria2,标志着音乐创作领域人工智能又一重大突破。该新模型具备高保真音频生成和专业音质,为音乐家、制作人和创作者提供了更强大的工具。

来自主题: AI资讯
10101 点击    2025-04-27 09:16
速递|ElevenLabs发布独立语音检测模型,旨在精细化理解和转录语音

速递|ElevenLabs发布独立语音检测模型,旨在精细化理解和转录语音

速递|ElevenLabs发布独立语音检测模型,旨在精细化理解和转录语音

AI 初创公司 ElevenLabs,刚刚筹集了 1.8 亿美元巨额融资 ,主要以其音频生成能力而闻名。该公司通过推出首个独立语音转文本模型 Scribe,迈向了另一个技术方向。

来自主题: AI资讯
10108 点击    2025-02-27 14:33
ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

兔子通过两只耳朵可以准确感知捕食者的一举一动,造就了不同品种广泛分布在世界各地的生命奇迹;同样人也需要通过双耳沉浸式享受电影视听盛宴、判断驾驶环境和感知周围活动状态。

来自主题: AI技术研报
9100 点击    2025-02-15 15:23