AI资讯新闻榜单内容搜索-Audio

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Audio

ICML25 | 让耳朵「看见」方向！仅依靠360°全景视频，就能生成3D空间音频

ICML25 | 让耳朵「看见」方向！仅依靠360°全景视频，就能生成3D空间音频

ICML25 | 让耳朵「看见」方向！仅依靠360°全景视频，就能生成3D空间音频

空间音频，作为一种能够模拟真实听觉环境的技术，正逐渐成为提升沉浸式体验的关键。

来自主题: AI技术研报

9254 点击 2025-05-15 10:56

秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

六边形战士来了。

来自主题: AI技术研报

8314 点击 2025-04-26 17:53

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

7B小模型+3.8万条训练数据，就能让音频理解和推断评测基准MMAU榜单王座易主？

来自主题: AI技术研报

3647 点击 2025-03-17 10:52

全球最大开源视频模型，现在也Created in China了，阶跃出品

全球最大开源视频模型，现在也Created in China了，阶跃出品

全球最大开源视频模型，现在也Created in China了，阶跃出品

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！新模型共2款：全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

来自主题: AI资讯

8229 点击 2025-02-18 14:43

ICLR 2025 Spotlight：音频生成新突破！港科北邮团队首次通过文本控制声源方向生成音频

ICLR 2025 Spotlight：音频生成新突破！港科北邮团队首次通过文本控制声源方向生成音频

ICLR 2025 Spotlight：音频生成新突破！港科北邮团队首次通过文本控制声源方向生成音频

兔子通过两只耳朵可以准确感知捕食者的一举一动，造就了不同品种广泛分布在世界各地的生命奇迹；同样人也需要通过双耳沉浸式享受电影视听盛宴、判断驾驶环境和感知周围活动状态。

来自主题: AI技术研报

8264 点击 2025-02-15 15:23

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Interactive Head Generation）是实现链路中极为关键的一环。

来自主题: AI资讯

8341 点击 2024-12-24 15:44

NotebookLM为什么可以生成更加自然的对话？谷歌官方公布背后的技术细节

NotebookLM为什么可以生成更加自然的对话？谷歌官方公布背后的技术细节

NotebookLM为什么可以生成更加自然的对话？谷歌官方公布背后的技术细节

DeepMind 公布其正在开发一套创新的音频生成技术细节，也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性，还帮助多种应用在语音合成和对话生成上取得更大进展。

来自主题: AI技术研报

5310 点击 2024-10-31 15:26

腾讯的 EzAudio AI 将文本转换为逼真的声音，引发创新和辩论

腾讯的 EzAudio AI 将文本转换为逼真的声音，引发创新和辩论

腾讯的 EzAudio AI 将文本转换为逼真的声音，引发创新和辩论

来自约翰斯·霍普金斯大学和腾讯AI实验室的研究人员推出了EzAudio，这是一种新的文本到音频（T2A）生成模型，承诺以前所未有的效率从文本提示中生成高质量的音效。这一进步标志着人工智能和音频技术的重大飞跃，解决了人工智能生成音频中的几个关键挑战。

来自主题: AI资讯

7564 点击 2024-10-08 19:01

火爆全球的AI音频大模型，最新技术细节揭秘

火爆全球的AI音频大模型，最新技术细节揭秘

火爆全球的AI音频大模型，最新技术细节揭秘

Stable Audio Open：开源文本转音频模型。

来自主题: AI资讯

4205 点击 2024-07-25 11:09

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

OpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。

来自主题: AI资讯

11308 点击 2024-07-06 20:21

上一页当前第2页,共3页下一页