AI资讯新闻榜单内容搜索-Audio

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Audio
速递|Stability AI联手Arm推出最快手机端免云模型,8秒生成11秒音频

速递|Stability AI联手Arm推出最快手机端免云模型,8秒生成11秒音频

速递|Stability AI联手Arm推出最快手机端免云模型,8秒生成11秒音频

AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的“立体声”音频生成 AI 模型,该公司宣称这是市场上速度最快的模型,且效率高到足以在智能手机上运行。

来自主题: AI资讯
9420 点击    2025-05-15 14:14
全球最大开源视频模型,现在也Created in China了,阶跃出品

全球最大开源视频模型,现在也Created in China了,阶跃出品

全球最大开源视频模型,现在也Created in China了,阶跃出品

刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型!新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。

来自主题: AI资讯
8575 点击    2025-02-18 14:43
ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

兔子通过两只耳朵可以准确感知捕食者的一举一动,造就了不同品种广泛分布在世界各地的生命奇迹;同样人也需要通过双耳沉浸式享受电影视听盛宴、判断驾驶环境和感知周围活动状态。

来自主题: AI技术研报
8579 点击    2025-02-15 15:23
字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。

来自主题: AI资讯
8588 点击    2024-12-24 15:44
NotebookLM为什么可以生成更加自然的对话?谷歌官方公布背后的技术细节

NotebookLM为什么可以生成更加自然的对话?谷歌官方公布背后的技术细节

NotebookLM为什么可以生成更加自然的对话?谷歌官方公布背后的技术细节

DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性,还帮助多种应用在语音合成和对话生成上取得更大进展。

来自主题: AI技术研报
5684 点击    2024-10-31 15:26
腾讯的 EzAudio AI 将文本转换为逼真的声音,引发创新和辩论

腾讯的 EzAudio AI 将文本转换为逼真的声音,引发创新和辩论

腾讯的 EzAudio AI 将文本转换为逼真的声音,引发创新和辩论

来自约翰斯·霍普金斯大学和腾讯AI实验室的研究人员推出了EzAudio,这是一种新的文本到音频(T2A)生成模型,承诺以前所未有的效率从文本提示中生成高质量的音效。这一进步标志着人工智能和音频技术的重大飞跃,解决了人工智能生成音频中的几个关键挑战。

来自主题: AI资讯
7861 点击    2024-10-08 19:01