一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。
来自主题: AI技术研报
6812 点击 2026-03-09 14:29