AI资讯新闻榜单内容搜索-ICLR

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

8215 点击 2026-03-09 14:29

ICLR 2026 | 帝国理工大学提出DyMo：让多模态模型学会「选择」，突破模态缺失难题

多模态学习（Multimodal Learning）正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态，模型能够获得更全面的信息，从而显著提升性能。

来自主题: AI技术研报

9654 点击 2026-03-09 14:28

首次将十亿参数三维模型塞进手机！4比特量化，速度2.5倍、内存降3.7倍、精度98%｜ICLR'26

十亿参数的三维重建模型，能塞进手机吗？

来自主题: AI技术研报

8729 点击 2026-03-09 10:49

ICLR 2026 | OpenAI打广告后，如何成为爆款？CMU提出AutoGEO解密流量密码

AI 搜索引擎正逐渐取代传统搜索入口，「问 AI」已经成为日常习惯。随着 OpenAI 宣布在 ChatGPT 中引入商业推荐，搜索与内容分发的边界正在被重新定义。在这样的环境下，你的内容能否在 AI 搜索中成为「爆款」，不再只取决于标题和流量，而是更大程度取决于 AI 本身的引用偏好。

来自主题: AI技术研报

7701 点击 2026-03-06 09:33

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

近年来，视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用，但在真实业务环境中，“大而全”的通用模型往往并不是最优选择。

来自主题: AI技术研报

6632 点击 2026-03-06 09:32

ICLR 2026｜滑铁卢大学联合可灵提出UniVideo：统一视频理解、生成、编辑多模态

统一多模态模型在多模态内容理解与生成方面已展现出良好效果，但目前仍主要局限于图像领域。

来自主题: AI技术研报

7887 点击 2026-03-06 09:31

ICLR 2026 | 当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS，用生成式流匹配重构视觉感知范式

长期以来，计算机视觉领域陷入了一个 “表征（Representation）” 的执念。我们习惯设计各种精巧的 Encoder，试图将动态世界压缩成一组特征向量。然而，视频作为现实的高维投影，其熵值之高、动态之复杂，让这种试图 “定格” 的表征显得力不从心。

来自主题: AI技术研报

6880 点击 2026-03-05 09:08

李曼玲、李飞飞、吴佳俊等联手：评估具身大模型的新范式！

全新的具身模型空间能力评估范式 Theory of Space 突破了传统静态图文问答的局限，系统性地考察基础模型能否像人一样，在部分可观测的动态环境中，通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。

来自主题: AI技术研报

11367 点击 2026-03-04 13:46

ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

你见过 7B 模型在拼图推理上干翻 GPT-5 吗？

来自主题: AI技术研报

7422 点击 2026-03-04 11:18

ICLR 2026｜人大&通义：别再只会堆上下文了！IterResearch用40K上下文轻松实现2048轮交互不退化

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch，一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构，IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减，在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

来自主题: AI技术研报

8678 点击 2026-03-03 14:20