AI资讯新闻榜单内容搜索-评测基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 评测基准
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报
6815 点击    2026-03-09 14:29
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。

来自主题: AI技术研报
7181 点击    2026-02-27 10:28
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件,实现跨模态因果和时间推理。

来自主题: AI技术研报
5420 点击    2026-01-26 10:19
视频理解+开放网络搜索=首个视频Deep Research评测基准

视频理解+开放网络搜索=首个视频Deep Research评测基准

视频理解+开放网络搜索=首个视频Deep Research评测基准

现有的多模态模型往往被困在「视频」的孤岛里——它们只能回答视频内的问题。但在真实世界中,人类解决问题往往是「看视频找线索 -> 上网搜证 -> 综合推理」。

来自主题: AI技术研报
10323 点击    2026-01-22 16:10
大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

来自主题: AI技术研报
9043 点击    2026-01-12 10:29
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报
7722 点击    2026-01-06 09:50
AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

来自主题: AI技术研报
6014 点击    2025-12-16 09:19
GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示,即使是顶尖大模型在处理复杂任务时也表现不佳,尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话,揭示了AI在专业领域的不足,强调开发更可靠AI系统的重要性。

来自主题: AI技术研报
7510 点击    2025-11-22 11:33