AI资讯新闻榜单内容搜索-评测基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 评测基准
PEFT方法评测不能只看下游分:通用能力损失也该被量化

PEFT方法评测不能只看下游分:通用能力损失也该被量化

PEFT方法评测不能只看下游分:通用能力损失也该被量化

近期,来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡(stability–plasticity trade-off)视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示,并开源了完整代码。

来自主题: AI技术研报
9563 点击    2026-06-14 10:38
AI交互新基准!蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

AI交互新基准!蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

AI交互新基准!蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

想象一下,你问 AI 要一个饮食记录工具,它不再是回你一段文字建议,而是直接给你一个可以点击添加、统计热量的完整应用。人和 AI 的交互,正在从「读文字」走向「用应用」。

来自主题: AI技术研报
8918 点击    2026-06-11 10:17
世界模型榜首易主!跨维智能登顶WorldArena

世界模型榜首易主!跨维智能登顶WorldArena

世界模型榜首易主!跨维智能登顶WorldArena

近日,全球具身世界模型权威评测基准 WorldArena 公布最新榜单。在 5 月 25 日截止的最终榜单中,跨维智能登顶 Track 2 赛道全球第一。可以说是,在英伟达、谷歌等全球科技巨头深度布局、重兵把守的世界模型核心腹地,跨维智能实现了强势突围。

来自主题: AI资讯
8491 点击    2026-06-03 15:27
李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测,而ESI-Bench第一个把观察者变成行动者,闭合了感知-行动回路。

来自主题: AI技术研报
9206 点击    2026-05-22 15:32
北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

投稿来自北京大学与百度联合团队,他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero,通过跨语言复现任务与自验证框架 ACE,推动代码补全更近一步迈向自动化软件工程。

来自主题: AI技术研报
7897 点击    2026-05-22 09:27
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

编程智能体时代,顶流Cursor举旗发布新的评测基准——CursorBench,专门评价Cursor中不同模型谁更“智能体”(即高效执行复杂任务)。关于咋评的这个问题,Cursor还专门撰写了一篇博客。

来自主题: AI资讯
9346 点击    2026-03-14 13:59
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报
7793 点击    2026-03-09 14:29
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。

来自主题: AI技术研报
7952 点击    2026-02-27 10:28
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件,实现跨模态因果和时间推理。

来自主题: AI技术研报
5963 点击    2026-01-26 10:19
视频理解+开放网络搜索=首个视频Deep Research评测基准

视频理解+开放网络搜索=首个视频Deep Research评测基准

视频理解+开放网络搜索=首个视频Deep Research评测基准

现有的多模态模型往往被困在「视频」的孤岛里——它们只能回答视频内的问题。但在真实世界中,人类解决问题往往是「看视频找线索 -> 上网搜证 -> 综合推理」。

来自主题: AI技术研报
11007 点击    2026-01-22 16:10