AI资讯新闻榜单内容搜索-Arena

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Arena
中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单!

中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单!

中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单!

日前,世界模型国际权威榜单 WorldArena 更新排名,中国科学院工业人工智能研究所徐凯研究员带领物理智能团队(The PAI Lab)自研的世界模型 PAIWorld 登顶。WorldArena 作为目前世界模型领域最权威的评测榜单,是针对具身世界模型的全方位评价体系,涵盖视觉质量、运动质量、内容一致性、物理遵循、三维准确性及可控性六大维度

来自主题: AI资讯
8388 点击    2026-06-22 11:33
PEFT方法评测不能只看下游分:通用能力损失也该被量化

PEFT方法评测不能只看下游分:通用能力损失也该被量化

PEFT方法评测不能只看下游分:通用能力损失也该被量化

近期,来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡(stability–plasticity trade-off)视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示,并开源了完整代码。

来自主题: AI技术研报
9867 点击    2026-06-14 10:38
神话级Claude 5,登顶了!

神话级Claude 5,登顶了!

神话级Claude 5,登顶了!

发布24小时,神话级Claude 5光速登顶!不仅创下AI史上最大分差纪录,更将GPT-5.5直接斩落马下。

来自主题: AI资讯
8532 点击    2026-06-11 15:26
37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

6月4日,Arena.ai发布Agent Arena排行榜,用373,431次真实会话的数据,给18个主流模型的Agent能力排了个座次。先看总榜。Agent Arena的排名依据是“净改进”(Net Improvement),用因果推断方法算出每个模型相对于随机基线的性能提升幅度。正值代表比随机选择更好,负值说明不如随机。

来自主题: AI技术研报
9385 点击    2026-06-07 14:38
老黄的Cosmos 3刚发一天,就被一家中国公司反超了

老黄的Cosmos 3刚发一天,就被一家中国公司反超了

老黄的Cosmos 3刚发一天,就被一家中国公司反超了

6 月 1 日,老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能,并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。

来自主题: AI资讯
9120 点击    2026-06-04 09:15
世界模型榜首易主!跨维智能登顶WorldArena

世界模型榜首易主!跨维智能登顶WorldArena

世界模型榜首易主!跨维智能登顶WorldArena

近日,全球具身世界模型权威评测基准 WorldArena 公布最新榜单。在 5 月 25 日截止的最终榜单中,跨维智能登顶 Track 2 赛道全球第一。可以说是,在英伟达、谷歌等全球科技巨头深度布局、重兵把守的世界模型核心腹地,跨维智能实现了强势突围。

来自主题: AI资讯
8686 点击    2026-06-03 15:27
刚刚,智元拿下WorldArena世界模型总分冠军!

刚刚,智元拿下WorldArena世界模型总分冠军!

刚刚,智元拿下WorldArena世界模型总分冠军!

WorldArena 世界模型赛道从来都是竞争异常激烈,在经历了前几次比赛过程中的放榜之后,CVPR 2026 WorldArena 世界模型赛道锁定总成绩,智元自研的世界模型 Genie Envisioner-Sim 2.0(以下简称 GE 2.0)拿下了最终的冠军,成为了 “强者中的强者”。

来自主题: AI资讯
9469 点击    2026-05-29 21:42
刚刚,中国AI闯入全球编程前二!前面只剩Claude

刚刚,中国AI闯入全球编程前二!前面只剩Claude

刚刚,中国AI闯入全球编程前二!前面只剩Claude

Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。

来自主题: AI技术研报
10667 点击    2026-05-27 09:14
520,遇见国产「新模王」Qwen3.7-Max!

520,遇见国产「新模王」Qwen3.7-Max!

520,遇见国产「新模王」Qwen3.7-Max!

仅仅一个月后,阿里又带着最强旗舰模型杀回来了!今天上午,在 2026 阿里云峰会上,阿里全新一代千问旗舰模型 Qwen3.7-Max 登场了!在 Arena 公布的最新一期全球大模型盲测总榜中,Qwen3.7-Max 总成绩位列国产模型第一:傲视一众国产大模型

来自主题: AI资讯
9990 点击    2026-05-20 16:26