AI资讯新闻榜单内容搜索-模型竞技场

DeepSeek逼出谷歌新推理模型：40分优势超GPT4.5登顶竞技场，支持原生多模态，但依然败给了“竹竿问题”

又双叒，抢在OpenAI直播之前，谷歌Gemini 2.5系列来了。首个版本Pro Experimental一登场就抢下大模型竞技场第一名，并且整整比GPT-4.5高出40分Gemini 2.5同样是推理模型，用Jeff Dean的说法是：

来自主题: AI资讯

9406 点击 2025-03-26 08:40

在知名AI排行榜LM Arena中，曾全班垫底的GPT-4.5竟一度拿下第一？甚至在数学、编程等领域表现优异，这反常的表现让网友们一度质疑：大模型竞技场莫非被LLM操纵了？不过网友们在实测后却惊讶发现，GPT-4.5的确情商爆表，不用推理就能理解人类的深层意图！

来自主题: AI资讯

8030 点击 2025-03-05 13:31

基础模型竞争又紧张刺激起来了！GPT-4.5刚登顶竞技场且全任务分类第一名，6小时后总榜就被马斯克的新版Grok-3反超。两者都是获得3000+票数，总分1412：1411只差一分。

来自主题: AI资讯

8074 点击 2025-03-04 13:11

GPT-4o悄悄更新版本，在大模型竞技场超越DeepSeek-R1登上并列第一。

来自主题: AI资讯

9336 点击 2025-02-17 15:26

刚刚，大模型竞技场榜单上再添一款国产模型——来自阿里，Qwen2.5-Max，超越了DeepSeek-V3，以总分1332的成绩位列总榜第七。同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

来自主题: AI资讯

8958 点击 2025-02-05 11:19

前两天，在游戏论坛闲逛时，看见一个帖子说《逆水寒》手游更新了。这个 AI 浓度超高的游戏最近多了几位各有特色的「AI 娘」，还多了一种名叫「AI 大模型竞技场」的新玩法。

来自主题: AI资讯

10035 点击 2025-01-18 11:27

国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o（5月版本），当零一万物的名字紧跟在OpenAI、Google之后，李开复却如是坦言。

来自主题: AI资讯

5449 点击 2024-11-01 10:41

最近，在全球人工智能模型竞技场（Artificial Analysis）文生图模型排行榜中，一个名叫Red_panda的新模型突然杀出重围，以9%的胜率超越了原榜一大哥Flux1.1Pro成为新王！

来自主题: AI资讯

8339 点击 2024-10-29 11:49

国产大模型首次在公开榜单上超过GPT-4o！就在刚刚，“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning（闪电）。

来自主题: AI资讯

5479 点击 2024-10-16 14:12

大模型竞技场规则更新，GPT-4o mini排名立刻雪崩，跌出前10。

来自主题: AI技术研报

9705 点击 2024-08-31 15:19