AI资讯新闻榜单内容搜索-Arena

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Arena

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

继Kaggle Game Arena的淘汰赛后，国际象棋积分赛成果出炉！OpenAI o3以人类等效Elo 1685分傲视群雄，而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

来自主题: AI资讯

8607 点击 2025-08-23 13:17

AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍，DeepSeek R1最特立独行

AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍，DeepSeek R1最特立独行

AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍，DeepSeek R1最特立独行

AI能像科幻电影中的先知一样预测未来吗？一个名为「Prophet Arena」的全新基准测试，正通过预测真实世界事件来评估AI的「预言」能力。

来自主题: AI资讯

8726 点击 2025-08-18 19:05

AI竞技场，归根到底只是一门生意

AI竞技场，归根到底只是一门生意

AI竞技场，归根到底只是一门生意

AI模型排行榜分两类：以高考式标准化测试衡量特定能力的客观基准测试（如AAII、MMLU-Pro），以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场（如LMArena）。两者各有优劣和局限性，且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型，实用性至上。

来自主题: AI资讯

11079 点击 2025-08-07 10:45

中国AI开源16强，最新出炉

中国AI开源16强，最新出炉

中国AI开源16强，最新出炉

知名AI大模型评测Chatbot Arena放榜！阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三，月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五，以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯

11124 点击 2025-08-05 10:47

GPT-5「全家桶」爆出本周上线！惊艳首测秒出网页，编程彻底起飞

GPT-5「全家桶」爆出本周上线！惊艳首测秒出网页，编程彻底起飞

GPT-5「全家桶」爆出本周上线！惊艳首测秒出网页，编程彻底起飞

GPT-5发布节点又要提前了！在LMArena上，已悄然上线了「超大杯」GPT-5-pro，内部代号zenith。一些抽卡成功的网友，开启了惊艳实测。

来自主题: AI资讯

9455 点击 2025-07-28 14:55

GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改屎山代码

GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改屎山代码

GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改屎山代码

就在刚刚，GPT-5悄悄身披马甲出道了？一个代号为「Lobster（龙虾）」的神秘模型在WebDev Arena横空出世，轻松吊打Grok-4，网友纷纷猜测：这就是GPT-5本尊！更有提前试用者曝出：GPT-5编程能力惊人，甚至能改屎山代码。

来自主题: AI资讯

10375 点击 2025-07-27 20:13

Kimi又火了，深度体验它的第一个Agent 后，我发现99%的AI产品忽略了这件「小事」

Kimi又火了，深度体验它的第一个Agent 后，我发现99%的AI产品忽略了这件「小事」

Kimi又火了，深度体验它的第一个Agent 后，我发现99%的AI产品忽略了这件「小事」

Kimi 又火了，在 DeepSeek 的热闹中沉寂大半年后，Kimi K2 悄悄在 LMArena 竞技场中从 DeepSeek 手中，夺过了全球开源第一的宝座。

来自主题: AI资讯

9839 点击 2025-07-21 12:05

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

最近，Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务，OpenAI o3领跑全场，DeepSeek紧追Gemini挤入前四！不过从结果来看，要猜中科研人的偏好，自动评估系统远未及格。

来自主题: AI技术研报

9037 点击 2025-07-11 17:12

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

当地时间 6 月 26 日，在上个月的 Google I/O 上首次亮相预览后，谷歌如今正式发布了 Gemma 3n 完整版，可以直接在本地硬件上运行。

来自主题: AI资讯

8692 点击 2025-06-27 15:21

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

在开源模型领域，DeepSeek 又带来了惊喜。

来自主题: AI资讯

10336 点击 2025-06-17 11:31

上一页当前第6页,共9页下一页