AI资讯新闻榜单内容搜索-Arena

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

最近，Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务，OpenAI o3领跑全场，DeepSeek紧追Gemini挤入前四！不过从结果来看，要猜中科研人的偏好，自动评估系统远未及格。

来自主题: AI技术研报

8251 点击 2025-07-11 17:12

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

当地时间 6 月 26 日，在上个月的 Google I/O 上首次亮相预览后，谷歌如今正式发布了 Gemma 3n 完整版，可以直接在本地硬件上运行。

来自主题: AI资讯

7942 点击 2025-06-27 15:21

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

在开源模型领域，DeepSeek 又带来了惊喜。

来自主题: AI资讯

9585 点击 2025-06-17 11:31

速递｜AI排行榜独角兽诞生：LM Arena获1亿美元融资，估值6亿美元能否洗刷"刷分"指控？

LM Arena 是一个众包基准测试项目，各大 AI 实验室依赖其测试和推广自家 AI 模型。据彭博社报道，该项目已在种子轮融资中筹集 1 亿美元，估值达 6 亿美元。

来自主题: AI资讯

9029 点击 2025-05-22 16:00

刚刚，Gemini 2.5 Pro升级，成编程模型新王

你的默认编程模型是什么？或许可以换一换了。刚刚，Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本：Gemini 2.5 Pro (I/O edition)。其最大的进步是编程能力大幅提升，不仅在 LMArena 编程排行榜上名列第一，同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸

来自主题: AI资讯

10599 点击 2025-05-07 09:22