AI资讯新闻榜单内容搜索-Arena

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Arena
AI竞技场,归根到底只是一门生意

AI竞技场,归根到底只是一门生意

AI竞技场,归根到底只是一门生意

AI模型排行榜分两类:以高考式标准化测试衡量特定能力的客观基准测试(如AAII、MMLU-Pro),以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场(如LMArena)。两者各有优劣和局限性,且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型,实用性至上。

来自主题: AI资讯
9962 点击    2025-08-07 10:45
中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

知名AI大模型评测Chatbot Arena放榜!阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三,月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五,以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯
9743 点击    2025-08-05 10:47
GPT-5「全家桶」爆出本周上线!惊艳首测秒出网页,编程彻底起飞

GPT-5「全家桶」爆出本周上线!惊艳首测秒出网页,编程彻底起飞

GPT-5「全家桶」爆出本周上线!惊艳首测秒出网页,编程彻底起飞

GPT-5发布节点又要提前了!在LMArena上,已悄然上线了「超大杯」GPT-5-pro,内部代号zenith。一些抽卡成功的网友,开启了惊艳实测。

来自主题: AI资讯
8724 点击    2025-07-28 14:55
GPT-5实锤,悄悄上线代号「龙虾」!版本号曝光,实测编程惊人能改屎山代码

GPT-5实锤,悄悄上线代号「龙虾」!版本号曝光,实测编程惊人能改屎山代码

GPT-5实锤,悄悄上线代号「龙虾」!版本号曝光,实测编程惊人能改屎山代码

就在刚刚,GPT-5悄悄身披马甲出道了?一个代号为「Lobster(龙虾)」的神秘模型在WebDev Arena横空出世,轻松吊打Grok-4,网友纷纷猜测:这就是GPT-5本尊!更有提前试用者曝出:GPT-5编程能力惊人,甚至能改屎山代码。

来自主题: AI资讯
9402 点击    2025-07-27 20:13
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。

来自主题: AI技术研报
8059 点击    2025-07-11 17:12
速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?

速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?

速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?

LM Arena 是一个众包基准测试项目,各大 AI 实验室依赖其测试和推广自家 AI 模型。据彭博社报道,该项目已在种子轮融资中筹集 1 亿美元 ,估值达 6 亿美元。

来自主题: AI资讯
8857 点击    2025-05-22 16:00
刚刚,Gemini 2.5 Pro升级,成编程模型新王

刚刚,Gemini 2.5 Pro升级,成编程模型新王

刚刚,Gemini 2.5 Pro升级,成编程模型新王

你的默认编程模型是什么?或许可以换一换了。刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。其最大的进步是编程能力大幅提升,不仅在 LMArena 编程排行榜上名列第一,同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸

来自主题: AI资讯
10434 点击    2025-05-07 09:22