| 排名 | 名次区间 | 模型 | Arena 得分 ↓ | 投票数 | 精确分 & 区间 | 方差 | 价格 ($/1M) | 上下文 |
|---|---|---|---|---|---|---|---|---|
| 🥇 | — |
qwen2-vl-7b-instruct
阿里巴巴 · Apache 2.0
|
1031±10.0 | 5.8K 票 | 1031.000 [1021.0, 1041.0] | 9.00 · 波动 |
没有找到匹配的模型,换个关键词试试?
查看各种 AI 大语言模型在数学推理、代码生成、创意写作及其他开放式文本任务中的综合 Elo 积分排名,数据来源于真实用户的匿名盲测投票。
基于 Bradley-Terry 统计模型计算的大模型竞技积分。数值越高代表在人类盲测对决中综合胜率越高,反映模型间相对强弱。
Elo 积分的完整浮点数值(精确到小数3位)。当两个模型整数分相同时,精确分才真正决定排名先后。下方 [lower, upper] 为置信区间范围。
衡量 Elo 积分的统计稳定程度。绿色·稳定(<5)票多可信;橙色·波动(5~12);红色·不稳(>12)新模型票少,排名还会剧烈变化。
真实实力有 95% 概率落在 [lower, upper] 区间内,显示为 ±N。N 越小排名越可信,票数越多 N 越小。
该模型参与盲测对决的总次数。票数越高,Elo 分的统计置信度越高、越不容易受单次投票影响而波动。
Apache/Llama:完全开源可商用;MIT:开源限制极少;Proprietary:闭源商业模型。协议决定你能否把它集成到自己的产品里。
| 排名 | 名次区间 | 模型 | Arena 得分 ↓ | 投票数 | 精确分 & 区间 | 方差 | 价格 ($/1M) | 上下文 |
|---|---|---|---|---|---|---|---|---|
| 🥇 | — |
qwen2-vl-7b-instruct
阿里巴巴 · Apache 2.0
|
1031±10.0 | 5.8K 票 | 1031.000 [1021.0, 1041.0] | 9.00 · 波动 |
没有找到匹配的模型,换个关键词试试?