中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一
中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一上周,一个名为 “im-also-a-good-gpt2-chatbot” 的神秘模型突然现身大模型竞技场 Chatbot Arena
来自主题: AI资讯
11802 点击 2024-05-21 15:53
搜索
上周,一个名为 “im-also-a-good-gpt2-chatbot” 的神秘模型突然现身大模型竞技场 Chatbot Arena
最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。
随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。
太疯狂了!Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中,Claude 3的超大杯成功登顶,就连最小的Claude 3 HaiKu都达到了GPT-4水平!
“大模型排位赛”权威榜单Chatbot Arena刷新:谷歌Bard超越GPT-4,排名位居第二,仅次于GPT-4 Turbo。