新测试基准发布,最强开源Llama 3尴尬了
新测试基准发布,最强开源Llama 3尴尬了随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。
来自主题: AI资讯
4153 点击 2024-04-22 20:58
随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。
太疯狂了!Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中,Claude 3的超大杯成功登顶,就连最小的Claude 3 HaiKu都达到了GPT-4水平!
“大模型排位赛”权威榜单Chatbot Arena刷新:谷歌Bard超越GPT-4,排名位居第二,仅次于GPT-4 Turbo。