
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4在开源模型领域,DeepSeek 又带来了惊喜。
来自主题: AI资讯
7694 点击 2025-06-17 11:31
在开源模型领域,DeepSeek 又带来了惊喜。
你的默认编程模型是什么?或许可以换一换了。刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。其最大的进步是编程能力大幅提升,不仅在 LMArena 编程排行榜上名列第一,同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸
刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不实。
刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)!一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。