
刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
今天下午,DeepSeek 官方正式发布 DeepSeek-V3.1。相比于前天只在用户群里通知,今天新增了模型升级点、榜单成绩、model card,huggingface 上现在也可以下载模型文件了。
据知情人士透露,Anthropic 即将达成协议,在新一轮融资中筹集高达 100 亿美元资金,这一金额超出预期,成为人工智能初创企业迄今规模最大的超级融资轮之一。
DeepSeek-V3.1官宣了,作为首款「混合推理」模型,将开启智能体新时代。新模型共有671B参数,编码实力碾压DeepSeek-R1、Claude 4 Opus,登顶编程开源第一。
OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。
众所周知,前不久 Anthropic 宣布对用户实行每周速率限制。其中,在解释原因时,Anthropic 提到“虽然 Pro 和 Max 套餐提供了充足的 Claude 访问权限,但一些高级用户却全天候不间断地运行 Claude,消耗的资源远远超出了正常使用量。一位用户在 200 美元的套餐中消耗了数万个模型使用量。”
当我看到 Cursor、Claude Code、Lovable 这些 AI 编程工具的出现,以及它们正在以惊人的速度降低软件开发成本时,我意识到我们正站在一个历史转折点上。这不仅仅是开发效率的提升,而是整个软件行业商业逻辑的根本性重构。
DeepSeek V3.1新版正式上线,上下文128k,编程实力碾压Claude 4 Opus,成本低至1美元。在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。
AI编程最近挺火的,大家喜欢冠以一个貌似更高级的词:vibe coding