
OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……
OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……知道大模型接下来要卷视觉推理,但没想到这么卷——数学试卷都快要不够用了。
知道大模型接下来要卷视觉推理,但没想到这么卷——数学试卷都快要不够用了。
公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。
谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。
根据彭博社消息,广受欢迎的 AI 编程助手 Windsurf 的开发商正与 OpenAI 洽谈收购事宜,交易金额约为 30 亿美元。
作为玩家基数庞大的60级显卡新品,RTX 5060 Ti带来了显著的性能飞跃。得益于强大的DLSS 4多帧生成黑科技,它不仅能在合理设置下以4K运行大型3A游戏,而且还能轻松跑通本地AI大模型。
英国伦敦,Kao Data 是一家专门为人工智能和高级计算而设计的数据中心的开发商和运营商,近期宣布在其哈洛园区推出 KLON-03——一个全新的 17.6MW 高性能AI液冷数据中心。
“史上最强视觉生成模型”,现在属于快手。一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%;
今天,字节发布了一整套 AI 全家桶,深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。字节发布的产品和亮点有哪些:1. 豆包 1.5 · 深度思考模型,2. 文生图 3.0
顶会论文评审,AI立大功!ICLR 2025首次大规模引入AI参与审稿,最终有12222条建议被审稿人采纳,89%情况下提升了评审质量。详细30页报告,揭秘AI在顶会审稿的惊人潜力。
OpenAI新模型全网实测惊艳来袭!o3缩放图像被玩疯,o4-mini速解Project Euler,碾压人类。AI初创CEO说,OpenAI凭此一役已经重回榜首,甚至有经济学家直言AGI已经来临!