
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。
GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。
微软又把OpenAI的机密泄露了??在论文中明晃晃写着: o1-preview约300B参数,GPT-4o约200B,GPT-4o-mini约8B……
过年关啦!阿里送上了今年最后一份礼物——
大模型的竞速赛,正站在通用底座的基础上,掀起“领域增强”风暴。
微软下一代14B小模型Phi-4出世了!仅用了40%合成数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
The Information消息,初代GPT论文第一作者Alec Radford也要离开OpenAI,转向独立研究。据了解, Alec于2016年加入OpenAI,从初代GPT到GPT-4o的论文中全都有他的名字,其中前两代还是第一作者。
给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。
新模型在MATH上(以数学竞赛为主)动辄跑分80%甚至90%以上,却一用就废。
随着美国科技初创公司OpenAI的圣诞直播进入最后一周,多项重要AI新品也进入发布倒计时——除了GPT-4o的常规版本升级外,科技圈最期待的正是肩负“打开营收天花板”重任的“AI代理”。
OpenAI连续12个工作日的直播继续进行,完全版的o1,跳票很久的Sora和GPT-4o的高级语音模式,最新的ChatGPTProjects功能纷纷上线,其中还夹杂着一些关于AGI的符号性植入,仿佛在暗示这场马拉松式新品发布的压轴大戏会与AGI密切相关。