抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。
2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。
这是《窄播Weekly》的第68期,本期我们关注的商业动态是:OpenAI在今年的DevDay上更清晰地向我们展示了如何构建一个AI时代的超级系统。就像OpenAI的CEO山姆·奥特曼在一档播客节目中所说,ChatGPT上线之后经历了两个关键的「惊喜」时刻,
国际奥赛又一块金牌,被AI夺下了!在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro完胜人类选手,在理论和数据分析测试中,拿下了最高分。在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%;
昨天,State of AI Report 2025 正式发布了。背后主笔是硅谷投资人 Nathan Benaich 和他创办的 Air Street Capital,从 2018 年开始,这份报告就被称为“AI 行业的年度百科”。
调模型不如“管上下文”。这篇文章基于 ACE(Agentic Context Engineering),把系统提示、运行记忆和证据做成可演化的 playbook,用“生成—反思—策展”三角色加差分更新,规避简化偏置与上下文塌缩。在 AppWorld 与金融基准上,ACE 相较强基线平均提升约 +10.6% 与 +8.6%,适配时延降至约 1/6(-86.9%),且在无标注监督场景依然有效。
“事实证明,不焦虑的人做不好 AI 应用。” 文丨程曼祺 “明年可能是 to C 应用的元年。”9 月 28 日,Lovart 创始人陈冕告诉我们。 第二天,“元年” 被加速——OpenAI 发布 S
1.3千万亿,一个令人咂舌的数字。这就是谷歌每月处理的Tokens用量。据谷歌“宣传委员”Logan Kilpatrick透露,这一数据来自谷歌对旗下各平台的内部统计。那么在中文世界里,1.3千万亿Tokens约2.17千万亿汉字。换算成对话量,一本《红楼梦》的字数在70-80万左右,相当于一个月内所有人和谷歌AI聊了近30亿本《红楼梦》的内容。
刚刚,DeepMind前研究员创立、成立一年多的AI初创Reflection AI,竟斩获高达20亿美元融资。估值瞬间飙升至80亿美元!从谷歌前CEO施密特到英伟达,再到红杉、花旗,顶级玩家争相入局,一场围绕开源AI主权的科技冷战,正在燃起资本最狂热的火焰。
Augie最大的优势就是,能够实现跨平台。也就是说,Augie打造的AI员工可以在不同的系统平台里来回操作。这意味着,人工不用再在五六个系统之间来回切换,Augie自己就能完成很多原本依赖人力的工作。
最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。