GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem
GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem北大团队发布化学大模型基准SUPERChem,这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足,系统构建了评估大语言模型化学推理能力的新体系。
北大团队发布化学大模型基准SUPERChem,这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足,系统构建了评估大语言模型化学推理能力的新体系。
8B 模型在数学竞赛任务上超越 GPT-5!
同行评审体系正在全面革新!面对海量论文,顶级会议ICML 2026推出了复杂的「双轨制」新政,允许有限度地使用AI审稿,并引入「对等原则」防止双标;而新平台aiXiv则激进地拥抱「全自动科研」,由AI写、AI审。
从“感知”到“生成”,再到自主行动的“智能体”,AI正在终端侧掀起一场无声的算力革命。
近日,24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型,它是一位拥有空间超能力的视觉语言小能手,不仅能从普通的平面图片中精准地重建出三维世界,还能像人类一样进行复杂的空间思考和空间推理。
「这是一项革命性的工作」、「不是……而是……」、「首先……其次……」;在一篇文章里读到这些词,你是不是本能地开始觉得,有点不对劲了。
破解AI胡说八道的关键,居然是给大模型砍断99.9%的连接线?
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
6位前DeepMind成员以元系统重塑大模型调用方式,该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首,而成本仅为此前最优方法的一半。
4人28天手搓Sora APP,约85%代码竟是AI写的!10月初,OpenAI重磅发布迭代后Sora 2,以及首个AI视频应用Sora APP。时隔两个月,OpenAI团队揭秘这款爆火应用(首个安卓版),如何构建的背后故事。