AI资讯新闻榜单内容搜索-DIAMOND

刚刚谷歌发布 Gemini 3.1 Pro

今天凌晨，Google 发布 Gemini 3.1 Pro。核心提升在推理能力，ARC-AGI-2（抽象推理基准）从 3 Pro 的 31.1% 跳到 77.1%，翻了一倍多，GPQA Diamond（科学知识推理）从 91.9% 提到 94.3%

来自主题: AI资讯

11126 点击 2026-02-20 02:47

沃顿商学院已发布4篇「Prompt」报告｜重磅

宾夕法尼亚大学沃顿商学院（The Wharton School）今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型（如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等），在极高难度的博士级基准测试（GPQA Diamond）上进行了数万次的严谨测试。

来自主题: AI技术研报

9440 点击 2025-12-10 16:11

AI「亚里士多德」首战封神！跑分碾压所有主流大模型，00后辍学天才创立，打造科学超级智能！

AI科学发现公司Autopoiesis Sciences宣布，其人工智能联合科学家Aristotle X1 Verify在多项基准测试中取得了显著成果，性能超越了所有主流AI模型。据悉，Aristotle X1 Verify在推理基准测试GPQA Diamond中达到了92.4%的准确率

来自主题: AI资讯

10533 点击 2025-08-03 00:25

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

9915 点击 2025-07-04 22:18

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K

DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进行决策的能力。

来自主题: AI技术研报

7171 点击 2024-11-18 15:24

世界模型也扩散！训练出的智能体竟然不错

在图像生成领域占据主导地位的扩散模型，开始挑战强化学习智能体。

来自主题: AI技术研报

11222 点击 2024-05-24 11:22