AI资讯新闻榜单内容搜索-模型基准

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型基准

Anthropic官宣融资4407亿，估值超越Openai，同时最强通用模型 Claude Opus 4.8 登场

Anthropic官宣融资4407亿，估值超越Openai，同时最强通用模型 Claude Opus 4.8 登场

Anthropic官宣融资4407亿，估值超越Openai，同时最强通用模型 Claude Opus 4.8 登场

Anthropic最强通用模型Claude Opus 4.8正式发布，新模型基准测试全面超越Gemini 3.1 Pro、Opus 4.7，仅一项逊色于GPT-5.5，但其标准模式价格不变，快速模式价格仅为Opus 4.7的1/3。与此同时，Anthropic还官宣一笔650亿美元（约合人民币4406.94亿元）H轮巨额融资，投后估值冲上9650亿美元（约合人民币6.54万亿元）

来自主题: AI资讯

10076 点击 2026-05-29 10:40

GPT-5准确率不足40%！北大发布多模态、高难度化学基准SUPERChem

GPT-5准确率不足40%！北大发布多模态、高难度化学基准SUPERChem

GPT-5准确率不足40%！北大发布多模态、高难度化学基准SUPERChem

北大团队发布化学大模型基准SUPERChem，这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足，系统构建了评估大语言模型化学推理能力的新体系。

来自主题: AI技术研报

10069 点击 2025-12-15 15:16

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

视频大型语言模型（Video LLMs）的发展日新月异，它们似乎能够精准描述视频内容、准确的回答相关问题，展现出足以乱真的人类级理解力。

来自主题: AI技术研报

7878 点击 2025-08-02 12:43

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。

来自主题: AI技术研报

11519 点击 2025-04-10 12:15

英伟达 JimFan：大模型基准测试像"魔术表演"一样充满漏洞

英伟达 JimFan：大模型基准测试像"魔术表演"一样充满漏洞

英伟达 JimFan：大模型基准测试像"魔术表演"一样充满漏洞

大模型基准测试还能信吗？

来自主题: AI技术研报

4972 点击 2024-09-11 11:43

众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸

众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸

众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸

最公平的大模型基准测试诞生了！来自LLM竞技场，最接近人类偏好，数据新鲜、速度快、成本低，严格分离学渣和学霸。

来自主题: AI技术研报

12103 点击 2024-05-20 16:20

上一页当前第1页,共1页下一页