AI资讯新闻榜单内容搜索-模型测试

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型测试

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

只是换一下数学题的变量名称，大模型就可能集体降智？？

来自主题: AI技术研报

6561 点击 2025-01-05 20:18

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

Epoch AI推出数学基准FrontierMath，目前前沿模型测试成功率均低于2%！OpenAI研究科学家Noam Brown说道：「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来，外面是一片崭新的雪地，完全没有人迹。」或许，FrontierMath测试成功率突破的那一天，会是AI发展过程中一个全新的里程碑。

来自主题: AI技术研报

6686 点击 2024-11-11 15:10

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

OpenAI o1，在IQ测试中拿到了第一名！大佬Maxim Lott，给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试，结果表明，o1稳居第一名。

来自主题: AI资讯

7199 点击 2024-09-14 16:02

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。

来自主题: AI资讯

6528 点击 2024-08-02 15:29

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

来自主题: AI技术研报

11878 点击 2024-07-18 17:21

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

没眼看……“9.11和9.9哪个大”这样简单的问题，居然把主流大模型都难倒了？？

来自主题: AI资讯

11572 点击 2024-07-16 20:05

欺骗大模型有多容易，只需画一个流程图？

欺骗大模型有多容易，只需画一个流程图？

欺骗大模型有多容易，只需画一个流程图？

大力出奇迹，也是一个新思路。

来自主题: AI资讯

12228 点击 2024-07-05 14:34

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

LLM能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连Claude 3.5也无法幸免。

来自主题: AI资讯

10288 点击 2024-07-01 12:21

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

还有12款大模型全军覆没……

来自主题: AI资讯

12214 点击 2024-06-25 10:36

用大模型测试人格/抑郁/认知模式！通过游戏剧情发展测量心理特质｜清华出品

用大模型测试人格/抑郁/认知模式！通过游戏剧情发展测量心理特质｜清华出品

用大模型测试人格/抑郁/认知模式！通过游戏剧情发展测量心理特质｜清华出品

随着大语言模型（LLM）的发展，很多研究发现LLM能够展现出稳定的人格特质，模仿人类细微的情绪与认知模式，还能辅助各种各样的社会科学仿真实验，为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域，提供了新的研究思路。

来自主题: AI技术研报

5519 点击 2024-03-13 11:15

上一页当前第3页,共4页下一页