AI资讯新闻榜单内容搜索-GPT-4

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

来自主题: AI技术研报

6792 点击 2025-03-10 10:22

GPT-4o举步维艰、Claude 3.7险胜，《超级马里奥》成为了检验大模型的新试金石？

一直以来，AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏，以此来检验 AI 的「智能程度」。

来自主题: AI资讯

8220 点击 2025-03-09 15:07

ChatGPT拒绝生成一朵玫瑰，它怎么成了新的AI禁忌词？

你能让 ChatGPT 画一朵玫瑰吗？

来自主题: AI资讯

5851 点击 2025-03-06 09:29

GPT-4.5智商测试94，登上LLM竞技场榜首！网友质疑黑幕，实测结果惊人

在知名AI排行榜LM Arena中，曾全班垫底的GPT-4.5竟一度拿下第一？甚至在数学、编程等领域表现优异，这反常的表现让网友们一度质疑：大模型竞技场莫非被LLM操纵了？不过网友们在实测后却惊讶发现，GPT-4.5的确情商爆表，不用推理就能理解人类的深层意图！

来自主题: AI资讯

7760 点击 2025-03-05 13:31

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

7922 点击 2025-03-04 14:28