
Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场
Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。
Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。
通过Deepseek、ChatGPT、Gemini等大模型说出来的话,不少没有辨别能力的小伙伴就会默认是公道与正确的。其实是未必。1.Deepseek、ChatGPT、Gemini等联网搜索的结果与规则还在完善;
DeepSeek和xAI相继用R1和Grok-3证明:预训练Scaling Law不是OpenAI的护城河。将来95%的算力将用在推理,而不是现在的训练和推理各50%。OpenAI前途不明,生死难料!
2025年开年,全球AI战场硝烟弥漫。 ChatGPT悄然迭代至GPT-6,在DeepSeek横空出世、在多领域大展拳脚后,马斯克旗下的人工智能公司紧随其后重磅发布了Grok 3系列模型。
我先给大家道个歉,上一篇讲的不太对:《GPT-4.5 一手实测:垃圾》,是我喷得保守了,觉得 GPT-4.5 只是贵&慢,但模型总归是素质在线。 没想到,经过实际数万轮实测:GPT-4.5 不如 GPT-4
机器人行业的ChatGPT时刻、iPhone时刻,正在加速到来。
几乎所有人都已经发现,我们正生活在一场前所未有的信息革命之中。
Phi-4系列模型上新了!56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。
GPT-4.5正式发布,号称OpenAI最大和最好的聊天模型。
OpenAI的重磅炸弹GPT-4.5,刚刚如期上线了!它并不是推理模型,但是规模最大、知识最丰富,最鲜明的特点就是情商高、很类人。Pro版用户和付费开发者已经能用了,但token定价有点离谱。