全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。
公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。
对于AI视觉多模态大模型只关注显著信息这一根本性缺陷,哈工大GiVE实现突破!
想必各位开发者、产品经理或一些有想法的非程序员人士,已经使用了 Cursor 来协助完成一些开发任务,但是由于额度和有效期的问题,每次刚学会几招 Cursor 的使用方式,就用不了了。
Perplexity AI 公司正与三星电子商讨在其设备上集成虚拟助手事宜,并已与联想集团旗下摩托罗拉达成此类合作协议。
在能源AI这个高门槛赛道,中科类脑完成了一场从技术攻坚到商业变现的深度突围。
Llama 4 或许只是冰山一角。
4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」
经历了 2025 年初 DeepSeek、Manus 们的冲击,大厂正在重新明确自己下一步的战略。
前天晚上人还在参加着英伟达的合作伙伴大会晚宴。
据知情人士透露,过去一年中,Meta Platforms 曾请求微软、亚马逊等公司协助承担其旗舰大语言模型 Llama 的训练成本。该想法反映出对 AI 开发成本激增日益加剧的担忧,企业对资助开源软件犹豫不决。