AI资讯新闻榜单内容搜索-Ai测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: Ai测试
AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力,结果显示,Claude 3.5 Sonnet表现最佳,人类屈居第四!

来自主题: AI技术研报
7635 点击    2025-05-25 16:22
最先进的AI大模型,为什么都在挑战《宝可梦》?

最先进的AI大模型,为什么都在挑战《宝可梦》?

最先进的AI大模型,为什么都在挑战《宝可梦》?

各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。

来自主题: AI资讯
8046 点击    2025-05-13 11:16
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。

来自主题: AI技术研报
6991 点击    2025-04-18 15:20
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

悬疑小说的最后一页,隐藏着罪犯的真相。《逆转裁判》的法庭上,真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台,o1、Gemini 2.5 Pro等模型化身「侦探」,测试AI的推理极限。

来自主题: AI资讯
8042 点击    2025-04-18 10:37
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

谷歌DeepMind研发的DreamerV3实现重大突破:无需任何人类数据,通过强化学习与「世界模型」,自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步,并已登上Nature。

来自主题: AI技术研报
5923 点击    2025-04-03 16:56
75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI

75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI

75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI

在三方图灵测试中,UCSD的研究人员评估了当前的AI模型,证明LLM已通过图灵测试。在测试中,同时与人及AI系统进行5分钟对话,然后判断哪位是「真人」。结果,AI竟然比「真人」还像人:

来自主题: AI资讯
6967 点击    2025-04-03 09:54
速递|继AI编程,北美VC投资AI软件测试

速递|继AI编程,北美VC投资AI软件测试

速递|继AI编程,北美VC投资AI软件测试

据 The Information 报道,总部位于旧金山的 AI 软件测试公司 Ranger 在 12 月获得了由General Catalyst领投的 650 万美元种子轮融资,以及在 2023 年 11 月获得的由XYZ领投的 240 万美元前种子轮融资。

来自主题: AI资讯
9307 点击    2025-01-17 15:50
用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢?

来自主题: AI技术研报
5277 点击    2024-08-31 10:05
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

随着人工智能技术的快速发展,能够处理多种模态信息的多模态大模型(LMMs)逐渐成为研究的热点。通过整合不同模态的信息,LMMs 展现出一定的推理和理解能力,在诸如视觉问答、图像生成、跨模态检索等任务中表现出色。

来自主题: AI技术研报
9594 点击    2024-07-23 16:34