AI资讯新闻榜单内容搜索-gpt

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: gpt
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

别急着用GPT-5编程了,可能它能力没有你想象中那么强。 有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。

来自主题: AI资讯
8390 点击    2025-08-12 17:07
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成和密集预测在内的广泛任务。

来自主题: AI技术研报
8320 点击    2025-08-12 17:03
GPT-5 vs Claude Opus 4.1:编程能力测评

GPT-5 vs Claude Opus 4.1:编程能力测评

GPT-5 vs Claude Opus 4.1:编程能力测评

OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。

来自主题: AI产品测评
9523 点击    2025-08-12 16:52
苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互

苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互

苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互

从上周开始,我们就开始看到一些关于苹果在人工智能领域的长期规划开始浮出水面:从名为 AKI、力求在 iPhone 端侧打造「类 ChatGPT 搜索体验」的答案引擎,到本周目标指向 AI Agent 能力的「新 Siri」概念爆出。无数消息都指向了一个目标:「重生」。

来自主题: AI资讯
8091 点击    2025-08-12 16:44
GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI

GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI

GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI

人不能同时踩两个坑,但 OpenAI 做到了。 GPT-5 发布会上,OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。

来自主题: AI资讯
6988 点击    2025-08-12 16:03
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI

GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI

GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI

大模型好不容易学会数r,结果换个字母就翻车了? 而且还是最新的GPT-5。 杜克大学教授Kieran Healy表示,自己让GPT-5数了数blueberry里有几个b,结果GPT-5斩钉截铁地回答3个。

来自主题: AI资讯
8357 点击    2025-08-12 12:37
「一只手有几根手指」,你的GPT-5答对了吗?

「一只手有几根手指」,你的GPT-5答对了吗?

「一只手有几根手指」,你的GPT-5答对了吗?

「一只手有几根手指?」 这个看似简单的问题,强如 GPT-5 却并不能总是答对。 今天,CMU 博士生、英伟达 GEAR(通用具身智能体研究)团队成员 Tairan He(何泰然)向 GPT-5 询问了这个问题,结果模型回答错了。

来自主题: AI技术研报
8410 点击    2025-08-12 12:08
GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss放飞自我了?!居然出现了明显的幻觉行为。 在没有提示词的情况下,消耗超过30000个token凭空想出一个问题,还反复求解了5000多次?!

来自主题: AI资讯
7659 点击    2025-08-12 11:52
让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板

让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板

让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板

刚刚,全球最强开源医疗模型发布,来自中国。百川开源最新医疗推理大模型Baichuan-M2-32B,在OpenAI发布的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。

来自主题: AI资讯
10713 点击    2025-08-11 16:23