AI资讯新闻榜单内容搜索-o3

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: o3
GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

当模型复杂度增加到一定程度后,模型开始对训练数据中的噪声和异常值进行拟合,而不是仅仅学习数据中的真实模式。这导致模型在训练数据上表现得非常好,但在新的数据上表现不佳,因为新的数据中噪声和异常值的分布与训练数据不同。

来自主题: AI技术研报
8046 点击    2025-03-06 23:31
从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?

从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?

从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?

DeepSeek R1 催化了 reasoning model 的竞争:在过去的一个月里,头部 AI labs 已经发布了三个 SOTA reasoning models:OpenAI 的 o3-mini 和deep research, xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。

来自主题: AI技术研报
7206 点击    2025-03-05 09:39
谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

随着 AI 能力的提升,一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和,比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。

来自主题: AI技术研报
3807 点击    2025-02-28 14:48
用完Claude 3.7,我感觉程序员在加速贬值

用完Claude 3.7,我感觉程序员在加速贬值

用完Claude 3.7,我感觉程序员在加速贬值

昨天,Claude 3.7 Sonnet 正式发布。根据目前的各项测评,这个模型可以说是全宇宙最好的代码生成模型,超越了 DeepSeek R1 和 OpenAI 的 o3 等模型。如果你是程序员,一定要第一时间切换过去,用下这款模型。

来自主题: AI资讯
5931 点击    2025-02-27 09:54
官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug!

来自主题: AI技术研报
9102 点击    2025-02-25 14:59
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

就在刚刚,Anthropic祭出首个混合推理Claude 3.7 Sonnet,堪称扩展思考模式的最强模型。在最新编码测试中,新模型暴击o3-mini、DeepSeek R1,AI编码王者出世了。

来自主题: AI资讯
9054 点击    2025-02-25 08:53
DeepSeek引发鲶鱼效应,中国算力市场呈现“四变”

DeepSeek引发鲶鱼效应,中国算力市场呈现“四变”

DeepSeek引发鲶鱼效应,中国算力市场呈现“四变”

这个AI领域千亿级市场,将辐射千家万户。 DeepSeek-R1横空出世,打响了大模型比拼性价比的第一枪。 Meta、OpenAI等国外头部大模型厂商纷纷复刻或变相降价。比DeepSeek-R1晚两周发布的OpenAI o3-mini模型,定价比前代模型o1-mini降低了超6成,比前代完整版的o1模型便宜超9成。

来自主题: AI资讯
8252 点击    2025-02-19 09:38
超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。

来自主题: AI技术研报
6000 点击    2025-02-17 17:47