AI资讯新闻榜单内容搜索-DeepSeek-R

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: DeepSeek-R
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报
6358 点击    2025-08-01 16:08
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报
4223 点击    2025-07-31 10:10
超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

当人工智能已经能下围棋、写代码,如何让机器理解并证明数学定理,仍是横亘在科研界的重大难题。

来自主题: AI技术研报
8641 点击    2025-07-30 11:01
首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法,即采用可验证奖励强化学习(RLVR)逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报
5227 点击    2025-07-28 10:36
「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!

来自主题: AI资讯
7722 点击    2025-07-20 23:43
2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。

来自主题: AI资讯
6082 点击    2025-07-18 17:37
面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。

来自主题: AI技术研报
6723 点击    2025-07-17 11:24
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

“人类最后的考试”首次突破30分,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。

来自主题: AI技术研报
8190 点击    2025-07-10 11:21
OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

三个前沿AI能融合成AGI吗?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型,在推理过程中动态协作,通过试错优化生成过程,有效融合群体AI智慧。

来自主题: AI技术研报
7036 点击    2025-07-06 13:06
新天终启,万象智生——万年奇点时刻,谁将引爆中国ASI?

新天终启,万象智生——万年奇点时刻,谁将引爆中国ASI?

新天终启,万象智生——万年奇点时刻,谁将引爆中国ASI?

2025年,AI界风云激荡,DeepSeek-R1横空出世、英伟达市值称霸全球、谷歌AlphaEvolve打破数学神话,中国Qwen3登顶开源王座……智能爆炸的奇点已悄然降临!新智元十周年之际,2025 AI Era & ASI创新大奖报名正式启动,致敬重塑世界的AI先锋!

来自主题: AI资讯
5952 点击    2025-07-05 13:20