AI资讯新闻榜单内容搜索-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: R1
隐式推理,继CoT思维链之后,LLM的下一个技术奇点系统性综述来了|港科大最新

隐式推理,继CoT思维链之后,LLM的下一个技术奇点系统性综述来了|港科大最新

隐式推理,继CoT思维链之后,LLM的下一个技术奇点系统性综述来了|港科大最新

您对“思维链”(Chain-of-Thought)肯定不陌生,从最早的GPT-o1到后来震惊世界的Deepseek-R1,它通过让模型输出详细的思考步骤,确实解决了许多复杂的推理问题。但您肯定也为它那冗长的输出、高昂的API费用和感人的延迟头疼过,这些在产品落地时都是实实在在的阻碍。

来自主题: AI技术研报
7582 点击    2025-09-05 10:22
第一性原理视角下的MoE推理的经济学分析

第一性原理视角下的MoE推理的经济学分析

第一性原理视角下的MoE推理的经济学分析

随着DeepSeek R1、Kimi K2和DeepSeek V3.1混合专家(MoE)模型的相继发布,它们已成为智能前沿领域大语言模型(LLM)的领先架构。由于其庞大的规模(1万亿参数及以上)和稀疏计算模式(每个token仅激活部分参数而非整个模型),MoE式LLM对推理工作负载提出了重大挑战,显著改变了底层的推理经济学。

来自主题: AI技术研报
6201 点击    2025-09-03 11:22
蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

不卷参数的专业模型,会不会被通用大模型取代? 在医疗领域,这个疑问正在被打破。

来自主题: AI资讯
6166 点击    2025-08-29 15:56
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
7735 点击    2025-08-28 12:20
刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?

刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?

刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?

继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

来自主题: AI资讯
6151 点击    2025-08-23 13:17
DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍

DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍

DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍

DeepSeek-V3.1官宣了,作为首款「混合推理」模型,将开启智能体新时代。新模型共有671B参数,编码实力碾压DeepSeek-R1、Claude 4 Opus,登顶编程开源第一。

来自主题: AI资讯
7547 点击    2025-08-22 11:52
AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI能像科幻电影中的先知一样预测未来吗?一个名为「Prophet Arena」的全新基准测试,正通过预测真实世界事件来评估AI的「预言」能力。

来自主题: AI资讯
6635 点击    2025-08-18 19:05
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。

来自主题: AI技术研报
6217 点击    2025-08-16 16:45
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。

来自主题: AI技术研报
5786 点击    2025-08-15 11:26