AI资讯新闻榜单内容搜索-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: R1
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。

来自主题: AI技术研报
5109 点击    2025-08-15 11:26
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报
6435 点击    2025-08-13 16:29
又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。 开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠。

来自主题: AI技术研报
5762 点击    2025-08-10 15:00
中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

知名AI大模型评测Chatbot Arena放榜!阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三,月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五,以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯
7627 点击    2025-08-05 10:47
3D-R1:让AI理解3D世界的下一步

3D-R1:让AI理解3D世界的下一步

3D-R1:让AI理解3D世界的下一步

在人工智能快速发展的今天,我们已逐渐习惯于让 AI 识别图像、理解语言,甚至与之对话。但当我们进入真实三维世界,如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力?这正是 3D 视觉语言模型(3D VLM)所要解决的问题。

来自主题: AI技术研报
5521 点击    2025-08-04 20:04
一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元

一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元

一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元

Deep Cogito,一家鲜为人知的 AI 初创公司,总部位于旧金山,由前谷歌员工创立,如今开源的四款混合推理模型,受到大家广泛关注。

来自主题: AI资讯
6611 点击    2025-08-02 13:38
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报
6503 点击    2025-08-01 16:08
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报
4327 点击    2025-07-31 10:10
超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

当人工智能已经能下围棋、写代码,如何让机器理解并证明数学定理,仍是横亘在科研界的重大难题。

来自主题: AI技术研报
8743 点击    2025-07-30 11:01
最懂管钱的AI?这个刚刚发布的金融推理大模型,专业测试超DeepSeek|WAIC2025

最懂管钱的AI?这个刚刚发布的金融推理大模型,专业测试超DeepSeek|WAIC2025

最懂管钱的AI?这个刚刚发布的金融推理大模型,专业测试超DeepSeek|WAIC2025

在社交平台上,「AI 帮我选基金,结果赚了 8%」、「AI 自动炒股,秒杀巴菲特?」之类的帖子不时刷屏,炒股机器人、对话式理财助手有关的 Agent 也不断涌现。

来自主题: AI资讯
8346 点击    2025-07-28 17:48