AI资讯新闻榜单内容搜索-推理模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 推理模型

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

推理大语言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（Reinforcement Learning）和推理规模（Inference scaling）。

来自主题: AI技术研报

7399 点击 2025-02-12 11:33

OpenAI内部模型曝光！编程能力跻身全球Top50程序员，年底不再有人类对手

OpenAI内部模型曝光！编程能力跻身全球Top50程序员，年底不再有人类对手

OpenAI内部模型曝光！编程能力跻身全球Top50程序员，年底不再有人类对手

除了o1/o3，OpenAI另一个尚未公开的内部推理模型曝光了。爆料者正是CEO奥特曼本人。据他透露，与全球顶尖程序员相比，当前这一内部模型的编程能力已达Top50，甚至今年年底将排名第一。

来自主题: AI资讯

9661 点击 2025-02-09 23:09

历史分水岭：DeepSeek GitHub星数超越OpenAI！大佬揭秘仅用450美元训推理模型

历史分水岭：DeepSeek GitHub星数超越OpenAI！大佬揭秘仅用450美元训推理模型

历史分水岭：DeepSeek GitHub星数超越OpenAI！大佬揭秘仅用450美元训推理模型

就在刚刚，历史性的一刻出现了。DeepSeek项目在GitHub平台上的Star数，已经超越了OpenAI。热度最高的DeepSeek-V3，Star数如今已达7.7万。

来自主题: AI资讯

8526 点击 2025-02-08 14:20

DeepSeek技术解析：如何冲击英伟达两大壁垒？

DeepSeek技术解析：如何冲击英伟达两大壁垒？

DeepSeek技术解析：如何冲击英伟达两大壁垒？

DeepSeek的V3模型仅用557.6万的训练成本，实现了与OpenAI O1推理模型相近的性能，这在全球范围内引发连锁反应。由于不用那么先进的英伟达芯片就能实现AI能力的飞跃，英伟达在1月27日一天跌幅高达17%，市值一度蒸发6000亿美元。

来自主题: AI资讯

6963 点击 2025-02-08 12:09

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调，我们研究了论文

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调，我们研究了论文

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调，我们研究了论文

近日有媒体报道称，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。

来自主题: AI资讯

8205 点击 2025-02-07 19:31

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。

来自主题: AI技术研报

7876 点击 2025-02-07 16:53

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

成本不到150元，训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型？！这不是洋葱新闻，而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作：s1。

来自主题: AI资讯

10030 点击 2025-02-07 00:26

冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

本周三，该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。

来自主题: AI资讯

10420 点击 2025-02-06 15:13

DeepSeek的节后效应，国产AI生态加速闭环

DeepSeek的节后效应，国产AI生态加速闭环

DeepSeek的节后效应，国产AI生态加速闭环

DeepSeek不主动追求旗下大模型的商业化，但它的推理模型R1的发布，却推动了全球整个大模型生态的商业化进程，也加速了国产AI生态的闭环。

来自主题: AI资讯

7396 点击 2025-02-05 16:24

服务崩溃，DeepSeek该给金主一个贴金的机会

服务崩溃，DeepSeek该给金主一个贴金的机会

服务崩溃，DeepSeek该给金主一个贴金的机会

2月1日，就在OpenAI上新o3-mini推理模型同时，DeepSeek深度思考和联网搜索功能被爆暂时停止服务。一天之后，经字母榜实测，目前DeepSeek深度思考服务已恢复正常，但联网搜索仍提示“由于技术原因，暂不可用”。

来自主题: AI资讯

10086 点击 2025-02-04 12:55

上一页当前第18页,共21页下一页