AI资讯新闻榜单内容搜索-模型

首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

就在刚刚，OpenAI深夜紧急发布了最新推理模型，o3-mini系列。一共包含三个版本：low、medium和high。其中o3-mini和o3-mini-high已经上线：

来自主题: AI资讯

11032 点击 2025-02-01 12:39

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。

来自主题: AI技术研报

8441 点击 2025-01-31 13:53

ModernBERT 为我们带来了哪些启示？

当谷歌在 2018 年推出 BERT 模型时，恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。

来自主题: AI技术研报

9658 点击 2025-01-31 12:34

Fullmoon 可以在完全断网的情况下在苹果手机上使用AI 大语言模型

1月13日Mainframe公司发布了可以离线运行在苹果系统（Mac，iPad，iPhone）的本地大语言模型fullmoon: local intelligence

来自主题: AI资讯

7851 点击 2025-01-30 18:05

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

首个FP4精度的大模型训练框架来了，来自微软研究院！

来自主题: AI技术研报

9037 点击 2025-01-30 15:11

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

2025 年伊始，全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 宣布 5000 亿美元的「星际之门」计划，Meta 在建规模超 130 万 GPU 的数据中心时，这个来自中国的团队打破了大模型军备竞赛的既定逻辑：用 2048 张 H800 GPU，两个月训练出了一个媲美全球顶尖水平的模型。

来自主题: AI资讯

7730 点击 2025-01-30 14:58

了解GRPO，你可能会反思Deepseek R1的提示词方法，看AI顿悟《了凡四训》后的Aha时刻

"Deepseek R1不就是一个参数更大的语言模型吗？随便问问题就行了，还需要什么特殊技巧？"——当你说出这句话时，是否意识到自己正像《西游记》里高举紫金葫芦的妖怪，对着齐天大圣叫嚣："我叫你的名字，你敢答应吗？"

来自主题: AI技术研报

11471 点击 2025-01-30 13:53

最新研究揭示AI数据之殇：科技巨头垄断权力，「西方中心」数据加剧模型偏见

相比LLM和Agent领域日新月异、高度成熟的进展相比，数据收集方面的规范有明显滞后。由超过50名研究人员组成的「数据溯源计划」（DPI）旨在回答这样一个问题：AI训练所需的数据究竟来自何处？

来自主题: AI技术研报

7719 点击 2025-01-30 13:00

AI“硬控”拜年

这个春节，国产AI引发全球轰动，一家叫做DeepSeek的初创科技公司发布了一款推理模型，不仅能力不输OpenAI的o1，训练成本也远低于国外，各行各业更是跟风尝试。1月27日，DeepSeek超过ChatGPT，成为苹果商店美国区免费应用榜单第一，也登顶中国区免费榜，由于用户突然涌入太多，还出现了短暂宕机。

来自主题: AI资讯

8215 点击 2025-01-30 12:46

梁文锋就是AI界的黄峥

梁文锋带领着DeepSeek，还在继续搅动大模型行业。继用R1模型炸场之后，1月28日凌晨，除夕夜前一晚，DeepSeek又开源了其多模态模型Janus-Pro-7B，宣布在GenEval和DPG-Bench基准测试中击败了DALL-E 3（来自 OpenAI）和Stable Diffusion。

来自主题: AI资讯

8862 点击 2025-01-30 12:40