AI资讯新闻榜单内容搜索-Nemotron

英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

英伟达在开源模型上玩的很激进： “最高效的开放模型家族”Nemotron 3，混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底：

来自主题: AI资讯

7360 点击 2025-12-26 15:48

就在刚刚，英伟达正式开源发布了其新一代AI模型：NVIDIA Nemotron 3。Nemotron 3 系列由三种型号组成：Nano、Super 和 Ultra。官方介绍其具备强大的智能体、推理和对话能力。

来自主题: AI技术研报

8869 点击 2025-12-16 17:21

导读过去两年，小语言模型（SLM）在业界备受关注：参数更少、结构更轻，理应在真实部署中 “更快”。但只要真正把它们跑在 GPU 上，结论往往令人意外 —— 小模型其实没有想象中那么快。

来自主题: AI技术研报

7835 点击 2025-12-01 10:09

Transformer 架构对计算和内存的巨大需求使得大模型效率的提升成为一大难题。为应对这一挑战，研究者们投入了大量精力来设计更高效的 LM 架构。

来自主题: AI技术研报

7662 点击 2025-08-27 11:46

Jet-Nemotron是英伟达最新推出的小模型系列（2B/4B），由全华人团队打造。其核心创新在于提出后神经架构搜索（PostNAS）与新型线性注意力模块JetBlock，实现了从预训练Transformer出发的高效架构优化。

来自主题: AI技术研报

8086 点击 2025-08-26 19:34

英伟达开源又放大招了！韩松团队推出了一款全新的基于后神经架构搜索的高效语言模型——Jet-Nemotron。

来自主题: AI资讯

7420 点击 2025-08-26 19:00

英伟达发布全新架构9B模型，以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍，对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

来自主题: AI资讯

8251 点击 2025-08-19 11:35

众所周知，老黄不仅卖铲子（GPU），还自己下场开矿（造模型）。

来自主题: AI资讯

8091 点击 2025-07-30 10:37

基于Qwen2.5架构，采用DeepSeek-R1-0528生成数据，英伟达推出的OpenReasoning-Nemotron模型，以超强推理能力突破数学、科学、代码任务，在多个基准测试中创下新纪录！数学上，更是超越了o3!

来自主题: AI资讯

9363 点击 2025-07-20 23:43

老黄惊喜现身，与95后清华校友合影曝光，确认Banghua Zhu加入Star Nemotron团队，专注企业级智能体研发。同时Jiantao Jiao官宣入职英伟达。两人曾联合创办Nexusflow。

来自主题: AI资讯

7051 点击 2025-06-29 13:22