AI资讯新闻榜单内容搜索-transforme

空间智能新高度：港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer

香港科技大学谭平教授团队与地平线（Horizon Robotics）团队最新发布了一项 3D 场景表征与大规模重建新方法 SAIL-Recon，通过锚点图建立构建场景全局隐式表征，突破现有 VGGT 基础模型对于大规模视觉定位与 3D 重建的处理能力瓶颈，实现万帧级的场景表征抽取与定位重建，将空间智能「3D 表征与建模」前沿推向一个新的高度。

来自主题: AI技术研报

8832 点击 2025-09-08 10:19

英伟达再出手！新型混合架构模型问世，两大创新实现53.6倍吞吐提速

Transformer 架构对计算和内存的巨大需求使得大模型效率的提升成为一大难题。为应对这一挑战，研究者们投入了大量精力来设计更高效的 LM 架构。

来自主题: AI技术研报

8494 点击 2025-08-27 11:46

刚刚，英伟达新模型上线！4B推理狂飙53倍，全新注意力架构超越Mamba 2

Jet-Nemotron是英伟达最新推出的小模型系列（2B/4B），由全华人团队打造。其核心创新在于提出后神经架构搜索（PostNAS）与新型线性注意力模块JetBlock，实现了从预训练Transformer出发的高效架构优化。

来自主题: AI技术研报

9038 点击 2025-08-26 19:34

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

英伟达发布全新架构9B模型，以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍，对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

来自主题: AI资讯

9136 点击 2025-08-19 11:35

告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生

当前 GPT 类大语言模型的表征和处理机制，仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下，人类大脑直接在分布式的皮层区域中编码语义，如果将其视为一个语言处理系统，它本身就是一个在全局上可解释的「超大模型」。

来自主题: AI技术研报

8609 点击 2025-08-14 11:11

又是王冠：27M小模型超越o3-mini！拒绝马斯克的00后果然不同

27M小模型超越o3-mini-high和DeepSeek-R1！推理还不靠思维链。开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友，Sapient Intelligence的创始人王冠。

来自主题: AI技术研报

8636 点击 2025-08-10 15:00

千脑智能觉醒：感知-运动智能模型，亿倍优于视觉Transformer？

在大语言模型席卷全球的时代，坚持更接近生命本质的智能是少有人走的路。2025年7月初，一篇来自Numenta与Thousand Brains Project的论文，首次通过一个名为“Monty”的AI系统，实验性地验证了神经科学家杰夫·霍金斯（Jeff Hawkins）提出的“千脑智能理论”。

来自主题: AI资讯

7872 点击 2025-07-27 13:46

在WAIC现场，全球首个拥有「原生记忆力」的大模型亮相，但不是Transformer

国内 AI 创企 RockAI 提出的非 Transformer 架构 Yan 2.0 Preview。这个架构极大地降低了模型推理时的计算复杂度，因此可以在算力非常有限的设备上离线运行，比如树莓派。

来自主题: AI资讯

9916 点击 2025-07-26 19:51

斯坦福大模型推理课免费了，谷歌推理团队创始人主讲

如何理解大模型推理能力？现在有来自谷歌DeepMind推理负责人Denny Zhou的分享了。就是那位和清华姚班马腾宇等人证明了只要思维链足够长，Transformer就能解决任何问题的Google Brain推理团队创建者。 Denny Zhou围绕大模型推理过程和方法，在斯坦福大学CS25上讲了一堂“LLM推理”课。

来自主题: AI资讯

8552 点击 2025-07-25 16:57

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

大型语言模型已展现出卓越的能力，但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别，训练和推理的成本变得高昂，阻碍了其在许多实际应用中的推广与落地。

来自主题: AI技术研报

7818 点击 2025-07-18 11:58