
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了在 ChatGPT 等大语言模型(LLMs)席卷全球的今天,越来越多的研究者意识到:我们需要的不只是 “会说话” 的 LLM,更是 “能解释” 的 LLM。
来自主题: AI技术研报
7733 点击 2025-06-22 16:25
在 ChatGPT 等大语言模型(LLMs)席卷全球的今天,越来越多的研究者意识到:我们需要的不只是 “会说话” 的 LLM,更是 “能解释” 的 LLM。
推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。
简而言之:矩阵 → ReLU 激活 → 矩阵