AI资讯新闻榜单内容搜索-transforme

大模型哪里出问题、怎么修，这篇可解释性综述一次讲清

过去几年，机制可解释性（Mechanistic Interpretability）让研究者得以在 Transformer 这一 “黑盒” 里追踪信息如何流动、表征如何形成：从单个神经元到注意力头，再到跨层电路。但在很多场景里，研究者真正关心的不只是 “模型为什么这么答”，还包括 “能不能更稳、更准、更省，更安全”。

来自主题: AI技术研报

11069 点击 2026-01-28 10:13

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

编辑｜Panda 在文生图模型的技术版图中，VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX，再到一系列扩散 Transformer，主流路线高度一致：先用 VAE 压缩视

来自主题: AI技术研报

8002 点击 2026-01-24 10:52

清华姚班校友刘壮团队再发力，无需归一化的Transformer性能进化

这篇新论文提出了一种非常简单的新激活层 Derf（Dynamic erf），让「无归一化（Normalization-Free）」的 Transformer 不仅能稳定训练，还在多个设置下性能超过了带 LayerNorm 的标准 Transformer。

来自主题: AI技术研报

8548 点击 2026-01-24 10:38

非Transformer架构的新突破，Liquid AI开源LFM2.5-1.2B-Thinking模型

就在刚刚，Liquid AI 又一次在 LFM 模型上放大招。他们正式发布并开源了 LFM2.5-1.2B-Thinking，一款可完全在端侧运行的推理模型。Liquid AI 声称，该模型专门为简洁推理而训练；在生成最终答案前，会先生成内部思考轨迹；在端侧级别的低延迟条件下，实现系统化的问题求解；在工具使用、数学推理和指令遵循方面表现尤为出色。

来自主题: AI资讯

12818 点击 2026-01-22 11:59