AI资讯新闻榜单内容搜索-Locate

视觉推理「囫囵吞枣」靠不住！ProLaViT教会多模态大模型在隐空间里「步步为营」

针对这一挑战，腾讯内容服务部 BAC 提出了一个名为 ProLaViT（Progressive Latent Visual Thought）的全新框架。它的核心思想是：别急着下结论，先在连续隐空间里像人一样「步步推导」。即让模型遵循「定位 → 聚焦 → 分离」（Locate → Focus → Isolate）的因果链，逐步收紧视觉注意力，最终精准锁定目标。

来自主题: AI技术研报

8664 点击 2026-07-21 16:55

大模型哪里出问题、怎么修，这篇可解释性综述一次讲清

过去几年，机制可解释性（Mechanistic Interpretability）让研究者得以在 Transformer 这一 “黑盒” 里追踪信息如何流动、表征如何形成：从单个神经元到注意力头，再到跨层电路。但在很多场景里，研究者真正关心的不只是 “模型为什么这么答”，还包括 “能不能更稳、更准、更省，更安全”。

来自主题: AI技术研报

11297 点击 2026-01-28 10:13