AI资讯新闻榜单内容搜索-Attention

多模态大模型中Attention机制暗藏「骗局」，需用一个公式修正丨上大×南开

Attention真的可靠吗？

来自主题: AI技术研报

7821 点击 2026-01-27 16:17

AAAI 2026 Oral | 告别注意力与热传导！北大清华提出WaveFormer，首创波动方程建模视觉

“全局交互” 几乎等同于 self-attention：每个 token 都能和所有 token 对话，效果强，但代价也直观 —— 复杂度随 token 数平方增长，分辨率一高就吃不消。现有方法大多从 “相似度匹配” 出发（attention），或从 “扩散 / 传导” 出发（热方程类方法）。但热方程本质上是一个强低通滤波器：随着传播时间增加，高频细节（边缘、纹理）会迅速消失，导致特征过平滑。

来自主题: AI技术研报

8077 点击 2026-01-21 10:39

仅需15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了

为什么大模型厂商给了 128K 的上下文窗口，却在计费上让长文本显著更贵？

来自主题: AI技术研报

7175 点击 2025-12-24 10:07

ConsistEdit来了：无需训练，实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法，凭借灵活、高效的特性，已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制（如 Prompt-to-Prompt、MasaCtrl）实现文本引导编辑，但当前技术存在两大核心痛点，严重限制其在复杂场景的应用

来自主题: AI技术研报

9742 点击 2025-11-19 15:19

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

今年 2 月，月之暗面提出了一种名为 MoBA 的注意力机制，即 Mixture of Block Attention，可以直译为「块注意力混合」。

来自主题: AI技术研报

10132 点击 2025-11-18 15:15

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

8613 点击 2025-11-11 10:24

我MiniMax，用实习生处理数据，照样屠榜开源大模型

屠榜开源大模型的MiniMax M2是怎样炼成的？为啥M1用了Linear Attention，到了M2又换成更传统的Full Attention了？面对现实任务，M2表现得非常扛打，在香港大学的AI-Trader模拟A股大赛中拿下了第一名，20天用10万本金赚了将近三千元。

来自主题: AI资讯

8159 点击 2025-11-04 20:23

ICCV 2025 | FDAM：告别模糊视界，源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer（ViT）因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题，我们提出了一种即插即用、受电路理论启发的频率动态注意力调制（FDAM）模块。它通过巧妙地 “反转” 注意力以生成高频补偿，并对特征频谱进行动态缩放，最终在几乎不增加计算成本的情况下，大幅提升了模型在分割、检测等密集预测任务上的性能，并取得了 SOTA 效果。

来自主题: AI技术研报

6811 点击 2025-10-16 14:35

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

英伟达还能“猖狂”多久？——不出三年！实现AGI需要新的架构吗？——不用，Transformer足矣！ “近几年推理成本下降了100倍，未来还有望再降低10倍！” 这些“暴论”，出自Flash Attention的作者——Tri Dao。

来自主题: AI资讯

8528 点击 2025-09-29 22:06

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

刚发V3.1“最终版”，DeepSeek最新模型又来了！DeepSeek-V3.2-Exp刚刚官宣上线，不仅引入了新的注意力机制——DeepSeek Sparse Attention。还开源了更高效的TileLang版本GPU算子！

来自主题: AI资讯

10291 点击 2025-09-29 19:04