AI资讯新闻榜单内容搜索-注意力机制

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

用 FlexAttention 尝试一种新的注意力模式。

来自主题: AI资讯

9945 点击 2024-08-10 18:05

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。

来自主题: AI技术研报

7474 点击 2024-07-09 15:41

「吗喽」在想啥？AI读心术精准重建猕猴大脑图像，网友：我们成三体人了

荷兰拉德布德大学的研究团队通过定位大脑注意力机制，在AI「读心术」领域精确生成图像，能够依据大脑活动记录极为准确地重建猕猴所看到的内容。网友：这是人机融合的最终目标。

来自主题: AI技术研报

10330 点击 2024-07-05 16:27

拆分Transformer注意力，韩国团队让大模型解码提速20倍

只要将注意力切块，就能让大模型解码提速20倍。

来自主题: AI技术研报

11081 点击 2024-07-01 15:34

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

想要达成通用人工智能 AGI 的终极目标，首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点，大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链（Chain-of-Thought）等技术正是由此产生的灵感。

来自主题: AI技术研报

9220 点击 2024-06-29 00:14

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

Transformer挑战者、新架构Mamba，刚刚更新了第二代：

来自主题: AI技术研报

11895 点击 2024-06-04 16:13

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

9041 点击 2024-06-04 15:20

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制？中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源，并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型， vHeat 同时兼顾了：计算复杂度（1.5次方）、全局感受野、物理可解释性。

来自主题: AI技术研报

10166 点击 2024-06-03 17:51

ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

在大模型实际部署落地的过程中，如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战，分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时，会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。

来自主题: AI技术研报

10085 点击 2024-05-29 16:18

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

7594 点击 2024-05-12 15:49

AI资讯新闻榜单内容搜索-注意力机制

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

「吗喽」在想啥？AI读心术精准重建猕猴大脑图像，网友：我们成三体人了

拆分Transformer注意力，韩国团队让大模型解码提速20倍

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer