AI资讯新闻榜单内容搜索-矩阵乘法

FlashAttention-4正式发布：算法流水线大改，矩阵乘法级速度

近日，深度学习领域重要底层优化技术 FlashAttention 迎来大版本更新。FlashAttention 核心作者、普林斯顿大学助理教授 Tri Dao 表示，在 Blackwell GPU 上，即使瓶颈截然不同，注意力机制的执行速度现在也几乎与矩阵乘法一样快了！

来自主题: AI技术研报

9389 点击 2026-03-06 15:30

大模型能否为不同硬件平台生成高性能内核？南大、浙大提出跨平台内核生成评测框架MultiKernelBench

在深度学习模型的推理与训练过程中，绝大部分计算都依赖于底层计算内核（Kernel）来执行。计算内核是运行在硬件加速器（如 GPU、NPU、TPU）上的 “小型高性能程序”，它负责完成矩阵乘法、卷积、归一化等深度学习的核心算子运算。

来自主题: AI技术研报

8439 点击 2025-08-25 15:44

震撼全网，AlphaEvolve矩阵乘法突破被证明为真！开发者用代码证实

太震撼了，有开发者代码实证后发现，谷歌AlphaEvolve的矩阵乘法突破，被证明为真！Claude辅助下，他成功证明，它果然仅用了48次乘法，就正确完成了4×4矩阵的乘法运算。接下来，可以坐等AlphaEvolve更「奇点」的发现了。

来自主题: AI技术研报

11273 点击 2025-05-20 10:58

DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世

DeepSeek 的开源周已经进行到了第三天（前两天报道见文末「相关阅读」）。今天开源的项目名叫 DeepGEMM，是一款支持密集型和专家混合（MoE）GEMM 的 FP8 GEMM 库，为 V3/R1 的训练和推理提供了支持，在 Hopper GPU 上可以达到 1350+ FP8 TFLOPS 的计算性能。

来自主题: AI资讯

8906 点击 2025-02-26 10:58

一文详解：DeepSeek 第三天开源的 DeepGEMM

DeepSeek 开源周的第三天，带来了专为 Hopper 架构 GPU 优化的矩阵乘法库 — DeepGEMM。这一库支持标准矩阵计算和混合专家模型（MoE）计算，为 DeepSeek-V3/R1 的训练和推理提供强大支持，在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。

来自主题: AI技术研报

8209 点击 2025-02-26 10:46

大模型终端部署新趋势：硬件直接支持混合矩阵乘法

在人工智能领域，模型参数的增多往往意味着性能的提升。但随着模型规模的扩大，其对终端设备的算力与内存需求也日益增加。低比特量化技术，由于可以大幅降低存储和计算成本并提升推理效率，已成为实现大模型在资源受限设备上高效运行的关键技术之一。然而，如果硬件设备不支持低比特量化后的数据模式，那么低比特量化的优势将无法发挥。

来自主题: AI资讯

5015 点击 2024-08-19 14:49