AI资讯新闻榜单内容搜索-MLA

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

10370 点击 2025-06-17 10:21

端到端GUI智能体首次实现“犯错-反思-修正”闭环，模拟人类认知全过程

端到端多模态GUI智能体有了“自我反思”能力！南洋理工大学MMLab团队提出框架GUI-Reflection。

来自主题: AI技术研报

11072 点击 2025-06-12 12:11

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

“先推理、再作答”，语言大模型的Thinking模式，现在已经被拓展到了图片领域。

来自主题: AI技术研报

9076 点击 2025-05-13 15:02

DeepSeek的MLA，任意大模型都能轻松迁移了

DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界，特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络（Multi-head Latent Attention, MLA）是其经济推理架构的核心之一，通过对键值缓存进行低秩压缩，显著降低推理成本 [1]。

来自主题: AI技术研报

6580 点击 2025-03-07 10:24

小学生也能听懂的FlashMLA技术解析 - 哆啦 A 梦的「超高效作业处理魔盒」！

大雄：（趴在书桌前抓头发）哆啦 A 梦！今天的作文题目是《未来的机器人》，可是我要写800字！写不完啦！哆啦 A 梦：（得意叉腰）别担心！我刚从22世纪带来了「超高效作业处理器」——FlashMLA 魔盒！它能让写作文像吃铜锣烧一样快哦！

来自主题: AI资讯

8317 点击 2025-02-25 09:41

DeepSeek-R1秘籍轻松迁移，最低只需原始数据0.3% | 邱锡鹏团队联合出品

DeepSeek-R1背后关键——多头潜在注意力机制（MLA），现在也能轻松移植到其他模型了！

来自主题: AI技术研报

7646 点击 2025-02-24 16:53

一文详解DeepSeek开源的FlashMLA，他们才是真正的“源神”

刚刚，万众瞩目的DeepSeek，开源了他们第一天的项目。FlashMLA是一款面向Hopper GPU的高效MLA解码内核，并针对可变长度序列的服务场景进行了优化。

来自主题: AI资讯

10041 点击 2025-02-24 11:28

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

DeepSeek开源周第一天就放大招！FlashMLA强势登场，这是专为英伟达Hopper GPU打造MLA解码内核。注意，DeepSeek训练成本极低的两大关键，一个是MoE，另一个就是MLA。

来自主题: AI资讯

10847 点击 2025-02-24 10:57

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。第一个项目，果然与推理加速有关。北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。

来自主题: AI资讯

9940 点击 2025-02-24 10:26

DeepSeek、OpenAI、Kimi视觉推理到底哪家强？港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维（Chain-of-Thought, CoT）展示了超强的推理能力，但这一能力能多大程度地帮助视觉推理，又应该如何细粒度地评估视觉推理呢？

来自主题: AI技术研报

9969 点击 2025-02-22 21:27