AI资讯新闻榜单内容搜索-训练

Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

Mamba模型由于匹敌Transformer的巨大潜力，在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下，这两个架构还未有「一较高低」的机会。最近，英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。

来自主题: AI技术研报

5307 点击 2024-07-13 19:32

OpenAI被曝出了新项目「草莓」，据悉能提前计划，自主浏览网页，还能进行深度研究。草莓由大量通用数据上后训练而成，推理能力显著提高。根据OpenAI最近的AGI路线图，草莓疑似已达Level 2。

来自主题: AI资讯

7542 点击 2024-07-13 18:53

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。

来自主题: AI技术研报

11014 点击 2024-07-13 18:39

OpenAI最新绝密项目曝光！

来自主题: AI资讯

10056 点击 2024-07-13 18:01

自从大型 Transformer 模型逐渐成为各个领域的统一架构，微调就成为了将预训练大模型应用到下游任务的重要手段

来自主题: AI技术研报

11333 点击 2024-07-12 17:47

论老黄卖铲子的技术含量。

来自主题: AI资讯

10193 点击 2024-07-12 17:42

生成式模型原本被设计来模仿人类的各种复杂行为，但人们普遍认为它们最多只能达到与其训练数据中的专家相当的水平。不过，最新的研究突破了这一限制，表明在特定领域，如国际象棋，通过采用低温采样技术，这些模型能够超越它们所学习的那些专家，展现出更高的能力。

来自主题: AI技术研报

10539 点击 2024-07-12 17:18

时隔一年，FlashAttention又推出了第三代更新，专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升。

来自主题: AI技术研报

10469 点击 2024-07-12 16:57

大模型训练推理神作，又更新了！

来自主题: AI资讯

10560 点击 2024-07-12 15:39

最近，一位AI炒菜机器人不仅向人类大厨发起了PK，而且还通过了「图灵测试」：根本吃不出来是AI机器人炒的！而在这背后，竟然是1.5个亿的投入和近7吨菜的训练。

来自主题: AI资讯

10277 点击 2024-07-11 21:07