AI资讯新闻榜单内容搜索-训练

大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司

关于大模型分词（tokenization），大神Karpathy刚刚推荐了一篇必读新论文。

来自主题: AI技术研报

11939 点击 2024-05-13 17:28

随着深度学习大语言模型的越来越火爆，大语言模型越做越大，使得其推理成本也水涨船高。模型量化，成为一个热门的研究课题。

来自主题: AI技术研报

5953 点击 2024-05-13 17:18

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

7398 点击 2024-05-12 15:49

大模型回答如何更可靠？MIT研究团队设计出「共识博弈」，将数学家常用的博弈论引入LLM改进中。没想到，LLaMA-7B的表现，击败了LLaMA-65B，甚至与PaLM-540B相媲美。

来自主题: AI技术研报

8700 点击 2024-05-12 15:19

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

来自主题: AI技术研报

6674 点击 2024-05-12 12:51

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

来自主题: AI技术研报

6986 点击 2024-05-12 11:26

在一个昏暗的机箱里，一台 RTX 3090 GPU「唱」着经典英语儿歌《一闪一闪亮晶晶》（Twinkle,Twinkle,Little Star）的旋律。

来自主题: AI资讯

7511 点击 2024-05-12 11:16

当地时间5月7日，ICLR 2024颁发了自大会举办以来的首个「时间检验奖」！

来自主题: AI技术研报

5461 点击 2024-05-11 13:13

DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门，成为了Hacker News等许多科技媒体的头版头条。

来自主题: AI技术研报

4545 点击 2024-05-11 13:06

传统上，大型语言模型（LLMs）被认为是顺序解码器，逐个解码每个token。

来自主题: AI技术研报

5460 点击 2024-05-10 23:29