AI资讯新闻榜单内容搜索-集群

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 集群
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。

来自主题: AI技术研报
10688 点击    2024-07-29 20:16
从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本

从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本

从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本

我们知道 LLM 是在大规模计算机集群上使用海量数据训练得到的,机器之心曾介绍过不少用于辅助和改进 LLM 训练流程的方法和技术。而今天,我们要分享的是一篇深入技术底层的文章,介绍如何将一堆连操作系统也没有的「裸机」变成用于训练 LLM 的计算机集群。

来自主题: AI技术研报
9489 点击    2024-07-24 16:57
电脑平板组AI集群,在家就能跑400B大模型,GitHub狂揽2.5K星​

电脑平板组AI集群,在家就能跑400B大模型,GitHub狂揽2.5K星​

电脑平板组AI集群,在家就能跑400B大模型,GitHub狂揽2.5K星​

不用H100,三台苹果电脑就能带动400B大模型。 背后的功臣,是GitHub上的一个开源分布式AI推理框架,已经斩获了2.5k星标。

来自主题: AI技术研报
8354 点击    2024-07-23 00:26
AI争霸战开启!OpenAI急建10万块GB200超算,马斯克10万块H100月末开训

AI争霸战开启!OpenAI急建10万块GB200超算,马斯克10万块H100月末开训

AI争霸战开启!OpenAI急建10万块GB200超算,马斯克10万块H100月末开训

马斯克官宣xAI建造的世界最大超算集群,由10万块H100搭建,预计本月末开始投入训练。另一边,OpenAI再次加码,将打造由10万块GB200组成的超算,完全碾压xAI。

来自主题: AI资讯
10457 点击    2024-07-16 19:48
AI主战场,万卡是标配:国产GPU万卡万P集群来了!

AI主战场,万卡是标配:国产GPU万卡万P集群来了!

AI主战场,万卡是标配:国产GPU万卡万P集群来了!

Scaling Law 持续见效,让算力就快跟不上大模型的膨胀速度了。「规模越大、算力越高、效果越好」成为行业圭皋。主流大模型从百亿跨越到 1.8 万亿参数只用了1年,META、Google、微软这些巨头也从 2022 年起就在搭建 15000 卡以上的超大集群。「万卡已然成为 AI 主战场的标配。」

来自主题: AI资讯
7727 点击    2024-07-05 00:11