网友缝合Llama3 120B竟意外能打,轻松击败GPT2-chatbot和GPT-4
网友缝合Llama3 120B竟意外能打,轻松击败GPT2-chatbot和GPT-4Llama 3首发阵容里没有的120B型号竟意外“曝光”,而且十分能打?!
Llama 3首发阵容里没有的120B型号竟意外“曝光”,而且十分能打?!
猛然间,大模型圈掀起一股“降价风潮”。
提高 GPU 利用率,就是这么简单。
36氪获悉,AI医学影像企业「深智透医」(简称“深透”,Subtle Medical Inc.)近日完成B+轮近千万美元融资,由老股东Fusion Fund,新股东嘉加资本(ENVISIONX Capital)、蓝驰创投硅谷总部基金Bluerun Ventures、上海文周投资及其它亚太区域战略合作方共同投资。本轮融资将用于加速AI产品的全球商业落地及研发创新。
「如果这可以重现的话,这就是我们所知的世界末日!功能建模的新时代已经开始。」欧洲分子生物学实验室(EMBL)的科学家 Jan Kosinski 发推文表示。他在 AlphaFold 3 发布后,立刻用它做了一系列简单的测试,并把相关结果发在了 X 上。
众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。
近日,美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功的经历,引发了网友们的一大片点赞。令人惊讶的是,他仅用两周时间就完成了这一脑力壮举。在 Twitter/X 的主题帖子中,Majmudar 进行了直播,一步步带我们回顾了整个过程。
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
最少只需1个3D样例,即可生成3D主题乐园。
微软&清华最新研究,打破GPT系列开创的Decoder-Only架构——