MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。最近,谷歌DeepMind提出了全新的策略PEER,可将MoE扩展到百万个专家,还不会增加计算成本。
来自主题: AI技术研报
9746 点击 2024-07-15 20:01