
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
第一个100%开源的MoE大模型,7B的参数,1B的推理成本训练代码、中间 checkpoint、训练日志和训练数据都已经开源。
来自主题: AI技术研报
8229 点击 2024-09-05 22:02
训练代码、中间 checkpoint、训练日志和训练数据都已经开源。
上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。
我们都知道,大语言模型(LLM)能够以一种无需模型微调的方式从少量示例中学习,这种方式被称为「上下文学习」(In-context Learning)。这种上下文学习现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的性能,但还是有很多场景受限于资源或者实时性要求较高,无法使用大模型。