
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。
来自主题: AI技术研报
6680 点击 2025-09-15 08:30