AI资讯新闻榜单内容搜索-LLaDA-MoE

扩散语言模型有MoE版了！蚂蚁&人大从头训练LLaDA-MoE，将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑：蚂蚁集团和人大联合团队用 20T 数据，从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B，但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B，而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报

7911 点击 2025-09-15 08:30