北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略 北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略 关键词: AI,模型训练,人工智能,AI代码模型 在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。 来自主题: AI技术研报 6504 点击 2025-12-25 09:46