估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」
估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」在大模型训练时,如何管理权重、避免数值爆炸与丢失?Thinking Machines Lab 的新研究「模块流形」提出了一种新范式,它将传统「救火式」的数值修正,转变为「预防式」的约束优化,为更好地训练大模型提供了全新思路。
来自主题: AI资讯
9949 点击 2025-09-27 16:10
搜索
在大模型训练时,如何管理权重、避免数值爆炸与丢失?Thinking Machines Lab 的新研究「模块流形」提出了一种新范式,它将传统「救火式」的数值修正,转变为「预防式」的约束优化,为更好地训练大模型提供了全新思路。