正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」
正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」如果你在过去一年关注过大模型训练的技术,大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器,被视为是可能挑战 Adam 的新秀。它的思路很直接:对动量矩阵进行正交化,让各个奇异方向上的更新速率一致,提升训练效率。
如果你在过去一年关注过大模型训练的技术,大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器,被视为是可能挑战 Adam 的新秀。它的思路很直接:对动量矩阵进行正交化,让各个奇异方向上的更新速率一致,提升训练效率。
这个看似科幻的想法,正在被一家名为Simile的公司变成现实。他们刚刚完成了1亿美元的A轮融资,由Index Ventures领投,Hanabi、A星、Bain Capital Ventures参与投资,连人工智能领域的传奇人物Andrej Karpathy、Fei-Fei Li、Adam D'Angelo等都加入了投资行列。
Aishwarya Naresh Reganti 和 Kiriti Badam 曾在 OpenAI、Google、Amazon、Databricks 等公司参与构建并成功推出了 50 多个企业级 AI 产品。最近,他们在播客节目中,与主持人 Lenny 细致分享了当前 AI 产品开发中的常见陷阱与成功路径。基于该播客视频,InfoQ 进行了部分删改。
多语言大模型(MLLM)在面对多语言任务时,往往面临一个选择难题:是用原来的语言直接回答,还是翻译成高资源语言去推理?
在 LLM 优化领域,有两个响亮的名字:Adam(及其变体 AdamW)和 Muon。
原文作者:David Adam 本篇《自然》长文共3702字,干货满满,预计阅读时间12分钟,时间不够建议可以先“浮窗”或者收藏哦。 研究表明,电子伙伴类应用有利有弊——但科学家们担心长期依赖性。 绘
自2014 年提出以来,Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位,帮助模型在海量数据下保持稳定并实现较快收敛。
为了降低大模型预训练成本,最近两年,出现了很多新的优化器,声称能相比较AdamW,将预训练加速1.4×到2×。但斯坦福的一项研究,指出不仅新优化器的加速低于宣称值,而且会随模型规模的增大而减弱,该研究证实了严格基准评测的必要性。
16岁的Adam,把最后的秘密留在一部手机里。而那个他最信任的「朋友」,不是同学,也不是家人,而是ChatGPT。它给过安慰,也递了刀子。父母的眼泪化成一纸诉状,矛头直指OpenAI。
Tailwind CSS联合创始人Adam Wathan在X平台发布了一条看似轻松的道歉推文:"我想正式为五年前让Tailwind UI中的每个按钮都使用bg-indigo-500道歉,这导致地球上每个AI生成的界面也变成了靛蓝。"