你的位置：开元ky888网址进入下载 > 新闻中心 > 开云kaiyunMuon 的中枢念念想是通过正交化梯度更新矩阵-开元ky888网址进入下载

开云kaiyunMuon 的中枢念念想是通过正交化梯度更新矩阵-开元ky888网址进入下载

时间：2025-03-05 08:40 点击：187 次

算力需求比 AdamW 直降 48%，OpenAI 手艺东谈主员冷落的西席优化算法 Muon开云kaiyun，被月之暗面团队又鼓动了一步！

团队发现了 Muon 智商的 Scaling Law，作念出转变并讲解了 Muon 对更大的模子雷同适用。

在参数目最高 1.5B 的不同 Llama 架构模子上，转变后的 Muon 算力需求仅为 AdamW 的 52%。

同期团队还基于 DeepSeek 架构西席出了一个 16B 的 MoE 模子，与转变后的优化算法一同开源。

Muon 手艺博客发布那时主要适用于较小的模子和数据集，作家留住了三个悬而未决的问题：

Muon 能否用于更大范畴的西席？

Muon 能否在更大范畴的 GPU 集群上使用？

Muon 是否雷同适用于微和谐强化学习？

现时月暗团队用实践给出了回复——一王人都是 Yes。

音问一出，那时 Muon 的作家也都很振作，主要作家Keller Jordan暗示这是 Muon 范畴化的首个得手汇报，为团队奉上了祝愿。

另又名孝顺者，那时肃穆 Muon 范畴化实践的 Hyperbolic Labs 联创兼 CTO Yuchen Jin也暗示，月暗团队的这项效用，是 Muon 的一次获胜。

将 AdamW 特色引入 Muon

在先容月暗团队的使命之前，先来了解一下 Muon 是个什么样的手艺。

这是一种神经会聚掩饰层的 2D 参数优化器，主要作家是 OpenAI 深度学习团队的 Keller Jordan。

这项效用发表于客岁的 12 月 8 日，而 Keller 亦然客岁 12 月加入的 OpenAI。

Muon 的中枢念念想是通过正交化梯度更新矩阵，幸免参数更新堕入局部极小，使模子好像学习到愈加万般化的特征暗示。

在 94% 的精度下，Muon 把 CIFAR-10 在 A100 上的西席时候从 3.3 秒镌汰至 2.6 秒。

不外那时 Muon 团队只讲解了其在袖珍模子和数据集上的可行性，关于较大的模子能否适用则是个未知数。

现时经过月暗团队的转变之后，Muon被讲解关于更大的模子和数据集雷同适用。

针对模子自己，团队招揽了 AdamW 中的一些特色，移植到了 Muon 当中，具体包括两个方面。

一是引入了权重衰减机制，在权重更新公式中添加了一个带有衰减统统的项。

这么作念的原因是作家发现径直将 Muon 哄骗到大范畴西席时，模子权重和层输出的幅度会抓续增长，最终超出 bf16 的高精度暗示边界，毁伤模子性能。

在西席一个 8 亿参数模子至 100B tokens（约 5 倍野心预算最优）的历程中，团队对比了 AdamW、无权重衰减的 Muon 和带权重衰减的 Muon。

收尾显露，带权重衰减的 Muon 在过拟合阶段获得了最好效果，考证了权重衰减的必要性。

第二项转变，是调治了 Muon 的参数更新设施，使不同步地矩阵参数的更新幅度保抓一致，并与 AdamW 的更新幅度匹配。

Muon 的一个特色是，关于步地为 [ A,B ] 的矩阵参数，其表面更新幅度为 sqrt ( 1/max ( A,B ) ) 。

这导致不同步地矩阵参数的更新幅度互异很大，比如关于 MLP 这种宽矩阵，更新会过小，而将每个 head 看作独处矩阵时，更新又会过大。

此外，这个幅度也与 AdamW 不一致，给超参数的设立带来费劲。

为了让不同矩阵参数的更新幅度匹配，并与 AdamW 保抓一致，作家尝试了几种转变有计算，最终聘用径直基于步地调治每个参数的学习率。

其中 0.2 是通过实践详情的一个常数，用于将 Muon 的更新设施与 AdamW 对王人。

除了对 Muon 自己的转变，要想将 Muon 用于更大范畴的西席，还需要将其彭胀到辞别式西席环境中。

由于 Muon 需要完满的梯度矩阵来野心正交化的更新量，而现存的辞别式西席框架（如 ZeRO-1、Megatron-LM 等）都假定优化器景色不错独当场按元素切分到不同设立上，是以它们无法径直复旧 Muon。

为了措置这个问题，论文作家冷落了辞别式 Muon 的并行化战略。

它在 ZeRO-1 的基础上引入了两个罕见的操作 :

一是在每个数据并行组内作念梯度团员通讯，将辞别的梯度切片归拢成完满的矩阵；

二是基于团员后的梯度矩阵并行野心正交化的更新量，然后只保留与腹地参数对应的那一部分。

这种完了情势在最小化内存占用和通讯支拨的同期，最大截止地保留了原始 Muon 算法的数学性质。

讲解 Muon 彭胀可行性

基于上述 Muon 转变 , 作家获得了以下效用，作家在 Llama 架构的一系列闹热模子上，进行了 Muon 和 AdamW 的模子缩放对比实践。

收尾标明 , 在野心预算最优的情况下，Muon 的样本效用是 AdamW 的 1.92 倍，即西席 FLOPS 只需 AdamW 的 52%，就能达到十分的性能。

这一发现阐明了 Muon 在大范畴西席中的效用上风。

在此基础之上，作家以 DeepSeek-V3-Small 架构当作基础，用转变的 Muon 西席了Moonlight模子。

Moonlight 是一个 MoE 模子，具有 15.29B 的总参数和 2.24B 激活参数，西席 token 量为 5.7T。

与换取范畴和数据量的模子比较，Moonlight 在英语理会与推理（MMLU、TriviaQA、BBH）、代码生成（HumanEval、MBPP）、数学推理（GSM8K、MATH、CMATH）、汉文理会（C-Eval、CMMLU）等各种任务上都获得了昭彰更好的性能。

即使与使用更大数据集西席的闹热模子比较，Moonlight 也展现了极强的竞争力。

与多个闻名言语模子的对比标明，Moonlight在性能 - 西席预算平面上鼓动了帕累托前沿（Pareto Frontier）。

（注：帕累托前沿是一个经济学和照顾学中的观点，描述的是在多宗旨决策问题中扫数可能的最优解的聚会，这些解在多个宗旨之间获得了最好均衡。在帕累托前沿上的每一个点，都意味着一个宗旨的改善势必以糟跶另一个宗旨为代价，因此它代表了在多个宗旨之间完了的最好量度。）

为了进一步分析 Muon 更新矩阵参数的内在机制，作家对比了 Muon 和 AdamW 西席得到的模子在不同西席阶段的参数矩阵奇异值谱。

收尾发现，Muon 优化的矩阵在各层各种参数上，老是比 AdamW 有更高的奇异值熵。这从教训上考证了 Muon 通过正交化来学习更万般化暗示的直观。

临了，在 Moonlight 模子的基础上，作家还探索了 Muon 在指令微调阶段的效果，收尾标明，在预西席和微调阶段均使用 Muon 的效果是最好的。

手艺汇报：

https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

Code：

https://github.com/MoonshotAI/Moonlight

Moonlight 模子：

https://huggingface.co/moonshotai/Moonlight-16B-A3B开云kaiyun

北京时辰24日晚开云kaiyun，好意思股周一早盘转跌，三大股指延续了上周后期的跌势。本周商场要点关怀英伟达财报与PCE通胀概念。苹果称异日四年将在好意思国投资5000亿好意思元、增多2万个责任岗亭用于出产AI服务器，以调换特朗普政府的关税减免。说念指跌37.51点，跌幅为0.09%，报43390.51点；纳指跌204.60点，跌幅为1.05%，报19319.41点；标普500指数跌28.65点，跌幅为0.48%，报5984.48点。好意思股延续了上周后期的下降趋势。上周四和周五好意思股衔

开云kaiyun官方网站该公司在上周五收到了SEC司法部门的一封信-开元ky888网址进入下载

好意思国证券交游委员会（SEC）周一浮现开云kaiyun官方网站，将消释对罗宾汉证券加密货币交游部门的探听。罗宾汉证券示意，该公司在上周五收到了SEC司法部门的一封信，该信称SEC也曾完毕了对其加密业务的探听，何况不测鼓舞司法活动。在此之前三天，Coinbase雷同文书SEC已承诺完毕针对它的探听与司法案件。 2024年5月，罗宾汉证券公司收到了一份奉告，该奉告劝诫它可能会因在其加密部门违抗证券法而受到指控。海量资讯、精确解读，尽在新浪财经APP 包袱剪辑：张俊 SF065开云kaiyu

开云kaiyun官方网站　　在给企业职工的示知中-开元ky888网址进入下载

星巴克咖啡连锁店首席实行官布莱恩-尼科尔周一暗意，星巴克将畏缩 1100 名企业职工，且数百个其他空白职位将不再招聘。这次裁人不会影响公司门店的职工。在给企业职工的示知中，尼科尔暗意，星巴克正在 “简化咱们的架构，减少层级和叠加教悔，打造范畴更小、更活泼的团队”。尼科尔写谈：“咱们的见解是更高效地运营，增强问责制，裁汰复杂性，鼓舞更好的交融。扫数这些的商量是愈加专注，并大概对咱们的优先事项产生更大影响。” 这次裁人之际，星巴克正试图在同店销售额辘集四个季度下滑后，重新诱惑咖啡奢华者回到其门