区别于Megatron-LM社区已有的EP(Expert Parallel)和ETP(Expert Tensor Parallel)设计,昆仑万维提出了一种称之为Expert Data Parallel的并行设计方案,这种并行方案可以在Expert数量较小时仍能高效的切分模型,对Expert引入的 all2all通信也可以最大程度的优化和掩盖。相较于EP对GPU数量的限制和ETP在千卡集群上的低效, EDP可以较好的解决大规模分布式训练MoE的并行痛点,同时EDP的设计简单、鲁棒、易扩展,可以较快的实现和验证。
一个可以遵循的经验规则是:如果训练MoE模型的FLOPs是训练Dense模型的2倍以上,那么选择from Scratch训练MoE会更好,否则的话,选择Upcycling训练MoE 可以明显减少训练成本。
昆仑万维希望本次开源的Skywork-MoE模型、技术报告和相关的实验结果可以给开源社区贡献更多的MoE训练经验和Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面,探索用更低的训练推理成本训更大更强的模型,在通往AGI的道路上贡献一点力量。
昆仑万维基于目前各大主流模型评测榜单评测了Skywork-MoE,在相同的激活参数量20B(推理计算量)下,Skywork-MoE能力在行业前列,接近70B的Dense模型,使得模型的推理成本有近3倍的下降。同时Skywork-MoE的总参数大小比DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。
Skywork-MoE是目前能在8x4090服务器上推理的最大的开源MoE模型。8x4090服务器一共有192GB的GPU显存,在FP8量化下(weight占用146GB),使用昆仑万维首创的非均匀Tensor Parallel并行推理方式,Skywork-MoE可以在合适的batch size 内达到2200 tokens/s的吞吐。
由于first stage的Embedding计算和last stage的Loss计算,以及Pipeline Buffer的存在,流水并行下均匀切分Layer时的各stage计算负载和显存负载均有较明显的不均衡情况。昆仑万维提出了非均匀的流水并行切分和重计算Layer分配方式,使得总体的计算/显存负载更均衡,约有10%左右的端到端训练吞吐提升。
此外,Skywork-MoE还通过一系列基于Scaling Laws的实验,探究哪些约束会影响Upcycling和From Scratch训练MoE模型的好坏。
永不磨灭的番号 下载网盘在线观看6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台4090服务器推理的开源千亿MoE大模型。
昆仑万维在Gating Layer的token分发逻辑处新增了一个normalization操作,使得Gating Layer的参数学习更加趋向于被选中的top-2 experts,增加MoE模型对于top-2的置信度:
有别于传统的固定系数(固定超参)的aux loss,昆仑万维在MoE训练的不同阶段让模型自适应的选择合适的aux loss超参系数,从而让Drop Token Rate保持在合适的区间内,既能做到expert分发的平衡,又能让expert学习具备差异化,从而提升模型整体的性能和泛化水平。在MoE训练的前期,由于参数学习不到位,导致Drop Token Rate太高(token分布差异太大),此时需要较大的aux loss帮助token load balance;在MoE训练的后期,昆仑万维希望Expert之间仍保证一定的区分度,避免 Gating倾向为随机分发Token,因此需要较低的aux loss降低纠偏。
为了解决MoE模型训练困难,泛化性能差的问题,相较于Mixtral-MoE, Skywork-MoE设计了两种训练优化算法:
如何对MoE模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE提出了两个重要的并行优化设计,从而在千卡集群上实现了MFU 38%的训练吞吐,其中MFU以22B的激活参数计算理论计算量。
本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。
永不磨灭的番号 下载网盘在线观看在哪下载安装?永不磨灭的番号 下载网盘在线观看好用吗?
作者: 无情恋苍生 00:02431.57MB
查看945.95MB
查看91.6MB
查看961.64MB
查看257.38MB
查看891.74MB
查看689.51MB
查看333.62MB
查看873.47MB
查看182.40MB
查看171.11MB
查看722.38MB
查看605.36MB
查看575.86MB
查看985.63MB
查看388.76MB
查看623.43MB
查看267.95MB
查看263.51MB
查看527.36MB
查看435.69MB
查看554.47MB
查看672.51MB
查看848.66MB
查看909.58MB
查看142.74MB
查看125.42MB
查看564.91MB
查看244.97MB
查看965.40MB
查看306.56MB
查看821.35MB
查看681.86MB
查看588.26MB
查看409.91MB
查看260.95MB
查看203.18MB
查看481.60MB
查看593.23MB
查看433.12MB
查看670.33MB
查看776.81MB
查看335.76MB
查看138.24MB
查看312.67MB
查看321.23MB
查看517.99MB
查看212.93MB
查看603.43MB
查看748.87MB
查看760.90MB
查看851.12MB
查看300.21MB
查看449.24MB
查看930.98MB
查看137.45MB
查看996.18MB
查看954.31MB
查看485.81MB
查看673.67MB
查看236.64MB
查看410.22MB
查看421.30MB
查看681.60MB
查看878.50MB
查看991.28MB
查看707.35MB
查看414.44MB
查看264.88MB
查看729.21MB
查看307.10MB
查看815.75MB
查看436.57MB
查看987.16MB
查看393.95MB
查看556.17MB
查看587.89MB
查看269.21MB
查看895.85MB
查看821.46MB
查看629.94MB
查看378.31MB
查看831.92MB
查看215.69MB
查看261.45MB
查看160.56MB
查看115.99MB
查看945.58MB
查看820.98MB
查看140.66MB
查看659.81MB
查看772.42MB
查看372.84MB
查看621.11MB
查看451.33MB
查看785.62MB
查看877.55MB
查看543.53MB
查看368.62MB
查看746.43MB
查看458.70MB
查看493.89MB
查看917.79MB
查看286.63MB
查看
664 佛山zc
青岛:加大金融招商奖补力度 对符合条件的法人金融机构给予最高不超过1.2亿元的一次性补助⏬
2025-07-03 06:11:50 推荐
492 188****5746
国泰基金:为什么大家喜欢爱分红的基金⏰
2025-07-01 01:33:29 不推荐
678 152****9084
电力板块大涨,手握10支电力股的长江电力“赢麻了”⏸
2025-07-02 13:36:29 推荐
71 索尼克花样滑板
芯片股,地产股,涨起来了!Ⓜ
2025-07-01 12:27:45 推荐