国产chinesehdxxxx老太婆,办公室玩弄爆乳女秘hd,扒开腿狂躁女人爽出白浆 ,丁香婷婷激情俺也去俺来也,ww国产内射精品后入国产

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦MXMACA軟件平臺在大模型訓(xùn)練方面的優(yōu)化效果

沐曦MetaX ? 來源:沐曦MetaX ? 2025-07-03 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:王順飛

沐曦PDE部門

在如今的人工智能浪潮中,大規(guī)模語言模型(上百億乃至千億參數(shù))正迅速改變著我們的工作和生活。然而,訓(xùn)練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰(zhàn)。為了讓大模型的訓(xùn)練過程更順暢、更高效,沐曦MXMACA軟件平臺(簡稱 MXMACA)具有無縫兼容CUDA的能力,科學(xué)兼容Megatron-LM[1]的絕大多數(shù)特性。此外,MXMACA進(jìn)行多方面的優(yōu)化,幫助科研人員和工程師能夠快速在沐曦硬件環(huán)境中完成各類前沿模型的訓(xùn)練。下面,我們將從幾個關(guān)鍵角度介紹MXMACA在大模型訓(xùn)練方面的改進(jìn)思路和優(yōu)化效果,讓更多的讀者輕松了解“大模型訓(xùn)練背后的那些事”。

1為什么要優(yōu)化大模型訓(xùn)練?

通常,大模型采用「張量并行(Tensor Parallel, TP)+ 流水線并行(Pipeline Parallel, PP)+ 數(shù)據(jù)并行(Data Parallel, DP)+ 序列并行(Sequence Parallel, SP + 專家并行(Expert Parallel,EP)+ 上下文并行(Context Parallel, CP))」的多維并行策略,讓成百上千張 GPU 同時參與訓(xùn)練。然而,隨著模型參數(shù)量飆升(DeepSeek V3為6710億參數(shù)),單靠原版 Megatron-LM 往往會遇到以下幾個難題:

1MoE模型負(fù)載均衡訓(xùn)練困境

MoE 模型訓(xùn)練會出現(xiàn)「熱門專家」被過度調(diào)用而導(dǎo)致計算和顯存極不均勻,拖慢訓(xùn)練速度且易導(dǎo)致顯存溢出。此外,跨節(jié)點的 AlltoAll 通信占據(jù)了較多的訓(xùn)練時間。

2計算與通信資源競爭

在分布式訓(xùn)練中,過細(xì)的模型切分雖然可以提升計算并行度,但往往會大幅增加跨節(jié)點通信開銷。特別是在計算與通信需要共享硬件資源的原生并行架構(gòu)中,計算操作和通信操作會相互競爭有限的帶寬和計算單元,這種資源爭用問題常常導(dǎo)致實際并行效率低于理論預(yù)期。

3顯存(GPU內(nèi)存)吃緊

大模型需要存儲很多“中間計算結(jié)果”(比如激活值、梯度、優(yōu)化器狀態(tài))和大量參數(shù),當(dāng)模型規(guī)模上升時,很容易出現(xiàn)“顯存不夠用”的狀況,導(dǎo)致訓(xùn)練中斷,進(jìn)而影響效率。

4集群訓(xùn)練挑戰(zhàn)

當(dāng)你用成百上千塊 GPU 訓(xùn)練一個模型時,如何把每一種并行方式合理組合,才能既不爆顯存又能讓計算滿載?靠人工一遍遍嘗試,不但耗時,還容易錯過更優(yōu)的組合。集群訓(xùn)練如何減少因故障導(dǎo)致的中斷和資源浪費,如何快速定位慢節(jié)點,都是集群訓(xùn)練常遇的挑戰(zhàn)。

5低效算子瓶頸

大模型訓(xùn)練常受限于某些關(guān)鍵算子的低效實現(xiàn),這些顯存訪問密集型算子是拉低模型MFU的一個重要因素。

為了解決這些痛點,我們結(jié)合沐曦曦云C系列GPU的硬件特點,做了多方面的“落地優(yōu)化”。既保留了框架的靈活性,也在常見疑難場景中提供了“一鍵開關(guān)”式的配置。下面我們將從 MoE 優(yōu)化、計算通信并行、顯存優(yōu)化、自動調(diào)優(yōu)與集群訓(xùn)練、算子融合等幾個重點模塊,逐一展開。

2MoE優(yōu)化:讓混合專家訓(xùn)練更從容

Mixture-of-Experts(MoE)是日益流行的混合專家模型,通過路由讓tokens選擇相應(yīng)的專家計算,能夠顯著提升模型容量與表達(dá)能力。然而,同時也帶來了專家之間負(fù)載不均、顯存爆炸等挑戰(zhàn)。MXMACA 針對 MoE 提供了多種優(yōu)化策略,幫助你在顯存和吞吐之間找到更好的平衡。

2.1“冷熱專家”優(yōu)化:削峰填谷式通信減負(fù)

問題背景

在MoE 模型訓(xùn)練初期,某些專家會被大量 token 路由(“熱門”),而其他專家?guī)缀蹰e置。這導(dǎo)致頻繁且不均勻的 AlltoAll 通信:熱門專家所在的顯卡要不斷從多臺顯卡拉數(shù)據(jù),通信開銷巨大。

優(yōu)化方法

本地備份熱門專家:在模型剛開始訓(xùn)練時,把被訪問最頻繁的幾位“熱門專家”在本地多復(fù)制一份,這樣熱門專家的計算就可以留在本地完成,減少跨節(jié)點通信。

在訓(xùn)練后期,當(dāng)各個專家訪問次數(shù)趨于均衡時,再把本地備份關(guān)閉,恢復(fù)普通通信模式。

通俗比喻

想象一個在線商店,某款商品突然在一兩個城市爆火,下單量激增。如果所有訂單都要從遠(yuǎn)在總部的倉庫發(fā)貨,就會出現(xiàn)“配送中心爆倉、快遞車來回奔波”導(dǎo)致遲遲配送不到顧客手中。優(yōu)化方式就好比在每個城市中心先存放幾箱這款熱銷商品,顧客下單之后直接從本地倉庫發(fā)貨,大大縮短配送路徑。等到熱度消退、全國范圍內(nèi)需求趨于均衡時,再把多余的本地庫存退回到總部或取消本地備貨。一句話:把“最暢銷的那幾件”臨時放到客戶附近供他們隨時取,就能避免每次都從很遠(yuǎn)的倉庫拉貨。

優(yōu)化效果

減少跨節(jié)點通信:熱門專家不用每次都“喊話”遠(yuǎn)端節(jié)點;

性能提升:訓(xùn)練吞吐量提高約 8%;

顯存可控:因為只給幾個熱門專家多留一份,所以額外顯存開銷有限。

2.2MoE自適應(yīng)重計算:“分工不均”與節(jié)點溢出

問題背景

在 MoE 前向(Forward)/反向(Backward)時,Batch 內(nèi)的某些 token 會被路由到熱門專家(Expert),導(dǎo)致該專家對應(yīng)的 GPU 需要處理大量激活,占用顯存陡增,容易 OOM(Out-Of-Memory)。尤其是在訓(xùn)練早期,token 分配波動較大,很難預(yù)先調(diào)好“重計算參數(shù)”。

優(yōu)化方法

動態(tài)偵測:在每個訓(xùn)練 Step 之前,先統(tǒng)計當(dāng)前各個“專家并行 Rank”所分配到的 token 總數(shù)量;

閾值觸發(fā):若某個 Rank 分配到的 token 數(shù)量超過預(yù)設(shè)閾值,則自動開啟重計算邏輯;否則保持常規(guī)計算;

智能開關(guān):對不同的moe dispatcher采用不同的重計算方式。

通俗比喻

當(dāng)你和同事們分?jǐn)偘釚|西時,如果A同事拿了特大箱子,其他人手都空著。這時,你會讓A暫時把一些東西放地上(重新計算),等到他搬完一部分再回來挑起;等到大家分工均勻了,就恢復(fù)正常搬運。這樣既能讓大家都忙起來,也避免了某個人因超負(fù)荷工作而累倒。

優(yōu)化效果

提升性能:只有在必要情況下才啟動重計算,大部分時間都能用最快的方式跑;

更穩(wěn)定:即使訓(xùn)練初期數(shù)據(jù)分配不均,也不會因OOM而中斷訓(xùn)練。

2.3DualPipeV:“雙向流水線”

問題背景

DeepSeek提出的DualPipe[2]方案需要在流水線并行(Pipeline Parallel)中為模型參數(shù)保留兩份拷貝,這對顯存要求極高,且在 Bubble 較大的場景下并行效率有限。

優(yōu)化方法

DualPipeV將模型在 PP 維度拆分為前半段(PP0- PPN/2-1)與后半段(PPN/2- PPN-1):

前半段按照PP順序(PP0- PPN/2-1),看做一個完整模型布置到所有節(jié)點上;

后半段按照PP逆序(PPN-1- PPN/2),看做一個完整模型布置到所有節(jié)點上。

兩組之間交替發(fā)送激活與梯度,充分減少空閑等待時間。這樣,只需在每張顯卡上保留一份參數(shù)拷貝,同時保持較高的流水線并行度。

5f026204-5339-11f0-b715-92fbcf53809c.png

圖1 DualPipeV示例圖

來源:https://github.com/deepseek-ai/DualPipe

通俗比喻

就像工廠生產(chǎn)線:如果把生產(chǎn)過程切成兩半,整個流水線是一個V字型,每組工人在處理前半個流水線的一道工序的同時,負(fù)責(zé)后半個流水線的一道工序。當(dāng)其中一道工序需要等待時,可以處理另一道工序,甚至可以雙管齊下,兩側(cè)工序同時進(jìn)行。

優(yōu)化效果

顯存降低:相比傳統(tǒng)Dualpipe,僅需保存一份參數(shù)拷貝,顯存降低約 20%;

吞吐提升:減少流水線階段之間的空閑(氣泡),整體訓(xùn)練速度提升可達(dá) 10% 以上。

2.4MoE多級內(nèi)存優(yōu)化:“分層卸載”

問題背景

除了前面提到的“某些專家突然超載”情況,整個專家(MoE)網(wǎng)絡(luò)里還有很多“子環(huán)節(jié)”、各種小運算(例如:激活函數(shù)、向量重排、共享專家算子等),在顯存吃緊的時候,也需要“分級”來處理。

優(yōu)化方法

把專家里最“耗顯存”的幾個步驟,分成幾個層級:

輕量級重計算:只對激活函數(shù)、向量重排、router路由這些小環(huán)節(jié)做重計算;

中度重計算:在上面基礎(chǔ)上,選擇專家內(nèi)部的某些全連接層和共享專家(Shared Expert)做重計算。

全量重計算:MoE模型部分全量做重計算。

多層級重計算,可以將顯存浪費降到最低,同時盡可能保持訓(xùn)練速度。

通俗比喻

想象訓(xùn)練MoE模型像在沙漠探險。 顯存是珍貴的駱駝運力(負(fù)重能力)。輕量: 只背少量必需品(省運力,稍慢)。中度: 選擇性背大件(平衡運力與速度)。全量: 所有裝備現(xiàn)用現(xiàn)造(運力最省,行動最慢)。分層選擇,用最小速度代價換最大運力空間。

優(yōu)化效果

更靈活:根據(jù)顯存緊張程度,采用不同層級的內(nèi)存優(yōu)化方法;

損失更小:做最合適的顯存優(yōu)化,讓性能損失最低。

在顯存緊張的思路下,多級內(nèi)存優(yōu)化相較于不優(yōu)化時能節(jié)省 12% 左右的顯存峰值,而整體訓(xùn)練速度僅損失3% 左右,為中小集群訓(xùn)練帶來顯著價值。

2.5MoE Batch GEMM:讓專家計算“匯成批”一次到位

問題背景

在 MoE模型 中,不同專家收到的輸入token數(shù)量往往不同,這導(dǎo)致每個專家要做的矩陣乘法(GEMM)大小不一。GPU 在處理大小不一的矩陣運算時,可以采用groupgemm提升算力利用率,但相對于均勻計算,效率還是有所降低。

優(yōu)化方法

把輸入長度 “對齊”:在進(jìn)入專家前,給“超量輸入”專家丟棄一些數(shù)據(jù), 給“少量輸入”的專家補上一些“空白”數(shù)據(jù),這樣讓所有專家的輸入長度一致;

然后把所有專家的矩陣乘法合并到一個“批量(Batch)GEMM”操作里一次性完成,充分利用 GPU 的并行能力。

通俗比喻

想象你有好幾批貨,大小差異很大,不利于裝入標(biāo)準(zhǔn)箱進(jìn)行一次性搬運。這時讓較大的貨物,拿去一部分,較小的貨物,添加一部分,就可以一次性把好幾個標(biāo)準(zhǔn)箱同時裝車,搬運效率更高。

優(yōu)化效果

大幅提升 GPU 利用率:在實驗中,可提升專家計算效率約 15%;

略微精度影響:因為 Batch GEMM 會做少量的tokens丟棄,對精度有少量影響。但從長期訓(xùn)練看,模型loss誤差在1%以內(nèi),對整體模型效果幾乎沒有影響。

3計算與通信并行:讓“傳輸”更無縫

在大規(guī)模并行訓(xùn)練中,“算”與“傳”往往會發(fā)生沖突:當(dāng) GPU 在做大矩陣計算時,卻要停下來做 AllReduce/AlltoAll等通信,結(jié)果就是一邊算,一邊等。或者在已有的“算”與“傳”并行場景中,兩者發(fā)生硬件資源競爭,導(dǎo)致性能相互影響。MXMACA 主要通過 SDMA、通算融合算子等手段,盡量讓“算”與“傳”不再相互干擾。

3.1SDMA通信并行:讓設(shè)備側(cè)“專屬搬運工”來接手

問題背景

在計算通信并行場景中,由于GPU核心既承擔(dān)計算任務(wù),又承擔(dān)通信任務(wù)(如AllGather、ReduceScatter),容易導(dǎo)致資源競爭,使得通信與計算互相拖慢。

優(yōu)化方法

沐曦C系列 GPU 內(nèi)置了 SDMA引擎,可以讓顯卡側(cè)在節(jié)點內(nèi)專門負(fù)責(zé)高速數(shù)據(jù)傳輸。

節(jié)點間使用CPU和網(wǎng)卡來實現(xiàn)通信傳輸。

通信最大程度減少對GPU的使用,可以有效減輕互相搶資源的情況。

通俗比喻

SDMA通信引擎的實現(xiàn),就好像生產(chǎn)車間里出現(xiàn)了“自動小推車”,一臺機器算完半成品后,直接把它放到小推車上,小推車負(fù)責(zé)自動把零件送到下一個工作臺;原來那臺機器不用為送貨而分?jǐn)偩Α?/p>

優(yōu)化效果

減少“算”和“傳”互相搶資源:其結(jié)果是訓(xùn)練速度能提高約 4%~8%;

簡單易用:只需在訓(xùn)練時打開相應(yīng)開關(guān),SDMA 就自動接管通信。

3.2Tensor Parallel Overlap(TP Overlap):計算與通信融合

問題背景

在 TP(張量并行)切分場景下,計算與通信的依賴關(guān)系難以打通:

有依賴關(guān)系的算子(如 GEMM → ReduceScatter),無法并行;

無依賴關(guān)系的算子(如部分 Compute + Allgather),則會與計算搶占 GPU 資源。

優(yōu)化方法

GEMM+ReduceScatter/AllGather 融合

將 GEMM 計算與通信算子寫入同一個 CUDA Kernel 中,直接將 GEMM 結(jié)果遠(yuǎn)寫到其他 GPU,省去了顯存讀寫與 kernel 啟動開銷。同時實現(xiàn)了通信和計算細(xì)粒度切分,使細(xì)粒度間的計算和通信任務(wù)不存在依賴關(guān)系,從而并行執(zhí)行。

2.無依賴算子 SDMA 傳輸

對于無依賴關(guān)系的通信算子(如BWD中部分AllGather或者ReduceScatter),使用SDMA完成,從而避免與Compute算子爭奪內(nèi)存帶寬和算力資源。

5f15006c-5339-11f0-b715-92fbcf53809c.png

5f1e8c54-5339-11f0-b715-92fbcf53809c.png

圖2 TP overlap融合算子示例圖

通俗比喻

好比生產(chǎn)線上的半成品不再“先放到貨架,再由叉車搬去下一個工序”;而是在同一個環(huán)節(jié)里邊加工邊傳送,讓“傳送”像流水一樣跟著“加工”一起走,省掉了中途的反復(fù)搬運。顯卡就像流水線上的工人,既動手加工又順手交接,效率顯著提升。

優(yōu)化效果

GEMM+RS/AG 融合使得通信開銷降低 20% 左右,顯存占用更友好;

與 SDMA 聯(lián)合使用時,在通信瓶頸明顯的場景,可帶來5%~10%的整體訓(xùn)練加速;

由于通信與計算沖突減少,GPU 利用率相比原生 Megatron-LM 提升 7%~10%。

3.3MoE Comm Overlap:讓 MoE 通信與專家計算并行

問題背景

在原生Megatron-LM的MoE 中,單層 Transformer 里前向會有兩個 AlltoAll,反向也有兩個AlltoAll。這些通信操作往往與專家(Expert)計算串行執(zhí)行,導(dǎo)致并行度嚴(yán)重不足。

優(yōu)化方法

通過將 MoE 層劃分為多個子單元,實現(xiàn) AlltoAll 通信與專家計算的高度并行:

將其中兩個 AlltoAll 與 Shared Expert 的前向和反向計算并行;

另外的AlltoAll與D/W分離后的專家計算并行。

理論上可達(dá) 75% 的全 Overlap 率,相比原生Overlap水平大幅提升。

通俗比喻

MoE Comm Overlap,相當(dāng)于原始MoE計算和通信都在一條路上,現(xiàn)在增加了一條路,通過計算通信分解,讓AlltoAll通信單獨走一條路,大大減少來回等待。

優(yōu)化效果

在 DeepSeek V3中,MoE Comm Overlap 使得AlltoAll通信與計算并行度提升約 3 倍:

單層 AlltoAll Overlap 達(dá)到 75% 理論并行度;

整體 MoE 訓(xùn)練吞吐率提升 8%~10%;

訓(xùn)練中每個迭代的 Loss 相對誤差低于 1%,沒有明顯精度損失。

4顯存優(yōu)化:多維度“榨干”硬件潛力

訓(xùn)練時的顯存就像錢包里的空間,裝不下就會“爆卡”。 MXMACA提供了一系列顯存優(yōu)化策略,從 Granular Activation Offload到Granular Recompute,多管齊下幫你“花最少的錢,裝最多的東西”,讓有限的顯存能撐起更大規(guī)模的訓(xùn)練任務(wù)。

4.1細(xì)粒度激活offload:只“偷工”不“減質(zhì)”

問題背景

在流水線并行中,不同階段(Pipeline Stage)需要存儲的“中間激活數(shù)據(jù)”數(shù)量并不一樣。有些階段需要保留很多激活,有些階段只需要少量。若直接把所有激活都卸載到主機內(nèi)存,勢必增加大量數(shù)據(jù)傳輸,很難與計算相互掩蓋,拖慢訓(xùn)練。

優(yōu)化方法

區(qū)分階段卸載需求:只把第一個stage的激活卸載到主機內(nèi)存,讓后面幾個stage保留在顯存里;

或者根據(jù)實際顯存壓力,對某幾層激活做卸載,而其他層保留在顯存中;

這樣在需要時再把它們提前拉回來,不用每一層都卸載,占用帶寬和時間最小。

通俗比喻

就像搬家時,你把最重的家具先搬到小車上存放,但把沙發(fā)、床這些需要馬上用的常駐在家里。等到后面空間還緊張,再逐個決定把哪幾個“沒那么急”的物件先運出去。這樣既不占用車的所有空間,也避免了一次性搬空再慢慢拉回來的低效。

優(yōu)化效果

減少不必要的卸載/加載:最大限度保留訓(xùn)練速度,相對于普通重計算方法,在LLaMA2-70B訓(xùn)練上可以提升約6%的性能;

顯存更靈活使用:即使顯存并不充裕,也能讓大模型跑起來。

4.2

細(xì)粒度重計算:對輕量計算分層重計算

問題背景

重計算在顯存緊張時非常有效,但如果把所有計算都重算一遍(全量重計算),會讓整體訓(xùn)練速度大幅下降。很多時候,僅把“輕量”的那部分(例如歸一化層或激活函數(shù))重算,就能騰出不少顯存,又影響不大。

優(yōu)化方法

Norm 重計算:只把歸一化層(LayerNorm)相關(guān)的中間結(jié)果釋放顯存,反向時再重算。

激活函數(shù)重計算:只把激活函數(shù)(如 GELU、Swiglu 等)的中間結(jié)果釋放顯存,反向時再重算。

不均勻細(xì)粒度:對不同的PP stage,因為顯存壓力不同,使用的重計算方法和重計算力度也可以不同。

我們可以根據(jù)實際顯存壓力和性能需求,把“Norm 重算”和“激活重算”與傳統(tǒng)的“全量重算”靈活組合。例如:在某些階段只做 Norm 重計算,其他階段保持全量;或者只做激活重計算……總之,以最小代價解決顯存不足問題。

通俗比喻

該比喻和細(xì)粒度激活卸載類似。

優(yōu)化效果

顯存騰得更多:相同“省顯存”目標(biāo)下,比起全量重計算,速度更快;

靈活組合:既能滿足“極限省顯存”場景,也能兼顧訓(xùn)練速度。

5自動搜索與集群訓(xùn)練:

邁向“零調(diào)優(yōu)”時代

當(dāng)訓(xùn)練規(guī)模從數(shù)十張GPU擴展到成百上千張GPU 時,手動在多維并行維度上逐個嘗試,幾乎是不可能在有限時間里搞定的工作。MXMACA 通過“Auto Search”引擎和“DLRover”[4]兩大工具,實現(xiàn)了自動化調(diào)優(yōu)與容錯加速,讓你更專注于算法設(shè)計與數(shù)據(jù)準(zhǔn)備,而非配置參數(shù)。

5.1Auto Search:一鍵找到最佳并行方案

問題背景

在 Megatron-LM 里,你可能同時考慮張量并行(Tensor Parallel)、流水線并行(Pipeline Parallel)、數(shù)據(jù)并行(Data Parallel)、專家并行(MoE Parallel)等維度。不同組合下,顯存占用和性能差別巨大,要人工一一嘗試,既浪費時間,也容易錯過更優(yōu)解。

優(yōu)化方法

MXMACA 引入一套基于算子、顯存與通信三大模塊的自動調(diào)優(yōu)(Auto Search)引擎:

構(gòu)建性能模型

對常見算子(GEMM、AllReduce、AlltoAll、Offload、Recompute 等)進(jìn)行微基準(zhǔn)測試;

對不同顯存策略(Recompute、Offload等)下的單節(jié)點性能進(jìn)行采樣;

對常見網(wǎng)絡(luò)拓?fù)洌?D Mesh、MetaLink等)下通信性能進(jìn)行建模。

2.全局搜索與預(yù)測

基于先驗遍歷TP/PP/EP等切分空間,自動枚舉候選配置;

結(jié)合性能模型,快速估算各候選切分配置在多節(jié)點下的 TGS(Token per GPU per Second)與顯存占用;

打分排序后,輸出 Top-k 最優(yōu)配置。

5f2d55ea-5339-11f0-b715-92fbcf53809c.png

圖3 Auto Search自動搜索圖

通俗比喻

就像你要組織一次大規(guī)模搬家,有幾百個箱子、幾十輛卡車,各卡車載重不同、路況也不同。傳統(tǒng)做法是“卡車 A 多裝點、卡車 B 少裝點、卡車C 跑好點……”人工來回摸索。Auto Search 就是提前用模型測算好哪幾種裝載方案最經(jīng)濟,給你一個“前五優(yōu)選”,你只需要挑個最方便的兌現(xiàn)即可。

優(yōu)化效果

省時省力:從“試錯式”調(diào)參變成“一次性推薦”;

效果可靠:背后有數(shù)據(jù)模型支撐,不會輕易被主觀偏差誤導(dǎo);

靈活可擴展:適用于不同規(guī)模的集群、不同目標(biāo)(更省顯存或更高吞吐)。

5.2DLRoverFlash Checkpoint(“閃電”持久化)

問題背景

大型分布式訓(xùn)練任務(wù)常因節(jié)點故障或網(wǎng)絡(luò)抖動導(dǎo)致中斷,因為故障導(dǎo)致的集群空閑和回滾訓(xùn)練,都會導(dǎo)致集群資源的浪費。另一方面,在訓(xùn)練過程中,往往需要向存儲介質(zhì)一次性寫入數(shù)百上千 GB 數(shù)據(jù),耗時數(shù)分鐘甚至十幾分鐘,影響迭代效率。

優(yōu)化方法

借助DLRover Flash Checkpoint 機制,將訓(xùn)練狀態(tài)(包括模型權(quán)重、優(yōu)化器狀態(tài)、學(xué)習(xí)率調(diào)度狀態(tài)等)先寫入CPU,再異步持久化到分布式文件系統(tǒng)。主要優(yōu)勢有:

異步寫入

前端將 Checkpoint 數(shù)據(jù)同步寫入CPU即可返回,訓(xùn)練阻塞時間降至最短,達(dá)到秒級;

后端異步從CPU將模型數(shù)據(jù)寫入文件系統(tǒng),充分利用 CPU 與網(wǎng)絡(luò)帶寬。

2.故障恢復(fù)

若節(jié)點瞬時宕機,DLRover 可瞬間將CPU內(nèi)存模型數(shù)據(jù)強制落盤,不會出現(xiàn) Checkpoint 丟失;

對于非完整節(jié)點宕機,在模型數(shù)據(jù)落盤后,會從冗余節(jié)點中選取節(jié)點替換故障節(jié)點,并自動拉起訓(xùn)練。

通俗比喻

就像你在寫文檔時,Word 會自動把內(nèi)容先存在緩存里,然后后臺再慢慢寫到硬盤;如果電腦突然關(guān)機,緩存里最后的內(nèi)容會被緊急落盤,下次打開就能直接恢復(fù)到緩存時的狀態(tài)。

優(yōu)化效果

在千卡級別集群上,DLRover Flash Checkpoint 將大小1T左右的 Checkpoint 寫盤時間從 10 分鐘縮減到 10秒以內(nèi);節(jié)省85%因為集群故障導(dǎo)致的訓(xùn)練回滾和空閑時間。

5.3慢節(jié)點檢測:迅速找出與剖析“拖后腿”的那臺

問題背景

在大集群訓(xùn)練中,某臺機器網(wǎng)絡(luò)帶寬突然變差、某塊顯卡溫度過高降頻、或者其他硬件異常等等,都會讓那臺節(jié)點訓(xùn)練速度變慢。可一旦出現(xiàn)“1 臺慢”,整個訓(xùn)練“隊伍”就會被拖慢,因為大家需要等待。

優(yōu)化方法

內(nèi)置 MCTX(MXMACA Tools Extension):在訓(xùn)練中,自動給“前向”“反向”“通信”“優(yōu)化”等各環(huán)節(jié)加上“埋點”,記錄耗時、網(wǎng)絡(luò)延遲等細(xì)節(jié)。

分層級別監(jiān)測:可只看最關(guān)鍵的“前向/反向/優(yōu)化耗時”(Level 0),也可以看更細(xì)的“每個算子、每次通信操作耗時”(Level 1/Level 2),精度高到看到“某個節(jié)點的 AlltoAll 通信慢了 20%”。

自動告警與定位:一旦發(fā)現(xiàn)某個節(jié)點在某個環(huán)節(jié)耗時顯著高于平均值,就會報告給用戶,幫助工程師迅速定位到“哪臺機器的哪一步出了問題”。

通俗比喻

就像車隊比賽時,攝影機會記錄每輛車的圈速、過彎情況、進(jìn)站時間等。一旦發(fā)現(xiàn)某輛車某圈速度比別人慢,就立即發(fā)出提示,幫助車隊找出“哪里出現(xiàn)了瓶頸”(比如輪胎不行、油壓不穩(wěn)、駕駛員操作問題等),及時修正,保持整體隊速。

優(yōu)化效果

極大節(jié)省排查時間:不用手動遠(yuǎn)程登錄到每臺機器一遍遍看日志;

精確定位瓶頸:從整體到算子級別都可監(jiān)測,找到“問題根源”;

訓(xùn)練更穩(wěn)定:及時剔除或修復(fù)“慢節(jié)點”,維持整個集群的高速運行。

6其他輔助優(yōu)化手段:

從小細(xì)節(jié)中獲取額外收益

除了上面提到的幾個核心方向,MXMACA 還在算子融合、并行調(diào)度等細(xì)節(jié)方面做了許多打磨,讓整體訓(xùn)練更順滑。下面簡要介紹兩項常見的補充優(yōu)化。

6.1算子融合(Flash Fusion):把“小動作”合并成“大動作

問題背景

模型里有很多很常見但“零碎”(Memory bound)的操作,比如 “加偏置再激活再 Dropout 再相加” 這一連串動作,如果每一步都拆成單獨算子去執(zhí)行,就會大量占用顯存帶寬和啟動內(nèi)核的開銷。

優(yōu)化方法

算子分析:分析模型中存在的高頻且memory bound的小算子,提取連續(xù)小算子操作的pattern。

算子融合:對連續(xù)小算子操作設(shè)計融合算子,盡量減少中間內(nèi)存讀寫與 Kernel 啟動次數(shù)。

支持的融合模式包括:Swiglu (Bias Swiglu)、Repeat GQA、Bias-GELU、BDA (Bias+Dropout+Add)、RoPE、MoE-Permute/Unpermute/Router 等。

通俗比喻

想象你去餐廳吃套餐,原本你要點“炸雞”“薯條”“飲料”“沙拉”四樣,如果每次都是廚師分散地一個一個做,出餐就會慢很多;而“套餐”把它們組合成一個連貫流程,一次性煎炸加熱、打包好,效率便會高不少。

優(yōu)化效果

在DeepSeek V3 模型訓(xùn)練中,啟用 Flash Fusion 后可帶來 5%以上的性能提升,且降低了顯存占用。

6.2Zero Bubble:零氣泡流水線

問題背景

在 Pipeline Parallel(PP)中,1F1B的模型調(diào)度方式,容易產(chǎn)生“泡沫”(Bubble),即GPU閑置等待的時間,影響資源利用率。這種現(xiàn)象隨著PP的增大,或者Global Batch Size(GBS)的減小,愈加嚴(yán)重。

優(yōu)化方法

借鑒 Zero-Bubble Pipeline Parallelism[3]的思想,MXMACA集成了ZBH1(Zero Bubble H1)方案:

將傳統(tǒng) PP 中的 Bubble 率降至1/3;

不增加第1個PP Stage的顯存;

適用于 GBS較小、Bubble顯著且顯存受限的場景。

通俗比喻

就像一條生產(chǎn)線,原本上下游有時會錯拍,有時會輪到機器沒料可做。Zero Bubble 就是優(yōu)化排產(chǎn)計劃,讓前后幾道工序更均勻銜接,減少待料時間。不需要給第一道工序額外加機器(顯存),卻能讓整體產(chǎn)量更高。

優(yōu)化效果

提升流水線利用率:實測在一些場景下可讓顯卡吞吐率提升 8%~12%;

顯存壓力不增加:Zero Bubble 并不需要給第一個 Stage 多分配顯存,只要合理調(diào)整微批次順序就能降低氣泡,同時不引入額外顯存開銷;

適合顯存不足時使用:當(dāng)顯存比較緊張,無法開啟更高級的虛擬流水時,Zero Bubble依然能帶來效率提升。

6.3Empty Transformer Layers:空層補齊

問題背景

在啟用VPP時,若模型總層數(shù)與 PP Stage 數(shù)量不再為整除關(guān)系(如質(zhì)數(shù)層),常會出現(xiàn)無法均勻拆分為每 VPP Stage 保持相同層數(shù)的瓶頸。例如,61 層模型切為PP = 8 時,每個 Stage 無法平均分配層數(shù);又比如 15 層模型切為PP = 3 時,每個 Stage 均為5層,質(zhì)數(shù)層無法進(jìn)一步采用VPP切分。

優(yōu)化方法

MXMACA 提供“空層插入”(Empty Layer) 功能:

虛擬將模型層數(shù)擴充至滿足 VPP 階段拆分需求的最小整數(shù);

在指定位置插入“空 Transformer 層”,該層僅作占位,無實際計算,保證每個 PP Stage 擁有相同的 VPP Stage 數(shù)目;

額外的資源開銷僅為極少量 Metadata,無顯著顯存/計算損耗。

優(yōu)化效果

實測在 PP=8、VPP=2 場景下,經(jīng)過空層補齊的 61→64 層模型,與直接使用不均勻 PP 相比,訓(xùn)練速度提升 6% 以上。

7MXMACA大模型訓(xùn)練優(yōu)化:

極致算力,一觸即發(fā)

通過一系列“計算通信并行”、“專家模型優(yōu)化”、“顯存優(yōu)化”、“自動調(diào)優(yōu)與集群訓(xùn)練工具”等手段,MXMACA 成功讓 Megatron-LM 在沐曦硬件環(huán)境中實現(xiàn)了如下優(yōu)勢:

1更少顯存×更高性能

同等硬件條件下,訓(xùn)練時所需顯存可節(jié)省 10%~30%;

同時,整體訓(xùn)練速度較原生 Megatron-LM 提升20%左右。

2更低門檻×更易部署

對非專業(yè)研發(fā)人員也非常友好:只需在訓(xùn)練腳本里打開“省顯存模式”“通信并行模式”“自動調(diào)優(yōu)模式”等開關(guān),無需手動調(diào)命令行參數(shù);

Auto Search 能在幾分鐘內(nèi)給出最優(yōu)并行配置,不必再費心一個維度一個維度去嘗試。

3更高穩(wěn)定性×更強容錯性

DLRover Flash Checkpoint 能讓訓(xùn)練中斷后分鐘級別就恢復(fù),而不會造成集群數(shù)小時空閑;

MCTX 監(jiān)測可自動提示“哪臺GPU慢了”“卡在計算還是卡在通信”,幫助團(tuán)隊迅速定位并解決問題。

4豐富擴展性×持續(xù)迭代

除了剛才講到的這些優(yōu)化,MXMACA 還在持續(xù)對 DeepSpeed、PaddlePaddle、Colossal-AI 等其他主流訓(xùn)練框架做兼容與優(yōu)化;

未來也會陸續(xù)增加對新算子的融合、更多底層硬件特性的深度利用,讓大模型訓(xùn)練更“省心、更高效”。

5f41f306-5339-11f0-b715-92fbcf53809c.png

圖4 主要模型優(yōu)化前后性能及提升比率

8總結(jié):讓大模型訓(xùn)練也能“大眾化”

希望在有限硬件條件下訓(xùn)練上百億大模型

想快速配置集群并行,不想一遍遍試命令行參數(shù)

想讓訓(xùn)練過程有更強的容錯、斷點續(xù)訓(xùn)能力

想站在“技術(shù)巨人”肩膀上,用最少的工程成本跑出最大價值

那么不妨試試 MXMACA 提供的這些優(yōu)化能力(https://developer.metax-tech.com/softnova/docker)。未來,我們也會持續(xù)迭代、不斷打磨各種新功能,助力更多團(tuán)隊、更多應(yīng)用場景,讓“大模型訓(xùn)練”真正實現(xiàn)“大眾化”、變得“人人可跑、人人可用”。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48982

    瀏覽量

    248848
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    1419
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3121

    瀏覽量

    4034

原文標(biāo)題:【智算芯聞】沐曦MXMACA軟件平臺:讓大模型訓(xùn)練更簡單、更高效

文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    集成電路完成PreA+輪融資

    集成電路(上海)有限公司(下稱“”)完成由紅杉資本中國基金領(lǐng)投的Pre-A輪融資后,不到一個月時間又獲得經(jīng)緯中國和光速中國聯(lián)合領(lǐng)投
    的頭像 發(fā)表于 03-08 15:13 ?2575次閱讀

    首款異構(gòu)GPU芯片MXN100實現(xiàn)各類應(yīng)用場景和業(yè)務(wù)模型的快速遷移

    由中國安全防范產(chǎn)品行業(yè)協(xié)會主辦的第十六屆(2023)中國國際社會公共安全產(chǎn)品博覽會(以下簡稱安博會),于6月北京首鋼會展中心盛大啟幕。集成電路(上海)有限公司(以下簡稱“
    的頭像 發(fā)表于 06-16 10:22 ?3195次閱讀

    與上海聯(lián)通簽署戰(zhàn)略合作協(xié)議

    2023年7月6日第六屆世界人工智能大會舉辦期間,受邀出席由上海聯(lián)通主辦的“算網(wǎng)共生 數(shù)智未來”算力主題論壇,與上海聯(lián)通簽署戰(zhàn)略合作協(xié)議,共筑國產(chǎn)算力應(yīng)用新生態(tài)。銷售副總裁裘敏
    的頭像 發(fā)表于 07-07 10:38 ?1306次閱讀

    人工智能推理GPU思N100的應(yīng)用優(yōu)勢

    2023年7月13日,集成電路(上海)有限公司(以下簡稱“”)應(yīng)邀參加大聯(lián)大品佳集團(tuán)線上研討會,以“
    的頭像 發(fā)表于 07-14 11:14 ?2167次閱讀

    基于云C500發(fā)布國產(chǎn)首臺GPU千億參數(shù)大模型訓(xùn)推一體機

    首臺GPU千億參數(shù)大模型訓(xùn)推一體機由數(shù)字寧夏倡議發(fā)起技術(shù)攻關(guān),基于最新發(fā)布的云C500旗艦GPU芯片提供的算力支持、智譜華章的AI大模型
    的頭像 發(fā)表于 08-21 14:41 ?8959次閱讀

    完成適配!云C500智譜AI升級版大模型上充分兼容、高效穩(wěn)定運行

    適配。測試結(jié)果顯示,云C500智譜AI的升級版大模型上充分兼容、高效穩(wěn)定運行。 旗艦產(chǎn)品
    的頭像 發(fā)表于 08-23 10:38 ?8375次閱讀

    眸瑞科技與集成電路聯(lián)合發(fā)布首個AI模型“貼圖超分”技術(shù)

    近日,長沙眸瑞網(wǎng)絡(luò)科技有限公司(下稱“眸瑞科技”)與集成電路(上海)有限公司(下稱“”)聯(lián)合發(fā)布首個AI模型“貼圖超分”技術(shù)。
    發(fā)表于 09-06 14:08 ?634次閱讀

    首次將AI超分成功應(yīng)用到3D模型領(lǐng)域

    近日,長沙眸瑞網(wǎng)絡(luò)科技有限公司(下稱“眸瑞科技”)與集成電路(上海)有限公司(下稱“”)聯(lián)合發(fā)布首個AI模型“貼圖超分”技術(shù)。該技術(shù)
    的頭像 發(fā)表于 09-06 14:11 ?1367次閱讀

    攜手合作伙伴共同成立“影視行業(yè)數(shù)字渲染國產(chǎn)技術(shù)示范中心”

    簽約儀式在上海大學(xué)上海電影學(xué)院新大樓順利舉行。 該示范中心依托自主研發(fā)的千億參數(shù)AI大模型訓(xùn)練及通用計算GPU云C500,將達(dá)到40P
    的頭像 發(fā)表于 09-08 14:35 ?2128次閱讀

    攜人工智能推理GPU思N系列亮相世界計算大會

    9月15日至16日,2023世界計算大會在湖南長沙成功舉行,集成電路(上海)有限公司(以下簡稱“”)攜三大系列產(chǎn)品最新研發(fā)成果亮相大會,展現(xiàn)了
    的頭像 發(fā)表于 09-19 10:04 ?3075次閱讀

    攜手富春云打造國產(chǎn)GPU華北核心算力節(jié)點

    近日,集成電路(上海)有限公司(以下簡稱“”)與浙江日報報業(yè)集團(tuán)旗下北京富春云網(wǎng)絡(luò)科技有限公司(以下簡稱“富春云”)浙報數(shù)字文化科
    的頭像 發(fā)表于 09-20 14:16 ?1989次閱讀

    谷歌模型訓(xùn)練軟件有哪些?谷歌模型訓(xùn)練軟件哪個好?

    谷歌模型訓(xùn)練方面提供了一些強大的軟件工具和平臺。以下是幾個常用的谷歌
    的頭像 發(fā)表于 03-01 16:24 ?1373次閱讀

    澎峰科技計算軟件棧與GPU完成適配和互認(rèn)證

    ?近期,澎峰科技與完成了對PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺)與
    的頭像 發(fā)表于 01-21 09:51 ?611次閱讀

    澎峰科技與完成聯(lián)合測試,實現(xiàn)全面兼容

    近日,澎峰科技與科技宣布,雙方已完成對PerfXLM推理引擎、PerfXCloud大模型服務(wù)平臺
    的頭像 發(fā)表于 01-21 15:20 ?626次閱讀

    Gitee AI 聯(lián)合首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費體驗!

    、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個較小尺寸的 DeepSeek 模型。值得關(guān)注的是, 本次上線的四個模型均部署國產(chǎn)
    的頭像 發(fā)表于 02-10 09:56 ?674次閱讀
    Gitee AI 聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首發(fā)全套 DeepSeek R1 千問蒸餾<b class='flag-5'>模型</b>,全免費體驗!