久久久久久a亚洲欧洲AV冫,农夫娱乐导航,人妻少妇精品久久久久久

DeepSeek R1將模型訓(xùn)練推向基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練新范式，讓各行業(yè)也能快速構(gòu)建行業(yè)高質(zhì)量模型。后訓(xùn)練的核心主要在通過強(qiáng)化學(xué)習(xí)讓模型涌現(xiàn)出自我驗(yàn)證、自我思考的長CoT(思維鏈)能力，讓模型產(chǎn)生長CoT是后訓(xùn)練的推理任務(wù)，因此強(qiáng)化學(xué)習(xí)(RL)需要進(jìn)行目標(biāo)模型的訓(xùn)練和推理，而目標(biāo)模型的推理和訓(xùn)練負(fù)載特征差異大，分離方案訓(xùn)練推理任務(wù)相互等待，資源利用率低。昇騰MindSpeed RL在后訓(xùn)練過程中采用訓(xùn)推共卡特性，讓訓(xùn)練推理任務(wù)分時利用集群資源，降低訓(xùn)推切換時延和內(nèi)存峰值，提升資源利用率和吞吐性能，是業(yè)界首個在大規(guī)模MoE模型RL訓(xùn)練上支持訓(xùn)推共卡。

昇騰MindSpeed大規(guī)模MoE訓(xùn)推共卡強(qiáng)化學(xué)習(xí)，后訓(xùn)練資源利用率提升40%

強(qiáng)化學(xué)習(xí)后訓(xùn)練面臨的挑戰(zhàn)

強(qiáng)化學(xué)習(xí)的后訓(xùn)練是在預(yù)訓(xùn)練模型基礎(chǔ)上，通過SFT微調(diào)和強(qiáng)化學(xué)習(xí)算法進(jìn)一步優(yōu)化模型行為，其核心思想是將模型的輸出視為策略，利用獎勵信號增強(qiáng)模型在特定領(lǐng)域的能力，只需少量高質(zhì)量數(shù)據(jù)即可大幅增強(qiáng)模型“慢思考”推理能力，提升模型在數(shù)學(xué)、代碼類等復(fù)雜邏輯推理中的表現(xiàn)。

強(qiáng)化學(xué)習(xí)RL后訓(xùn)練中存在Actor(即目標(biāo)模型)的生成、Ref/Reward/Critic等輔助模型計(jì)算、Actor訓(xùn)練等。由于Actor模型訓(xùn)練推理計(jì)算任務(wù)、內(nèi)存占用等負(fù)載特征差異大，需要采用不同并行策略才能實(shí)現(xiàn)較高系統(tǒng)吞吐。由于生成、推理、訓(xùn)練三個階段需要串行執(zhí)行，訓(xùn)練推理資源相互等待，存在大量模型級空泡，造成計(jì)算資源浪費(fèi)，影響后訓(xùn)練的內(nèi)存和吞吐性能。

昇騰MindSpeed大規(guī)模MoE訓(xùn)推共卡強(qiáng)化學(xué)習(xí)，后訓(xùn)練資源利用率提升40%

圖1：基于強(qiáng)化學(xué)習(xí)的Actor后訓(xùn)生成、推理、訓(xùn)練三階段示意

昇騰大規(guī)模MoE訓(xùn)推共卡強(qiáng)化學(xué)習(xí)

昇騰基于MindSpeed和vLLM開發(fā)訓(xùn)推共卡RL后訓(xùn)練方案，通過訓(xùn)推權(quán)重更新的通信優(yōu)化算法、在線并行策略轉(zhuǎn)換、訓(xùn)推共卡內(nèi)存調(diào)度等特性，實(shí)現(xiàn)在同一集群上完成Actor模型的訓(xùn)練及推理高效協(xié)同，解決大規(guī)模MoE模型后訓(xùn)練在訓(xùn)推分離架構(gòu)中權(quán)重更新時延高、硬件利用率低、并行策略轉(zhuǎn)換OOM等問題。

支持訓(xùn)推權(quán)重更新的通信優(yōu)化算法，時延降低50%

Actor模型訓(xùn)練推理最優(yōu)并行策略不同，模型訓(xùn)練內(nèi)存中存在優(yōu)化器及梯度，內(nèi)存占用大，需要采用更大的模型并行(TP、PP)才能完成訓(xùn)練。而推理中僅有模型權(quán)重為靜態(tài)內(nèi)存，僅需較小的模型并行(TP、PP)即可完成推理。模型權(quán)重更新切分的過程中存在大量數(shù)據(jù)同步的通信，通信時延高影響訓(xùn)推切換效率。昇騰訓(xùn)推權(quán)重更新的通信優(yōu)化算法，降低訓(xùn)推切換中的權(quán)重同步時延50%。

支持在線并行策略轉(zhuǎn)換，提升訓(xùn)推共卡系統(tǒng)資源利用40%

在MoE模型每一層的前向和反向計(jì)算中，各有兩次All2All通信，共計(jì)四次All2All通信，稱為Dispatch(F), Combine(F), Combine(B), Dispatch(B)。當(dāng)模型專家數(shù)量較多，需要專家并行域(EP)來對專家進(jìn)行EP并行切分，而采用vLLM等推理框架時不支持EP并行，因此訓(xùn)推切換時需要進(jìn)行EP轉(zhuǎn)TP。由于大規(guī)模MoE模型(如DeepSeek V3等)尺寸巨大(671B)，僅權(quán)重就占據(jù)1.3TB內(nèi)存(BF16)，導(dǎo)致訓(xùn)推EP轉(zhuǎn)TP過程存在較大OOM風(fēng)險(xiǎn)或面臨資源不足，無法inplace轉(zhuǎn)換。昇騰創(chuàng)新提出基于All2All的Direct EP2TP方案，在避免權(quán)重Resharding OOM的同時，實(shí)現(xiàn)高效權(quán)重轉(zhuǎn)換。訓(xùn)推轉(zhuǎn)換時進(jìn)行在線EP轉(zhuǎn)TP，大大提升vLLM推理引擎推理吞吐性能。在時延劣化小于5%條件下后訓(xùn)練系統(tǒng)所需卡數(shù)降低30%，系統(tǒng)資源利用率提升40%。

支持訓(xùn)推共卡內(nèi)存調(diào)度，降低峰值內(nèi)存10%，提升推理吞吐性能15%

訓(xùn)推共卡場景中，訓(xùn)練優(yōu)化器狀態(tài)、梯度占據(jù)大量內(nèi)存，限制了推理階段可用內(nèi)存和系統(tǒng)吞吐。昇騰采用訓(xùn)推共卡內(nèi)存調(diào)度，推理態(tài)將訓(xùn)練權(quán)重、優(yōu)化器完全卸載至Host側(cè)，增加推理態(tài)可用內(nèi)存;推理態(tài)結(jié)束后則將訓(xùn)練優(yōu)化器及梯度onload至NPU，完成模型訓(xùn)練，降低系統(tǒng)峰值內(nèi)存10%，推理吞吐提升15%。

訓(xùn)推共卡強(qiáng)化學(xué)習(xí)特性使用方法

方法1：

用戶在MindSpeed-RL目錄下調(diào)用腳本MindSpeed-RL/cli/train_grpo.py

昇騰MindSpeed大規(guī)模MoE訓(xùn)推共卡強(qiáng)化學(xué)習(xí)，后訓(xùn)練資源利用率提升40%

腳本路徑：

http://www.picoinsstore.com/uploadfile/pic2020/2025/0326/2025032610000528G>

方法2：

用戶以模塊導(dǎo)入的方式調(diào)用訓(xùn)推共卡特性

參考mindspeed_rl/workers/actor_hybrid_worker.py中initialize、_build_sharding_manager方法和mindspeed_rl/models/rollout/vllm_engine.py中offload_model_weights、sync_model_weights方法

腳本路徑：

http://www.picoinsstore.com/uploadfile/pic2020/2025/0326/2025032610000629G>

http://www.picoinsstore.com/uploadfile/pic2020/2025/0326/2025032610000730G>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

昇騰MindSpeed大規(guī)模MoE訓(xùn)推共卡強(qiáng)化學(xué)習(xí)，后訓(xùn)練資源利用率提升40%

昇騰MindSpeed大規(guī)模MoE訓(xùn)推共卡強(qiáng)化學(xué)習(xí)，后訓(xùn)練資源利用率提升40%