超越DeepSeek-R1,英偉達開源新王登頂!
隨著人工智能技術的飛速發(fā)展,英偉達的Llama-Nemotron系列模型在推理吞吐量和內(nèi)存效率上顯著超越了DeepSeek-R1,成為引領模型優(yōu)化新潮流的佼佼者。這一系列模型不僅開源,還針對高吞吐量推理進行了優(yōu)化,同時保持強大的推理能力和最多128K的上下文長度。
首先,我們來看看Llama-Nemotron模型的構建過程。英偉達的研究團隊通過神經(jīng)架構搜索(NAS)在Llama 3系列模型基礎上優(yōu)化推理效率,并引入前饋網(wǎng)絡融合(FFN Fusion)。然后,通過知識蒸餾和繼續(xù)預訓練來恢復模型性能。接下來,進行有監(jiān)督微調(diào)(SFT),結(jié)合標準指令數(shù)據(jù)和來自DeepSeek-R1等強大教師模型的推理過程,從而讓模型具備多步驟推理能力。最后,在復雜的數(shù)學和STEM數(shù)據(jù)集上進行大規(guī)模強化學習,這是學生模型能夠超越教師模型能力的關鍵一步。
值得注意的是,為了支持如此大規(guī)模的強化學習訓練,團隊專門開發(fā)了新的訓練框架,包含多項優(yōu)化措施,其中最重要的是支持FP8精度的生成能力。這個過程需要大量的計算資源和時間,但結(jié)果令人滿意。LN-Ultra在各類推理任務中展現(xiàn)出領先的開源模型性能,證明了英偉達研究者大規(guī)模強化學習訓練方法的有效性。
在模型設計方面,英偉達也進行了許多創(chuàng)新。借助神經(jīng)架構搜索Puzzle框架,LN-Super和LN-Ultra優(yōu)化了模型推理效率。通過“逐塊局部蒸餾”的方式,開發(fā)者利用Llama 3 Instruct構建了替代Transformer模塊的庫。每個模塊都會被獨立且并行地訓練,逼近原始模塊的功能,同時優(yōu)化計算性能。這樣,每個替代模塊都具有特定的“精度-效率”權衡特性:有些模塊雖然更高效,但可能會帶來一定的質(zhì)量下降,從而形成一種在計算成本與模型準確性之間的明確取舍。
為了應對不同場景下的推理需求,英偉達還推出了推理開關功能。用戶只需通過系統(tǒng)提示詞“detailed thinking on/off”就可以動態(tài)切換標準聊天模式和推理模式。這種設計讓模型既能滿足日常通用需求,也能勝任復雜的多步驟推理,無需使用不同的模型或架構。
此外,為了提升模型的泛化能力,英偉達還進行了許多嘗試。他們使用強化學習技術對模型進行訓練,使其能夠適應各種新的任務和環(huán)境。這種技術允許模型持續(xù)探索新的可能性并進行自我學習,從而在分布外任務上表現(xiàn)出色。在JudgeBench數(shù)據(jù)集上進行的測試也進一步證實了LN-Ultra的強大泛化能力。
總的來說,英偉達的Llama-Nemotron系列模型以其卓越的性能、強大的推理能力和廣泛的適用性,打破了DeepSeek-R1的壟斷,引領了模型優(yōu)化新潮流。這些模型的開源開放也使得更多的研究者能夠參與到這個過程中來,共同推動人工智能技術的發(fā)展。我們期待看到更多基于Llama-Nemotron模型的優(yōu)秀研究成果,為人類生活帶來更多便利和驚喜。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )