上兩周剛剛召開的NVIDIA GTC 2024大會,已經成為IT業(yè)界影響力最大的會議。與會人員超過17000人,規(guī)模超過當年喬布斯的蘋果發(fā)布會。在會上,NVIDIA發(fā)布了新的芯片、軟件和方案,展示了在AI時代的絕對霸主地位和龐大的野心。
實際上,黃(仁勛)教主已經掩飾不住NVIDIA的野心了:在GPU市場占有率超過80%的NVIDIA,還發(fā)布了數(shù)據(jù)中心整體解決方案,力圖主導這個超過1萬億美元的龐大市場。
不過,即使強如NVIDIA,在構建AI系統(tǒng)的時候,仍然選擇了標配外置專業(yè)存儲。雖然HBM(高帶寬內存)取代了DDR內存,但是外置專業(yè)存儲一直獨立存在。就像當年雄霸天下的Oracle數(shù)據(jù)庫,同樣也是標配外置專業(yè)存儲(EMC、華為等)。
注:2024 NVIDIA GTC大會期間,NVIDIA開設存儲專場panel座談,邀請業(yè)界頭部存儲廠商及大客戶,共同研討如何通過存儲來解決AI時代面臨的一系列挑戰(zhàn)。
為什么存儲對AI如此重要?NVIDIA為什么要廣泛的與主流存儲廠商合作,而不是自己做存儲?我們將逐層展開,撥云見日,探尋背后的真相。
一、NVIDIA不僅僅想賣芯片,其野心是賣整個數(shù)據(jù)中心方案,以GPU+CUDA為核心構建了AI數(shù)據(jù)中心全棧架構,其中標配外置專業(yè)存儲。
我們都知道,數(shù)據(jù)中心IT堆棧中,計算、存儲和網絡是三大核心組件。
在計算側,NVIDIA通過自研GPU和DPU來加速取代CPU算力;網絡側,NVIDIA通過收購Mellanox,加速推廣IB網絡;存儲側,廣泛與主流存儲廠商(DELL EMC、NetApp、Pure Storage、DDN、IBM、Vast Data、WEKA……)合作,從OVX(數(shù)據(jù)中心推理)、DGX basepod(企業(yè)AI訓練集群)到DGX superpod(大規(guī)模訓練集群)再到DGX supercomputer(超大規(guī)模訓練集群),不變的是里面都標配外置專業(yè)存儲。
二、為什么在NVIDIA的方案架構中,外置專業(yè)存儲是“必配品”?
1. AI和傳統(tǒng)應用不同,傳統(tǒng)應用主要是產生數(shù)據(jù)并存下來;而AI自身新產生的數(shù)據(jù)很少,主要是利用現(xiàn)有的存量數(shù)據(jù),即“喂數(shù)據(jù)進去,吐出來的是訓練好的大模型和Token(標記)”。
2.缺數(shù)據(jù),無AI。數(shù)據(jù)的質量決定了AI的高度。AI需要大量的高質量數(shù)據(jù)從哪里來?最普遍的做法是首先獲取大量的互聯(lián)網公開數(shù)據(jù)作為基礎性輸入,然后最核心的還是結合企業(yè)內部的數(shù)據(jù),包括核心生產數(shù)據(jù)和歷史存量數(shù)據(jù)對模型進行訓練。
3.當今企業(yè)80%以上的數(shù)據(jù)仍存放在數(shù)據(jù)中心,其余少量在邊緣和云上。在數(shù)據(jù)中心,專業(yè)的外置存儲是企業(yè)數(shù)據(jù)的核心載體。因此,只有將NVIDIA AI系統(tǒng)與外置存儲相連,才能快速形成數(shù)據(jù)的閉環(huán),支撐AI大模型的訓練。而在大模型完成訓練,面向行業(yè)應用落地的時候(如RAG推理),AI應用必須與生產存儲相連接,直接調用企業(yè)生產數(shù)據(jù)。因此,無論在大模型的訓練階段,還是行業(yè)應用推理階段,AI系統(tǒng)都必須配套外置專業(yè)存儲,才能讓企業(yè)數(shù)據(jù),特別是生產數(shù)據(jù)直接變成AI的“燃料”。
4.隨著AI大模型的加速迭代,參數(shù)規(guī)模和數(shù)據(jù)量成萬倍的增長,如何快速做好EB級數(shù)據(jù)的加載和準備,把數(shù)據(jù)快速喂給大模型成為提升訓練效率的瓶頸之一;同時,在訓練過程中需要不斷保存checkpoint,以便因故障中斷/訓練效果不達預期時重新訓練,對checkpoint的保存和讀取速度也極大了影響了訓練效率。而外置存儲從誕生之初就是為了解決數(shù)據(jù)的保存和讀取問題,外置存儲的一小步性能優(yōu)化,對AI系統(tǒng)的訓練效率有巨大的提升,這也是NVIDIA系統(tǒng)選擇外置存儲的一大原因。
5.而在行業(yè)應用推理階段,由于場景眾多、AI新應用層出不窮,如何為解決數(shù)據(jù)pipeline成為關鍵問題。主流存儲廠商均提供跨邊緣、數(shù)據(jù)中心和云的數(shù)據(jù)流動、統(tǒng)一管理和數(shù)據(jù)加速功能,簡化了AI應用對數(shù)據(jù)的訪問和處理過程,讓大模型應用部署和運行更加簡單高效。
三、既然存儲這么重要,為什么NVIDIA自己不做存儲,或者像收購Mallenox一樣直接收購一家存儲廠商,而是堅定的與主流存儲廠商開展合作?
1.IT產業(yè),全棧通吃不是主流,沒有一家廠商可以搞定全部的客戶需求,封閉架構無法持久,分層合作才是關鍵。NVIDIA瞄準的是整個AI數(shù)據(jù)中心市場,但是它本質上是一家計算平臺公司,通過定義好系統(tǒng)架構,開放合作,能夠滿足不同階段的多樣化客戶需求,與伙伴一起共同建設面向未來的數(shù)據(jù)中心。
2.NVIDIA如果自己重新做一套存儲產品,本質上也無法取代客戶當前的生產存儲,也無法有效利用客戶的生產數(shù)據(jù)。NVIDIA想要的是掌控算力平臺,當前聯(lián)合外置專業(yè)存儲廠商是上策。
3.以存儲為代表的傳統(tǒng)IT廠商,在企業(yè)和運營商客戶已耕耘二三十年,有大量的客戶基礎和數(shù)據(jù)存量,NVIDIA和存儲廠商合作,本質上是把原來以CPU為中心的伙伴拉攏到自己身邊,通過聯(lián)合方案,讓存儲廠商帶著NVIDIA的軟硬件一起銷售,擴大客戶和產品覆蓋面;同時,存儲廠商具備成熟的企業(yè)級交付服務能力,這也是NVIDIA所不擅長的。總而言之,NVIDIA和存儲的合作是互惠互利、合作共贏的。
四、對于中國區(qū)市場客戶的啟示
無論客戶采用什么算力平臺(NVIDIA/昇騰/…),存儲絕對不容忽視。NVIDIA的系統(tǒng)無論集群規(guī)模大小,均標配外置專業(yè)存儲。對于中國的客戶而言,無論當前的AI集群處于什么階段(規(guī)劃中/建設中),我們都強烈建議立即關注存儲的配套建設問題,對存儲的“小”投入,將帶來AI系統(tǒng)效率的“大”提升。
免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。