在并不平凡的2023年,天極網(wǎng)與大家一起見證數(shù)智化技術賦予時代的深刻變革。以智算中心場景為例,大模型訓練及推理在使智能算力需求激增的同時,也對AI集群網(wǎng)絡性能提出更為嚴苛的要求,高吞吐、大帶寬、高可用已成為新一代智算中心網(wǎng)絡建設的特性......
致敬數(shù)智化時代,第二十二屆IT影響中國深入挖掘行業(yè)創(chuàng)新價值、傾聽消費者心聲,評選出具有行業(yè)代表價值的科技產(chǎn)品及解決方案,見證數(shù)智時代的科技創(chuàng)新。經(jīng)評委會綜合評定,第二十二屆IT影響中國特授予銳捷AI-FlexiForce智算中心網(wǎng)絡解決方案以“年度影響力解決方案獎”。
隨著AIGC技術賦能產(chǎn)業(yè)持續(xù)升級,AI大模型算力消耗驚人,單一計算設備已遠遠無法滿足模型訓練的算力需求,盡管分布式訓練可以通過多個GPU節(jié)點并行訓練,但隨著AIGC快速發(fā)展,模型參數(shù)數(shù)量不斷飆升,AI集群的GPU節(jié)點數(shù)也在不斷增加,瓶頸也越來越突出。在這個背景下,GPU利用率成為提升AI大模型訓練速度的主要保障,而影響GPU利用率的關鍵因素之一就是網(wǎng)絡通信效率。
那么,影響網(wǎng)絡通信效率的因素拋開硬件性能的限制,針對端處理時延、內(nèi)部排隊時延和丟包重傳時延三大動態(tài)因素優(yōu)化網(wǎng)絡擁塞和時延,已經(jīng)成為提升AI集群網(wǎng)絡通信性能最具成本效益的方法?;谶@些思考,銳捷網(wǎng)絡致力于提升通信帶寬利用率,降低動態(tài)時延以及實現(xiàn)無損的網(wǎng)絡傳輸,以提升AI集群網(wǎng)絡通信性能。2023年,銳捷網(wǎng)絡面向下一代AI云服務的智算中心網(wǎng)絡建設,重磅發(fā)布了銳捷網(wǎng)絡AI-FlexiForce智算中心網(wǎng)絡解決方案。
二級組網(wǎng)架構
多級組網(wǎng)架構
銳捷網(wǎng)絡AI-FlexiForce智算中心網(wǎng)絡解決方案擁有高性能、高可靠、高兼容、高可用“四高”特性,可應用于大數(shù)據(jù)處理、機器學習、AIGC多種業(yè)務場景,幫助客戶構建萬卡級別的智算中心網(wǎng)絡。
高性能
支持大規(guī)模組網(wǎng):采用NCP+NCF為基礎模塊的三級多軌網(wǎng)絡架構,三級組網(wǎng)可承載17K-32K的大規(guī)模GPU卡集群,多軌架構可將同號GPU的流量規(guī)劃在同一Pod內(nèi),從而有效減少數(shù)據(jù)轉發(fā)跳數(shù),大幅降低通信時延。
高帶寬利用率:基于高性能芯片技術,通過將數(shù)據(jù)流切分成等長的Cell并負載到所有鏈路,讓數(shù)據(jù)流轉發(fā)負載更均衡,將網(wǎng)絡帶寬利用率提升20%以上,從而有效降低長尾延時,保障AI集群的低延時通信。
高可靠
自閉環(huán)的無損傳輸:基于VOQ+Credit信令機制,主機接收端發(fā)送Credit,確保主機發(fā)送端流量在接收端不會過載,規(guī)避了RDMA對擁塞信號“事后”響應而造成的網(wǎng)絡不確定性,真正實現(xiàn)了無損AI算力網(wǎng)絡的通信。
去中心化的分布式OS:實現(xiàn)了控制面與管理面解耦,有效縮小故障域,設備可以獨立升級,提升系統(tǒng)冗余性和可靠性,大幅提升了集群的穩(wěn)定性。
鏈路故障快速恢復:基于硬件的自動故障隔離和恢復,無需軟件干預和表項更新,即可實現(xiàn)微秒級的故障快速恢復,實現(xiàn)故障無丟包的網(wǎng)絡系統(tǒng)。
高兼容
實現(xiàn)端網(wǎng)解耦:AI-FlexiForce網(wǎng)絡由Credit信令控制NCP之間的流量轉發(fā),無需端側參與流量控制,使AI網(wǎng)絡不依賴于特定廠商的服務器/網(wǎng)卡的特定功能,可兼容全廠商全型號GPU方案,同時還支持不同GPU混合部署。
高可用
快速上線部署:在部署上線時,使用者無需復雜網(wǎng)絡調參,即可實現(xiàn)即插即用的網(wǎng)絡,直接進入可使用網(wǎng)絡環(huán)境。
無需流量調度:在多任務場景下,出現(xiàn)網(wǎng)絡擁塞的幾率大幅增加,AI-FlexiForce網(wǎng)絡無需流量調度器也可以實現(xiàn)95%以上的高帶寬利用率,適配各種模型的流量。
天極網(wǎng)認為
銳捷網(wǎng)絡AI-FlexiForce智算中心網(wǎng)絡解決方案可實現(xiàn)即插即用的網(wǎng)絡、支持大規(guī)模三級組網(wǎng)、全場景適用、負載均衡、帶寬利用率達97%、us級硬件自愈等多種獨特優(yōu)勢,助力打造集約高效的智算中心,為算力釋放提供強大支撐。
AI-FlexiForce智算中心網(wǎng)絡解決方案由400G NCP交換機和200G NCF交換機組成:
·NCP設備為RG-S6930-18QC40F1,提供18個400G業(yè)務口和40個200G內(nèi)聯(lián)口。
·NCF設備為RG-X56-96F1,提供96個200G內(nèi)聯(lián)口。
NCP產(chǎn)品RG-S6930-18QC40F1
NCF產(chǎn)品RG-X56-96F1
科技創(chuàng)新的浪潮不斷奔涌向前,引領數(shù)智時代發(fā)展的新技術、新事物也不斷涌現(xiàn)。2023年天極網(wǎng)也與科技企業(yè)一同感受到數(shù)智化、智能化技術的力量,尤其是大模型技術的持續(xù)發(fā)展為智算中心網(wǎng)絡帶來深刻的影響。我們注意到銳捷網(wǎng)絡通過持續(xù)的技術研發(fā)和產(chǎn)品創(chuàng)新為智算中心帶來高性能、高可靠、高兼容、高可用的AI-FlexiForce智算中心網(wǎng)絡解決方案,賦能智算中心網(wǎng)絡建設。榮獲IT影響中國2023“年度影響力解決方案獎”,銳捷網(wǎng)絡AI-FlexiForce智算中心網(wǎng)絡解決方案實至名歸。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )