短短兩三年時(shí)間,AI已脫離實(shí)驗(yàn)室概念,實(shí)實(shí)在在地滲透進(jìn)了各行各業(yè)中。從金融風(fēng)控到智能制造,從醫(yī)療診斷到自動(dòng)駕駛,AI大模型正以前所未有的速度被訓(xùn)練、部署、迭代。與之相應(yīng)的,是AI對(duì)智能算力前所未有的龐大需求——據(jù)華為預(yù)測(cè),(相比2023年)到2030年,通用計(jì)算能力將增長(zhǎng)10倍,AI計(jì)算能力將增長(zhǎng)500倍。
這也意味著,對(duì)于算力基礎(chǔ)設(shè)施需求也在同步提升,而傳統(tǒng)的數(shù)據(jù)中心架構(gòu)已經(jīng)難以支撐如此龐大的計(jì)算任務(wù)。因此,龐大而復(fù)雜的算力基礎(chǔ)設(shè)施體系正迎來(lái)一場(chǎng)深刻的變革——傳統(tǒng)數(shù)據(jù)中心正從“通算”向“智算”演進(jìn),網(wǎng)絡(luò)、存儲(chǔ)、供電、冷卻等基礎(chǔ)設(shè)施也必須隨之升級(jí)。
從“通算”到“智算”
智算中心毫無(wú)疑問(wèn)是當(dāng)前最熱門的投資領(lǐng)域之一。根據(jù)中國(guó)IDC圈不完全統(tǒng)計(jì),僅2025年一季度,立項(xiàng)或建設(shè)、投產(chǎn)的智算中心就多達(dá)165個(gè),其中不乏投資過(guò)百億,算力規(guī)模超萬(wàn)P的項(xiàng)目(相關(guān)詳情:2025年165個(gè)新項(xiàng)目動(dòng)態(tài)隱現(xiàn)3個(gè)關(guān)鍵信號(hào))。
但在這股建設(shè)熱潮之下,哪怕是算力產(chǎn)業(yè)的從業(yè)者之間,一個(gè)疑問(wèn)一直揮之不去:數(shù)據(jù)中心與智算中心,AIDC與DC到底有何區(qū)別?
按照工信部印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》定義,算力中心包括是以風(fēng)火水電等基礎(chǔ)設(shè)施和IT軟硬件設(shè)備為主要構(gòu)成,具備計(jì)算力、運(yùn)載力和存儲(chǔ)力的設(shè)施,包括通用數(shù)據(jù)中心、智能計(jì)算中心、超算中心等。
其中,智能計(jì)算中心(智算中心)指通過(guò)使用大規(guī)模異構(gòu)算力資源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開(kāi)發(fā)、模型訓(xùn)練和模型推理等場(chǎng)景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。智能計(jì)算中心涵蓋設(shè)施、硬件、軟件,并可提供從底層算力到頂層應(yīng)用使能的全棧能力。
而對(duì)于傳統(tǒng)數(shù)據(jù)中心來(lái)說(shuō),其設(shè)計(jì)邏輯主要服務(wù)于通用計(jì)算場(chǎng)景,核心在于提供穩(wěn)定的、可擴(kuò)展的通用計(jì)算及存儲(chǔ)環(huán)境。但在AI時(shí)代,數(shù)據(jù)密集型、并行計(jì)算的任務(wù)特征使得數(shù)據(jù)中心必須重新思考如何提升效率、降低延遲、增強(qiáng)彈性。尤其是在大規(guī)模AI集群部署中,通信瓶頸、資源利用率低、運(yùn)維復(fù)雜等問(wèn)題日益突出,成為制約AI應(yīng)用落地的關(guān)鍵障礙。
特別是大規(guī)模的智算集群實(shí)際運(yùn)行遠(yuǎn)比想象中復(fù)雜。通信瓶頸、資源利用率低、故障響應(yīng)慢等問(wèn)題頻繁出現(xiàn),導(dǎo)致“紙面算力”和“有效算力”之間存在巨大落差。有業(yè)內(nèi)人士透露,一些千卡級(jí)別的集群,在訓(xùn)練效率上甚至不如優(yōu)化良好的幾百卡系統(tǒng)。更不要提所謂“萬(wàn)卡集群”,投產(chǎn)即停運(yùn)的傳聞也經(jīng)常在業(yè)內(nèi)流傳。
這不僅是一個(gè)技術(shù)問(wèn)題,更是一個(gè)系統(tǒng)工程問(wèn)題。
算網(wǎng)融合:突破算力瓶頸的新路徑
AI大模型訓(xùn)練是當(dāng)前智算中心最重要的應(yīng)用場(chǎng)景。根據(jù)AI大模訓(xùn)練的規(guī)模化法則(Scaling Law),模型性能與其規(guī)模、數(shù)據(jù)集大小以及算力之間存在的冪率關(guān)系,即隨著三者的增長(zhǎng),模型性能也會(huì)隨之增長(zhǎng)。但反過(guò)來(lái),一旦其中一個(gè)環(huán)節(jié)遇到瓶頸,那么模型性能的增長(zhǎng)也會(huì)受限。
對(duì)于算力來(lái)說(shuō),雖然理論上可以通過(guò)不斷拓展芯片數(shù)量來(lái)達(dá)到更高的算力規(guī)模。但在實(shí)際的AI訓(xùn)練過(guò)程中,節(jié)點(diǎn)之間的數(shù)據(jù)交換頻率極高。一旦各個(gè)節(jié)點(diǎn)——芯片、服務(wù)器、機(jī)柜之間的通信成為瓶頸,整個(gè)訓(xùn)練過(guò)程就會(huì)大幅拖慢,甚至中斷。
因此,“算網(wǎng)融合”成為了行業(yè)追求的目標(biāo)。所謂算網(wǎng)融合,就是把網(wǎng)絡(luò)作為核心環(huán)節(jié)納入AI系統(tǒng)的整體設(shè)計(jì)中。通過(guò)構(gòu)建高速、低延遲、無(wú)丟包的通信環(huán)境,讓算力真正“流動(dòng)起來(lái)”,而不是被困在節(jié)點(diǎn)之間。
為了解決這個(gè)問(wèn)題,算力產(chǎn)業(yè)巨頭紛紛各出奇招。比如行業(yè)內(nèi)某企業(yè)推出了自有的平臺(tái)體系,通過(guò)專有網(wǎng)絡(luò),以成熟的銅纜網(wǎng)絡(luò)大大提升了其圖形處理芯片之間的通信效率,并且一度帶動(dòng)了銅價(jià)大漲。
而在芯片、通信領(lǐng)域均掌握有核心技術(shù)的華為也獨(dú)辟蹊徑,推出“星河AI網(wǎng)絡(luò)”,提供了一個(gè)典型的實(shí)踐樣本。其采用業(yè)界公用的ROCE無(wú)損網(wǎng)絡(luò)技術(shù),結(jié)合自研的NSLB算法,以創(chuàng)新的光通信網(wǎng)絡(luò)實(shí)現(xiàn)了接近98%的通信吞吐率,大幅提升了訓(xùn)練效率。同時(shí),通過(guò)光模塊亞健康檢測(cè)、丟包可視化等智能運(yùn)維手段,也讓網(wǎng)絡(luò)的穩(wěn)定性得到了保障。
星河AI網(wǎng)絡(luò)支持200G/400G高速互聯(lián),具備大規(guī)模組網(wǎng)能力。在萬(wàn)卡級(jí)別集群中,依然能保持穩(wěn)定的通信帶寬與低延遲表現(xiàn),滿足千億參數(shù)模型的訓(xùn)練需求。其業(yè)界領(lǐng)先的雙層收斂網(wǎng)絡(luò)架構(gòu),可以大幅降低調(diào)優(yōu)難度,提升集群整體的可用性。
對(duì)于大規(guī)模智算集群的算力能力衡量,星河AI網(wǎng)絡(luò)給出了明確的算力公式:集群總算力=單芯片算力x集群規(guī)模x有效算力效率x可用率。其中,有效算力效率指網(wǎng)絡(luò)吞吐、性能加速能力;算力可用率則指算力穩(wěn)定性,以月為單位計(jì)算。
結(jié)合強(qiáng)大的網(wǎng)絡(luò)通信能力,昇騰智能芯片通過(guò)華為集群通信庫(kù)和作業(yè)調(diào)度平臺(tái),整合HCCS、 PCIe 和 RoCE 三種高速接口,實(shí)現(xiàn)集群級(jí)互聯(lián),充分釋放出強(qiáng)大性能,幫助客戶實(shí)現(xiàn)更快的進(jìn)行圖像、語(yǔ)音、自然語(yǔ)言等 AI 模型訓(xùn)練或推理應(yīng)用。
基于昇騰智能芯片的CloudMatrix 384(CM384)采用全連接拓?fù)浣Y(jié)構(gòu)連接384顆昇騰芯片,可提供約300 PetaFLOPS的BF16精度總計(jì)算能力。通過(guò)采用400G CPO(計(jì)算處理器接口),CM384可以大幅增強(qiáng)網(wǎng)絡(luò)性能,優(yōu)于傳統(tǒng)服務(wù)器設(shè)計(jì)中的PCIe解決方案,行業(yè)認(rèn)為其非常適合快速擴(kuò)大我國(guó)計(jì)算能力供應(yīng)以滿足當(dāng)前AI算力的需求。
目前,星河AI網(wǎng)絡(luò)與昇騰處理器已在多個(gè)大型智算中心落地實(shí)踐,包括互聯(lián)網(wǎng)頭部企業(yè)、運(yùn)營(yíng)商、金融及能源行業(yè)的客戶。在某萬(wàn)卡集群項(xiàng)目中,華為成功部署了超過(guò)9000張NPU卡、數(shù)百臺(tái)交換機(jī)和數(shù)十PB存儲(chǔ)設(shè)備,構(gòu)建起全球領(lǐng)先的AI訓(xùn)練平臺(tái)。
極致密碼:能效、運(yùn)營(yíng)、生態(tài)協(xié)同
對(duì)于一個(gè)正在上升期的產(chǎn)業(yè)來(lái)說(shuō),性能是核心問(wèn)題,但并不是全部。擺在當(dāng)前算力產(chǎn)業(yè)者面前的,還有綠色發(fā)展、高效運(yùn)營(yíng)、產(chǎn)業(yè)合作等眾多難題需要突破。
AI芯片的功耗持續(xù)攀升,單臺(tái)服務(wù)器的功率已超過(guò)10kW,整機(jī)柜甚至達(dá)到幾十、上百千瓦。傳統(tǒng)的風(fēng)冷方案越來(lái)越吃力,供電系統(tǒng)也面臨極限挑戰(zhàn)。與此同時(shí),國(guó)家“雙碳”目標(biāo)對(duì)數(shù)據(jù)中心的PUE提出了更高要求。
國(guó)家發(fā)改委發(fā)布的《數(shù)據(jù)中心綠色低碳發(fā)展專項(xiàng)行動(dòng)計(jì)劃》明確要求,到 2025 年底,全國(guó)數(shù)據(jù)中心布局更加合理,整體上架率不低于 60%,平均電能利用效率降至 1.5 以下,可再生能源利用率年均增長(zhǎng) 10%,平均單位算力能效和碳效顯著提高。
在這種壓力下,液冷、風(fēng)液混合制冷、動(dòng)態(tài)能效調(diào)節(jié)等技術(shù)開(kāi)始走向主流。華為提出的目標(biāo)是PUE≤1.15,追求“極致能效”。通過(guò)精準(zhǔn)控制冷卻系統(tǒng),結(jié)合負(fù)載感知機(jī)制,實(shí)現(xiàn)從芯片到機(jī)房的全鏈路節(jié)能。
而當(dāng)集群規(guī)模達(dá)到萬(wàn)卡級(jí)別,任何一次人為干預(yù)都可能帶來(lái)巨大的時(shí)間成本。傳統(tǒng)依賴經(jīng)驗(yàn)判斷和人工排查的方式,已經(jīng)無(wú)法適應(yīng)AI數(shù)據(jù)中心的高可用性需求,智算中心必須有符合其“智能”定位的智能運(yùn)營(yíng)模式。
就此,華為引入了AI Agent智能運(yùn)維模式,實(shí)現(xiàn)了端到端的自動(dòng)故障處置。通過(guò)CCAE一體化運(yùn)維工具,配合圖形化流量分析、丟包監(jiān)控等功能,華為智能運(yùn)維平臺(tái)可將平均修復(fù)時(shí)間(MTTR)從30分鐘壓縮到5分鐘以內(nèi)。
然而,數(shù)據(jù)中心內(nèi)部的技術(shù)再先進(jìn),產(chǎn)業(yè)卻時(shí)刻需要面對(duì)一個(gè)更深層次的問(wèn)題:供需錯(cuò)配。一邊是大量昂貴的算力建設(shè)完成,另一邊卻是應(yīng)用場(chǎng)景不足、資源利用率低下。尤其是在中小企業(yè)和垂直行業(yè)中,AI落地仍面臨門檻高、適配難、維護(hù)難等問(wèn)題。
這反映出當(dāng)前AI產(chǎn)業(yè)鏈的一個(gè)結(jié)構(gòu)性問(wèn)題:上下游尚未形成合力。芯片廠商、軟件平臺(tái)、云服務(wù)商、終端設(shè)備商各自為戰(zhàn),缺乏統(tǒng)一標(biāo)準(zhǔn)和協(xié)作機(jī)制。
面對(duì)這一局面,華為采取開(kāi)放心態(tài),從軟硬件到商業(yè)合作,促進(jìn)生態(tài)上下游廠商共同合作,推動(dòng)AI向更多場(chǎng)景滲透。技術(shù)只是基礎(chǔ),只有形成閉環(huán)、構(gòu)建生態(tài),才能真正釋放AI的價(jià)值。
回望來(lái)路,AI的發(fā)展不僅改變了我們對(duì)智能的理解,也在重塑整個(gè)數(shù)字基礎(chǔ)設(shè)施的面貌。數(shù)據(jù)中心不再只是“幕后英雄”,而是承載著創(chuàng)新、決策和產(chǎn)業(yè)升級(jí)的重要平臺(tái)。在這場(chǎng)基礎(chǔ)設(shè)施的重構(gòu)中,包括華為在內(nèi)的產(chǎn)業(yè)參與者都在做著自己的探索,他們的每一步都在指向一個(gè)更成熟、更可持續(xù)的AI基礎(chǔ)設(shè)施體系,為了AI真正走向產(chǎn)業(yè)、走進(jìn)生活貢獻(xiàn)自己的力量。
為了更好的聯(lián)合產(chǎn)業(yè)上下游,打造完善的智算生態(tài),推動(dòng)算網(wǎng)融合技術(shù)發(fā)展,由華為技術(shù)有限公司與中國(guó)IDC圈聯(lián)合主辦的“2025智算行業(yè)峰會(huì)——算網(wǎng)融合與數(shù)據(jù)中心創(chuàng)新論壇”將于2025年5月27日在北京舉辦,誠(chéng)邀產(chǎn)業(yè)各界從業(yè)者共同參與,攜手推動(dòng)我國(guó)智算產(chǎn)業(yè)發(fā)展。
了解會(huì)議詳情&報(bào)名參會(huì)請(qǐng)參考下圖
- 重磅亮相|ONERWAY 將在 2025 ChinaJoy BTOB商務(wù)洽談館再續(xù)精彩!
- PayCools即將重磅亮相 ChinaJoy 2025,以創(chuàng)新支付解決方案賦能游戲生態(tài)
- Mobupps亮相2025 ChinaJoy:以數(shù)字化轉(zhuǎn)型驅(qū)動(dòng)全球增長(zhǎng)
- GatherOne × DataTower.ai聯(lián)合入駐2025 ChinaJoy BTOB W4-A607|助力出海全域增長(zhǎng)
- 【游見(jiàn)】專訪七塊工作室:物理碰撞×科幻藍(lán)圖的交響中,以重構(gòu)RTS基因澆筑未來(lái)戰(zhàn)場(chǎng)敘事
- 【會(huì)議】2025 中國(guó)游戲開(kāi)發(fā)者大會(huì)(CGDC)部分技術(shù)專場(chǎng)嘉賓曝光
- 2025年Automechanika Shanghai規(guī)模再度擴(kuò)大:首次啟用國(guó)家會(huì)展中心(上海)全部15個(gè)展館
- 6.12-14,武漢見(jiàn)!2025武漢物博會(huì)盛大來(lái)襲!邀您共赴行業(yè)之約
- 解鎖未來(lái)趨勢(shì),共探時(shí)代脈搏 | 2025虎嘯盛典·高端對(duì)話
- 2025虎嘯盛典“智馭時(shí)代”
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。