美團岳樹燁:智能運維“三部曲”破解大規(guī)模光模塊管理難題

3月16日消息(九九)數(shù)據(jù)中心作為整個基礎設施的底座,其規(guī)模正在逐年擴大,光互連組件在數(shù)據(jù)中心網(wǎng)絡中的占比也在大幅上升,光器件(模塊、AOC等)的成本正在接近網(wǎng)絡設備。與此同時,“雙碳”以及 “東數(shù)西算”等國家戰(zhàn)略,對數(shù)據(jù)中心網(wǎng)絡和光互連技術(shù)提出更高的要求。

在今天下午舉行的“全光數(shù)據(jù)中心線上研討會”上,美團網(wǎng)絡工程師岳樹燁表示,美團正在擁抱變化,從互連架構(gòu)設計、產(chǎn)品選型、線上管理以及對下一代的提前布局等多個方面出發(fā),建設高質(zhì)量數(shù)據(jù)中心網(wǎng)絡。

業(yè)務和生態(tài)共同催生400G網(wǎng)絡

根據(jù)2019年9月ODCC組織(開放數(shù)據(jù)中心委員會)發(fā)布的《400G光模塊技術(shù)白皮書》,400G網(wǎng)絡架構(gòu)會在2020年到2021年逐步商用。在不久的未來,800G甚至是1.6T模塊也將會和我們見面。根據(jù)業(yè)內(nèi)整體市場規(guī)模統(tǒng)計和預測顯示,到2023年,光模塊市場整體規(guī)模將達到120億美元以上,相比2018年的60億美元增長一倍。

從業(yè)務方面看,隨著信息時代的到來,以及人工智能、虛擬/增強現(xiàn)實、物聯(lián)網(wǎng)等新型技術(shù)的出現(xiàn),數(shù)據(jù)流量呈現(xiàn)爆發(fā)式增長,這種增長對數(shù)據(jù)中心網(wǎng)絡架構(gòu)和容量等提出了越來越高的要求。

除了業(yè)務方面的需求,400G光模塊的生態(tài)也逐步成熟,廠商陸續(xù)發(fā)布超強算力的GPU計算服務器。岳樹燁指出,美團整體進度符合ODCC發(fā)布的預測,在2020-2021之間切入400G網(wǎng)絡建設。

大規(guī)模光模塊管理成為重要課題

隨著網(wǎng)絡架構(gòu)升級,框式交換機逐步被拆成盒式交換機,光模塊數(shù)量也隨之增加。為了降低成本,交換機和光模塊也逐步解耦,由模塊廠商直接供貨而不再是向設備廠商采購,這樣做的好處是可以在一定程度上降低成本,但會提升運維復雜度。如何更好地做好對光模塊的監(jiān)控管理,將成為重要課題。

岳樹燁介紹,常規(guī)網(wǎng)絡監(jiān)控是單點監(jiān)控,即單一設備單一監(jiān)控項。為了更有效地觀察光模塊收發(fā)光功率,需要觀察的是一組收發(fā),即本端和對端需要同時展示,因此美團對常規(guī)監(jiān)控方法進行了優(yōu)化:為每臺交換機構(gòu)建“端口鄰居”數(shù)據(jù)庫,并以http api的形式為上層應用提供服務。當運維人員查看本端光模塊收發(fā)光信息時,系統(tǒng)會通過lldp數(shù)據(jù)庫查詢到對端信息,并同時展示。

岳樹燁進一步介紹,美團針對大規(guī)模光模塊管理探索出智能運維“三部曲”。一是異常主動發(fā)現(xiàn),故障預測。利用機器學習分析告警閾值,網(wǎng)絡、設備、光模塊、光傳輸?shù)雀嗑毺卣髦笜水惓0l(fā)現(xiàn)及在線趨勢預測。二是自我診斷,故障定位。結(jié)合業(yè)內(nèi)數(shù)據(jù)、大數(shù)據(jù)分析及專家經(jīng)驗和知識圖譜,分析光模塊異常趨勢。三是智能聯(lián)動,快速通告。聯(lián)動失效告警、自動隔離、工單派發(fā)、效果驗收、業(yè)務恢復全鏈條的故障自動化處理。

“從2017年開始,終端模塊使用者開啟從商用到自采的轉(zhuǎn)換,成本和故障率都有明顯下降。”岳樹燁說:“如果想獲得成本、故障率和穩(wěn)定性的長期收效,根據(jù)客戶的應用需求進行定制開發(fā)并細化到芯片設計可以創(chuàng)造更高的價值,實現(xiàn)客戶方、模塊廠商和芯片廠商多方共贏。”

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2022-03-16
美團岳樹燁:智能運維“三部曲”破解大規(guī)模光模塊管理難題
美團岳樹燁:智能運維“三部曲”破解大規(guī)模光模塊管理難題,C114訊 3月16日消息(九九)數(shù)據(jù)中心作為整個基礎設施的底座,其規(guī)模正在逐年擴大,光互連組件在數(shù)

長按掃碼 閱讀全文