應“云”而生,“智能湖倉”如何成為構建數據能力的最優(yōu)解?

科技云報道原創(chuàng)。

隨著新一輪科技革命和產業(yè)革命深入交織,數字經濟正在成為重組全球要素資源、重塑全球經濟結構、改變全球競爭格局的關鍵力量。

在這一過程中,作為數字化底座的云,已經不僅僅局限于基礎設施角色,更是企業(yè)持續(xù)創(chuàng)新和精益運營的關鍵支撐。

能否從云上獲取更多價值,將成為企業(yè)能否在數字時代擁有一席之地、持續(xù)領先領跑的關鍵。

而云原生對基礎設施的革新,帶來了一系列“蝴蝶效應”。

隨著云原生技術已在互聯網、金融等行業(yè)“落地開花”,云原生基礎設施不僅可以豐富數字化應用場景的多元化實踐,也將為企業(yè)發(fā)展提供可持續(xù)的內生動力,“智能湖倉”便是其中最為重要的技術架構之一。

作為“智能湖倉”架構的提出者,亞馬遜云科技在云原生數據基礎設施方面持續(xù)迭代創(chuàng)新。

3月14日,亞馬遜云原生數據湖S3迎來17周歲,在Pi Day 2023上,亞馬遜云科技對Amazon S3發(fā)展歷程進行全面回顧,不斷激發(fā)數據的更大價值。

?從“數據倉庫”到“數據湖”

IDC統(tǒng)計顯示,預計到2025年,全球數據量將比2016年的16.1ZB增加十倍,達到163ZB。

數據的海量與多元化決定了從數據中獲取有用的價值變得越來越困難,如果無法從數據中獲得益處,那么數據價值就無從談起。

目前,數據的價值呈現兩極化特征,一是及時發(fā)現,實時分析快速促進業(yè)務發(fā)展;二是長期存放,數據累積起來,探索數據后隱藏的規(guī)律,統(tǒng)一分析其價值,為業(yè)務發(fā)展提供參考。

新的數據價值將給企業(yè)帶來更多智能創(chuàng)新應用,比如增長黑客、推薦系統(tǒng),用戶行為分析,AIoT帶來的更多模型,這也意味著IT基礎設施的變革。

傳統(tǒng)數據處理方式,就像“涓涓細流”,里面有ERP、CRM等各種業(yè)務系統(tǒng),用戶可以設計“一個河道”,數據庫在最底層。

數據經過整理后形成中間層的數據倉庫,然后通過商務智能工具(BI)來及進行展示。

但在數字化時代,各種各樣的視頻、移動終端信息如“滔滔江水”,形成大規(guī)模的海量數據,用戶來不及整理和使用。

這時,一個新的設想打開了人們的視野,假設有那么一片洼地,把所有數據先蓄積到里面,然后通過有效的工具進行查詢和處理,這便是數據湖。

國際研究機構MarketsandMarkets最新研究報告顯示,到2024年,全球數據湖市場將突破200億美元,增至201億美元,復合年增長率將高達20.6%。

可以說,隨著數據治理與應用需求激增,數據湖成為數據管理的重要方式已成為不爭的事實。

數據湖的出現,很好的解決了數據倉庫建設存在的一系列問題,將數據管理的流程簡化為2個階段,數據入湖和數據分析。

數據湖一般以免運維、高可靠的對象存儲為底座,支持各種數據類型的存儲。

對于用戶來說,借助最新的數據湖解決方案,不僅能解決過去的數據孤島問題,同時還能兼容傳統(tǒng)的數據倉庫和數據分析方法。

最重要的是,更適合現代應用部署,比如和機器學習結合,進行預測性的分析。

? “智能湖倉”成技術新趨勢

隨著數據湖概念的興起,業(yè)界對于數據倉庫和數據湖的對比甚至爭論就一直不斷。

有人說數據湖是下一代大數據平臺,各大云廠商也紛紛提出自己的數據湖解決方案,一些云數倉產品也增加了和數據湖聯動的特性。

不過在我們看來,數據湖與數據倉庫并不是替代關系,而是互為補充、相輔相成,在此基礎上的“智能湖倉”將能充分實現兩者間的良性互動,成為未來重要的數據技術趨勢之一。

“智能湖倉”通過數據倉庫治理能力的引入,既可以很好的解決上面提到的數據湖建設的問題,也為更好的挖掘湖中數據價值提供了基礎,將高效建倉、靈活建湖的兩大優(yōu)勢融合在了一起。

不同于傳統(tǒng)數據倉庫的管理方式,“智能湖倉”極大地提高了數據開發(fā)的效率,同時降低了數據管理的難度。

過去處理數據,需要資深的數據架構師定義數倉的規(guī)劃,從數倉的分層、指標的定義到數據集市模型設計,然后交給專業(yè)的數據工程師進行業(yè)務開發(fā),再由業(yè)務人員進行驗證,有一套規(guī)范但卻復雜的過程。而“智能湖倉”的出現,讓企業(yè)能夠快速的基于業(yè)務進行開發(fā),又能夠靈活的調整和規(guī)劃自己的數據管理方式。

另外,“智能湖倉”也讓大數據行業(yè)內各個角色之間的交互變得更加自如。基于“智能湖倉”的數據管理理念,各類數據應用角色能夠更好的相互協作,共同開發(fā)。

如數據科學家可以方便的集成自己的數據并以納入標準數倉流程進行管理、業(yè)務分析師也能夠自己開發(fā)數據需求等。

“智能湖倉”打破孤島勾勒數據價值未來

談到“智能湖倉”,不得不提到其最為重要的支撐——Amazon S3 ( Simple Storage Service )。

17年前,亞馬遜云科技推出了Amazon S3服務,首次定義了對象存儲,S3由此成為對象存儲事實上的標準,具有劃時代意義。2015年,Amazon S3支持數萬億對象存儲,平均在線峰值每秒可處理150萬請求,設計為99.999999999%(“11個9”)的持久性。

2022年,亞馬遜云科技迎來又一座里程碑。Amazon S3存儲的對象數量已經超過200萬億,每秒可處理數千萬個請求。

亞馬遜云科技發(fā)布Amazon Redshift支持auto-copy from Amazon S3,從物理存儲層面打通了數據湖與數據倉庫。

目前,全球數萬用戶都在使用Amazon Redshift分析數據庫進行數據分析,這些用戶來自游戲、金融、醫(yī)療、消費、互聯網等。

在十多年發(fā)展歷程中,Redshift一直在持續(xù)迭代,很多功能和特性都源于企業(yè)的真實業(yè)務需求。

具體而言,客戶數倉場景主要包括四大塊:

第一,常規(guī)業(yè)務運營與BI分析;第二,實時數倉分析;第三,查詢、報表與數據分析;第四,機器學習與分析預測。

可以說,企業(yè)要想快速構建數據流水線,Amazon Redshift是底層基礎設置的重要支撐。

而憑借Amazon Redshift與其他數據分析應用的無縫集成,用戶可以獲得更完美的數據分析體驗。

比如:可以實現高性能格式存儲數據,以更經濟有效的方式將存儲擴展到千兆字節(jié),可實現存儲和計算的分離,并且可以實現分析和機器學習引擎的選擇等等。

早在2017年,Redshift就已經實現湖和倉的融合,Redshift Spectrum可以直接查詢在S3上開放格式的數據,當然也可以將數據寫入到湖中,實現了數據倉庫和數據湖的數據無縫流轉。

2022年,是Redshift推出正式滿10周年。在這特別的一年,亞馬遜云科技在年度大會上卻一反常態(tài),沒有發(fā)布重大升級更新。

取而代之的是,在會中推出許多新功能,都是和Redshift相關,從更緊密資料集成、流媒體資料分析到強化安全訪問,力求要把Redshift打造成企業(yè)資料集散地,來符合各種現代化應用的使用,以及能匯集整理各種類型資料,提供AI分析和后續(xù)應用,更要讓這個能夠通吃各種資料類型的新一代數據倉庫架構,成為加速企業(yè)資料現代化的關鍵產品。

總體而言,作為亞馬遜云科技的基石技術,Amazon S3不斷為其技術創(chuàng)新提供源源不斷的養(yǎng)分。而“智能湖倉”以Amazon S3為基礎構建數據湖,作為中央存儲庫,圍繞數據湖集成專門的“數據服務環(huán)”,包括數據倉庫、機器學習、大數據處理、日志分析等數據服務,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Spectrum等工具,實現數據湖的構建、數據的移動和管理等。

“智能湖倉”架構可以被視為一個“樞紐”,將亞馬遜云科技的數據服務無縫集成,打通數據湖和數據倉庫之間數據移動和訪問,并且進一步實現數據在數據湖、數據倉庫,以及在數據查詢、數據分析、機器學習等各類專門構建的服務之間按需移動,從而形成統(tǒng)一且連續(xù)的整體,滿足客戶各種實際業(yè)務場景下的不同需求。

任何階段的企業(yè)都可以從這種敏捷的架構中快速獲益,輕松打破數據及技能孤島,并以迭代及增量的方式獲得數據分析的敏捷性,縮短企業(yè)提取數據價值的創(chuàng)新周期。

這一架構充分利用了云服務帶來的安全可靠、極致性能、無限擴展等優(yōu)勢,能夠幫助企業(yè)消除數據孤島,打造統(tǒng)一的數據基礎底座,打通從數據獲取到數據應用的完整流程,并讓企業(yè)在云中實現數據與智能的深度融合,從而充分發(fā)揮數據價值。

如今,亞馬遜云科技已助力150萬客戶成為數據驅動型企業(yè)。

以供應鏈的數字化升級為例,順豐利用亞馬遜云科技可大規(guī)模擴展的對象存儲服務Amazon S3構建數據湖,將園區(qū)內大量的前端感知設備,包括攝像頭、物聯網IoT設備、地磁、多模達等收集的信息匯總到數據湖中。

依托Amazon S3云對象存儲近乎無限的存儲能力,為數據驅動運營提供堅實的數據基礎。

通過使用亞馬遜云科技計算、存儲、數據分析、容器、機器學習和安全等服務,順豐供應鏈改進了園區(qū)運營流程,提升了運營效率,園區(qū)車輛日吞吐量提升40%-60%,員工作業(yè)效率提升30%,調度員和安檢員工作量減少50%。

亞馬遜云科技的另一個客戶納斯達克也通過Amazon S3為數據管理賦能。

由于自動化交易平臺涌入市場,交易速度和交易量持續(xù)增長,2014年,納斯達克為了擴大規(guī)模、提高性能并降低運營成本,從舊式本地部署數據倉庫遷移到由Amazon Redshift集群賦能的數據倉庫。隨著時間推移,越來越多的交易導致數據大量增加,同時,納斯達克開始規(guī)劃開發(fā)新架構以持續(xù)實現生態(tài)系統(tǒng)期望的性能標準和卓越運營。

2018年,納斯達克選擇在Amazon S3上構建新的數據湖,這使該公司能夠將計算和存儲分開,并獨立擴展每項功能。納斯達克通過集成亞馬遜云科技IAM策略、Amazon S3,還可在多個亞馬遜云科技賬戶間提供全面的訪問控制功能。此外,納斯達克使用Amazon S3來存儲關鍵的金融數據,并將其移至Amazon S3 Glacier,從而能夠以較低的成本進行歸檔。

2019年1月,納斯達克參加了亞馬遜云科技的Data Lab,在為期四天的實驗中,納斯達克使用Amazon Redshift作為計算層,重新設計了其提供分析的方式。因此,納斯達克開始使用Amazon Redshift Spectrum,這是一項賦能智能湖倉架構的功能,可以直接查詢數據倉庫和Amazon S3數據湖中的數據。

如此一來,洞察生成時間縮至最短,賦能斯達克經濟研究團隊可以進行數據分析,并對數據運行復雜的查詢。起初是以性能為重點的解決方案,現在變成了團隊間共享的多用途數據湖。

借助基于Amazon S3和Amazon Redshift的新型智能湖倉架構,納斯達克每天能夠處理的記錄數量輕松地從300億條躍升至700億條,并且較之前提前5小時達到90%的數據加載完成率。此外,通過優(yōu)化其數據倉庫,納斯達克運行Amazon Redshift查詢的速度加快了32%。

鑒于良好的系統(tǒng)體驗,納斯達克于2022年已成功將其六大美國期權交易市場之一納斯達克MRX的核心交易系統(tǒng)遷移至亞馬遜云科技。此次成功遷移標志著納斯達克為全球資本市場構建下一代技術基礎設施之旅中一個重要的里程碑。

無論是在數據基礎架構、統(tǒng)一分析還是業(yè)務創(chuàng)新上,從連接數據湖和數據倉庫到跨數據庫、跨域共享,如今亞馬遜云科技“智能湖倉”架構在企業(yè)中的實踐,已經為企業(yè)構建現代化數據平臺提供了一條可供遵循的路徑,其將協同Amazon S3與Amazon Redshift等更多技術和產品,進一步推進底層數據架構的現代化演進,為企業(yè)乃至全行業(yè)帶來更大的價值。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2023-03-18
應“云”而生,“智能湖倉”如何成為構建數據能力的最優(yōu)解?
應“云”而生,“智能湖倉”如何成為構建數據能力的最優(yōu)解?

長按掃碼 閱讀全文