AWS張俠深度解析“數據湖”的數據洞察能力

3月30日,數字時代,企業(yè)海量數據隱藏的價值被空前重視,企業(yè)的信息和數據流被認為是“企業(yè)的血液流”。與此同時,“把企業(yè)的數據化資產使用好”、“如何從大量數據中獲得信息洞察未來”,這些成為企業(yè)和業(yè)內專家不懈追求的能力。

近日AWS首席云計算企業(yè)戰(zhàn)略顧問張俠向媒體介紹了“AWS數據湖”在實現“企業(yè)數據洞察”中的最新技術成果和應用表現。

張俠表示,數據本身的價值在于從里面提取出真正有用的“信息”,把這些信息歸類樹立成“知識”,然后用這些知識來指導企業(yè)的“行動”, 幫企業(yè)來運營業(yè)務、幫客戶實現業(yè)務需求、提高客戶滿意度等等,最終為企業(yè)創(chuàng)造更多的價值。

“數據湖”老概念煥發(fā)新活力

“數據湖”這個概念早在2011年就被提出,發(fā)展至今已經走過9個年頭。“我把數據湖的發(fā)展分為兩個階段”,張俠表示,“前期數據湖只是一個初級的概念,有一些開源的應用;得益于云計算提供的海量存儲、高性能計算的能力,大概從四年前開始,數據湖進入第二階段,隨著各項元素的逐一到位,AWS數據湖基本上成熟。”

那么,數據湖究竟是什么?

在張俠看來,數據湖是一個中心數據存儲的容器,這個容器可以存儲格式化、非格式化的各種各樣的數據;這些數據非常容易被快速縮放、有各種方法和工具對這些數據進行查詢、可以做各種各樣的分析。

通俗的講,本來數據很多是結構型數據、交易型數據,比如什么東西多少價格、什么人多大年齡,這些都是很規(guī)矩的放在一個一個數據庫和數據倉庫的小格子里的,但是現在有一套方法,這套方法把任何類型的數據庫,結構型的、非結構型的,非結構型的包括電子郵件、視頻的、音頻的、圖形的、一些文章、一些照片等等,都可以直接把它存下來,我們利用現在云計算時代海量存儲的能力和各種新的查詢的能力,還有各種數據分析和處理的能力,直接對這些原始的數據來做查詢,這就是數據湖的時代。

張俠也強調,數據湖特別適用做一些數據科學家、數據研究人員要用的探索性質的數據查詢和分析。原來有一類數據科學家是做那種數據挖掘的,這一類數據科學家要做的工作,數據湖尤其適用,因為數據湖對所有數據都能兼容、保持靈活性特別適合做探索性、預測性、研究性、前瞻性的服務。

AWS數據湖三大元素

在幫助企業(yè)構建數據湖上,AWS推出了一系列關鍵服務。張俠介紹,數據湖的操作步驟通常包括:把數據設置、存儲;再把數據按需要移動、加載到不同地方;然后把數據清理好,建成數據目錄。這些數據要安全的、合規(guī)的存好、管好,需要的時候使用工具把這些數據拿出來做各種分析。

基于此,目前AWS數據湖主要包含三大元素:一是Amazon S3/Glacier;二是AWS Glue;三是AWS Lake Formation。

張俠介紹:“Amazon S3,可以存所有各類的數據,它有11個9的數據持久性,它是在云上面三個可用區(qū)存了六份,互為備份。它后端還有一個冷存儲叫Amazon Glacier (glacier的意思是冰河) 。如果這個數據不常用,我們可以轉到那里面,費用可以降低很多,只是多需要三四個小時把它拿出來。冷存儲還有一個深度的冷存儲Deep Archive。除了這個以外,在我開始講之前,還有一個叫Amazon DynamoDB,是一個非關系型數據庫,存鍵值這類的數據。在游戲里面比如每個玩家是第幾級、有多少血、用什么樣的武器,這樣的數都是鍵值配對的數。全球有大量這樣的數據都存儲在Amazon DynamoDB這樣的非關系型數據庫。“

AWS Glue則是一種全托管的數據提取、轉換和加載(ETL)服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWSGlue,在幾分鐘之內便可以準備好數據用于分析。AWSGlue消除了ETL作業(yè)基礎設施方面的所有重復勞動,讓AmazonS3數據湖中的數據集可以被發(fā)現、可用于查詢和分析,極大地縮短分析項目中做ETL和數據編目階段的時間,讓ETL變得很容易。

AWS Lake Formation則能把建立數據湖的這套工作自動化,幫助企業(yè)客戶來操作,可以使很多企業(yè)在短短的幾天時間內就完成數據湖的建設工作。

目前AWS Lake Formation尚未在中國正式推出。

AWS數據湖的應用

據張俠介紹,AWS數據湖已經在全球范圍內得到廣泛應用。

以亞馬遜自己為例,亞馬遜曾經是Oracle全球數據庫最大的用戶,它使用了75PB的數據庫,用了7500多個數據庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業(yè)務的很多方面原來都是基于Oracle的數據庫。亞馬遜在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數據庫,去年11月份亞馬遜全部遷移了Oracle的數據庫,遷移到亞馬遜自己相對應的產品。

“這個遷移解決了原來擴展困難、費用昂貴等等一系列的問題,減少了數據庫費用成本60%,減少了管理費用70%,增加的性能高達40%。”張俠介紹道。

此外,金融行業(yè)領域,美國納斯達克交易所也是用了AWS數據湖產品。通過使用數據湖每天處理500億條的付款,使用數據湖把產品上市時間縮短了1/3,有很好的服務能力。

張俠表示:“AWS數據湖一個很大的優(yōu)勢是把所有這些服務整合在一起,統一的接口、統一的標準,包括像無服務器計算,用了AWS Glue以后,這邊接了AWS Lambda,再接了AWS Step Functions,亞馬遜那些其他的服務早都做好了這種無服務器的接口,所以一下子全部都打通了,這是數據湖得以廣泛有效應用的其中一個原因。”

張俠強調:“所以我個人認為,數據湖到了一個真的要好好研究、使用的階段了。數據湖在中國處于一個發(fā)展相對早期的階段,這個時機非常重要,在經濟數字化轉型時代,數據湖的應用、作用性越來越強,下一代互聯網、電商、5G、邊緣計算等都發(fā)展起來以后,與之相對應的我們更要走數據湖對數據的存儲、分析的道路,所以我們覺得如果利用這個時機把這些知識很好的提供給我們公眾和行業(yè)的有關人員,中國的使用甚至是這些相關的服務都能更好的發(fā)展起來,那是我們非常喜聞樂見的。”

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2020-03-30
AWS張俠深度解析“數據湖”的數據洞察能力
【TechWeb】3月30日,數字時代,企業(yè)海量數據隱藏的價值被空前重視,企業(yè)的信息和數據流被認為是“企業(yè)的血液流&r

長按掃碼 閱讀全文