自從我們在2014年推出Insight Data Engineering Fellows計劃以來,我們與數據行業(yè)的75多個團隊建立了聯(lián)系,討論了頂級團隊(如Facebook,Airbnb,Slack,紐約時報,LinkedIn,亞馬遜和Tesla)工程師面臨的最新挑戰(zhàn)。此外,我們不斷增長的校友網絡現在有著150多名工程師和750多名數據科學家 ,經常在Insight社區(qū)分享他們的經驗。感謝這個強大的社區(qū),我們有一個探索數據領域技術新興模式的獨一無二的基地。
我們不斷探索將這些知識傳遞給下一代數據工程師和擴散的更多數據社區(qū)的方法,開發(fā)了更為互動的數據工程生態(tài)系統(tǒng)圖,該迭代提供了數據管道核心組件的簡化視圖,同時更深入地探索了分布式系統(tǒng)技術的復雜世界。
數據工程趨勢
通過更新此地圖,我們已經反映了當前數據團隊可用的工具和服務的最新變化。強調了一些值得注意的趨勢。
科技融合:Kafka 和 Spark
盡管有著數量巨大的工具被引入數據工程領域,似乎有兩個顯著的趨同點。
在眾多可用的排隊技術中,Kafka 是最廣泛采用的。
自從LinkedIn于2011年將其基于日志的解決方案發(fā)布給開源社區(qū)以來,Kafka的流行程度一直在穩(wěn)步上升,現在已成為流媒體數據的默認攝取工具。
除了流媒體數據之外,Kafka越來越多地被用作許多公司的微服務的集中式消息總線 。除了讓人印象深刻的高吞吐量、高可靠性和與許多其他流行技術的集成之外,其廣為流行的原因就是易于使用。
其他廣為傳播的技術有Apache Spark,通用的分布式處理框架。
自從Hadoop早期壟斷“大數據”以來,出現了許多有能力的框架,Spark已經鞏固了其處理大規(guī)模數據的“默認”工具的地位。
Spark已經被證明是一個功能全面的工具,從傳統(tǒng)批處理到在線機器學習模型的一切工作都能勝任。 Spark高水平的開發(fā),像DataFrames和SQL一樣結構化的APIs,以及流和圖形庫使得它可以使用代碼庫解決許多實際問題。和Kafka一樣,它有著很棒的社區(qū)支持,而且很多新的和現有的項目正在與Spark集成。
雖然Kafka和Spark是受歡迎的選擇,但肯定不適合每一種用例。調查每個工具的優(yōu)點,缺點和替代方案很重要。我們經常在Insight強調,請務必選擇正確的工具!
架構趨勢:與Kappa統(tǒng)一
除了特定技術的趨勢,我們注意到許多團隊朝著理想化的Kappa架構前進。與Lambda方法相反,許多技術現在采用的批處理問題只是流處理問題的一個子集。
雖然還不是最前沿的,但像Flink , Apex和Gearpump這樣的技術正在推動向統(tǒng)一批處理和流處理框架的愿景前進。即使是Spark,隨著結構化流的發(fā)布,現在提供了一個單一的界面來操作批量和流數據。
從某種意義上說, Apache Beam項目是這些努力的結果?;贕oogle的數據流模型,Beam旨在創(chuàng)建一個統(tǒng)一的API,允許開發(fā)人員編寫與其下的處理引擎無關的應用。
隨著Apache Beam等統(tǒng)一處理框架和項目的出現,Kappa架構可能會快速被采用。不管架構如何,隨著處理框架的不斷改進和發(fā)展,我們期待看到批處理和流處理之間的界線仍然模糊。
托管服務增加
雖然稍有爭議,“無服務器”的產品也是一個發(fā)展趨勢。“紐約時報”等數據團隊越來越希望直接架構數據管道,而不用去管理云基礎設施。雖然這些服務的生產用例相對有限,但它們提供的功能正在不斷改進。通過像AWS S3,Redshift,Athena,EMR,Kinesis和Lambda以及GCP的BigQuery,Pub / Sub和DataProc這樣的服務,主要的云提供商正在為這些全方位服務的解決方案提供投資。
類似于從“內部”服務器到云基礎設施的過渡,數據團隊可能會越來越多地利用數據服務。同時,部分自助服務和部分托管的混合架構將變得越來越普遍。
云提供商的趨勢:AWS與GCP
過去幾年的另一個顯著變化是亞馬遜網絡服務(AWS)面臨的競爭增多。雖然像Microsoft Azure,IBM,DigitalOcean和Rackspace這樣的平臺已經存在了一段時間,但似乎沒有人可以挑戰(zhàn)AWS在2006年發(fā)布的先行優(yōu)勢。
然而,Google一直為內部用戶開發(fā)自己的復雜基礎架構。事實上,Google一直以內部開拓分布式系統(tǒng)而聞名,但選擇發(fā)布白皮書而不是開源。隨著對谷歌云平臺(GCP)的大量投入,他們已推出Google Infrastructure For Everyone Else (GIFEE) 的托管服務。
在過去幾年中,GCP取得了長足的進步,迅速成為一個有利的競爭者。雖然GCP與AWS相比并不能提供全面的服務,但越來越多的頂級團隊(如Spotify)正在進行轉換 。也許云提供商的領域最終會減少,但是在不久的將來我們會看到健康的競爭。
前景
雖然沒有人知道數據領域的未來如何,但有一點很清楚——新技術將使我們能夠進一步利用我們的數據。無論是新技術和服務的出現,還是現有的功能的增加,開發(fā)人員都將擁有更豐富的工具來構建數據管道和平臺。
- AI模型的耗電量驚人 下一步是建設太空數據中心?
- 為什么制造商必須協(xié)調IT和OT,才能實現智能工業(yè)的成功?
- 打造AI時代先進算力底座,鯤鵬開發(fā)者峰會2025即將開幕
- 金山辦公宣布未來五年戰(zhàn)略:重建海外基地,優(yōu)化WPS Office用戶體驗
- 是德科技攜KAI系列布局AI新時代
- 微軟全球再裁6000人:無關績效,關乎未來
- 華為發(fā)布AI數據湖解決方案,助力企業(yè)加速擁抱AI
- 工信部等七部門聯(lián)合發(fā)文!以數智化賦能醫(yī)藥工業(yè)全鏈條轉型升級
- 擎畫算力賦能新藍圖,城市算網專家座談會在京成功舉辦
- 2024年Q4全球服務器收入773億美元同比增91%,非x86占比225億美元同比增262.1%
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。