盡管目前圖數據庫的價值已經受到了市場的認可,大部分企業(yè)也都加大了對于圖技術的投入和應用。但對于企業(yè)而言要選擇一款圖數據庫投入實際生產也是一個不小的挑戰(zhàn)。圖數據庫的最終應用對于企業(yè)長期發(fā)展來說至關重要。面對市場上的圖數據庫和圖分析產品,應該如何選擇?產品性能自然是首要考慮的因素,除此之外,企業(yè)在選擇合適的圖數據庫時還需要注意哪些方面?而哪些又是企業(yè)在做評估時容易忽略的問題,會對未來的項目實施,甚至業(yè)務發(fā)展產生影響?本文或許會給大家一些參考。
在回答如何選擇合適的圖數據庫之前,企業(yè)決策者和項目負責人首先需要考慮以下幾個問題:
企業(yè)為什么選擇圖數據庫?
企業(yè)選擇圖數據庫嗎?
選擇之前要準備什么?
企業(yè)為什么選擇圖數據庫?
部分企業(yè)在沒想明白這幾個問題前,很容易盲目跟風選擇圖技術。圖技術雖好,但每個企業(yè)情況不一樣,發(fā)展階段不一樣,也就意味著選擇不一樣。所以在做圖數據庫采購的選擇之前,首先需要想清楚企業(yè)為什么需要圖數據庫。是有明確的技術問題有待解決和提高?還是業(yè)務場景具有典型的圖問題?例如,反欺詐、風控管理、供應鏈流程優(yōu)化等跟圖相關的復雜結構業(yè)務場景。如果有這類明確的問題和場景,需要對應的解決辦法,那答案就很明確,選擇圖。對于一些新型的熱點行業(yè),例如人工智能、區(qū)塊鏈和最近的元宇宙,他們更多地是在探索和尋找新的技術或投資方向,那圖技術是他們很好的選擇。
企業(yè)選擇圖數據庫嗎?
那回答完上面的問題,知道了為什么選擇圖數據庫,那企業(yè)就一定要選擇圖數據庫嗎?首先,需要了解圖數據庫的市場現狀和接受程度。
首先,圖數據庫還沒有完全統(tǒng)一的標準,都還在逐步建立當中。但國際上有第三方的機構,如LDBC,已經制定了一些標準對圖數據庫的性能瓶頸和使用場景進行驗證。另外,IEEE和ANSI也在逐步確定統(tǒng)一的圖查詢語言。
各家產品的優(yōu)勢不一樣,企業(yè)在選擇時,面對的并不是同質的產品,那考評標準必定也不一樣。
另外,圖技術本身的核心業(yè)務場景和優(yōu)勢業(yè)務場景有待驗證和確定。目前并沒有發(fā)現有什么特定業(yè)務場景非圖不可。只能說在一些業(yè)務場景上,圖技術相比傳統(tǒng)技術,有一定的優(yōu)勢,但也不是一定要選擇圖。另一個現實就是大多數的圖應用和部署需要圖數據庫廠商、合作伙伴和終端客戶共同探索完成。這就需要選擇圖技術的企業(yè)具有探索的主動性,才能更好地促成圖項目的實施落地。
而且,從我們接觸的大部分客戶來說,都會提出這樣一個問題,圖技術很好,但是對我來說有什么用呢?同時,知道圖數據庫的人很多都是緊跟前沿技術趨勢非常專業(yè)的小部分技術人員,還遠遠沒有到大眾熟知的階段。整體而言,圖數據庫屬于較早的初期接受階段,還沒有到廣泛的應用階段。
所以,如果企業(yè)還處在比較保守的發(fā)展階段,其實可以不用選擇圖數據庫。
選擇之前要準備什么?
對于一部分創(chuàng)新型企業(yè)而言,已經對圖數據庫的現狀有了一定的了解,也確定要采用圖技術的情況下,應該先充分了解企業(yè)自身是否已經準備好了應用圖技術的條件。首先,團隊是否已經了解圖數據庫的基本知識,同時是否放下了對于關系型數據庫的先入為主的概念體系,開始全新的圖思維模式。
第二點,團隊需要先收集技術瓶頸和難于實現的業(yè)務需求,然后再整理哪些可以使用圖技術來解決。而不是先入為主認為圖可以解決哪些問題,而企業(yè)是不是有這些問題。TigerGraph的客戶經常就有圖的創(chuàng)新應用,是因為他們更懂自己的問題是什么,而圖剛好可以幫到他們解決。例如,最近在溝通的制造行業(yè)客戶遇到的一個列轉行的操作問題,關系型數據庫處理很慢,圖數據庫可以提升10以上的性能,這并不是一開始就知道用圖來解決,是看到了問題,發(fā)現用圖解決會更好,這就是一種創(chuàng)新應用。
第三點,對企業(yè)本身的技術棧用哪些工具構建和人才儲備情況進行梳理,例如,團隊成員是否有數據庫經驗,對于哪些大數據工具更為熟悉等。還有就是對于業(yè)務場景的梳理,圖數據庫的構建非常需要和業(yè)務專家不斷地溝通才能獲得更有效的schema,才能促成項目落地。
最后一點,利用圖相關技術并不是一蹴而就的,需要反復迭代,需要有見效周期較長的心理建設。
在想清楚了以上的幾個問題,我們再來討論“如何選擇合適的圖數據庫”。
首先考慮的必然是產品本身。我們通常會看以下這些方面:準確性、性能、擴展性、表達性(語言)、軟件技術生態(tài),數據上下游(BI,AI,Dashboard)、企業(yè)級功能(穩(wěn)定性,安全性)、可視化、CI/CD。因為對比圖數據庫產品性能的內容非常多也非常全面,這次我們就不在這里展開,但要強調的是,我們通常說的性能強并不只是說響應時間越快越好,而應該看單位時間處理數據和計算的性能。遍歷數據和統(tǒng)計計算的能力作為標準。這是圖數據庫優(yōu)于傳統(tǒng)方案的地方。性能的重要性還主要體現在計算量和吞吐量上,另外,就是體現在處理大量的圖分析場景。全圖計算,比如中心度、社區(qū)計算、連接分析、相似度算法等大批量算法是非常消耗性能的。如果選擇的圖數據庫不能在可接受的時間內完成,這些構想就無法實現在實際的業(yè)務當中。這里完整版大家感興趣可以去看我們的直播回放。
成本
那第二個關鍵就是大家都很關心的實施圖數據庫項目的總擁有成本,除了產品本身的直接成本,這里還需要注意開發(fā)時間成本、人員成本、遷移成本、硬件成本、維護成本。開發(fā)時間和圖數據庫產品本身的易用性和運行效率密切相關,這將決定在對一個場景進行驗證、深度開發(fā)和穩(wěn)定部署運行需要多長的時間。另外,圖數據庫產品的易用性也將影響項目的人員成本的投入,具體來說就是,一共需要投入多少人?是否需要招聘新的人員加入來進行項目開發(fā)?是否經常需要廠商介入調試?這些對企業(yè)來說都是可能增加的成本。便捷的圖數據庫產品將幫助企業(yè)最大程度地節(jié)約這部分成本。
然后是遷移成本。我們都知道如果替換產品,涉及上下游的連接方式、圖查詢語言替換等問題,我們都知道目前市場還沒有統(tǒng)一的查詢語言標準,因此,遷移成本是企業(yè)需要慎重考量的。但好消息是,查詢語言標準(GQL)已經取得了一定的進展,而像TigerGraph可以支持馬上就要出臺的GQL,對于企業(yè)未來想要替換同樣符合標準的任何圖數據庫,都將大大降低遷移成本。
然后就是硬件成本。存儲同樣的數據,進行同樣的計算需要多少硬件資源,比如,CPU、內存、網絡等等,這些都是項目管理者需要考量的成本。高性能的圖數據庫就有更高的壓縮率和資源的利用率。就我們得到的反饋來說,同樣的東西,TigerGraph只需更少的硬件資源,一定程度降低了這部分的成本。
專業(yè)的技術支持
圖數據庫廠商是否提供完整專業(yè)的技術服務支持是重要的考察點,包括但不限于,24x7的及時響應服務、完整的響應流程、專業(yè)的客戶成功團隊支持、知識共享庫等等。尤其是對于風險厭惡型的行業(yè),如,金融、智能制造、能源、通訊等,對于宕機等故障是低容忍的,那及時專業(yè)的響應服務就非常有必要。TigerGraph也是在與客戶實際的溝通當中發(fā)現客戶成功團隊的必要性,有別于傳統(tǒng)的售后團隊,客戶成功團隊不僅僅是在客戶使用產品出問題時才提供服務。而是定期與客戶進行溝通,深入了解客戶的業(yè)務訴求,幫助客戶一同探索圖應用。同時,聽取和反饋客戶的建議,讓產品的每一次升級都更加客戶友好。讓客戶無論是作為企業(yè)、團隊甚至個人,都能從中收益,這才是真正意義上的客戶成功。
社區(qū)
另外一個重點要考察的就是圖數據庫產品的社區(qū)。無論開源還是閉源產品,都會有自己的社區(qū)。雖然市面上對于選擇開源和閉源產品有很大的爭議,但其實對于企業(yè)使用來說,產品是否是開源,意義并不大。為什么這么說呢?如果本身不是數據庫的開發(fā)者,那么圖數據庫的源代碼也就并不重要了。只是使用圖數據庫來說,社區(qū)、技術文檔、專業(yè)支持相對來說就更重要。特別是社區(qū),作為一項很新的技術,市面上從事這方面的人才還相對較少,招聘成本相對較高。而且有社區(qū)不斷地產生內容可以參考學習,專業(yè)玩家相互交流。因此,社區(qū)的活躍度也就很重要了。像TigerGraph雖然是閉源產品,但其社區(qū)的活躍度非常高,同時,面向的是全球的開發(fā)者和使用者,可以參考的內容更多,應用案例范圍更廣,有助于企業(yè)大大降低人員的培訓成本。
其他
一個企業(yè)是否能夠提供足夠多的學習參考資料也是需要關注的。我們在與客戶交流的過程當中,經常有客戶咨詢是否有案例和經驗可參考。如果圖數據庫廠商能提供一些前沿的國內外案例可供參考,那也能很大程度上幫助剛接觸圖數據庫的企業(yè)少走很多彎路。
另外,圖數據庫廠商是否在往技術前沿不斷地探索和實踐也是很重要的考察點。圖技術作為一項非常新的技術,與機器學習關聯性越來越強,大家熟知的GNN、GCN、等,TigerGraph一直都在進行相關的實踐和測試,這也是為了讓更多人能從圖技術上收益,從而不斷地進行最前沿的探索實踐。一旦有企業(yè)有這方面的圖技術需求,才有能力為企業(yè)提供這樣的支持。
圖數據庫提供商的合作伙伴生態(tài)的搭建也是至關重要的。是否有足夠多的合作伙伴能夠共同構建,打磨相互之間的接口,這些都需要關注。包括,云平臺,服務器,硬件加速,行業(yè)解決方案,咨詢,數據上下游等等。
說了這么多,希望能夠對有需要的人起到借鑒意義,總而言之,大家在選擇圖數據庫的時候,要結合自身情況,具體問題具體分析,適合自己的才是最好的。
相關資源
完整版
回放:企業(yè)如何選擇合適的圖數據庫?
開發(fā)者社區(qū)
免費下載企業(yè)級圖數據庫
2022 Graph+AI 全球峰會正式開始報名
百萬美元圖技術挑戰(zhàn)賽
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )