國產數據庫共話未來趨勢,Zilliz分享向量數據庫新思考

無論是“海納百川,有容乃大”的開源環(huán)境,還是“群英薈萃,百家爭鳴”的技術氛圍,屬于國產數據庫的時代大幕已經在每一位開發(fā)者的眼前緩緩展開。

近期,【國產數據庫·共話未來趨勢】線下沙龍在西湖畔落下帷幕,國產數據庫領域資深專家匯聚一堂,共同交流探討數據庫技術。本次內容涵蓋 AI 時代的向量數據庫、關系型數據庫與 Serverless 等前沿技術分享,以及如何在 K8s上管理數據基礎設施等議題。

Zilliz 合伙人和技術總監(jiān) 欒小凡 帶來《當 AI-Native 遇到 Cloud-Native,向量數據庫到底應該如何做》,分享 Zilliz 在 AI 時代做了哪些事情,以及從 Zilliz 的角度出發(fā)怎么看待向量數據庫或者非傳統(tǒng)數據庫未來的發(fā)展。

欒小凡首先提出, AI-Native 時代的到來對于數據庫提出了更多要求,相應地開發(fā)者對其需求也發(fā)生了變化,具體包括以下四個方面:

非結構化數據理解困難。非結構化數據(長文本、視頻、圖片、音頻、生成分子式、推薦信息)無法通過簡單的機器學習算法進行 Zero Shot 的理解,大模型的出現(xiàn)給非結構化數據理解和處理提供了新的思路,通過更加通用的方式處理非結構化數據成為了可能。

語意正確。AIGC 時代,查詢不再是準確 100% 的“正確性”,相關和上下文更加重要,基于向量檢索的方案成為主流。

數據體量龐大。未來超過80% 的數據屬于非結構化數據,AIGC 時代數據的生成速度遠超過去,系統(tǒng)擴展性性能至關重要。

缺乏工具。雖然傳統(tǒng)的結構化數據處理并不簡單,但由于 ETL、數據庫、數據倉庫等工具在過去 30 年的發(fā)展,已經變得相對成熟。然而,非結構化數據處理的工具鏈才剛剛開始構建,這就使得結構化數據的處理變得更具挑戰(zhàn)性(相較結構化數據)。

隨后,欒小凡深度剖析了向量數據庫在 AI 時代的變化過程。AI 1.0 時代,向量數據已經被廣泛應用于機器學習應用中,包括推薦、搜索、翻譯、圖搜、風控、安防等;大模型時代的到來,使得向量數據涌現(xiàn)出維度更高、體量更大、用途更廣泛的特征。在此過程中,全球*的向量數據庫 Milvus 也經歷從了 1.0 架構向 2.0 架構演進的過程。

提及當時重新搭建 Milvus 2.0 的決定,欒小凡感慨頗深。彼時,隨著用戶數據體量的增長,老的架構擴展性逐漸成為瓶頸;其次,隨著 AI+大模型的快速發(fā)展,對向量數據庫的功能要求越來越高,需要更加靈活的數據模型和 API;K8s 和云原生逐漸成熟,搭建分布式系統(tǒng)的難度逐漸降低……多種因素加持下,Milvus——這個集結了諸多優(yōu)秀技術人的團隊堅持向【做出世界*先進向量數據庫系統(tǒng)】的理想靠近。*終,一個擁有 AI Native + Cloud Native 的 Milvus 2.0 誕生。

Milvus 2.0 架構

不過,欒小凡提到,向量數據庫絕不僅僅是用來進行簡單的向量檢索,要想真正提升開發(fā)者的開發(fā)效率和使用成本,需要系統(tǒng)開發(fā)者深入理解硬件、存儲、數據庫、AI、高性能計算、分布式系統(tǒng)、編譯原理、云原生等方方面面,以確保其穩(wěn)定性、性能和易用性。一個理想的向量數據庫應該具備以下特性:數據持久化和低成本存儲、高性能查詢、數據分布、易于使用、穩(wěn)定可用。向量數據庫是典型的 Big Data Serving 系統(tǒng),可運維可觀測、智能化。

想要了解更多對于向量數據庫的知識,可關注微信公眾號 Zilliz 獲取。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )