大數(shù)據(jù)和人工智能技術熱度依舊!從概念驗證到可持續(xù)的商業(yè)模式落地,數(shù)據(jù)價值的輸出,仍需要大量的基礎工程研究和開發(fā)。近期,DATA · AI CON 2023 在上海拉開帷幕,包括 Zilliz 在內(nèi)的數(shù)據(jù)庫龍頭廠商受邀參加,共話行業(yè)新趨勢。
據(jù)悉,本次會議由上海白玉蘭開源開放研究院和人工智能開源軟件發(fā)展聯(lián)盟聯(lián)合主辦,并獲得了 Milvus、Ampere Computing、火山引擎、Cloudera、Apache Software Foundation、LF AI & Data Foundation 等企業(yè)和社區(qū)的強力支持,旨在共同推動數(shù)據(jù)與人工智能技術的進步與應用領域的拓展。
本次會議論壇涵蓋現(xiàn)代數(shù)據(jù)架構、數(shù)據(jù)工程與大模型落地、AI 存儲基礎設施、生成式 AI、超大規(guī)模計算、云原生等主題技術論壇。Zilliz 資深開發(fā)者關系布道師李成龍在 【AI 存儲基礎設施】論壇進行了主題分享。
李成龍在現(xiàn)場分享
李成龍表示,當前對于非結構化數(shù)據(jù)的處理主要面臨四大挑戰(zhàn):
數(shù)據(jù)體量巨大,未來超過80%的數(shù)據(jù)屬于非結構化數(shù)據(jù),AIGC 時代多模態(tài)數(shù)據(jù)的生成速度遠遠超過結構化數(shù)據(jù),系統(tǒng)擴展性性能至關重要
非結構化數(shù)據(jù)理解困難,雖然 LLM 已經(jīng)大幅降低了非結構化數(shù)據(jù)理解的成本,但由于數(shù)據(jù)質(zhì)量、多模態(tài),成本性能等問題,單一大模型并不能完全解決
非結構化數(shù)據(jù)理解的問題,很多場景下依然需要多模型組合,搜索與生成結合等方法
對算力的要求巨大,推理、向量數(shù)據(jù)庫存儲檢索等都是算力密集型應用。算力的需求和成本往往成為挖掘非結構化數(shù)據(jù)的一大阻礙。 而處理非結構化的工具卻極其短缺,雖然傳統(tǒng)的結構化數(shù)據(jù)處理并不簡單,但由于 ETL、數(shù)據(jù)庫、數(shù)據(jù)倉庫等工具在過去30年的發(fā)展,已經(jīng)變得相對成熟。然而,非結構化數(shù)據(jù)處理的工具鏈剛剛開始構建,這就使得非結構化數(shù)據(jù)的處理相比結構化數(shù)據(jù)更具挑戰(zhàn)性。
在此背景下,向量數(shù)據(jù)庫應運而生。向量數(shù)據(jù)庫具有快速計算向量相似度的優(yōu)勢,能在 N 個向量中找出與目標向量在高維空間中最相似的前 K 個向量。目前,向量數(shù)據(jù)庫主要分為四個類別:
基于 PostgreSQL、ClickHouse 等進行魔改或者插件化實現(xiàn)的向量數(shù)據(jù)庫。這類解決方案以現(xiàn)有的關系型數(shù)據(jù)庫或列存數(shù)據(jù)庫作為基礎,通過修改或插件擴展的方式添加向量搜索功能,PG Vector是這類解決方案的代表產(chǎn)品。
基于傳統(tǒng)倒排搜索添加稠密向量索引支持的向量數(shù)據(jù)庫。這類解決方案以倒排索引搜索引擎作為基礎,通過擴展索引機制以支持向量搜索,ElasticSearch是這類解決方案的代表產(chǎn)品。
基于向量檢索庫實現(xiàn)的輕量級向量數(shù)據(jù)庫。這類解決方案以向量搜索庫(如 Faiss)為核心,圍繞其構建數(shù)據(jù)庫功能。這些產(chǎn)品通常具有較小的體積和較高的運行效率,Chroma 是這類解決方案的代表產(chǎn)品。
基于原生向量設計的云原生分布式向量數(shù)據(jù)庫。這類解決方案從零開始設計和實現(xiàn)向量數(shù)據(jù)庫,整個系統(tǒng)從底層到頂層都針對向量搜索進行了優(yōu)化,通常提供了更完整和高級的功能,包括分布式計算、容災備份、數(shù)據(jù)持久化等,Zilliz Cloud/Milvus 是這類解決方案的代表產(chǎn)品。
向量數(shù)據(jù)庫適用的業(yè)務場景
李成龍強調(diào),Milvus 經(jīng)歷了從 1.0 架構到 2.0 架構的升級,無論在性能、成本、功能還是易用性等方面都處于行業(yè)領先位置,被全球超過 1000家 企業(yè)用戶所信賴,擁有超過 700 萬次下載和安裝,最大庫規(guī)模超過20億條向量。Milvus 是為云而生的向量數(shù)據(jù)庫,具備以下特性:
分布式云原生,基于 K8s 進行微服務化設計;
存儲計算分離,彈性擴縮容;
高可用,故障分鐘級恢復;
百億級向量的擴展能力;
基于消息隊列實現(xiàn)數(shù)據(jù)的實時增刪;
集成 OpenAI、LangChain、Huggingface、Pytorch 等 AI 生態(tài);
強大的生態(tài)工具 - GUI、CLI、監(jiān)控,備份。
值得一提的是 Zilliz Cloud,它是 Zilliz 公司基于開源向量數(shù)據(jù)庫打造的全托管企業(yè)級向量檢索服務,分為 SaaS 和 PaaS 兩個版本,面向不同需求和不同部署環(huán)境。李成龍?zhí)岬?,Zilliz Cloud 基于 Zilliz 自研的向量檢索引擎 Cardinal,性能成本相比于開源提升3 倍。此外,Zilliz Cloud 提供大量企業(yè)級功能,助力用戶聚焦業(yè)務邏輯,Zilliz Cloud目前已經(jīng)登陸 AWS、GCP、Azure 和阿里云,即將登陸金山云。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )