




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
向量數(shù)據(jù)庫是什么:存儲(chǔ)向量的數(shù)據(jù)庫向量AI的核心AI的全流程其實(shí)都是圍繞著向量的數(shù)學(xué)運(yùn)算。量在人工智能(A)中扮演著常重的色尤在器學(xué)和度習(xí)域以下向與AI一自peA:1、數(shù)據(jù)表示:在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中,數(shù)據(jù)通常以向量形式表示。例如,圖可以示像值向,文可表為向或句向;2、詞嵌在然言N嵌技如od2eGoe和E)將詞語轉(zhuǎn)換為多維向量,這有助于捕捉詞語之間的語義關(guān)系。這些向量表示用于本類情分、機(jī)翻等;3、神經(jīng)網(wǎng)絡(luò)權(quán)重:在深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置通常以向量和矩陣的式存儲(chǔ)。在訓(xùn)練過程中,優(yōu)化算法(如梯度下降)會(huì)不斷更新這些權(quán)重向量以最化失;4、向量運(yùn)算:許多機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(M、K-近鄰(KN)和主成分P及到量的離算內(nèi)積算其向運(yùn)。這些算助找數(shù)中的式者數(shù)進(jìn)分類;5、優(yōu)化梯機(jī)器和深學(xué)中優(yōu)化(如度降和Ada常使用(種量更新型而損失數(shù)最助于改模的;6、強(qiáng)化習(xí):強(qiáng)學(xué)習(xí),智體使向表示態(tài)和作。如Q學(xué)和深度Q網(wǎng)D中的Q函會(huì)出個(gè)向能根這量選擇佳作??傊?,向量對(duì)于AI至關(guān)重要。無論是之前的N、N模型還是當(dāng)前火熱的anoe內(nèi)的流轉(zhuǎn)實(shí)是量處和變。高空向所隱含的海信也了AI用的凡力。圖:N模型也是把像向量化之后進(jìn)行理數(shù)據(jù)來源:ImageNet,單就數(shù)據(jù)而言,只向化之后的數(shù)據(jù)才能被I模型所分析。據(jù)夠分類為結(jié)構(gòu)數(shù)和結(jié)化據(jù)其結(jié)構(gòu)化數(shù)據(jù)般指以用系數(shù)庫示和存以二表邏輯達(dá)現(xiàn)數(shù)型的構(gòu)數(shù)例成單工資單非結(jié)構(gòu)化數(shù)有固的構(gòu)包文圖白結(jié)理間信息物網(wǎng)據(jù)在人智時(shí)目前流的對(duì)非結(jié)構(gòu)化數(shù)進(jìn)管理和處理的方法是利用N或ansoer等嵌入模(meddgde將非結(jié)構(gòu)化數(shù)據(jù)的語義容化為高維、密集的量入(ecormbddng,即多維向直對(duì)些入進(jìn)存理構(gòu)化據(jù)化嵌后其語義的相似性能夠通過向量空間點(diǎn)的距離進(jìn)行量化表示,并進(jìn)行常見的機(jī)器學(xué)習(xí)操作如聚、類推等。圖:深度學(xué)習(xí)法將物轉(zhuǎn)化為向量數(shù)據(jù)來源:Pinecone官網(wǎng),向量化:技術(shù)已經(jīng)充分?jǐn)U散向量化技術(shù)已經(jīng)十成并且存在大量的開源決方案盡向化詞對(duì)大多普民而較陌生但際技早成目大應(yīng)的d2c發(fā)在203年不的領(lǐng)在同向化的案需注的不同的領(lǐng)域,如文字、圖片、視頻等,向量化的技術(shù)是不同的。這些技術(shù)可以是諸如OpeAI大型商,也以諸如HggngFace中層供當(dāng)還有大量三廠商開提。圖:部分向量框架以下是一個(gè)向量化例如對(duì)我歡蘋句的量我們可以為個(gè)同詞分一個(gè)一字。是一可的射系:我:1喜歡吃:3蘋果接下,們以這數(shù)字D來示個(gè)。例,子我歡蘋”可以示向量1,2,3,4這樣們可將些向輸?shù)狡髁?xí)型進(jìn)行訓(xùn)和測(cè)然而種方存一問如這些向量并沒有捕到詞語之間的語義關(guān)系了決這問,們以用詞入術(shù)如odec或Go。些法將詞語示一固長(zhǎng)的向(如50這向量可以捉語間相性。如我可得以下詞量:我:0.,0.3,0.2,..,0.1]喜歡:.3,05,02,...,0.]吃:0.,0.1,0.2,..,0.3]蘋果:.5,02,01,...,0.]這些向可通訓(xùn)預(yù)先理量本據(jù)到然們以子的每個(gè)替為應(yīng)詞量,而到個(gè)量表示句。向量化數(shù)據(jù)有著高的算成本因此求存本替代是必須量數(shù)據(jù)的計(jì)算本要自據(jù)處征取向表示生這過常涉及大量雜學(xué)算如陣乘征換統(tǒng)計(jì)算處大模據(jù)和高維據(jù)些算能會(huì)耗量計(jì)資和時(shí)外許機(jī)學(xué)和深度習(xí)法需對(duì)量化據(jù)行雜計(jì)梯下類經(jīng)絡(luò)訓(xùn)練這計(jì)任通需要大硬支,高能PU和GU及用的深學(xué)加器相之下存成主受量化據(jù)規(guī)和度響雖然高向和規(guī)數(shù)集確會(huì)致儲(chǔ)求增加存技的發(fā)使得存成相較如代盤固硬的存容越越時(shí)格也逐降外通使用疏量示數(shù)壓縮術(shù)我可進(jìn)步低存儲(chǔ)本更要是隨著計(jì)技的及企業(yè)個(gè)用可按購存儲(chǔ)空得儲(chǔ)本得更可受相之計(jì)資的需買常格較高尤是需強(qiáng)計(jì)算力場(chǎng)中綜所述向化據(jù)需計(jì)成本遠(yuǎn)于儲(chǔ)要是為算務(wù)常及大復(fù)數(shù)運(yùn)存儲(chǔ)成本可通優(yōu)技和計(jì)算務(wù)到效制。向量數(shù)據(jù)庫:專門用來存儲(chǔ)和查詢向量的數(shù)據(jù)庫向量數(shù)據(jù)庫是專門來儲(chǔ)和查詢向量的數(shù)向量據(jù)是種門于存、管理查向(ecor數(shù)庫要用于工能機(jī)學(xué)數(shù)據(jù)挖等域同統(tǒng)庫相量據(jù)不夠完基的C添、讀取查詢、更新、刪除、元數(shù)據(jù)過濾、水平縮放等操作,還能夠?qū)ο蛄繑?shù)據(jù)進(jìn)行更快速的相似性搜索前AI流大如nsoe、CpGT等夠?qū)⑽南穹菢?gòu)數(shù)據(jù)化高向伴隨模應(yīng)場(chǎng)的展這些高向數(shù)的儲(chǔ)檢索顯帶向數(shù)庫的場(chǎng)求。圖:向量數(shù)據(jù)與其非關(guān)系型數(shù)據(jù)庫的比數(shù)據(jù)來源:Pinecone,向量據(jù)的作程括以步:1、向量數(shù)據(jù)的存儲(chǔ):向量數(shù)據(jù)通常是高維的數(shù)值型數(shù)據(jù),如圖像特征向量、文詞向等向數(shù)庫用基向的儲(chǔ)構(gòu)以便速詢處;2、向量索引數(shù)使用QLH或NSW等算為量制引并將向量射數(shù)結(jié),便更地行索;3、向量查詢:向量數(shù)據(jù)庫將查詢向量與數(shù)據(jù)庫中的向量進(jìn)行比較,從而找到最鄰的量;4、查詢結(jié)果的返回:向量數(shù)據(jù)庫返回查詢結(jié)果,通常包括與給定向量最相似的向量列向之的度得等環(huán)以使不的似度對(duì)最近鄰重排。圖:向量數(shù)據(jù)常見作流程數(shù)據(jù)來源:Pinecone,向量數(shù)據(jù)庫能夠通過向量搜索(ecorSac,實(shí)現(xiàn)更為高效、準(zhǔn)確的執(zhí)行和結(jié)果輸出。當(dāng)主的庫檢采關(guān)詞索KewodSeac)方,將搜索關(guān)詞數(shù)庫的進(jìn)行配根詞相性詞現(xiàn)頻到出結(jié)果關(guān)詞索缺在于其于義同表達(dá)式同文理能較差不備?;蛘Z言檢能向量搜索利神網(wǎng)模型對(duì)如文本圖查表為高向采用K近鄰(eaetehbo)或近似臨近算ppoxmaeNeargNegbo計(jì)算目標(biāo)對(duì)象與據(jù)庫中向量嵌入的距離(通常采用余弦距離、歐氏距離等方法)以表示兩者的相似度并按向的似進(jìn)排序返結(jié)關(guān)詞搜相量索夠現(xiàn)對(duì)語義更為精準(zhǔn)的理解,在多模態(tài)、不同語言等環(huán)境下能夠輸出更為準(zhǔn)確的結(jié)果。例如:英文的pal可以指“資本”或者首都“從中國(guó)去美國(guó)”“美國(guó)去中國(guó)”存在方向傳的數(shù)據(jù)庫不能很好解這些問題。圖:向量搜索作原理數(shù)據(jù)來源:Elastic,向量數(shù)據(jù)庫的主要點(diǎn)優(yōu)勢(shì)包括:1、高效的相似性搜索:向量數(shù)據(jù)庫通過優(yōu)化的索引結(jié)構(gòu)和查詢算法,能夠在大模向量數(shù)據(jù)集中快速地找到與給定查詢向量相似的向量。這有助于實(shí)現(xiàn)實(shí)時(shí)近實(shí)的索推功;2、靈活的向量表示:向量數(shù)據(jù)庫通常支持各種向量表示方法,包括稠密向量(詞嵌入)和稀疏向量(詞袋模型和FD。使得向量數(shù)據(jù)庫可以處種類的據(jù)如本圖像音和頻;3、可擴(kuò)展性:向量數(shù)據(jù)庫通常具有良好的可擴(kuò)展性,可以在多個(gè)計(jì)算節(jié)點(diǎn)上分式存儲(chǔ)和查詢向量數(shù)據(jù)。這使得向量數(shù)據(jù)庫可以應(yīng)對(duì)大規(guī)模數(shù)據(jù)集和高并發(fā)詢的求;4、高級(jí)查詢功能:向量數(shù)據(jù)庫通常提供豐富的查詢功能,如相似性搜索、近似近鄰查詢、向量加權(quán)查詢等。這使得向量數(shù)據(jù)庫在各種應(yīng)用場(chǎng)景中具有較高靈活和用。圖:未來向量據(jù)庫技術(shù)棧數(shù)據(jù)來源:Pinecone,向量數(shù)據(jù)庫有什么用:給AI插上騰飛的翅膀拓展大模型的邊界:向量數(shù)據(jù)庫的核心應(yīng)用向量數(shù)據(jù)庫一個(gè)很要功能是拓展大模型邊邊界又分為時(shí)間邊界空間界。時(shí)間邊界的擴(kuò)展指是量數(shù)據(jù)庫能夠使得模型LM擁“長(zhǎng)期記憶所周知,前大型無是P域的GT系還是V域的ReET系)都是先練Pran的模,著常晰練截日CuofDa。導(dǎo)致這些型于練止之后生事一所而信的值著的逝呈現(xiàn)指級(jí)降這使得LM很場(chǎng)適用有。著量據(jù)的引入其部?jī)?chǔ)最的信向能極地展大型應(yīng)邊向量據(jù)庫可以使得大模型持實(shí)時(shí)性提高模型的用性并使得模型能動(dòng)態(tài)調(diào)整。也就是說向數(shù)庫使得大模型的長(zhǎng)記得到了可能。例如假一預(yù)練新聞要型在021完成訓(xùn)。而到了2023年多聞件趨已經(jīng)生變了大模能處這新息可以使向數(shù)庫存和詢223年新章向。過種式大型可以據(jù)新數(shù)生更準(zhǔn)和關(guān)摘樣推系中預(yù)練大模型能法別用和新品特通量數(shù)以時(shí)用戶和產(chǎn)品特向從大模能根最的息為戶供精的薦此外量據(jù)還以持實(shí)監(jiān)和析例在融域訓(xùn)股票預(yù)測(cè)模可無獲訓(xùn)截止期后股價(jià)信息過最的價(jià)向量存在量據(jù)大??蓪?shí)分和測(cè)未股價(jià)走有就是在客領(lǐng),量據(jù)將使大型以溯對(duì)話開??臻g邊界的擴(kuò)展指的是向量數(shù)據(jù)庫能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問題戶出的opt可會(huì)含些信息根媒報(bào)道工A用haPT幫己一代的bu,這源碼與導(dǎo)設(shè)測(cè)數(shù)有;員工B用ChaGT幫己優(yōu)一代就接與產(chǎn)和品記設(shè)關(guān)的一代輸了工C則用AI音手averCoa自的議音轉(zhuǎn)成字用CaGT幫他結(jié)下議容做成要這行直導(dǎo)了三星鍵據(jù)泄而ChaGT身實(shí)也過隱泄事使一小部分的對(duì)話歷史支付數(shù)據(jù)會(huì)被其他用戶查看。這些據(jù)都極為敏感。通過本地部署向量數(shù)據(jù)庫能夠在大度上解決這個(gè)問數(shù)據(jù)本部后以儲(chǔ)企業(yè)有關(guān)大隱數(shù)。本地署者有部大模后通特的Aent大模型以有護(hù)情下訪向數(shù)庫隱數(shù)據(jù)而以不網(wǎng)露公司隱的況,得公的務(wù)到模的助。圖:peAI泄露隱數(shù)據(jù)多模態(tài)搜索向量數(shù)據(jù)庫的拿手好戲向量數(shù)據(jù)庫自帶多態(tài)能這意味著它能夠通機(jī)器學(xué)習(xí)方法處理理來自不同源的多種模態(tài)信息文本圖像音頻和視等數(shù)據(jù)向量化過程使這不同模態(tài)數(shù)據(jù)的內(nèi)部藏息得以暴露進(jìn)為態(tài)應(yīng)提支個(gè)型的應(yīng)用場(chǎng)是語搜量數(shù)庫持語的息檢戶以用語法語文多語搜圖書無事對(duì)名進(jìn)多言譯理這益于向表能捕到義相性得自語言查和容夠互匹。此外向數(shù)庫可實(shí)現(xiàn)模搜如用戶文來索片假用戶用俄文搜索“藍(lán)色的鞋子,盡管商品的標(biāo)題和描述都是英語,但向量數(shù)據(jù)庫仍然能返顏為色鞋子品結(jié)果這為向數(shù)庫夠別不模態(tài)數(shù)之的義聯(lián)進(jìn)而現(xiàn)模的息索。圖:使用向量據(jù)庫中文搜索英語圖書圖:用俄語基于圖片解來進(jìn)行搜索“藍(lán)的子)近似搜索給向量數(shù)據(jù)庫帶來巨大的商業(yè)化潛力即使不考慮需要M支持的邊界拓展型應(yīng)和模態(tài)搜索,近似搜功就可以給向量數(shù)據(jù)庫帶來大商業(yè)化潛力量據(jù)庫近似AppxaeNaetNeghorSeac,稱N)一在維據(jù)查找給查向相的項(xiàng)的搜方種索的目是到離詢量最的據(jù)“鄰。在向數(shù)庫數(shù)過向化理每據(jù)點(diǎn)會(huì)表為維間中的一個(gè)我需找與個(gè)詢量似數(shù)據(jù)似索會(huì)在這個(gè)高空中速位與查向距較的據(jù)點(diǎn)種似度常于向量之間的距離(如歐氏距離、余弦相似性等。由于在高維空間中進(jìn)行精確的最近鄰索常通常用似法加搜索似索依賴于一些特定的算法和數(shù)據(jù)結(jié)構(gòu),如LoaySensveHahng(SH、HeaccalNavgbeSaloNWAnoy等算法數(shù)結(jié)能在牲一定精度前下著速索速從實(shí)在模高數(shù)中高查搜索著大商化力:1、推薦系統(tǒng):通過利用近似搜索功能,向量數(shù)據(jù)庫可以幫助推薦系統(tǒng)為用戶提更精準(zhǔn)、更個(gè)性化的內(nèi)容推薦。這可以顯著提高用戶滿意度和使用時(shí)長(zhǎng),進(jìn)提升業(yè)值;2、文本挖掘:在自然語言處理領(lǐng)域,向量數(shù)據(jù)庫的近似搜索功能可以幫助快速索相關(guān)文檔、發(fā)現(xiàn)隱含的話題和關(guān)鍵信息。這對(duì)于新聞分析、競(jìng)爭(zhēng)情報(bào)、法(特是例市研究領(lǐng)具顯的業(yè)價(jià);3、圖像檢索:向量數(shù)據(jù)庫可以運(yùn)用近似搜索功能在海量圖像庫中快速查找與給圖像相似的圖像,這對(duì)于廣告、設(shè)計(jì)、版權(quán)等領(lǐng)域具有重要應(yīng)用價(jià)值。通過速、確找相圖,企可降成、高工效;4、語音識(shí)別和處理:近似搜索功能可以應(yīng)用于語音識(shí)別和處理領(lǐng)域,幫助企業(yè)語音數(shù)據(jù)庫中快速匹配相似語音片段。這對(duì)于客戶服務(wù)、語音助手和自動(dòng)翻等應(yīng)具顯的業(yè)力;5、生物信息學(xué):在生物信息學(xué)領(lǐng)域,近似搜索可以幫助研究人員在基因序列、白質(zhì)結(jié)構(gòu)等復(fù)雜數(shù)字?jǐn)?shù)據(jù)中查找相似性。這可以加速新藥研發(fā)、疾病診斷和因治等域進(jìn),而創(chuàng)巨的業(yè)會(huì)。實(shí)際,尼大電之一kopda就已署了量據(jù)進(jìn)近搜。之前oopeda采基于acSeach的鍵搜,這搜很提出索關(guān)鍵詞內(nèi)含主重在詞通從詞搜轉(zhuǎn)基向的似搜,okpeda能更好滿用戶搜需進(jìn)精準(zhǔn)商推智水平提升了0,而幅提升務(wù)標(biāo)。圖:傳統(tǒng)的關(guān)鍵詞搜太表層圖:公司采用了成的Mshards中間件市場(chǎng)空間:向量數(shù)據(jù)庫五百億美元藍(lán)海市場(chǎng)待引爆海量數(shù)據(jù)爆發(fā)產(chǎn)生大據(jù)庫需求互網(wǎng)化勢(shì)下數(shù)量爆式長(zhǎng)同時(shí)隨數(shù)大中數(shù)掘業(yè)能協(xié)作大數(shù)處技的趨熟,數(shù)據(jù)值指上趨。據(jù)Sas,2022全球建使和儲(chǔ)數(shù)量約為97B預(yù)到05年數(shù)到18B,021205全數(shù)量合增長(zhǎng)率為3數(shù)量爆發(fā)增為據(jù)儲(chǔ)處理來為大需。圖:21205年全球創(chuàng)建、使用和存儲(chǔ)數(shù)量變化()數(shù)據(jù)來源:Statista,全球數(shù)據(jù)庫市場(chǎng)規(guī)仍在高速成長(zhǎng)期。據(jù)Gaer數(shù)221年球庫市場(chǎng)規(guī)接近00億201億民同增約20.3,年已市場(chǎng)規(guī)模倍根前產(chǎn)研究計(jì)到2026年全球據(jù)市規(guī)將到206億美,22226復(fù)增長(zhǎng)到21.3。圖:21206E年球數(shù)據(jù)庫市場(chǎng)規(guī)模化億美元)數(shù)據(jù)來源:ExpertMarketResearch,IDC,Gartner,前瞻產(chǎn)業(yè)研究院,關(guān)系型數(shù)據(jù)庫仍然市主導(dǎo),靈活拓展與并能力助力NSL數(shù)據(jù)庫騰飛。根據(jù)C告017至202,關(guān)型庫DM)場(chǎng)模復(fù)合增長(zhǎng)率為30.9而關(guān)數(shù)據(jù)RBS復(fù)長(zhǎng)率僅8.12;從規(guī)模看,關(guān)系型數(shù)據(jù)庫仍然占據(jù)主導(dǎo),83%的數(shù)據(jù)庫市場(chǎng)由關(guān)系型數(shù)據(jù)庫構(gòu)成。根據(jù)ScaeGd019統(tǒng)系型非系數(shù)庫用戶模別為0.5和9.5。根據(jù)R202球oQL市規(guī)將到73美計(jì)02228年復(fù)合長(zhǎng)將到9.92NoonL數(shù)據(jù)市規(guī)的速持續(xù)領(lǐng)先傳關(guān)型據(jù)。圖5:209年關(guān)系型與非關(guān)系型數(shù)據(jù)庫用戶規(guī)模()
圖6:202年關(guān)系型與非關(guān)系型數(shù)據(jù)庫市場(chǎng)份額()17%83%39.50%17%83%60.50%關(guān)系型數(shù)據(jù)庫 非關(guān)系型數(shù)據(jù)庫
關(guān)系型數(shù)據(jù)庫(RDBMS)非關(guān)系型數(shù)據(jù)庫(DDMS+NDBM)數(shù)據(jù)來源:ScalGrid, 數(shù)據(jù)來源:IDC,圖:21202年關(guān)系型及非關(guān)系型數(shù)據(jù)規(guī)及增速(百萬美元,)數(shù)據(jù)來源:IDC,WilliamBlair,向量數(shù)據(jù)庫或?qū)⒂?0億美元市場(chǎng)。假:1、參考GaneDC市模數(shù)201全數(shù)庫市規(guī)為800億;2、到200,球據(jù)場(chǎng)規(guī)以8年合長(zhǎng)率長(zhǎng)即030年數(shù)據(jù)市規(guī)為358億美;3、參考NoL云務(wù)庫的比同考到AI的快滲設(shè)230NoL據(jù)中量庫占將到0;根據(jù)述設(shè)們出預(yù)計(jì)到230年,全球量數(shù)據(jù)庫市場(chǎng)規(guī)模將到522億美元。中國(guó)向量數(shù)據(jù)庫市空或?qū)⑦_(dá)到25349億元根據(jù)國(guó)通數(shù)21年中國(guó)數(shù)庫場(chǎng)模為39元全數(shù)庫80億美市的重為5.4;預(yù)計(jì)到025年中數(shù)庫市規(guī)為688元202025復(fù)增率為2.4,占全數(shù)庫場(chǎng)比約為614根據(jù)C20年國(guó)據(jù)規(guī)約為92B,占全總的18;到2025,國(guó)據(jù)模將至486B占數(shù)據(jù)量的7.中數(shù)在全的比超據(jù)市場(chǎng)模配較為明顯。于述據(jù)我做出下設(shè):1、到200,國(guó)據(jù)場(chǎng)以20的復(fù)增率增,應(yīng)030年場(chǎng)規(guī)模71億民,球數(shù)庫的7.4;2、中國(guó)向量數(shù)據(jù)庫市場(chǎng)占全球比重的下限≈中國(guó)數(shù)據(jù)庫市場(chǎng)占全球數(shù)據(jù)庫市場(chǎng)比重即7;3、到200,國(guó)據(jù)全球據(jù)規(guī)的重持在025年平;4、中國(guó)向量數(shù)據(jù)庫市場(chǎng)占全球比重的上限≈中國(guó)數(shù)據(jù)量占全球數(shù)據(jù)量的比重,即28;根據(jù)述設(shè)們預(yù)計(jì)到2030年中向量據(jù)庫市場(chǎng)規(guī)?;?qū)⒌?9146億美元,對(duì)應(yīng)23949億人民幣。需要特別指出的是于傳統(tǒng)數(shù)據(jù)庫向量庫其實(shí)不止有存儲(chǔ)能也有定的計(jì)算屬性,因其M是可以擴(kuò)大的。圖:中國(guó)與全球數(shù)據(jù)生量及占比(,) 圖中國(guó)與全球數(shù)據(jù)市場(chǎng)規(guī)模及占(億美,億元,)201010101010806040200
3%全球中國(guó)占比27全球中國(guó)占比27.77%23.01%18.00%2%1%1%5%0%
100100806040200
2%全球中國(guó)占比9全球中國(guó)占比9.04%5.36%1%1%1%1%8%6%4%2%0% 數(shù)據(jù)來源:IDC, 數(shù)據(jù)來源:IDC,Gartner,中國(guó)信通院,圖:中國(guó)數(shù)據(jù)庫市場(chǎng)模及增速(億元,)80706050403020100
市場(chǎng)規(guī)模 688.02611.05492.75368309.35240.9220 22E 22688.02611.05492.75368309.35240.9
4%3%3%2%2%1%1%5%0%數(shù)據(jù)來源:中國(guó)信通院,全主流向量數(shù)據(jù)庫介紹目前球有向數(shù)庫產(chǎn)主括Pnecn、Mvu、eavaeea等。其中超過70的量據(jù)庫擇開過半的量據(jù)具云部的能力大分量據(jù)產(chǎn)品行N相搜索用SWHechcalNavgbeSalod法向數(shù)庫司以初型業(yè)級(jí)市場(chǎng)上普獲較投者青睞。公司向量數(shù)據(jù)庫產(chǎn)品是否上云是否開源算法公司向量數(shù)據(jù)庫產(chǎn)品是否上云是否開源算法SMIWeviate是是(o)CustomHSWPinonePinone是否MultplepopietrySIAPUhiporElsticrhOpnsrh否否Nurlhshig/HingQdrntQdrnt否是(Rust)HSW(grh)Yhoo!Vspa是是(Jv,C)HSW(grh)ZilizMilus否是(o,C,Pyhn)FAISS,HSWYhoo!Vld否是(o)NTPineonePineoe擁有技術(shù)背景厚的工程團(tuán)隊(duì),先上架Goge云和WS并打市場(chǎng)。2019年P(guān)neone創(chuàng)人EdoLiby立Hypeub.a提基深學(xué)多媒體搜解方;221初Hypeube.ai正轉(zhuǎn)為Pneon,注向數(shù)據(jù)庫領(lǐng)研。隊(duì)數(shù)程師自GogeDaabck、Spnk等名技業(yè)。公司始兼席行官EdoLiby得魯計(jì)算科博學(xué),擔(dān)任aho高研總紐約區(qū)aho研實(shí)室的責(zé),入S團(tuán)隊(duì)建尖的器習(xí)算、統(tǒng)服。22年2起,Pncoe后上架oogeCod和用戶在Mkepace買并用Pecon,改變基礎(chǔ)構(gòu)前下將AI技術(shù)持搜加到用程Pneone通借平臺(tái)流量步升品名,有進(jìn)開售道,占場(chǎng)額。Pineoe是一個(gè)閉源托管僅使用簡(jiǎn)單I的云原生向量數(shù)據(jù)大劃分為核心索引、容器分(coanerdsrbuton、云理層三部分Pnecoe心索引負(fù)將自三數(shù)源的維量成L可讀的式器確數(shù)據(jù)庫收查、新嵌入令,延于50秒運(yùn)狀處載平衡行據(jù)制命名間分?jǐn)?shù)庫云管層得戶不裝硬件的情況下,僅通過創(chuàng)建索引并導(dǎo)入向量數(shù)據(jù)就可實(shí)現(xiàn)查詢。此外,用戶可以使用API隨隨更新查向量引司歷次重技創(chuàng)新1團(tuán)隊(duì)在保證管統(tǒng)定行元數(shù)與像歷gaphaves)相合條,研發(fā)出態(tài)可濾圖索引2)原RoksDB儲(chǔ)引達(dá)極后團(tuán)構(gòu)了全新“ee向儲(chǔ)其大數(shù)庫成對(duì)的儲(chǔ)超RcsDB10倍低305運(yùn)成基于C和Pyon出代庫題團(tuán)隊(duì)最決在Rust重搭建據(jù)和發(fā)境架構(gòu)有提了發(fā)并降低了營(yíng)件率。圖:Piecoe向量數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)來源:Pinecone,Pineoe數(shù)據(jù)庫擁有F特性:快速(as、實(shí)時(shí)(Fe、可過濾(Fiee全托管(u。即使數(shù)十億規(guī)模的數(shù)據(jù)存儲(chǔ),依然可以保持極低的查詢延遲。在增輯刪數(shù)時(shí)時(shí)新引搜索元據(jù)濾結(jié)提高查詢結(jié)果的相關(guān)性。平臺(tái)保證穩(wěn)定、安全的運(yùn)行環(huán)境,產(chǎn)品入門簡(jiǎn)單、使用便利操作流程可劃分創(chuàng)索(Ine連接索引插入索引使用索引四步通過建一索對(duì)常為son式數(shù)據(jù)將量入和數(shù)寫到引然后調(diào)索對(duì)的法執(zhí)行似搜或他作。pneone還供些定義的引(ndxy如ageSeachextSeach以開發(fā)更容易地始定用。表:Pincone向量數(shù)庫設(shè)置索引分步內(nèi)容索引是向量數(shù)據(jù)的最高組織單位。創(chuàng)建新索引時(shí)可以設(shè)定od與DistnetriPod是運(yùn)行服務(wù)的配置硬件單元可選種類包括1odp1od、創(chuàng)建索
p2pd每種類型的pd尺可在x248四擋調(diào)Distnetris衡量向量對(duì)象的相似度,有ulidn、osine、otpout種可選。此外,支持從集合(olltion)中建索引,集合是向量與元數(shù)據(jù)的不可查詢表示連接索引 如果使用Pinne客戶端訪索引,需要與索引進(jìn)行交互。將向量嵌入與元數(shù)據(jù)插入索引。向量對(duì)象以(id,vtor)元組列表(tupl)插入索使用索
形式插入,含元數(shù)據(jù)的向量以鍵值對(duì)(ky-vluepirs)形式插入用于條件濾。完成索引設(shè)置后即可利用索引進(jìn)行數(shù)據(jù)查詢數(shù)據(jù)篩選數(shù)據(jù)獲取數(shù)據(jù)理,以及管理索引、插入更多數(shù)據(jù)或更新現(xiàn)有向量等操作。數(shù)據(jù)來源:Pinecone,定價(jià)標(biāo)準(zhǔn)當(dāng)前在初者標(biāo)準(zhǔn)企級(jí)三種式初者本用但限創(chuàng)一索與個(gè)劃標(biāo)版適于規(guī)模生應(yīng)程持將向量數(shù)庫存集中能夠行由引每收費(fèi)70美起企本夠?qū)崿F(xiàn)準(zhǔn)本的有能支多可區(qū)及24725屬持每月收費(fèi)04元。Pnecoe一級(jí)市場(chǎng)獲.38億美元融資,估值超7美元。201年7月Pncone種子到100美資投方ngnueapa202年3底司A輪資280美Mnoenues投gerGoangenueCapal投,公司值到1.68億元2022底伴隨CaGT推出引生式AI熱,作為L(zhǎng)L海體量數(shù)庫求增者投者紛入數(shù)據(jù)庫賽至203年4公司B獲AndeeenHowzNQGwhMnoenue、ngnueCpal投資超1美,輪融總到1.8元,投后值至7.5億元。表:Pincone融資情匯總估值(美元)
融資金額(美元)
參投機(jī)構(gòu)種子輪100萬ingnureCpitl領(lǐng)投A輪1.8億280萬Mnlonurs領(lǐng)投,igrlbl、igntureCitl跟投B輪 7.5億 1
AndrsnHorowitz領(lǐng)投ICNIQrowthMnlonursngnureCpitl跟投MilvusMvus向量數(shù)據(jù)庫由中創(chuàng)業(yè)團(tuán)隊(duì)ZZ研發(fā)并于2019年面世Zz立于2017年,有過00名。通向數(shù)庫Mvu,Ziz與Nvda、B微軟、S公司立作前開源Mvus已為領(lǐng)先向數(shù)庫決案,有~800個(gè)GHbSa。圖:Mvus向量數(shù)庫生態(tài)和社區(qū)布局?jǐn)?shù)據(jù)來源:Zilliz,Mvus是一個(gè)基于云開源的自托管向量據(jù)Mvus數(shù)庫含下點(diǎn):易于使用助Mvus量數(shù)庫使以不到分的間創(chuàng)大規(guī)模相性索務(wù)K單也用種不的言;速度快Mvus有的硬效提先的索算索度提升10倍;高可用性:Mvus向量據(jù)已成功在一千名業(yè)用戶中進(jìn)行了實(shí)測(cè)試通過各系組的泛隔,Mvus具較的彈和靠;高度可擴(kuò)性Mvus分布和通特使面對(duì)規(guī)向數(shù)時(shí)夠提供效服;云原Mvus量庫采系化云生法計(jì)與儲(chǔ)離并允許用橫、向展;功能豐Mvus支種數(shù)類具屬濾的強(qiáng)量F支持、配的致級(jí)、時(shí)旅等。為了強(qiáng)性靈性Mvus由儲(chǔ)和算組成該統(tǒng)括個(gè)別:接入層Acesaye:入層一無態(tài)理成,當(dāng)戶系和點(diǎn)的前;協(xié)調(diào)服務(wù)oodnatorervc:調(diào)服將分配工節(jié),充當(dāng)系統(tǒng)大;工作器節(jié)點(diǎn)rkernde作節(jié)充人的臂和種執(zhí)器,遵循協(xié)調(diào)器服務(wù)的指令并執(zhí)行用戶觸發(fā)的數(shù)據(jù)管理語言L/數(shù)據(jù)定義語言DL;存儲(chǔ)Stoa:存儲(chǔ)是統(tǒng)的骨骼,確保數(shù)據(jù)可持續(xù)性,包括元存儲(chǔ)、日志代理和象儲(chǔ)。圖:Mvus向量數(shù)庫架構(gòu)數(shù)據(jù)來源:Milvus,Zz目前已進(jìn)入B輪融階段獲得投資額超1.3億美元022年8月24日,Mvus的發(fā)公司Ziz宣,在最初430萬元B輪資礎(chǔ)加了6000萬元融。本融資沙石頭Aaconues下元化基金Properenues投現(xiàn)有者eaeksPavonCapa(馬HhoueCapa(瓴Yapal和uqiCapa云本)投本融后公司的總資達(dá)113億資用支其量數(shù)庫工設(shè)和市工。表:Zz一級(jí)市場(chǎng)融情況匯總?cè)谫Y輪次 融資金額(美元)
參投機(jī)構(gòu)A輪 100 5YCpitl領(lǐng)投,nqiPrtnr、Eminnenurs跟投B輪 430 HillhuseCpitlrop領(lǐng)投YCpitluqiPrnrs、rustbrigePrnrs、Pvilonpitl跟投B輪(Extenson)
600 Prospriy7turs領(lǐng)投,HilhouseCpitlrop、5YCpitl、nqiPrtnrs、PviinCpitl跟投spaepa由ah開發(fā),發(fā)布之初被定義為一開的“大數(shù)據(jù)處理和務(wù)擎。2003年2月2日aho以1美購ea身—挪搜引司Ahee;2017年9月8,由aoo和OL業(yè)合后生的司Oah布源epa,并將碼于GHu。ea能夠部署于本地云上,能夠?qū)崿F(xiàn)不類的搜索功能。為源應(yīng)用,epa應(yīng)程可部本或eaCud并可入Jva組和PhonAPI部完后ea能夠現(xiàn)于統(tǒng)BM5的信檢、量近搜索、機(jī)器習(xí)型務(wù)問、內(nèi)推等能目前epa已應(yīng)用于Oah多個(gè)產(chǎn)括aho.cohooNwsaooSoahooFnnchooGe、Fckr等每日以處數(shù)十億個(gè)戶請(qǐng)求為戶返回基數(shù)十億檔出的搜索結(jié)和薦容并供定化容廣。ea由多個(gè)無狀態(tài)的Jaa容器集群和零個(gè)多存儲(chǔ)數(shù)據(jù)的內(nèi)容集組成無狀態(tài)容器集群括入詢及應(yīng)組這些件供括引換和查詢執(zhí)的臺(tái)以提應(yīng)程的間邏器群查數(shù)據(jù)操作傳到容群的應(yīng)節(jié)可添組訪問自部務(wù)數(shù)集群負(fù)存數(shù)并據(jù)執(zhí)查和理查的范包簡(jiǎn)數(shù)查使用機(jī)器習(xí)型數(shù)進(jìn)排序以對(duì)據(jù)行組和合。圖:epa向量數(shù)據(jù)架構(gòu)數(shù)據(jù)來源:Vespa,viateeavae前身為SIehnoog成立于209年是一家全球性初創(chuàng)業(yè)目前eavae荷蘭美拿大地有支構(gòu)有過30名隊(duì)成evae創(chuàng)人BbvanLuit與EtenneDocer有10年上的由程經(jīng),有深厚的術(shù)累。eavae是一個(gè)低延遲向量數(shù)據(jù)庫對(duì)不同的體類(文本圖像等具開箱即用的支持。eavae提供義索問提、分、制模yoch/enoFwKeas等功基于Go語夠?qū)ο笙蛟柿克阉鳂?gòu)篩和原數(shù)據(jù)的錯(cuò)力結(jié)且持GapLET各種戶編語進(jìn)訪問。eavae可進(jìn)行本地或化部署,具有多種價(jià)式。eavae提供SaaS以及混合aaS的務(wù)中aaS務(wù)價(jià)為類準(zhǔn)企業(yè)關(guān)商起價(jià)分為2515450美元,實(shí)定將隨量?jī)?chǔ)、索的維度的增長(zhǎng)而提升。標(biāo)桿應(yīng)用場(chǎng)景——eavae于023年推出haGT的Pln插件其能括:1、允許用戶連接一個(gè)向量數(shù)據(jù)庫到ChaGT,其中包含用戶的專有數(shù)據(jù),可以ChaGT用用于特定問;2、許戶個(gè)文行存使CaGT的答更個(gè)化;3、戶以向數(shù)中儲(chǔ)與ChaGT對(duì),在閉再開haGT后,據(jù)據(jù)中內(nèi)繼續(xù)話。eavae的索引流程:以文本編碼器(ex2veanoer)和問答編碼器(qnanoe)為例,用戶可以創(chuàng)建任意數(shù)的索引,每個(gè)索引包含定數(shù)量的分引的獨(dú)立存單個(gè)片均以行象倒和量存儲(chǔ)其對(duì)和置儲(chǔ)使用LSM樹實(shí)現(xiàn)向索獨(dú)于些象存儲(chǔ)受SM分影響此eavae身是原的量據(jù),不自帶任模此類能將可模進(jìn)執(zhí)除述到文答編碼模外eavae持加例其媒類的向化物識(shí)、寫查等外模。圖:avae向量數(shù)據(jù)庫架構(gòu)數(shù)據(jù)來源:Weaviate,投后估值2億美元融資額超過670萬美元023年4月22日eavae布,繼202年A輪資得650美B輪得500美(合35億人民幣,由dexenues領(lǐng)投Baeyenues機(jī)構(gòu)投公截目共得6770萬元資投值2美。表:evae一級(jí)市場(chǎng)融資情況匯總?cè)谫Y輪次 融資金(美元)
參投機(jī)構(gòu)種子輪 10萬 ZettanurePrtnrs領(lǐng)投,ING
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 舞蹈機(jī)構(gòu)并購合同協(xié)議書
- 搭伙合同 協(xié)議書怎么寫
- 中國(guó)吸水穩(wěn)定劑行業(yè)市場(chǎng)前景預(yù)測(cè)及投資價(jià)值評(píng)估分析報(bào)告
- 2025年長(zhǎng)租公寓行業(yè)市場(chǎng)分析報(bào)告
- 店鋪成長(zhǎng)規(guī)劃方案
- 簡(jiǎn)單安全施工合同協(xié)議書
- 萬科-項(xiàng)目故事線梳理及場(chǎng)景應(yīng)用策劃標(biāo)準(zhǔn)
- 鋁藝欄桿安裝合同協(xié)議書
- 買車合同簽訂協(xié)議書
- 西洋樂器市場(chǎng)前景預(yù)測(cè)與跨界營(yíng)銷策略制定與實(shí)施手冊(cè)
- 基于單片機(jī)的倒車?yán)走_(dá)設(shè)計(jì)畢業(yè)設(shè)計(jì)
- 【教案】 電源與電流 教學(xué)設(shè)計(jì) -2022-2023學(xué)年高二上學(xué)期物理人教版(2019)必修第三冊(cè)
- GB/T 40805-2021鑄鋼件交貨驗(yàn)收通用技術(shù)條件
- GB 18401-2003國(guó)家紡織產(chǎn)品基本安全技術(shù)規(guī)范
- 《科研創(chuàng)新實(shí)踐》課程教學(xué)大綱
- 報(bào)價(jià)單模板及范文(通用十二篇)
- 開發(fā)票申請(qǐng)單
- 五年級(jí)異分母分?jǐn)?shù)加減法第一課時(shí)課件
- 學(xué)校食堂操作流程圖
- 籃球比賽記錄表(CBA專用)
- DB23∕T 1019-2020 黑龍江省建筑工程資料管理標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論