大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)_第1頁
大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)_第2頁
大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)_第3頁
大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)_第4頁
大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)_第5頁
已閱讀5頁,還剩107頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2語義大數(shù)據(jù)背景下的知識(shí)圖譜技術(shù)數(shù)據(jù)存儲(chǔ)的發(fā)展歷史知識(shí)圖譜數(shù)據(jù)存儲(chǔ)知識(shí)圖譜時(shí)態(tài)信息存儲(chǔ)上半場(chǎng)人民的名義知識(shí)圖譜大數(shù)據(jù)時(shí)代大數(shù)據(jù)時(shí)代,強(qiáng)調(diào)的是對(duì)大規(guī)模數(shù)據(jù)綜合處理的能力。從數(shù)據(jù)庫到大數(shù)據(jù)(1)DBBD大數(shù)據(jù)的出現(xiàn),必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式。在數(shù)據(jù)來 源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都會(huì)對(duì)其帶來革命性 的變化。從數(shù)據(jù)庫(DB)到大數(shù)據(jù)(BD),不只是一個(gè)簡(jiǎn)單的技術(shù)演進(jìn),兩者有著本質(zhì)上的差別。來源:開源技術(shù)社區(qū) Nock(洛神)從數(shù)據(jù)庫到大數(shù)據(jù)(2)池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)數(shù)據(jù)規(guī)模MBGB/TB/PB池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)數(shù)據(jù)類型數(shù)據(jù)種類單一(少數(shù)幾種)以結(jié)構(gòu)化數(shù)據(jù)為

2、主數(shù)據(jù)種類繁多包含著結(jié)構(gòu)化、半結(jié)構(gòu)化 以及非結(jié)構(gòu)化的數(shù)據(jù)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù) 所占份額越來越大池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)數(shù)據(jù)模式先有模式然后產(chǎn)生數(shù)據(jù)難以預(yù)先確定模式模式在數(shù)據(jù)出現(xiàn)之后才能確定 且模式隨著數(shù)據(jù)量的增長(zhǎng)處于不 斷的演變之中池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)處理對(duì)象數(shù)據(jù)僅作為處理對(duì)象數(shù)據(jù)能作為一種資源來輔助 解決其他諸多領(lǐng)域的問題池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)處理方法One Size Fits AllNo Size Fits All池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(3)以計(jì)算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為中心。 數(shù)據(jù)思維大數(shù)據(jù)應(yīng)用挑戰(zhàn)1: 多源異構(gòu)數(shù)據(jù)難以融合涉密

3、部門企業(yè)內(nèi)部數(shù)據(jù)顧軍.生于1963年.江蘇南通人.中國(guó)核工業(yè)公司內(nèi)部數(shù)據(jù)、新聞網(wǎng)站、論壇帖子、微博 多源異構(gòu)數(shù)據(jù)難以融合信息聚合、數(shù)據(jù)融合需求迫切!大數(shù)據(jù)應(yīng)用挑戰(zhàn)2:數(shù)據(jù)模式動(dòng)態(tài)變遷困難當(dāng)前數(shù)據(jù)模式動(dòng)態(tài)變遷困難,當(dāng)客戶新需求、業(yè)務(wù)新認(rèn)知時(shí)程序員需痛苦的修改數(shù)據(jù)結(jié)構(gòu)及業(yè)務(wù)邏輯,帶來擴(kuò)展性差、對(duì)客戶響應(yīng)慢、維護(hù)成本高等不良情況。我們需要:可自由擴(kuò)展的數(shù)據(jù)模式!響應(yīng)速度慢人員投入大數(shù)據(jù)結(jié)構(gòu)難改動(dòng)擴(kuò)展性差維護(hù)成本高大數(shù)據(jù)應(yīng)用挑戰(zhàn)3:非結(jié)構(gòu)化數(shù)據(jù)計(jì)算機(jī)難以理解計(jì)算機(jī)無法理解非結(jié)構(gòu)化數(shù)據(jù)的語義企業(yè)迫切需要將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化Web of Document大數(shù)據(jù)應(yīng)用挑戰(zhàn)4:數(shù)據(jù)使用專業(yè)程度過高行業(yè)智能問答大

4、幅降低數(shù)據(jù)使用門檻Knowledge Graph: The key for Smart DataThings, not strings!什么是知識(shí)圖譜?知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念,以 及它們之間的關(guān)聯(lián)關(guān)系。其中:每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來標(biāo)識(shí),稱為標(biāo)識(shí)符;每個(gè)屬性值對(duì)用來刻畫實(shí)體的內(nèi)在特性,而關(guān)系用來連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)?,F(xiàn)實(shí)世界中有多種類型的事物事物之間有多種類型的鏈接知識(shí)圖譜與本體知識(shí)圖譜并不是本體的替代品,它是在本體的基礎(chǔ)上進(jìn)行了豐富和擴(kuò) 充,這種擴(kuò)充主要體現(xiàn)在實(shí)體(Entity)層面。本體中突出和強(qiáng)調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系,而知識(shí)圖

5、譜則 是在本體的基礎(chǔ)上,增加了更加豐富的關(guān)于實(shí)體的信息。本體描述了知識(shí)圖譜的數(shù)據(jù)模式(schema),即為知識(shí)圖譜構(gòu)建數(shù) 據(jù)模式相當(dāng)于為其建立本體。知識(shí)圖譜助力人工智能語義搜索私人助理聊天機(jī)器人穿戴設(shè)備GoogleBing百度SiriGoogle Now微軟小娜百度度秘微軟小冰小黃雞公子小白Apple WatchTicwatch計(jì)算知識(shí)引擎臨床決策支持出行助手IBM Watson Health出門問問百度知識(shí)圖譜業(yè)務(wù)需求技術(shù)方案數(shù)據(jù)挑戰(zhàn)4. 數(shù)據(jù)使用專 業(yè)程度過高3. 數(shù)據(jù)模式動(dòng) 態(tài)變遷困難語義理解數(shù)據(jù)關(guān)聯(lián)探索業(yè)務(wù)動(dòng)態(tài)擴(kuò)展智能數(shù)據(jù)檢索1. 非結(jié)構(gòu)化數(shù)據(jù) 計(jì)算機(jī)難以理解2. 多源異構(gòu)數(shù) 據(jù)難以融

6、合知識(shí)圖譜助力商業(yè)智能數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)融合自由擴(kuò)展數(shù)據(jù)模式行業(yè)智能問答知識(shí)圖譜的適用場(chǎng)景數(shù) 據(jù) 場(chǎng) 景知識(shí)圖譜為數(shù)據(jù)賦能圖結(jié)構(gòu)特性數(shù)據(jù)語義特性消 費(fèi) 場(chǎng) 景圖數(shù)據(jù)探索路徑分析關(guān)聯(lián)分析圖譜可視化圖結(jié)構(gòu)消費(fèi)場(chǎng)景自然語言檢索智能BI語義標(biāo)注知識(shí)推理數(shù)據(jù)語義消費(fèi)場(chǎng)景知識(shí)圖譜適用于處理:關(guān)系復(fù)雜的數(shù)據(jù)、類型繁多的數(shù)據(jù)、結(jié)構(gòu)多變的數(shù)據(jù)。 作為數(shù)據(jù)融合與鏈接的紐帶,整合結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)多源異構(gòu)數(shù)據(jù)需要融合統(tǒng)一使用有半結(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)需要結(jié)構(gòu)化數(shù)據(jù)中存在一定數(shù)量不同類別的實(shí)體業(yè)務(wù)上更加關(guān)注數(shù)據(jù)中實(shí)體的關(guān)聯(lián),而不僅僅是數(shù)據(jù)本身知識(shí)圖譜的不適用場(chǎng)景不適用數(shù)據(jù)場(chǎng)景存儲(chǔ)通常的二進(jìn)制數(shù)據(jù)日志數(shù)據(jù)流式數(shù)據(jù)需

7、借助其它工具存儲(chǔ)和處理并與知識(shí)圖譜進(jìn)行數(shù)據(jù)鏈接不適用消費(fèi)場(chǎng)景數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)計(jì)算需要結(jié)合其它工具和方法使用TIPS知識(shí)圖譜不是銀彈!依據(jù)問題尋找方法。不要為了用知識(shí)圖譜也用知識(shí)圖譜!數(shù)據(jù)存儲(chǔ)的發(fā)展歷史伴隨阿波羅登月計(jì) 劃,商業(yè)數(shù)據(jù)庫雛 形誕生。IBM的 IMS,Mainframe,以 及navigational數(shù)據(jù) 庫技術(shù)浮現(xiàn)。埃德加弗蘭克科 德,IBM公司研究 員,發(fā)表題為“大 型共享數(shù)據(jù)庫的關(guān) 系模型”的論文, 被譽(yù)為“關(guān)系數(shù)據(jù) 庫之父”IBM的校企聯(lián)合計(jì)劃 中,與加利佛尼亞 柏克萊分校Ingres數(shù) 據(jù)庫研究項(xiàng)目攜手 創(chuàng)建了RDMBS的原 型R系統(tǒng)因IBM戰(zhàn)略主導(dǎo)分級(jí) 結(jié)構(gòu)數(shù)據(jù)業(yè)務(wù)并將 萌芽

8、期的關(guān)系型數(shù) 據(jù)結(jié)構(gòu)業(yè)務(wù)剝離; 柏克萊Ingres數(shù)據(jù)庫 研究項(xiàng)目聯(lián)合 Oracle創(chuàng)建了第一 個(gè)商業(yè)RDBMS.IBM發(fā)布DB2(一套 自主開發(fā)的關(guān)系型 數(shù)據(jù)庫管理系統(tǒng))Terodata Corporation發(fā)布第 一個(gè)大規(guī)模并行處理數(shù)據(jù)庫專用平臺(tái),或者說是“無共享架構(gòu)”數(shù)據(jù)庫。由于無需共 享數(shù)據(jù)庫,文件架構(gòu) 中不存在單一瓶頸而 降低系統(tǒng)運(yùn)行速度的 特性,所以google稱 之為sharding。PC機(jī)數(shù)據(jù)庫應(yīng)用浮 現(xiàn),比如:Ashton- Tole公司的DBase lll,微軟公司的 Access等等。19621979196819701974198319841985“數(shù)據(jù)庫”誕生在IDS

9、橫行的年代,(硅谷的所在地) 加利福尼亞州,數(shù) 據(jù)庫一詞最早流行 于系統(tǒng)研發(fā)公司的 技術(shù)備忘錄中第一個(gè)商業(yè)RDBMS出現(xiàn)數(shù)據(jù)存儲(chǔ)的發(fā)展歷史)GemStone/S-首 個(gè)面向?qū)ο笮蜕虡I(yè) 數(shù)據(jù)庫浮現(xiàn)。這一 年,加利福尼亞柏 克萊分校Michael Stonebraker發(fā)表 了 關(guān) 于 shared nothing architecture(SN 的研究論文Kognitio公司發(fā)布第一款內(nèi)存 數(shù)據(jù)庫,相比傳 統(tǒng)的基于磁盤的數(shù) 據(jù)庫管理系統(tǒng),內(nèi) 存柵障以及高速緩 存沖刷指令為內(nèi)存 數(shù)據(jù)庫提供簡(jiǎn)單高 效的原子性,保證 了與中央處理器本 身原子操作的一致 性服務(wù)。關(guān)系型數(shù)據(jù)庫管 理系統(tǒng)擴(kuò)展添加 關(guān)系型多

10、維數(shù)據(jù) 模型。第一款商用多值數(shù) 據(jù)庫KDB發(fā)布。 KDB封裝了豐富的 命令實(shí)現(xiàn)運(yùn)行控制、 內(nèi)存操縱、寄存器 操縱、斷點(diǎn)設(shè)置、 堆棧跟蹤等許多功 能。這一年9月,兩個(gè)斯坦福大學(xué)博 士生發(fā)明了谷歌搜 索引擎。瑞典MySQL AB 公司發(fā)布推廣第 一款開源數(shù)據(jù) 庫MySQL英國(guó)Endeca公 司發(fā)布第一款商 用數(shù)據(jù)庫搜索產(chǎn) 品。該公司為波音公司、美國(guó)人口普查局、 福特、國(guó)際商用機(jī)器 公司、東芝等大型公 司和機(jī)構(gòu)提供搜索服 務(wù)。這一年google公 司成立。1986199219881989199119941995199619981999第一款開源的文 件數(shù)據(jù)庫發(fā)布, Berkeley DB 介于 關(guān)系

11、數(shù)據(jù)庫與內(nèi)存 數(shù)據(jù)庫之間,使用 方式與內(nèi)存數(shù)據(jù)庫 類似,它提供的是 一系列直接訪問數(shù) 據(jù)庫的函數(shù),而不 是像關(guān)系數(shù)據(jù)庫那 樣需要網(wǎng)絡(luò)通訊、 SQL解析等步驟。第一款對(duì)象關(guān)系數(shù) 據(jù)庫管理系統(tǒng) Illustra發(fā)布,它支持對(duì)復(fù)雜數(shù)據(jù)類型的面向?qū)ο蠊芾?,同時(shí)又提供高效的 查詢語言。隨后跟 風(fēng)的有notably, PostgreSQL等等。數(shù)據(jù)倉庫行業(yè) 標(biāo)準(zhǔn)提出IBM研究員率先提出并 解釋了數(shù)據(jù)倉庫一詞的 行業(yè)標(biāo)準(zhǔn)第一款多維數(shù)據(jù)庫發(fā)布Arbor公司發(fā)布第 一款多維數(shù)據(jù)庫 Essbase。多維數(shù)據(jù) 庫允許用戶以更為 口語化的英語來詢 問問題,使用一種 在線分析處理(OLAP)的軟件。數(shù)據(jù)存儲(chǔ)的發(fā)展歷史復(fù)

12、雜事件處理技 術(shù)解決方案提供 商Streambase發(fā) 布第一款time- series DBBMS第一款商用NOSQL圖形數(shù)據(jù)庫管理系統(tǒng)NEO4j發(fā)布,它是一個(gè)嵌入式的、基于磁盤的、具備 完全的事物特性的 Java持久化引擎, 但是它將結(jié)構(gòu)化數(shù) 據(jù)存儲(chǔ)在網(wǎng)絡(luò)上而 不是在表中。Facebook基于靜態(tài) 批處理的Hadoop智 商封裝并發(fā)布了一個(gè) 開源項(xiàng)目數(shù)據(jù)倉 庫Hive,可以將結(jié)構(gòu) 化的數(shù)據(jù)文件映射為 一張數(shù)據(jù)庫表,并提 供簡(jiǎn)單的sql查詢功 能,可以將sql語句 轉(zhuǎn)換為MapReduce 任務(wù)進(jìn)行運(yùn)行。Hbase發(fā)行,在 Hadoop之上提供了類 似于Bigtable的能力, 是一個(gè)適合于

13、非結(jié)構(gòu)化 數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫,采 用基于列的而不是基于 行的模式。基于資源描述框架(資源-屬性-屬性 值)的高性能圖形 數(shù)據(jù)庫管理系統(tǒng)或 稱為三元組法數(shù)據(jù) 管理系統(tǒng)浮現(xiàn)20022007200320052007200820102011NoSQL數(shù)據(jù)庫解決 方案提供商 MarkLogic發(fā)布第 一款XML數(shù)據(jù)庫。第一款內(nèi)容管理數(shù) 據(jù)庫ModeShape 發(fā)布。(其前身是 “JBossDNA”) 實(shí) 現(xiàn) 了 JCR 2.0 (JSR-283)規(guī)范,用以提供在不同系 統(tǒng)上的內(nèi)容存儲(chǔ)。商用Hadoop首次發(fā)布在Hadoop生態(tài)系統(tǒng) 中,規(guī)模最大、知名 度最高的Cloudera公 司由來自Facebook、

14、 谷歌和雅虎的前工程 師杰夫店哈默巴切、 克里斯托弗比塞格利 亞、埃姆阿瓦達(dá)拉以 及現(xiàn)任CEO、甲骨文 前高管邁克奧爾森合 作發(fā)布了第一款商用 Hadoop20092009去SQL化浪潮由分布式文檔存 儲(chǔ)數(shù)據(jù)庫 MongoDB引發(fā) 了一場(chǎng)去SQL化 的浪潮數(shù)據(jù)倉儲(chǔ)一體 機(jī)推出Netezza公司將存 儲(chǔ)、處理、數(shù)據(jù)庫 和分析融入到一個(gè) 高性能數(shù)據(jù)倉庫設(shè) 備中,資料倉儲(chǔ)軟 硬體整合數(shù)據(jù)倉庫 數(shù)據(jù)庫浮現(xiàn)。數(shù)據(jù)存儲(chǔ)的發(fā)展歷史內(nèi)存數(shù)據(jù)庫管理 系統(tǒng)演化為SAP HANA第一款事務(wù)存儲(chǔ) 型開源數(shù)據(jù)庫發(fā) 布FoundationDB 引發(fā)業(yè)內(nèi)新興熱 詞 “multi- modelDBMS” 的浮現(xiàn)。Hadoop

15、框架集成 新功能組件:+Apache Spark;+Apache Drill(schemaless SQL);+presto(federated multi-DBMSSQL)市場(chǎng)需求程序應(yīng)用可以自行判斷數(shù)據(jù)流的激活狀態(tài)并快速集成數(shù)據(jù)進(jìn)行實(shí)時(shí)分析處理,Translyticaldatabase與Transaction andanalytical database進(jìn)入人們的關(guān)注視野,比如VoltDB(version5.6)201220142012201220132015201420152015Impala完全拋棄了MapReduce這個(gè)不太適合做SQL查詢的范式,而是像Dremel一樣借鑒了MPP

16、并行數(shù)據(jù)庫的思想另起爐灶,因此可做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開銷。相比已有的Hive系統(tǒng)雖然也提供 了SQL語義,眼但由于Hive底層 執(zhí)行使用的是MapReduce引擎, 仍然是一個(gè)批處理過程,難以滿 足查詢的交互性。大數(shù)據(jù)處理 作為云服務(wù) 體系接入到 企業(yè)應(yīng)用值得注意的是UC柏克萊為加州 大學(xué)系統(tǒng)中歷史最悠久的學(xué)校, Spark 是 UC Berkeley AMP lab 所 開 源 的 類 Hadoop MapReduce的通用并行框架, Spark, 擁 有 Hadoop MapReduce所具有的優(yōu)點(diǎn);但 不同于Hadoop MapReduce的 是J

17、ob中間輸出結(jié)果可以保存在 內(nèi)存中,從而不再需要讀寫 HDFS,因此Spark能更好地適 用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要 迭代的MapReduce的算法。 Spark是在Scala語言中實(shí)現(xiàn)的, 它將Scala用作其應(yīng)用程序框架。 與Hadoop不同,Spark和Scala 可以像操作本地集合對(duì)象一樣輕 松地操作分布式數(shù)據(jù)集。亞馬遜Redshift發(fā)布作為基于云數(shù)據(jù)倉庫的 服務(wù),亞馬遜Redshift 發(fā)布Impala查詢系統(tǒng)Impala是Cloudera公司主導(dǎo)開 發(fā)的新型查詢系統(tǒng),它提供SQL 語義,能查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)的發(fā)展歷史網(wǎng)狀數(shù)據(jù)庫

18、層次數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫NoSQL大數(shù)據(jù)存儲(chǔ)與處理框架網(wǎng)狀數(shù)據(jù)庫網(wǎng)狀模型中以記錄為數(shù)據(jù)的存儲(chǔ)單位,記錄包含若干數(shù)據(jù) 項(xiàng);網(wǎng)狀數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)可以是多值的和復(fù)合的數(shù)據(jù)。每 個(gè)記錄有一個(gè)惟一地標(biāo)識(shí)它的內(nèi)部標(biāo)識(shí)符,稱為碼( DatabaseKey,DBK),它在一個(gè)記錄存入數(shù)據(jù)庫時(shí)由 DBMS自動(dòng)賦予。DBK可以看作記錄的邏輯地址,可作記 錄的替身,或用于尋找記錄。第一個(gè)網(wǎng)狀數(shù)據(jù)庫管理系統(tǒng)也是第一個(gè)DBMS是美國(guó)通用 電氣公司Bachman等人在1964年開發(fā)成功的IDS( IntegratedDataStore)。層次數(shù)據(jù)庫層次數(shù)據(jù)庫也是按記錄來存取數(shù)據(jù)的;層次數(shù)據(jù)模型中最 基本的數(shù)據(jù)關(guān)系

19、是基本層次關(guān)系,它代表兩個(gè)記錄型之間 一對(duì)多的關(guān)系,也叫做父子關(guān)系(PCR);數(shù)據(jù)庫中有且 僅有一個(gè)記錄型無父親,稱為根節(jié)點(diǎn);其他記錄型有且僅 有一個(gè)雙親。最著名最典型的層次數(shù)據(jù)庫系統(tǒng)是IBM公司的IMS(InformationManagementSystem)關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)模型是以集合論中的關(guān)系概念為基礎(chǔ)發(fā)展起來的;關(guān)系模型中無論是實(shí)體還是實(shí)體間的聯(lián)系均由單一的結(jié)構(gòu)類型-關(guān)系來表示;在實(shí)際的關(guān)系數(shù)據(jù)庫中的關(guān)系也稱 表;一個(gè)關(guān)系數(shù)據(jù)庫就是由若干個(gè)表組成。1974年,SQL語言被提出,功能包括查詢、操縱、定義和 控制,是一個(gè)綜合的、通用的關(guān)系數(shù)據(jù)庫語言,同時(shí)又是 一種高度非過程化的語言,只要

20、求用戶指出做什么而不需 要指出怎么做。典型代表:Oracle、MySQL、SQL Server面向?qū)ο髷?shù)據(jù)庫關(guān)系數(shù)據(jù)庫的能很好地處理所謂的“表格型數(shù)據(jù)”,卻對(duì) 越來越多復(fù)雜類型的數(shù)據(jù)無能為力。面向向?qū)ο蟮年P(guān)系型 數(shù)據(jù)庫系統(tǒng)對(duì)數(shù)據(jù)提供了理論上的完美性,但是并未帶來 市場(chǎng)的反應(yīng)。失敗原因:企圖用新型數(shù)據(jù)庫系統(tǒng)來取代現(xiàn)有的數(shù)據(jù)庫系 統(tǒng),對(duì)許多已經(jīng)運(yùn)用數(shù)據(jù)庫系統(tǒng)并積累了大量工作數(shù)據(jù)的 客戶來說,無法承受新舊數(shù)據(jù)間的轉(zhuǎn)換而帶來的巨大工作 量及巨額開支。另外,其查詢語言極其復(fù)雜。NoSQL(1)NoSQL,Not Only SQL。隨著web2.0的快速發(fā)展,非關(guān) 系型、分布式數(shù)據(jù)存儲(chǔ)得到了快速的發(fā)展,它

21、們不保證關(guān) 系數(shù)據(jù)的ACID特性。NoSQL概念在2009年被提了出來, 解決關(guān)系數(shù)據(jù)庫的性能及擴(kuò)展性瓶頸。優(yōu)勢(shì):大數(shù)據(jù)量高性能高可用靈活的數(shù)據(jù)模型NoSQL(2)NoSQL四大家族鍵值(Key-Value)數(shù)據(jù)庫列存儲(chǔ)數(shù)據(jù)庫文檔型數(shù)據(jù)庫圖形(Graph)數(shù)據(jù)庫NoSQL適用場(chǎng)景數(shù)據(jù)模型比較簡(jiǎn)單需要靈活性更強(qiáng)的IT系統(tǒng)對(duì)數(shù)據(jù)庫性能要求較高不需要高度的數(shù)據(jù)一致性NoSQL鍵值存儲(chǔ)數(shù)據(jù)庫使用到一個(gè)哈希表,表中有一個(gè)特定的鍵和一個(gè)指針指向 特定的數(shù)據(jù)。相關(guān)數(shù)據(jù)庫Redis、Tokyo Cabinet/Tyrant、Voldemort、 Berkeley DB典型應(yīng)用內(nèi)容緩存,適合混合工作負(fù)載并擴(kuò)展大

22、的數(shù)據(jù)集數(shù)據(jù)模型一系列鍵值對(duì)優(yōu)勢(shì)快速查詢劣勢(shì)存儲(chǔ)的數(shù)據(jù)缺少結(jié)構(gòu)化NoSQL列存儲(chǔ)數(shù)據(jù)庫應(yīng)對(duì)分布式存儲(chǔ)的海量數(shù)據(jù);鍵仍然存在,但是指向了多 個(gè)列,這些列是由列家族來安排的。相關(guān)數(shù)據(jù)庫Cassandra, HBase, Riak典型應(yīng)用分布式的文件系統(tǒng)數(shù)據(jù)模型以列簇式存儲(chǔ),將同一列數(shù)據(jù)存在一起優(yōu)勢(shì)查找速度快,可擴(kuò)展性強(qiáng),更容易進(jìn)行分布式擴(kuò)展劣勢(shì)功能相對(duì)局限NoSQL文檔型存儲(chǔ)數(shù)據(jù)庫以半結(jié)構(gòu)化的文檔作為數(shù)據(jù)模型,文檔以特定的格式存儲(chǔ)(如JSON);可看作是鍵值數(shù)據(jù)庫的升級(jí)版,允許之間嵌 套鍵值。相關(guān)數(shù)據(jù)庫MongoDB、CouchDB典型應(yīng)用Web應(yīng)用數(shù)據(jù)模型半結(jié)構(gòu)化的文檔優(yōu)勢(shì)數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格劣勢(shì)

23、查詢性能不高,而且缺乏統(tǒng)一的查詢語法NoSQL圖形數(shù)據(jù)庫與其他行列以及剛性結(jié)構(gòu)的SQL數(shù)據(jù)庫不同,圖形數(shù)據(jù)庫 使用靈活的圖形模型,能夠擴(kuò)展到多個(gè)服務(wù)器上。相關(guān)數(shù)據(jù)庫Neo4J、InfoGrid、InfiniteGraph、AllegroGraph、 Cayley、Stardog、Titan、OrientDB、ArangoDB、 OpenLink Virtuoso、VertexDB 典型應(yīng)用社交網(wǎng)絡(luò),推薦系統(tǒng)等。專注于構(gòu)建關(guān)系圖譜數(shù)據(jù)模型圖結(jié)構(gòu)優(yōu)勢(shì)利用圖結(jié)構(gòu)相關(guān)算法。劣勢(shì)需要對(duì)整個(gè)圖做計(jì)算才能得出結(jié)果,不容易做分布式的集 群方案。大數(shù)據(jù)存儲(chǔ)與處理框架知識(shí)圖譜數(shù)據(jù)存儲(chǔ)知識(shí)圖譜最適合處理關(guān)聯(lián)密集型的

24、數(shù)據(jù),因此首先需要需 要存放的是節(jié)點(diǎn)和邊的數(shù)據(jù)。用圖數(shù)據(jù)庫。是否所有的事物都作為實(shí)體放入到知識(shí)圖譜中去呢?視數(shù)據(jù)需求而定:對(duì)于不需要進(jìn)行關(guān)系延伸計(jì)算的數(shù)據(jù)不放入圖譜,這些 數(shù)據(jù)可使用適應(yīng)的存儲(chǔ)并與知識(shí)圖譜中實(shí)體作鏈接; 對(duì)于結(jié)構(gòu)固定、實(shí)體屬性信息豐富的實(shí)體類,使用其它 數(shù)據(jù)庫存儲(chǔ)更能體現(xiàn)優(yōu)勢(shì);知識(shí)圖譜數(shù)據(jù)存儲(chǔ)數(shù)據(jù)思維!在現(xiàn)實(shí)應(yīng)用中,還有一些不適合放入知識(shí)圖譜中的數(shù) 據(jù)(日志、事件,需要頻繁統(tǒng)計(jì)、計(jì)算)怎么辦?使用其它的存儲(chǔ)和計(jì)算框架進(jìn)行存儲(chǔ)和處理,同時(shí) 實(shí)現(xiàn)與知識(shí)圖譜中數(shù)據(jù)的鏈接。知識(shí)圖譜數(shù)據(jù)存儲(chǔ)No Size Fits All !知識(shí)圖譜數(shù)據(jù)存儲(chǔ) 使用圖數(shù)據(jù)庫TIPS圖數(shù)據(jù)存儲(chǔ)知識(shí)圖譜是基于

25、圖的數(shù)據(jù)結(jié)構(gòu),其存儲(chǔ)方式主要有兩種方 式:RDF存儲(chǔ) 和 圖數(shù)據(jù)庫(Graph Database)。A triplestore or RDF store is a purpose-built database for the storage and retrieval of triples through semantic queries. A triple is a data entity composed of subject-predicate-object. WikipediaA graph database has a more generalized structure than

26、a triplestore, using graph structures with nodes, edges, and properties to represent and store data. WikipediaRDF存儲(chǔ)和圖數(shù)據(jù)庫的發(fā)展趨勢(shì)圖數(shù)據(jù)存儲(chǔ)從零開始構(gòu)建靈活不受約束基礎(chǔ)維護(hù)的難度和工作量巨大基于現(xiàn)有關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)構(gòu)建可以基礎(chǔ)存儲(chǔ)實(shí)現(xiàn)的強(qiáng)大功能,不需要分心管理底層的數(shù)據(jù)存 儲(chǔ)可按數(shù)據(jù)和應(yīng)用的需求采用不同的底層存儲(chǔ)基于現(xiàn)有數(shù)據(jù)庫存儲(chǔ)三元組表(S,P,O)問題:大量自連接操作的開銷巨大3store Harris03基于現(xiàn)有數(shù)據(jù)庫存儲(chǔ)屬性表:屬性相似的主語聚為一張表問題:

27、1、 RDF靈活性2、 屬性未定查詢Jena property table Wilkinson0基于現(xiàn)有數(shù)據(jù)庫存儲(chǔ)垂直分割:以謂語劃分三元組表問題:1、大量數(shù)據(jù)表2、刪除屬性代價(jià)大Vertical partitioning Abadi07, VLDNative RDF 存儲(chǔ)方案六重索引:SPO、SOP、PSO、POS、OSP、OPS優(yōu)點(diǎn):三元組模式查詢(triple pattern)的高效執(zhí)行任意兩個(gè)三元組模式的高效歸并連接(merge-join)問題:1、6倍空間開銷,如果是 (S, P, O, C) 四元組呢?2、更新維護(hù)代價(jià)大Hexastore Weiss08, VLDB, RDF-3X

28、 Neumann08, VLDB使用列數(shù)據(jù)模型存儲(chǔ)三元組表,建立六重索引RDF列式存儲(chǔ)優(yōu)于行式存儲(chǔ)Native RDF 存儲(chǔ)方案Wang10, DBTA圖數(shù)據(jù)模型:節(jié)點(diǎn)、邊、節(jié)點(diǎn)屬性、邊屬性Neo4j節(jié)點(diǎn)存儲(chǔ)(node store)關(guān)系存儲(chǔ)(relationship store)屬性存儲(chǔ)(property store)優(yōu)點(diǎn):圖查詢語言、圖挖掘算法缺點(diǎn):分布式存儲(chǔ)實(shí)現(xiàn)代價(jià)高,數(shù)據(jù)更新速度慢,大 節(jié)點(diǎn)處理慢圖數(shù)據(jù)庫(原生圖存儲(chǔ))應(yīng)用多節(jié)點(diǎn)分布式服務(wù)器集群系統(tǒng)將三元組數(shù)據(jù)分布式存儲(chǔ)。商業(yè):AllegroGraph、Microsoft Trinity Zeng13, VLDB、 OpenLink Vi

29、rtuoso、BigOWLIM開源:Bigdata ()分布式B+樹:動(dòng)態(tài)分片(dynamic sharding) triple store:SPO、POS、OSPquad store: SPOC、POCS、OCSP、CSPO、PCSO、 SOPC分布式存儲(chǔ)方案Jingwei分布式大規(guī)模RDF數(shù)據(jù)服務(wù)器 Wang12, APWeb分布式存儲(chǔ)方案大規(guī)模知識(shí)圖譜存儲(chǔ)解決方案數(shù)據(jù)思維依據(jù)數(shù)據(jù)特點(diǎn)進(jìn)行數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)選 擇與設(shè)計(jì)No Size Fits All沒有一種通用的存儲(chǔ)方案能夠解決 所有問題基礎(chǔ)存儲(chǔ)支撐靈活基礎(chǔ)存儲(chǔ)可擴(kuò)展、高可用 按需要進(jìn)行數(shù)據(jù)分割 適時(shí)使用緩存和索引善于利用現(xiàn)有成熟存儲(chǔ) 保持圖形

30、部分?jǐn)?shù)據(jù)的精簡(jiǎn) 不在圖中作統(tǒng)計(jì)分析計(jì)算 在應(yīng)用中進(jìn)行擴(kuò)充迭代指導(dǎo)思想整體原則大規(guī)模知識(shí)圖譜存儲(chǔ)最佳實(shí)踐(1)1. 基礎(chǔ)存儲(chǔ)可按數(shù)據(jù)場(chǎng)景選擇使用關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫及內(nèi)存數(shù)據(jù)庫?;A(chǔ)存儲(chǔ)保證可擴(kuò)展、高可用2. 數(shù)據(jù)分割屬性表:依據(jù)數(shù)據(jù)類型劃分基本類型:整數(shù)表、浮點(diǎn)數(shù)表、日期類型表、 集合類型:List型表、Range型表、Map型表、大屬性單獨(dú)列表:例如數(shù)量超過10M的屬性單獨(dú)列表大規(guī)模知識(shí)圖譜存儲(chǔ)最佳實(shí)踐(2)3. 緩存與索引使用分布式 Redis 作為緩存,按需對(duì)數(shù)據(jù)進(jìn)行緩存。對(duì)三元組表按需進(jìn)行索引,最多情況下可建立九重索引SPO、SOP、PSO、POS、OSP、OPSSPO、POS

31、、OSP4. 善于使用現(xiàn)在成熟存儲(chǔ)$ElasticSearchfi$fifiNoSQL大規(guī)模知識(shí)圖譜存儲(chǔ)最佳實(shí)踐(3)5. 對(duì)于非關(guān)系型的數(shù)據(jù)盡量不入圖存儲(chǔ),避免形成大節(jié)點(diǎn)非關(guān)系型的數(shù)據(jù),使用適合的數(shù)據(jù)存儲(chǔ)機(jī)器進(jìn)行存儲(chǔ),通過實(shí) 體鏈接的方式實(shí)現(xiàn)與圖譜數(shù)據(jù)的關(guān)聯(lián)。fl$6. 不直接在圖存儲(chǔ)中進(jìn)行統(tǒng)計(jì)分析計(jì)算yfiyflfi$,y$fio信息的時(shí)態(tài)性時(shí)態(tài)特性是信息的客觀存在。知識(shí)和數(shù)據(jù)是不斷更新的,這些變化的時(shí)間點(diǎn)同樣代表 了有意義的信息。時(shí)態(tài)信息的需求與技術(shù)一直伴隨著數(shù)據(jù)庫技術(shù)的發(fā)展而 產(chǎn)生和發(fā)展。時(shí)態(tài)數(shù)據(jù)庫的發(fā)展趨勢(shì)本體的版本化本體的構(gòu)建發(fā)展的過程中,知識(shí)工程師通常希望把舊的本 體也保存下來,

32、形成了本體的版本化信息?;疽饬x有:記錄語義變化兼容性檢測(cè)版本選擇深化規(guī)則基于時(shí)態(tài)邏輯的本體版本管理線性時(shí)間模型分叉時(shí)間模型基于混合邏輯的本體版本管理知識(shí)圖譜中的時(shí)態(tài)信息事實(shí)的生成時(shí)間某事實(shí)的有效時(shí)間段某一對(duì)象在特定歷史時(shí)刻的狀態(tài)知識(shí)圖譜在過去特定時(shí)間的版本李達(dá)康為了修路, 在全縣搞強(qiáng)行攤 派捐款一位農(nóng)婦被逼喝 農(nóng)藥自殺縣政府被鬧21年前王大路背鍋,引 咎辭職李達(dá)康與易學(xué)習(xí) 資助王大路創(chuàng)業(yè)王大路多年經(jīng)營(yíng), 擁有今天的大路 集團(tuán)趙立春要求呂州 市長(zhǎng)李達(dá)康批地李達(dá)康拒接批地趙立春調(diào)離李達(dá) 康至林城高育良批地高、李沖突原因基本時(shí)間模型連續(xù)模型把時(shí)間看作同構(gòu)于實(shí)數(shù),每一個(gè)實(shí)數(shù)對(duì)應(yīng)于一個(gè)時(shí)間點(diǎn)。因此,在

33、時(shí)間軸的兩個(gè)時(shí)間點(diǎn)之間,可以存在其它的時(shí)間點(diǎn)。步進(jìn)模型把數(shù)據(jù)的狀態(tài)看成是時(shí)間的函數(shù);當(dāng)時(shí)間點(diǎn)上的數(shù)據(jù)狀態(tài)發(fā)生變化時(shí)才記錄狀態(tài)變化,否則保持不變。時(shí)間序列上任一點(diǎn)上數(shù)據(jù)的值對(duì)應(yīng)于上一次數(shù)據(jù) 改變時(shí)保持的狀態(tài),如果要查詢當(dāng)前數(shù)據(jù)的取值,需要回溯。離散模型把時(shí)間和整數(shù)映射起來,在相鄰的兩個(gè)時(shí)間點(diǎn)之間不存在另一個(gè)時(shí)間點(diǎn);任一時(shí)間點(diǎn)有前驅(qū)和后繼時(shí)間點(diǎn)。恒定模型有些數(shù)據(jù)是不隨時(shí)間變化的,例如:籍貫、出生地等;這些數(shù)據(jù)只有其本身固有的屬性?;緯r(shí)態(tài)元素時(shí)間點(diǎn)基于點(diǎn)的時(shí)間元素(Pointbased),又稱為時(shí)刻(Time Points)時(shí)間區(qū)間時(shí)間區(qū)間是指一段時(shí)間,有固定的起止時(shí)間點(diǎn)時(shí)間跨度指持續(xù)的一段時(shí)間,

34、表示時(shí)間的長(zhǎng)度;與時(shí)間區(qū)間不同的是,時(shí)間跨度沒有時(shí)間起點(diǎn),也沒有時(shí)間終點(diǎn)。時(shí)間元素NowNow是一個(gè)時(shí)間變?cè)?,隨著當(dāng)前時(shí)間的變化而變化,記錄了隨時(shí)間變化的信息,它的有效值依賴于當(dāng)前時(shí)間。時(shí)間粒度指描述時(shí)間數(shù)據(jù)的最小時(shí)間單位,是表示時(shí)間點(diǎn)之間離散化程度的因素;時(shí)間粒度反映了時(shí)態(tài)信息系統(tǒng)中時(shí)間點(diǎn)描述的最小單位,時(shí)間粒度越小,離散的時(shí)間點(diǎn) 越多,描述的事件的變化信息越精細(xì)準(zhǔn)確。三種時(shí)間用戶自定義時(shí)間指用戶根據(jù)自己的需要或理解定義的時(shí)間。這種時(shí)間的屬性值一般是時(shí)間點(diǎn),用戶本身會(huì)解釋他所給出的時(shí)間信息,數(shù)據(jù)庫系統(tǒng)不需要解釋該數(shù)據(jù) 的含義,只需將此時(shí)間域等同于其他一般的屬性域來理解。有效時(shí)間指一個(gè)對(duì)象(事

35、件)在現(xiàn)實(shí)世界中發(fā)生并保持的那段時(shí)間,或者該對(duì)象在現(xiàn)實(shí)世界中為真的時(shí)間。有效時(shí)間既可以反映過去和現(xiàn)在的時(shí)間,還可以 反映將來的時(shí)間。事務(wù)時(shí)間指一個(gè)數(shù)據(jù)庫對(duì)象進(jìn)行操作的時(shí)間,是一個(gè)事實(shí)存儲(chǔ)在數(shù)據(jù)庫中的時(shí)間,它記錄著對(duì)數(shù)據(jù)庫修改或更新的各種操作歷史,對(duì)應(yīng)于現(xiàn)有事務(wù)或現(xiàn)有數(shù) 據(jù)庫狀態(tài)變遷的歷史。有時(shí)也稱事務(wù)時(shí)間為系統(tǒng)時(shí)間(system time)。四種時(shí)態(tài)數(shù)據(jù)庫快照數(shù)據(jù)庫回滾數(shù)據(jù)庫歷史數(shù)據(jù)庫雙時(shí)態(tài)數(shù)據(jù)庫快照數(shù)據(jù)庫快照數(shù)據(jù)庫(Snapshot Database)是以在特定的時(shí)刻的 瞬間快照來建立模型,來考慮現(xiàn)實(shí)世界,盡管現(xiàn)實(shí)世界是 變化的,快照數(shù)據(jù)庫只是反映了某一個(gè)瞬間的情況??煺諗?shù)據(jù)庫支持用戶定義時(shí)

36、間,不能進(jìn)行與時(shí)間相關(guān)的任 何工作?;貪L數(shù)據(jù)庫回滾數(shù)據(jù)庫(Rollback Database)支持事務(wù)時(shí)間,按事務(wù)時(shí)間進(jìn)行編址, 保存了每次事務(wù)提交,狀態(tài)演變之前的狀態(tài)?;貪L數(shù)據(jù)庫記錄了數(shù)據(jù)庫事務(wù)變化歷史,它實(shí)現(xiàn)的是事務(wù)時(shí)間軸。任何 一個(gè)更新語句的執(zhí)行將產(chǎn)生一個(gè)新的數(shù)據(jù)庫狀態(tài)。新狀態(tài)不會(huì)覆蓋舊的 狀態(tài)。因此沒有數(shù)據(jù)會(huì)被物理刪除。通過將一個(gè)元組的事務(wù)結(jié)束時(shí)間設(shè)為執(zhí)行語句的當(dāng)時(shí)時(shí)間,從而實(shí)現(xiàn)元組在語義上的“刪除”。事務(wù)時(shí)間區(qū)間可以看成是該元組 在快照數(shù)據(jù)庫中存在的歷史。歷史數(shù)據(jù)庫記錄事實(shí)的有效時(shí)間的數(shù)據(jù)庫稱為歷史數(shù)據(jù)庫。歷史數(shù)據(jù)庫記錄了在有效時(shí)間軸上的一系列的數(shù)據(jù)庫狀態(tài),可能是過去、現(xiàn)在或?qū)怼K?/p>

37、 可以被看作是記錄了事實(shí)在真實(shí)世界的變化過程。歷史數(shù)據(jù)庫上的查詢語言必須具有有效時(shí)間演算能力。同時(shí)更新語句 必須指明修改語句涉及哪些數(shù)據(jù)庫狀態(tài)。雙時(shí)態(tài)數(shù)據(jù)庫雙時(shí)態(tài)數(shù)據(jù)庫由時(shí)態(tài)關(guān)系組成,其時(shí)態(tài)關(guān)系是一個(gè)四維結(jié)構(gòu)。其中兩 維是屬性和元組,另外兩維是事務(wù)時(shí)間和有效時(shí)間,一個(gè)時(shí)態(tài)關(guān)系可 以看成是一個(gè)歷史關(guān)系的序列。對(duì)時(shí)態(tài)關(guān)系的一個(gè)回滾操作則是選取 了一個(gè)特定的歷史關(guān)系,可對(duì)該歷史關(guān)系進(jìn)行查詢。而每一個(gè)事務(wù)則 引起一個(gè)新的歷史關(guān)系的建立。雙時(shí)態(tài)數(shù)據(jù)庫綜合了回滾數(shù)據(jù)庫和 歷史數(shù)據(jù)庫的優(yōu)良特性,它即保存 了數(shù)據(jù)庫變遷的歷史,又保存了現(xiàn) 實(shí)世界的真實(shí)的數(shù)據(jù)屬性。四種時(shí)態(tài)數(shù)據(jù)庫總結(jié)嚴(yán)格意義上的雙時(shí)態(tài)數(shù)據(jù)庫是不存

38、在的,需要花費(fèi)大量的存儲(chǔ)空間 為代價(jià)的。回滾數(shù)據(jù)庫的主要意義在于數(shù)據(jù)庫系統(tǒng)的管理和維護(hù),當(dāng)當(dāng)版本的 數(shù)據(jù)庫出現(xiàn)問題時(shí),進(jìn)行回滾。歷史數(shù)據(jù)庫記錄的是事實(shí)的有效時(shí)間,因此是具備應(yīng)用意義的數(shù)據(jù) 庫。目前常用的數(shù)據(jù)庫可約視為快照數(shù)據(jù)庫,它們不具備時(shí)太含義。知識(shí)圖譜時(shí)態(tài)信息存儲(chǔ)在知識(shí)圖譜存儲(chǔ)中應(yīng)用的為歷史數(shù)據(jù)庫,同時(shí)也借鑒回滾數(shù)據(jù)庫的 思想進(jìn)行知識(shí)圖譜的版本信息管理。歷史數(shù)據(jù)庫:記錄事實(shí)的有效時(shí)間,用有限的數(shù)據(jù)冗余實(shí)現(xiàn)數(shù)據(jù)時(shí) 態(tài)信息的應(yīng)用?;貪L數(shù)據(jù)庫:在特定的時(shí)間點(diǎn)(可視為回滾點(diǎn),但不用于真實(shí)的回 滾操作)對(duì)知識(shí)圖譜數(shù)據(jù)進(jìn)行獨(dú)立的數(shù)據(jù)備份,形成知識(shí)圖譜的版 本記錄,實(shí)現(xiàn)對(duì)特定歷史狀態(tài)的查詢,滿足一些特定

39、應(yīng)用場(chǎng)景的使 用需要。在基礎(chǔ)知識(shí)圖譜的基 礎(chǔ)上,構(gòu)建針對(duì)時(shí)態(tài)數(shù)據(jù)處理的中間件; 對(duì)于特定類型的時(shí)序 型數(shù)據(jù),采用其它的 存儲(chǔ)機(jī)制進(jìn)行存儲(chǔ)。實(shí)現(xiàn)歷史數(shù)據(jù)庫的時(shí)態(tài)信息 處理在中間件層實(shí)現(xiàn)針對(duì)時(shí)間的查 詢和演算,并針對(duì)數(shù)據(jù)更新時(shí) 針對(duì)數(shù)據(jù)庫狀態(tài)進(jìn)行修改的實(shí) 現(xiàn)機(jī)制。實(shí)現(xiàn)知識(shí)圖譜的版本管理設(shè)定知識(shí)圖譜版本生成的策略, 定時(shí)生成知識(shí)圖譜的快照版本。知識(shí)圖譜時(shí)態(tài)信息存儲(chǔ)實(shí)現(xiàn)設(shè)計(jì) 原則12知識(shí)圖譜 + 時(shí)態(tài)信息更多知識(shí)圖譜系列文章請(qǐng)關(guān)注plantdata服務(wù)號(hào)和知識(shí)圖譜實(shí)戰(zhàn)群79常見的圖數(shù)據(jù)存儲(chǔ)應(yīng)用場(chǎng)景分析使用圖數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ)復(fù)雜應(yīng)用場(chǎng)景存儲(chǔ)的最佳實(shí)踐下半場(chǎng)常見的圖數(shù)據(jù)存儲(chǔ) Graph DBMS常見的圖

40、數(shù)據(jù)存儲(chǔ) RDF stores圖數(shù)據(jù)存儲(chǔ)的選用指標(biāo)數(shù)據(jù)存儲(chǔ)支持?jǐn)?shù)據(jù)操作和管理方式 支持的圖結(jié)構(gòu)實(shí)體和關(guān)系表示 查詢機(jī)制數(shù)據(jù)存儲(chǔ)支持fiflfl flflNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB數(shù)據(jù)操作和管理方式fi$flAPINeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB支持的圖結(jié)構(gòu)fi$;A;Afi3$434Neo4jTitanVirtu

41、osoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB實(shí)體和關(guān)系表示SchemaInstancefi;Afi;A;A;AfififiNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB查詢機(jī)制fiAPIyflNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDBneo4jN

42、eo4j is a highly scalable native graph database that leverages data relationships as first-class entities, helping enterprises build intelligent applications to meet todays evolving data challenges.特點(diǎn):原生圖存儲(chǔ)和處理支持ACID事務(wù)處理自帶一套易于學(xué)習(xí)的查詢語言 Cypher不使用 schema社區(qū)最活躍neo4j 存儲(chǔ)結(jié)構(gòu)TitanTitan是一個(gè)分布式的圖數(shù)據(jù)庫,支持橫向擴(kuò)展,可容納數(shù) 千億

43、個(gè)頂點(diǎn)和邊。 Titan支持事務(wù),并且可以支撐上千并 發(fā)用戶和 計(jì)算復(fù)雜圖形遍歷。Titan的特性彈性與線性擴(kuò)展、分布式架構(gòu)、可容錯(cuò)支持 ACID 和最終一致性.支持多種存儲(chǔ)后端,支持高可用和熱備支持位置、數(shù)字范圍和全文檢索原生支持 TinkerPop 軟件棧VirtuosoOpenLink Virtuoso是一個(gè)混合模型數(shù)據(jù)庫,實(shí)現(xiàn)了Web, 文件和數(shù)據(jù)庫服務(wù)器功能以及本機(jī)XML存儲(chǔ)和通用數(shù)據(jù)訪問 中間件,提供單一服務(wù)器解決方案。Virtuoso提供了擴(kuò)展的對(duì)象關(guān)系模型,它提供了關(guān)系型數(shù)據(jù) 訪問,類型繼承,運(yùn)行時(shí)數(shù)據(jù)類型,遲綁定,基于id的訪問 等數(shù)據(jù)訪問方式。提供CSV、RDF文件形式的數(shù)據(jù)導(dǎo)入,支持從外部的數(shù)據(jù)庫 進(jìn)行庫、表、數(shù)據(jù)的關(guān)聯(lián)。詳細(xì)資料詳細(xì)的介紹與使用文檔請(qǐng)搜索并關(guān)注微信公眾號(hào):PlantData 知識(shí)圖譜實(shí)戰(zhàn)93應(yīng)用場(chǎng)景分析與知識(shí)圖譜建模知識(shí)圖譜構(gòu)建的基本步驟應(yīng)用場(chǎng)景分析知識(shí)圖譜本體構(gòu)建(Schema構(gòu)建)概念上下位關(guān)系屬性關(guān)系實(shí)體實(shí)體的屬性實(shí)體之間的關(guān)系創(chuàng)投知識(shí)圖譜創(chuàng)投知識(shí)圖譜描述創(chuàng)業(yè)企業(yè)與投資機(jī)構(gòu)之間以投資為主線的 多種關(guān)系,包含:企業(yè)產(chǎn)品、創(chuàng)始人、股東、高管、行業(yè)、 細(xì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論