




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、信息技術(shù)部信息技術(shù)部大數(shù)據(jù)與大數(shù)據(jù)與NOSql概述概述(2016年12月18日)主要內(nèi)容主要內(nèi)容 大數(shù)據(jù)的大數(shù)據(jù)的4V特征特征 大數(shù)據(jù)的系統(tǒng)要求大數(shù)據(jù)的系統(tǒng)要求 大數(shù)據(jù)的典型架構(gòu)大數(shù)據(jù)的典型架構(gòu) 大數(shù)據(jù)的應用大數(shù)據(jù)的應用 大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的發(fā)展主要內(nèi)容主要內(nèi)容大數(shù)據(jù)的定義大數(shù)據(jù)的定義大數(shù)據(jù)(大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要是需要新處理模式新處理模式才能具有才能具有更強的決策力、洞察更強的決策力、洞察發(fā)現(xiàn)力發(fā)現(xiàn)力和和流程優(yōu)化能力的海量、高增長率和多樣流程
2、優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?;男畔①Y產(chǎn)。在維克托在維克托邁爾邁爾-舍恩伯格及肯尼斯舍恩伯格及肯尼斯庫克耶編寫的庫克耶編寫的大數(shù)據(jù)時代大數(shù)據(jù)時代2 中中大數(shù)據(jù)指不用隨機分析法大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣捷徑(抽樣調(diào)查)這樣捷徑,而,而采用所有數(shù)據(jù)進行分采用所有數(shù)據(jù)進行分析處理析處理。大數(shù)據(jù)的大數(shù)據(jù)的4V特征特征 Volume(海量)、(海量)、Variety(多樣)、(多樣)、Velocity(實時)、(實時)、Value(價值價值)海量海量數(shù)據(jù)量巨大,對數(shù)據(jù)量巨大,對TB、PB數(shù)據(jù)級的處理,數(shù)據(jù)級的處理, 已經(jīng)成已經(jīng)成為基本配置。為基本配置。多樣多樣處理多樣性的數(shù)據(jù)
3、類型,處理多樣性的數(shù)據(jù)類型,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù),能處理,能處理Web數(shù)據(jù),能處理語音數(shù)據(jù)甚至是圖像、視數(shù)據(jù),能處理語音數(shù)據(jù)甚至是圖像、視頻數(shù)據(jù)。頻數(shù)據(jù)。實時實時在客戶每次瀏覽頁面,每次下訂單的過程中都存在客戶每次瀏覽頁面,每次下訂單的過程中都存在,都會需要對用戶進行實時的推薦,決策已經(jīng)變得實時在,都會需要對用戶進行實時的推薦,決策已經(jīng)變得實時價值價值價值密度低,商業(yè)價值高。一條數(shù)小時的監(jiān)控視價值密度低,商業(yè)價值高。一條數(shù)小時的監(jiān)控視頻,可能有用的數(shù)據(jù)僅有一兩秒。能從海量數(shù)據(jù)中發(fā)掘出頻,可能有用的數(shù)據(jù)僅有一兩秒。能從海量數(shù)據(jù)中發(fā)掘出這些數(shù)據(jù),將成為企業(yè)競爭力的重要來
4、源。這些數(shù)據(jù),將成為企業(yè)競爭力的重要來源。大數(shù)據(jù)的系統(tǒng)需求大數(shù)據(jù)的系統(tǒng)需求 高新能(高新能( High performance )高并發(fā)讀寫高并發(fā)讀寫實時動態(tài)獲取和更新數(shù)據(jù)實時動態(tài)獲取和更新數(shù)據(jù) 海量存儲(海量存儲(Huge Storage )海量數(shù)據(jù)的高效率存儲和訪問海量數(shù)據(jù)的高效率存儲和訪問類似類似SNS網(wǎng)站網(wǎng)站 高可擴展性和高可用性高可擴展性和高可用性( High Scalability & High Availability )需要擁有快速橫向擴展能力需要擁有快速橫向擴展能力能提供能提供7*24小時不間斷服務小時不間斷服務大數(shù)據(jù)典型架構(gòu)大數(shù)據(jù)典型架構(gòu)大數(shù)據(jù)典型架構(gòu)大數(shù)據(jù)典型架構(gòu)
5、大數(shù)據(jù)典型架構(gòu)大數(shù)據(jù)典型架構(gòu)數(shù)據(jù)計算用時對比數(shù)據(jù)計算用時對比 離線計算離線計算 流式計算流式計算 實時計算實時計算 大數(shù)據(jù)的應用大數(shù)據(jù)的應用大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)與互聯(lián)網(wǎng)大大交易數(shù)據(jù):來自電商的數(shù)據(jù),包括交易數(shù)據(jù):來自電商的數(shù)據(jù),包括B2B、B2C、C2C、團購等、團購等大交互數(shù)據(jù):來自社交網(wǎng)絡的數(shù)據(jù),大交互數(shù)據(jù):來自社交網(wǎng)絡的數(shù)據(jù),SNS、微博等、微博等兩類數(shù)據(jù)有效融合將是大勢所趨兩類數(shù)據(jù)有效融合將是大勢所趨,更,更能增強企業(yè)的商業(yè)洞察力能增強企業(yè)的商業(yè)洞察力大數(shù)據(jù)的應用大數(shù)據(jù)的應用大數(shù)據(jù)與金融大數(shù)據(jù)與金融銀行銀行大數(shù)據(jù)的應用大數(shù)據(jù)的應用大數(shù)據(jù)與金融大數(shù)據(jù)與金融保險保險大數(shù)據(jù)的應用大數(shù)據(jù)的應用
6、大數(shù)據(jù)與金融大數(shù)據(jù)與金融證券證券 股價預測股價預測 客戶關(guān)系管理客戶關(guān)系管理 投資景氣指數(shù)分析投資景氣指數(shù)分析大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的發(fā)展什么是什么是NoSQL? NoSQL是是Not Only SQL的縮寫,而不是的縮寫,而不是Not SQL; 它不一定遵循傳統(tǒng)數(shù)據(jù)庫的一些基本要求,比如它不一定遵循傳統(tǒng)數(shù)據(jù)庫的一些基本要求,比如SQL標準、標準、ACID屬性、表結(jié)構(gòu)等等。屬性、表結(jié)構(gòu)等等。 相比傳統(tǒng)數(shù)據(jù)庫,叫它相比傳統(tǒng)數(shù)據(jù)庫,叫它分布式數(shù)據(jù)管理系統(tǒng)分布式數(shù)據(jù)管理系統(tǒng)更貼切,更貼切,數(shù)據(jù)存儲被簡化更靈活,重點被放在了分布式數(shù)據(jù)管數(shù)據(jù)存儲被簡化更靈活,重點被放在了分布式數(shù)據(jù)管理上。理上。 NoSQL
7、數(shù)據(jù)庫主要應用于數(shù)據(jù)庫主要應用于web2.0的大規(guī)模系統(tǒng),的大規(guī)模系統(tǒng),具有模式靈活、最終一致性、面向海量數(shù)據(jù)、分布式、具有模式靈活、最終一致性、面向海量數(shù)據(jù)、分布式、開源、水平可擴展、配置簡單、非關(guān)系型等特點。開源、水平可擴展、配置簡單、非關(guān)系型等特點。易擴展易擴展 NoSQL數(shù)據(jù)庫種類繁多;數(shù)據(jù)庫種類繁多; 共同的特點都是去掉系型特性;共同的特點都是去掉系型特性; 數(shù)據(jù)之間無關(guān)系,容易橫向擴展;數(shù)據(jù)之間無關(guān)系,容易橫向擴展; 甚至可以甚至可以NoSQL之間的整合。之間的整合。數(shù)據(jù)模型靈活數(shù)據(jù)模型靈活 無需事先為要存儲的數(shù)據(jù)建立字段無需事先為要存儲的數(shù)據(jù)建立字段 隨時可以存儲自定義的數(shù)據(jù)格式
8、隨時可以存儲自定義的數(shù)據(jù)格式高可用高可用 NoSQL在不太影響性能的情況,就可以方便的實現(xiàn)高可用的在不太影響性能的情況,就可以方便的實現(xiàn)高可用的架構(gòu)。比如架構(gòu)。比如Cassandra,HBase模型,模型,通過復制模型也能實通過復制模型也能實現(xiàn)高可用?,F(xiàn)高可用。大數(shù)據(jù)量,高性能大數(shù)據(jù)量,高性能NoSQL數(shù)據(jù)庫都具有數(shù)據(jù)庫都具有非常高的讀寫性能非常高的讀寫性能,尤其在大數(shù)據(jù)量下,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這同樣表現(xiàn)優(yōu)秀。這得益于它的無關(guān)系性,數(shù)據(jù)結(jié)構(gòu)簡單得益于它的無關(guān)系性,數(shù)據(jù)結(jié)構(gòu)簡單。 分布式數(shù)據(jù)系統(tǒng)的分布式數(shù)據(jù)系統(tǒng)的CAP原理的三要素:原理的三要素:一致性一致性 (Consistenc
9、y) 可用性可用性 (Availability) 分區(qū)容忍性分區(qū)容忍性 (Partition tolerance)NOSql的的CAP原理實現(xiàn):原理實現(xiàn):在分布式系統(tǒng)中,三個要素最多只能同時實現(xiàn)兩點在分布式系統(tǒng)中,三個要素最多只能同時實現(xiàn)兩點 考慮考慮CP,主要是一些,主要是一些Key-Value數(shù)據(jù)庫,典型代表為數(shù)據(jù)庫,典型代表為Google的的Big Table,將各列數(shù)據(jù)進行排序存儲。數(shù)據(jù)值按范圍分布在多臺機器,數(shù)據(jù),將各列數(shù)據(jù)進行排序存儲。數(shù)據(jù)值按范圍分布在多臺機器,數(shù)據(jù)更新操作有嚴格的一致性保證。更新操作有嚴格的一致性保證。考慮考慮AP,主要是一些面向文檔的適用于分布式系統(tǒng)的數(shù)據(jù)庫,
10、如,主要是一些面向文檔的適用于分布式系統(tǒng)的數(shù)據(jù)庫,如Amazon的的Dynamo,Dynamo將數(shù)據(jù)按將數(shù)據(jù)按key進行進行Hash存儲。其數(shù)據(jù)分片存儲。其數(shù)據(jù)分片模型有比較強的容災性,因此它實現(xiàn)的是相對松散的弱一致性模型有比較強的容災性,因此它實現(xiàn)的是相對松散的弱一致性最終最終一致性一致性NoSQL的兩個核心理論基礎:的兩個核心理論基礎:Google的的BigTableBigTable將將各列數(shù)據(jù)進行排序存儲;各列數(shù)據(jù)進行排序存儲;數(shù)據(jù)值按范圍分布在多臺機器;數(shù)據(jù)值按范圍分布在多臺機器;數(shù)據(jù)更新操作有嚴格的一致性保證。數(shù)據(jù)更新操作有嚴格的一致性保證。Amazon的的DynamoDynamo使
11、用的是另外一種分布式模型;使用的是另外一種分布式模型;模型更簡單,模型更簡單,將數(shù)據(jù)按將數(shù)據(jù)按key進行進行hash存儲;存儲;其數(shù)據(jù)分片模型有比較強的容災性;其數(shù)據(jù)分片模型有比較強的容災性;實現(xiàn)的是相對松散的弱一致性實現(xiàn)的是相對松散的弱一致性(最終一致性最終一致性)。存儲類型存儲類型NoSQL產(chǎn)品產(chǎn)品特性特性列式存儲列式存儲Hbase、CassandraHypertable按列存儲數(shù)據(jù),最大的特點是方便存儲結(jié)構(gòu)按列存儲數(shù)據(jù),最大的特點是方便存儲結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù),方便做數(shù)據(jù)壓縮,針對某和半結(jié)構(gòu)化數(shù)據(jù),方便做數(shù)據(jù)壓縮,針對某一列或者某幾列的查詢有非常大的一列或者某幾列的查詢有非常大的 I/O
12、優(yōu)勢優(yōu)勢鍵值存儲鍵值存儲Redis、TokyoCabinetTokyo Tyrant、Flare可以通過鍵快速查詢到值。一般來說,存儲可以通過鍵快速查詢到值。一般來說,存儲不管值的格式,照單全收不管值的格式,照單全收文檔式存儲文檔式存儲MongoDB、CouchDB文文 檔檔 存存 儲儲 一一 般般 用用 類類 似似JSON 格式存儲,格式存儲,存儲的內(nèi)容是文檔類型的,這樣也就有機會存儲的內(nèi)容是文檔類型的,這樣也就有機會對某些字段建立索引,實現(xiàn)關(guān)系型數(shù)據(jù)庫的對某些字段建立索引,實現(xiàn)關(guān)系型數(shù)據(jù)庫的某些功能某些功能對象式存儲對象式存儲db4oVersant通過類似面向?qū)ο笳Z言的語法操作數(shù)據(jù)庫,通過類似面向?qū)ο笳Z言的語法操作數(shù)據(jù)庫,通過對象的方式存取數(shù)據(jù)通過對象的方式存取數(shù)據(jù)NOSql使用情況使用情況DB-Engines 發(fā)布了發(fā)布了 2016 年年 12 月份的數(shù)據(jù)庫排名月份的數(shù)據(jù)庫排名 綜合來看,綜合來看,NoSQL數(shù)據(jù)庫正在逐漸地成為數(shù)據(jù)庫領域數(shù)據(jù)庫正在逐漸地成為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 政府隔離酒店協(xié)議書
- 房屋買賣補充協(xié)議書
- 拆裝空調(diào)免責協(xié)議書
- 投資房屋分割協(xié)議書
- 平等牲畜交易協(xié)議書
- 按揭挖機合伙協(xié)議書
- 房屋單方贈予協(xié)議書
- 護士醫(yī)師合作協(xié)議書
- 拓展基地安全協(xié)議書
- 招聘助理聘用協(xié)議書
- 校醫(yī)招聘筆試試題及答案
- 奧特曼過關(guān)測試題及答案
- 學生營養(yǎng)與健康知識課件
- 注射抗凝藥物的觀察與護理
- 2025年廣州體育職業(yè)技術(shù)學院單招職業(yè)傾向性考試題庫及答案1套
- 蘇教版五年級數(shù)學下冊典型例題第五單元分數(shù)的加法和減法·單元復習篇(原卷版+解析)
- DBJ-T13-483-2025 預拌流態(tài)固化土技術(shù)標準
- 技術(shù)文件核查審核和審批制度
- 甘肅省歷年中考作文題(2003-2024)
- 防汛安全培訓課件
- 關(guān)于臨期商品的處理管理辦法
評論
0/150
提交評論