版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
三、大數(shù)據(jù)存儲技術(shù)-1-相關(guān)概念與相關(guān)技術(shù)概覽數(shù)據(jù)結(jié)構(gòu):結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫數(shù)據(jù)模型:關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫數(shù)據(jù)處理特性:OLTP與OLAP數(shù)據(jù)一致性:強(qiáng)一致性與最終一致性數(shù)據(jù)存儲方式:行式存儲與列式存儲數(shù)據(jù)庫存儲與處理架構(gòu):SMP與MPP數(shù)據(jù)存儲架構(gòu):傳統(tǒng)分布式文件與新型分布式文件數(shù)據(jù)處理架構(gòu):基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)(MapReduce)-2-數(shù)據(jù)的結(jié)構(gòu)—結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)都是客觀存在,大數(shù)據(jù)技術(shù)需要涵蓋兩者-3-對比項(xiàng)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半非結(jié)構(gòu)化數(shù)據(jù)定義有數(shù)據(jù)結(jié)構(gòu)描述信息的數(shù)據(jù)不方便用固定結(jié)構(gòu)來表現(xiàn)的數(shù)據(jù)介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)結(jié)構(gòu)與內(nèi)容的關(guān)系先有結(jié)構(gòu)、再有數(shù)據(jù)只有數(shù)據(jù),沒有結(jié)構(gòu)先有數(shù)據(jù),再有結(jié)構(gòu)示例各類表格圖形、圖像、音頻、視頻信息HTML文檔,它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起數(shù)據(jù)庫數(shù)據(jù)模型—關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫在大數(shù)據(jù)技術(shù)中"非關(guān)系型"數(shù)據(jù)庫技術(shù)是必不可少的,但關(guān)系數(shù)據(jù)庫也是不可或缺的-4-對比項(xiàng)關(guān)系型數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫定義創(chuàng)建在關(guān)系模型基礎(chǔ)上,借助于集合代數(shù)等數(shù)學(xué)概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù)關(guān)系模型由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合、關(guān)系完整性約束三部分組成沒有標(biāo)準(zhǔn)定義包括:表存儲數(shù)據(jù)庫、鍵值存儲數(shù)據(jù)庫、面向文檔的數(shù)據(jù)庫等接口語言SQL(StructuredQueryLanguage,結(jié)構(gòu)化查詢語言),對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行查詢、操作和管理無統(tǒng)一標(biāo)準(zhǔn)包括:各自定義的API、類SQL、MR等典型案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型的MPPRDB(Greenplum)也屬于關(guān)系型數(shù)據(jù)庫Hbase、MongoDB、Redis數(shù)據(jù)處理特性—OLTP與OLAPOLTP以業(yè)務(wù)操作型為主,OLAP以業(yè)務(wù)分析性為主,兩者對技術(shù)的要求很難兼顧-5-比較項(xiàng)聯(lián)機(jī)事務(wù)處理OLTP(On-LineTransactionProcessing)聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)基本類型業(yè)務(wù)操作型業(yè)務(wù)分析型數(shù)據(jù)特性對一條記錄數(shù)據(jù)會多次修改,支持大量并發(fā)用戶添加和修改數(shù)據(jù)數(shù)據(jù)寫入后基本不再修改,能較好地支持大量并發(fā)用戶進(jìn)行大數(shù)據(jù)量查詢技術(shù)特性確保數(shù)據(jù)的一致性確保事務(wù)的完整性數(shù)據(jù)讀寫實(shí)時(shí)性高支持多維數(shù)據(jù)以及對多維數(shù)據(jù)的復(fù)雜分析大數(shù)據(jù)量數(shù)據(jù)量GB-TB級TB-PB級典型示例銀行業(yè)務(wù)系統(tǒng)/數(shù)據(jù)庫各類決策分析系統(tǒng)/數(shù)據(jù)庫數(shù)據(jù)一致性:強(qiáng)一致性與最終一致性強(qiáng)一致性和最終一致性都是指客戶端向數(shù)據(jù)庫系統(tǒng)寫入數(shù)據(jù)后,數(shù)據(jù)庫系統(tǒng)能夠提供的數(shù)據(jù)一致性的表現(xiàn)-6-對比項(xiàng)強(qiáng)一致性(即時(shí)一致性)最終一致性弱一致性場景定義假定三個(gè)進(jìn)程A、B、C是互相獨(dú)立的,且都在對存儲系統(tǒng)進(jìn)行讀寫操作數(shù)據(jù)一致性表現(xiàn)A寫入數(shù)據(jù)到存儲系統(tǒng)后,存儲系統(tǒng)能夠保證后續(xù)任何時(shí)刻發(fā)起讀操作的B、C可以讀到A寫入的數(shù)據(jù)A寫入數(shù)據(jù)到存儲系統(tǒng)后,經(jīng)過一定時(shí)間,或者在某個(gè)特定操作后,B、C最終會讀到A寫入的數(shù)據(jù)A寫入數(shù)據(jù)到存儲系統(tǒng)后,存儲系統(tǒng)不能夠保證后續(xù)發(fā)起讀操作的B、C可以讀到A寫入的數(shù)據(jù)示例OLTP需要強(qiáng)一致性O(shè)LAP需最終一致性絕大多數(shù)應(yīng)用不能夠容忍弱一致性數(shù)據(jù)存儲方式—行式存儲與列式存儲-7-傳統(tǒng)關(guān)系型數(shù)據(jù)庫主要采用行存儲模式,海量數(shù)據(jù)的高效存儲和訪問要求引發(fā)了從行存儲模式向列存儲模式的轉(zhuǎn)變行存儲用戶生日聊天記錄日均在線時(shí)長用戶11981-10-3Xxxxyyyy...2用戶21990-5-15Mmnnn…3.7用戶11981-10-3Xxxxyyyy...2用戶21990-5-15Mmnnn…3.7列存儲用戶11981-10-3用戶21990-5-15用戶1Xxxxyyyy..用戶2Mmnnn..用戶12用戶23.7行存儲列存儲存儲一行中各列一起存放,單行集中存儲一行中各列獨(dú)立存放,單列集中存儲索引效率海量數(shù)據(jù)索引既占用大量空間,且索引效率會隨著數(shù)據(jù)增長越來越低基于列自動(dòng)索引,海量數(shù)據(jù)查詢效率高,不產(chǎn)生額外存儲空間效率同一行不同列數(shù)據(jù)類型不同,壓縮效率低空值列依然占據(jù)空間列同數(shù)據(jù)類型,壓縮效率高空值不占空間I/O查某列必須讀出整行,I/O負(fù)荷高、速度慢只需讀出某列數(shù)據(jù),I/O低速度快結(jié)構(gòu)表結(jié)構(gòu)改變影響很大可隨時(shí)動(dòng)態(tài)增加列適用場景數(shù)據(jù)寫入后需要修改和刪除,基于行的反復(fù)查詢,多用于OLTP數(shù)據(jù)庫批量數(shù)據(jù)一次寫入和基于少量列的反復(fù)查詢,多用于OLAP數(shù)據(jù)庫樣例數(shù)據(jù)表數(shù)據(jù)庫存儲與處理架構(gòu)—SMP與MPP在數(shù)據(jù)量急劇膨脹的背景下,數(shù)據(jù)庫處理要求超出了單機(jī)或SMP架構(gòu)能力范圍,最高配置小型機(jī)也無法滿足,所以在大數(shù)據(jù)技術(shù)中,MPP架構(gòu)(計(jì)算分布+存儲分布)架構(gòu)成為主流-8-計(jì)算分布,存儲集中DBServ共享磁盤DBServDBServDBServ網(wǎng)絡(luò)SAN/FC計(jì)算集中,存儲集中DBServ磁盤計(jì)算分布,存儲分布DBServDBServDBServDBServ高速通信網(wǎng)絡(luò)磁盤磁盤磁盤磁盤Master如:Oracle傳統(tǒng)
單機(jī)數(shù)據(jù)庫如:OracleRAC小型機(jī)+共享盤陣如:Greenplum、HbaseX86+本地硬盤傳統(tǒng)單機(jī)數(shù)據(jù)庫SMP架構(gòu)數(shù)據(jù)庫MPP架構(gòu)數(shù)據(jù)庫對稱多處理,SymmetricalMulti-Processing有兩臺以上的服務(wù)器,各主機(jī)之間共享總線結(jié)構(gòu),共享數(shù)據(jù)存儲磁盤節(jié)點(diǎn)數(shù)有限制,主要通過提高節(jié)點(diǎn)配置來提高整體處理能力,擴(kuò)展能力有限對共享磁盤的訪問可能成為瓶頸SMP大規(guī)模并行處理,MassivelyParallelProcessing多個(gè)松耦合處理單元組成,數(shù)據(jù)存在本機(jī)磁盤上通過增加服務(wù)器數(shù)量提高系統(tǒng)處理能力,理論上可無限擴(kuò)展,目技術(shù)可實(shí)現(xiàn)上千個(gè)節(jié)點(diǎn)互聯(lián)對軟件體系要求較高,需要通過軟件層來調(diào)度和平衡各個(gè)節(jié)點(diǎn)的負(fù)載和并行處理過程MPP數(shù)據(jù)存儲架構(gòu):傳統(tǒng)分布式文件與新型分布式文件-9-傳統(tǒng)分布式文件系統(tǒng)也可以適應(yīng)海量數(shù)據(jù)增長,但是由于數(shù)據(jù)計(jì)算與存儲是分離的,隨數(shù)據(jù)量的增長,網(wǎng)絡(luò)帶寬形成瓶頸。新型分布式文件系統(tǒng)采用數(shù)據(jù)計(jì)算與存儲綁定的新策略,可有效應(yīng)對海量數(shù)據(jù)增長X86PC集群數(shù)據(jù)存儲:磁盤陣列數(shù)據(jù)存儲與計(jì)算合一數(shù)據(jù)計(jì)算:
數(shù)據(jù)服務(wù)器數(shù)據(jù)靠網(wǎng)絡(luò)傳輸本機(jī)硬盤本機(jī)硬盤本機(jī)硬盤本機(jī)硬盤計(jì)算模式擁有成本盤陣負(fù)責(zé)存儲,數(shù)據(jù)服務(wù)器負(fù)責(zé)計(jì)算,彼此靠網(wǎng)絡(luò)連接,計(jì)算效率受網(wǎng)絡(luò)帶寬影響PC機(jī)自行負(fù)責(zé)存儲和計(jì)算,數(shù)據(jù)與計(jì)算綁定,不受網(wǎng)絡(luò)帶寬影響專用設(shè)備價(jià)格昂貴,維護(hù)費(fèi)用高通用PC,價(jià)格低廉,維護(hù)方便存儲模式磁盤陣列存儲由每臺PC機(jī)自帶硬盤組成容錯(cuò)模式不能容忍盤陣設(shè)備出問題,靠RAID容錯(cuò)個(gè)別硬盤故障容許PC節(jié)點(diǎn)故障,通過多個(gè)文件副本保證數(shù)據(jù)完整性數(shù)據(jù)存儲與計(jì)算分離新型分布式文件系統(tǒng)—HadoopHDFS-10-HadoopHDFS是新型分布式文件系統(tǒng)的典型代表,提供高可靠、高擴(kuò)展、高吞吐能力的海量文件數(shù)據(jù)存儲元數(shù)據(jù)節(jié)點(diǎn)Namenode文件名,文件塊,文件塊所在數(shù)據(jù)節(jié)點(diǎn),…文件元數(shù)據(jù)123數(shù)據(jù)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)點(diǎn)Datanode先讀取文件元數(shù)據(jù),知道文件在哪后讀取各個(gè)文件塊管理文件分布存儲優(yōu)點(diǎn)支持任意超大文件存儲;硬件節(jié)點(diǎn)可不斷擴(kuò)展,低成本存儲對上層應(yīng)用屏蔽分布式部署結(jié)構(gòu),提供統(tǒng)一的文件系統(tǒng)訪問接口,感覺就是一個(gè)大硬盤;應(yīng)用無需知道文件具體存放位置,使用簡單;文件分塊存儲(1塊缺省64MB),不同塊可分布在不同機(jī)器節(jié)點(diǎn)上,通過元數(shù)據(jù)記錄文件塊位置;應(yīng)用順序讀取各個(gè)塊系統(tǒng)設(shè)計(jì)為高容錯(cuò)性,允許廉價(jià)PC故障;每塊文件數(shù)據(jù)在不同機(jī)器節(jié)點(diǎn)上保存3份;這種備份的另一個(gè)好處是可方便不同應(yīng)用就近讀取,提高訪問效率缺點(diǎn)適合大數(shù)據(jù)文件保存和分析,不適合小文件,由于分布存儲需要從不同節(jié)點(diǎn)讀取數(shù)據(jù),效率反而沒有集中存儲高;一次寫入多次讀取,不支持文件修改是最基礎(chǔ)的大數(shù)據(jù)技術(shù),基于文件系統(tǒng)層面提供文件訪問能力,不如數(shù)據(jù)庫技術(shù)強(qiáng)大,但也是海量數(shù)據(jù)庫技術(shù)的底層依托文件系統(tǒng)接口完全不同于傳統(tǒng)文件系統(tǒng),應(yīng)用需要重新開發(fā)上層應(yīng)用YahooAmazon
Ebay淘寶
百度
中國移動(dòng)飛信中國移動(dòng)大云行業(yè)應(yīng)用技術(shù)特點(diǎn)基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)(MapReduce)MapReduce是解決海量數(shù)據(jù)處理的并行編程環(huán)境-11-TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中間結(jié)果中間結(jié)果中間結(jié)果輸出數(shù)據(jù)輸出數(shù)據(jù)JobTracker用戶程序(JobClient)提交作業(yè)任務(wù)調(diào)度任務(wù)調(diào)度狀態(tài)監(jiān)控狀態(tài)監(jiān)控123MapReduce技術(shù)特性自動(dòng)并行化:系統(tǒng)自動(dòng)進(jìn)行作業(yè)并行化處理自動(dòng)可靠處理:系統(tǒng)自動(dòng)處理節(jié)點(diǎn)/任務(wù)的故障檢測和恢復(fù)靈活擴(kuò)展:節(jié)點(diǎn)可以靈活加入和退出,系統(tǒng)自動(dòng)感知節(jié)點(diǎn)狀態(tài)并進(jìn)行處理高性能:計(jì)算任務(wù)將被調(diào)度至數(shù)據(jù)所在的節(jié)點(diǎn),減少網(wǎng)絡(luò)開銷,提升執(zhí)行性能MapReduce各類新興數(shù)據(jù)庫面向文檔的數(shù)據(jù)庫—MongoDB基于內(nèi)存的鍵值存儲數(shù)據(jù)庫—Redis分布式MPP架構(gòu)/列存儲數(shù)據(jù)庫—HBase分布式MPP架構(gòu)/支持列存/關(guān)系型數(shù)據(jù)庫—Greenplum-12-面向文檔的數(shù)據(jù)庫—技術(shù)原理-13-傳統(tǒng)數(shù)據(jù)庫只適合存儲結(jié)構(gòu)化數(shù)據(jù),對于海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)則顯得無能為力;面向文檔數(shù)據(jù)庫技術(shù)則填補(bǔ)了這一空白傳統(tǒng)做法面向文檔數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫視頻/圖像/音頻文件復(fù)雜數(shù)據(jù)放在關(guān)系數(shù)據(jù)庫,低價(jià)值大文件放在文件系統(tǒng),彼此分離存儲和訪問數(shù)據(jù)庫的記錄就是文檔,涵蓋各種數(shù)據(jù)類型,數(shù)據(jù)統(tǒng)一管理和訪問數(shù)據(jù)庫可分布式部署,對外提供統(tǒng)一視圖數(shù)據(jù)庫
二維表
行數(shù)據(jù)庫
集合
文檔技術(shù)特點(diǎn)分布式存儲所有數(shù)據(jù)保存在文件中文件中所有數(shù)據(jù)基于結(jié)構(gòu)化描述語言組織,支持各種數(shù)據(jù)類型,包括大型對象(視頻/音頻等)支持多種類似SQL的數(shù)據(jù)檢索方式適用場景網(wǎng)站數(shù)據(jù)存儲大尺寸低價(jià)值數(shù)據(jù)多類型混雜的數(shù)據(jù)存儲面向文檔的數(shù)據(jù)庫—MongoDB-14-MongoDB是面向文檔數(shù)據(jù)庫典型代表,視覺中國網(wǎng)站采用MongoDB替換原有關(guān)系數(shù)據(jù)庫mysql,實(shí)現(xiàn)對各類數(shù)據(jù)的統(tǒng)一管理和應(yīng)用DB在數(shù)據(jù)處理量上升一倍的情況下,硬件資源利用率反而下降20%數(shù)據(jù)讀取速度,從400ms減少為60ms,效率提升6倍數(shù)據(jù)文件,從200G降到了70個(gè)G結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化圖片數(shù)據(jù)實(shí)現(xiàn)一體化處理Schema自由,大大提升開發(fā)效率實(shí)現(xiàn)動(dòng)態(tài)集群,添加新機(jī)器無需中斷業(yè)務(wù)應(yīng)用效果關(guān)系數(shù)據(jù)庫用戶信息表MongoDB用戶信息文檔用戶ID用戶名…地址地址地址個(gè)人站點(diǎn)個(gè)人站點(diǎn)個(gè)人站點(diǎn)創(chuàng)意圖片創(chuàng)意圖片創(chuàng)意圖片用戶信息分多表存儲表關(guān)聯(lián)查詢圖片文件另外存儲,自行處理用戶數(shù)據(jù)集中在一個(gè)文檔中數(shù)據(jù)與圖片文件一體化存儲用戶數(shù)據(jù)內(nèi)容任意擴(kuò)展創(chuàng)意圖片基于內(nèi)存的鍵值存儲數(shù)據(jù)庫—技術(shù)原理-15-由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫主要采用二維表硬盤存儲方式,難以滿足海量數(shù)據(jù)高速大并發(fā)讀寫的需要,基于鍵值的分布式存儲技術(shù)應(yīng)運(yùn)而生并得到廣泛應(yīng)用關(guān)系數(shù)據(jù)庫WEB應(yīng)用服務(wù)器磁盤陣列關(guān)系數(shù)據(jù)庫互聯(lián)網(wǎng)用戶鍵值存儲數(shù)據(jù)庫WEB應(yīng)用服務(wù)器互聯(lián)網(wǎng)用戶X86集群存儲介質(zhì)數(shù)據(jù)結(jié)構(gòu)獲取方式硬盤,讀寫速度慢內(nèi)存,讀寫速度快二維表,不支持復(fù)雜數(shù)據(jù)結(jié)構(gòu)鍵值,值類型支持復(fù)雜數(shù)據(jù)結(jié)構(gòu)SQL,支持復(fù)雜查詢應(yīng)用程序編程接口API,不支持復(fù)雜查詢技術(shù)特點(diǎn)以內(nèi)存為主要存儲區(qū)域,讀寫速度最快,硬盤用于周期性備份鍵值(KEY-VALUE)結(jié)構(gòu),基于KEY實(shí)現(xiàn)分區(qū)存儲,從而支持分布式部署,提高并發(fā)訪問能力VALUE支持鏈、集合等復(fù)雜數(shù)據(jù)結(jié)構(gòu),便于程序直接使用,減少處理環(huán)節(jié)適合海量數(shù)據(jù)實(shí)時(shí)大批量簡單讀寫存儲模式磁盤陣列集中存儲支持X86分布式部署KEY1VALUE1KEY2VALUE2KEY-nVALUE-n數(shù)據(jù)在內(nèi)存中存儲和處理基于內(nèi)存的鍵值存儲數(shù)據(jù)庫—Redis-16-鍵值存儲技術(shù)的典型產(chǎn)品是Redis,由Vmware公司研發(fā)并提供開源,國內(nèi)最大的應(yīng)用是新浪微博,有200多臺物理機(jī)運(yùn)行RedisRedis服務(wù)器內(nèi)存Redis服務(wù)器內(nèi)存Redis服務(wù)器內(nèi)存Redis服務(wù)器內(nèi)存讀取應(yīng)用服務(wù)器寫入寫入寫入寫入新浪微博需要為千萬級用戶實(shí)時(shí)快速計(jì)算并刷新關(guān)注、粉絲、微博的計(jì)數(shù),并對用戶及時(shí)通知新消息等,采用Redis使所有操作都在多臺機(jī)器的內(nèi)存中并發(fā)進(jìn)行,讀寫效率提升至少15倍以上分布式MPP架構(gòu)/列存儲數(shù)據(jù)庫—HBase-17-HadoopHBase是分布式MPP架構(gòu)、列式存儲數(shù)據(jù)庫的典型代表數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)Hadoop分布式文件系統(tǒng)HBase分布式數(shù)據(jù)庫海量數(shù)據(jù)表(例:用戶行為分析)數(shù)據(jù)分區(qū),并發(fā)讀寫,根據(jù)數(shù)據(jù)量增長自動(dòng)橫向擴(kuò)展分區(qū)用戶名A-D用戶名E-H用戶名W-Z表分區(qū)表分區(qū)表分區(qū)數(shù)據(jù)物理存儲位置透明,采取主備方式確??煽看鎯?,可動(dòng)態(tài)增加數(shù)據(jù)節(jié)點(diǎn)機(jī)器大數(shù)據(jù)量PB級分布式并發(fā)處理效率高易擴(kuò)展、動(dòng)態(tài)伸縮適用于廉價(jià)設(shè)備集群適合基于列的讀操作,不適合基于行的寫操作不適合關(guān)系模型數(shù)據(jù)組織模式Hbase特點(diǎn)YahooAmazonFacebookEbay淘寶百度中國移動(dòng)飛信行業(yè)應(yīng)用X86PC服務(wù)器X86PC服務(wù)器X86PC服務(wù)器分布式MPP架構(gòu)/支持列存/關(guān)系型數(shù)據(jù)庫—Greenplum-18-EMC公司的商業(yè)產(chǎn)品GreenPlum是一個(gè)基于分布式文件存儲、MPP分布式處理架構(gòu)的數(shù)據(jù)庫,同時(shí)支持行存與列存,并且仍然保持了關(guān)系數(shù)據(jù)模型外部數(shù)據(jù)源并行裝載或?qū)С鯯egment節(jié)點(diǎn)執(zhí)行查詢計(jì)劃及數(shù)據(jù)庫存儲管理網(wǎng)絡(luò)互聯(lián)Master節(jié)點(diǎn)生成查詢計(jì)劃并派發(fā)匯總執(zhí)行結(jié)果SQL語句巨人網(wǎng)絡(luò)征途游戲后臺采用GreenPlum作為用戶行為分析手段,比原有系統(tǒng)完整應(yīng)用提高80倍效率,單筆查詢提高120倍主要客戶包括:NASDAQ、FOX、巨人網(wǎng)絡(luò)、阿里巴巴、中信銀行、淘寶等分布式MPP數(shù)據(jù)倉庫代表產(chǎn)品特性比較-19-產(chǎn)品名稱應(yīng)用場景接口方式擴(kuò)展能力X86平臺LinuxGreenplumOLAP/OLTP標(biāo)準(zhǔn)SQL最大支持達(dá)萬個(gè)節(jié)點(diǎn)支持支持TeradataOLAP標(biāo)準(zhǔn)SQL(SQL-92)可達(dá)4096節(jié)點(diǎn),最大數(shù)據(jù)量超過100PB支持支持netezzaOLAP標(biāo)準(zhǔn)SQL1~10臺一體機(jī),可管理PB級數(shù)據(jù)量,新一代產(chǎn)品會更高不支持,僅支持專有一體機(jī)硬件支持infobrightOLAP標(biāo)準(zhǔn)SQL具備較強(qiáng)并行擴(kuò)展能力支持支持ExadataOLAP/OLTP標(biāo)準(zhǔn)SQL支持多機(jī)擴(kuò)展?jié)M足大數(shù)據(jù)量管理需求支持,但性能劣于專有一體機(jī)硬件支持大數(shù)據(jù)方案與應(yīng)用案例Hadoop項(xiàng)目群Hadoop+MPPRDB混搭架構(gòu)信令監(jiān)測系統(tǒng)數(shù)據(jù)存儲架構(gòu)優(yōu)化方案飛信系統(tǒng)好友智能推薦方案BOSS系統(tǒng)WAP話單清洗/轉(zhuǎn)換/匯總/分析-20-Hadoop項(xiàng)目發(fā)展歷程2002年:Nutch項(xiàng)目啟動(dòng),用于互聯(lián)網(wǎng)網(wǎng)頁的抓取和搜索2003年:Google披露GFS,2004則實(shí)現(xiàn)了NutchDistributedFilesytem(NDFS)2004年:GoogleMapReduce發(fā)布,2005年則實(shí)現(xiàn)了NutchMapReduce并移植到NDFS上2006年2月:Hadoop成為一個(gè)獨(dú)立的項(xiàng)目,同時(shí)DougCutting加入Yahoo!2008年1月:Hadoop成為Apache的頂級項(xiàng)目2008年4月:Hadoop集群在Sortbenchmark中獲得第一名(910臺服務(wù)器,排序1TB數(shù)據(jù),209秒)-21-Hadoop起源于DougCutting的ApacheNutch項(xiàng)目,是Apache資助的一個(gè)頂級開源項(xiàng)目,Hadoop不僅僅是一個(gè)產(chǎn)品,更是一套生態(tài)系統(tǒng)Hadoop項(xiàng)目組成Hadoop核心子項(xiàng)目HDFS:是一個(gè)分布式文件系統(tǒng)HBase:是一個(gè)基于HDFS、列存儲數(shù)據(jù)庫,提供海量數(shù)據(jù)存儲能力MapReduce:是一個(gè)編程環(huán)境,提供并行處理框架,用于對HBase和HDFS的訪問Hive:提供類似SQL的查詢語言,通過MapReduce完成計(jì)算,實(shí)現(xiàn)對HBase的訪問-22-;案例:“Hadoop+MPPRDB”混搭架構(gòu)在Hadoop+MPPRDB架構(gòu)中Hadoop負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)或簡單結(jié)構(gòu)數(shù)據(jù)的存儲和處理Hadoop同時(shí)負(fù)責(zé)原始數(shù)據(jù)的抽取、轉(zhuǎn)換、加載和輕度匯總等計(jì)算任務(wù)MPPRDB負(fù)責(zé)深度分析、復(fù)雜查詢以及多變的自助分析應(yīng)用等混搭架構(gòu)的代表廠商有HP的Vertica產(chǎn)品EMC的產(chǎn)品等-23-混搭架構(gòu)對結(jié)構(gòu)化數(shù)據(jù)復(fù)雜處理會更有優(yōu)勢,同時(shí)也能獲得很好的性價(jià)比案例:信令監(jiān)測系統(tǒng)數(shù)據(jù)存儲架構(gòu)優(yōu)化方案世紀(jì)鼎利公司江蘇Mc口信令監(jiān)測系統(tǒng)數(shù)據(jù)存儲架構(gòu)方案-24-采集數(shù)據(jù)存儲原始采集數(shù)據(jù)以二進(jìn)制文件格式存儲,保存7天。存儲軟件為我司自開發(fā)的分布式存儲軟件DataComb。信令解碼處理信令解碼、CDR合成、IF1和IF2等幾個(gè)處理模塊需要高性能計(jì)算,計(jì)算模塊自動(dòng)分配到x86集群中,通過DBus(我司自開發(fā)的數(shù)據(jù)總線)進(jìn)行自動(dòng)負(fù)載均衡CDR數(shù)據(jù)存儲CDR保存60天,存儲于分布式數(shù)據(jù)庫中(hbase,開源的第三方軟件),并通過MDP(我司自開發(fā)的分布式處理軟件)實(shí)現(xiàn)快速查詢。應(yīng)用預(yù)處理通過分布式數(shù)據(jù)挖掘軟件(hive,開源的第三方軟件),對CDR進(jìn)行數(shù)據(jù)挖掘,產(chǎn)生各種KPI和專題應(yīng)用數(shù)據(jù)。應(yīng)用環(huán)境采用關(guān)系型數(shù)據(jù)庫軟件(SybaseIQ,商業(yè)軟件)對KPI和專題數(shù)據(jù)進(jìn)行存儲和高速查詢。通過Web應(yīng)用容器(WebSphere,商業(yè)軟件)發(fā)布B/S應(yīng)用;采用.Net開發(fā)C/S應(yīng)用,主要用于網(wǎng)絡(luò)優(yōu)化中。與傳統(tǒng)信令監(jiān)測數(shù)據(jù)存儲方案相比,核心變化是將數(shù)據(jù)量最大、數(shù)據(jù)結(jié)構(gòu)相對單一的CDR數(shù)據(jù)從傳統(tǒng)數(shù)據(jù)庫遷移到分布式數(shù)據(jù)庫中,從而實(shí)現(xiàn)全部應(yīng)用部署在X86主機(jī)群上案例:中國移動(dòng)飛信系統(tǒng)—業(yè)務(wù)場景-25-中國移動(dòng)飛信系統(tǒng)面臨海量用戶行為數(shù)據(jù)深度挖掘需求,迫切需要新手段好友智能推薦基于用戶行為分析進(jìn)行用戶好友推薦同好友但是彼此不是好友同IP但是彼此不是好友同群組但是彼此不是好友同校但彼此不是好友相互通話但彼此不是好友……?數(shù)據(jù)處理要求需要對存在關(guān)聯(lián)的兩兩用戶數(shù)據(jù)進(jìn)行分析管理,飛信活躍用戶數(shù)已達(dá)到8000萬以上,有關(guān)系的用戶兩兩組合的數(shù)量級至少在10億條以上,且隨著用戶基數(shù)增長而呈指數(shù)級增長,需要海量數(shù)據(jù)處理能力用戶上線后,系統(tǒng)需要快速提取智能推薦建議發(fā)給用戶,需要在海量數(shù)據(jù)中快速查詢檢索數(shù)據(jù)的能力好友圈子有重疊彼此還不是好友案例:中國移動(dòng)飛信系統(tǒng)—技術(shù)方案-26-采用Hadoop平臺進(jìn)行海量數(shù)據(jù)存儲和深度挖掘,取得初步成效飛信用戶行為日志W(wǎng)AP業(yè)務(wù)記錄BOSS話單……MAP/REDUCE分布式計(jì)算智能推薦上層界面基于API/HIVE快速查詢用戶推薦信息好友表:ROWKEY:用戶A,用戶BCOLUMN:二人共有朋友清單,二人彼此推薦指數(shù)和推薦時(shí)所關(guān)聯(lián)朋友的推薦指數(shù)其他表:同IP\同校\相互通話\同群組好友表分為200個(gè)區(qū),被7個(gè)regionserver管理,按照用戶UID分段目前共部署30個(gè)節(jié)點(diǎn),服務(wù)器HPDL385,48G內(nèi)存
、2C16核、各節(jié)點(diǎn)自帶10TB硬盤共300TB,支持橫向擴(kuò)展,后續(xù)將擴(kuò)容到80個(gè)節(jié)點(diǎn)好友表已累計(jì)24.6億條數(shù)據(jù)系統(tǒng)每天處理新增數(shù)據(jù)、每周、月、季度做全量數(shù)據(jù)分析上層應(yīng)用查詢第一次訪問效率0.2s,第二次及以后0.05s以內(nèi)硬件不是一步到位,中間做過一次在線動(dòng)態(tài)擴(kuò)容,方便高效軟件也不是一步到位,邊做邊增加應(yīng)用內(nèi)容,表模式支持動(dòng)態(tài)變化分布式存儲,入庫很快,400MB/s吞吐能力總體擁有成本低,包括硬件、軟件和數(shù)據(jù)庫維護(hù)優(yōu)化服務(wù)應(yīng)用效果大數(shù)據(jù)表案例:BOSS系統(tǒng)WAP話單清洗/轉(zhuǎn)換/匯總/分析-27-硬件環(huán)境:
12節(jié)點(diǎn)集群,1臺主機(jī)作namenode和jobtracker,11臺主機(jī)作datanode和tasktracker采用Hadoop平臺對WAP實(shí)時(shí)話單進(jìn)行清洗轉(zhuǎn)換、匯總和分析數(shù)據(jù)入庫:每天800G日志,45億條記錄,并行入庫時(shí)間1小時(shí)(處理能力200-300MB/s)URL解析:4-6小時(shí)(20萬條/s)網(wǎng)頁抓取(后期穩(wěn)定運(yùn)行階段):時(shí)間待定(100Mb獨(dú)占帶寬,400個(gè)網(wǎng)頁/s)網(wǎng)頁分類:4-6小時(shí)(5萬條/s)URL標(biāo)簽匹配:12-15小時(shí)(8萬條/s)匯總:6臺PCServer,輸入27億G,輸出8億G,用時(shí)20分鐘應(yīng)用效果大數(shù)據(jù)領(lǐng)域“去小型機(jī)化”趨勢明顯大數(shù)據(jù)領(lǐng)域去小型機(jī)化趨勢已十分明顯,“X86+本地硬盤”方案替代“小型機(jī)+盤陣”已經(jīng)相對成熟,在可靠性上毫不遜色,在可擴(kuò)展性、性能和價(jià)格上有絕對優(yōu)勢,網(wǎng)管系統(tǒng)也要積極跟進(jìn)“去小型機(jī)化”趨勢-28-小型機(jī)+盤陣集中存儲,集中計(jì)算,數(shù)據(jù)遠(yuǎn)離計(jì)算,計(jì)算時(shí)需進(jìn)行傳輸數(shù)據(jù),性能較差X86+本地硬盤分散存儲,并行計(jì)算,數(shù)據(jù)靠近計(jì)算,性能好處理性能小型機(jī)+盤陣具有很強(qiáng)的可靠性,是許多關(guān)鍵性業(yè)務(wù)采用此方案的原因X86+本地硬盤大數(shù)據(jù)技術(shù)設(shè)計(jì)之初就將軟硬件故障作為常態(tài)進(jìn)行考慮如Hadoop系統(tǒng)可以容忍單個(gè)磁盤出錯(cuò)以及整機(jī)出錯(cuò)可靠性小型機(jī)+盤陣主要是縱向擴(kuò)展,即提高主機(jī)配置,是有限的X86+本地硬盤橫向擴(kuò)展簡單,成本低可擴(kuò)展性網(wǎng)管數(shù)據(jù)存儲與處理方式遷移建議從數(shù)據(jù)量大小、是否結(jié)構(gòu)化數(shù)據(jù)、事務(wù)性強(qiáng)弱、實(shí)時(shí)性高低、數(shù)據(jù)關(guān)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼鐵貨物買賣合同范例
- 租賃流動(dòng)餐廳合同范例
- 建設(shè)工程委托監(jiān)理合同范例
- 香港工作短期合同范例
- 倉庫重要合同范例
- 服裝清加工合同范例6
- 青海交通職業(yè)技術(shù)學(xué)院《高材化工設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024至2030年中國耳穴診療機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 中國水水供應(yīng)項(xiàng)目投資可行性研究報(bào)告
- 異丙肌苷行業(yè)深度研究報(bào)告
- 2024江蘇省常熟市事業(yè)單位招聘176人歷年高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 代詞課件完整版本
- 2024年江蘇南京大學(xué)事業(yè)編制崗位招聘16人歷年高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 蘇教版四年級上冊科學(xué)實(shí)驗(yàn)全
- 2024年湖南省長沙市中考數(shù)學(xué)試題(含解析)
- 四川省成都市2023-2024學(xué)年七年級上學(xué)期期末數(shù)學(xué)試題(含答案)
- 3.14 絲綢之路的開通與經(jīng)營西域 課件 2024-2025學(xué)年部編版
- 廚房里的危險(xiǎn)課件
- 牛津譯林版(2024新版)七年級上冊英語Unit 8 單元測試卷(含答案)
- 小學(xué)英語詞匯表(滬牛津版)
- 江蘇省2024-2025學(xué)年高一英語下學(xué)期期中大聯(lián)考試題含聽力
評論
0/150
提交評論