版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據時代的數據庫11云計算概念提出2Hadoop的發(fā)展歷史3Hadoop的核心技術MapReduce4Hadoop核心技術數據庫Hbase5其它NoSQL數據庫23大數據特性4V特性Volume(數據量大)Variety(種類多)Value(價值密度低,商業(yè)價值高Velocity(處理速度快)對傳統(tǒng)數據庫的挑戰(zhàn)4用一個實例來理解云計算512345開發(fā)人員部署代碼,上傳數據庫結構和數據,并進行必要的測試,之后運維人員開通網站運行期間,企業(yè)需要雇傭專門人員負責服務器和網絡的維護,定期備份數據等日常工作購買數據庫服務器來部署后臺數據庫配置網站的域名等工作購買應用服務器來部署這個網站云計算所需解決的問題
——假設某家企業(yè)開發(fā)一個旅游網站數據量6云計算所需解決的問題
——假設某家企業(yè)開發(fā)一個旅游網站企業(yè)需要待解決的問題1、購買新的服務器2、增加更多的運維成員3、購買和安裝設備都是需要時間的,可能在此期間整個網站出現響應減慢,經常出錯、導致大量的客戶流失4、淡季的時候,訪問量低,剛購買的服務器又成為資源的浪費成本效益怎樣解決這個問題呢?7云計算所需解決的問題
——假設某家企業(yè)開發(fā)一個旅游網站
引入云計算,它可以從根本上解決這個問題,因為云計算是通過互聯網將共享的硬件軟件資源按需提供給使用者,所有的設備都是由云計算服務商維護,這樣無論是專業(yè)的軟件開發(fā)商,還是最終的客服,都可以將全部精力集中于業(yè)務領域,而無須考慮硬件維護、容災等運維問題,無形之中也為企業(yè)節(jié)省了成本、提高了經濟效益…………8何為云計算?(理解1)
云計算,其實就是把所有的計算應用和信息資源都用互聯網連接起來,供個人和企業(yè)用戶隨時訪問、分享、管理和使用,相關的資源可以通過全球任何一個服務器和數據中心來提取的技術。9何為云計算?(理解2)
是通過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再由多部服務器所組成的龐大系統(tǒng)搜索、計算分析之后將處理結果回傳給用戶。通過這項技術,遠程的服務供應商可以在數秒之內,達成處理數以千萬計甚至億計的信息,達到和“超級電腦”同樣強大性能的網絡服務。10網絡計算發(fā)展展趨勢2012云格(Gloud=Grid+Cloud)1995集群計算原理:指令層次的并行1998網格計算原理:任務并行1999對等計算原理:數據并行2007云計算原理:位層次的并行(可處理長字節(jié))網格技術:主主要解決分布布在不同機構構的各種信息息資源的共享享問題云計算:主要要解決計算力力和存儲空間間的集中共享享使用問題。。11為什么云計算算如此流行特別是NoSQL---非關系型數據據庫12那么云計算數數據庫是怎樣樣提出的呢??數據量1、關系數據庫庫高并發(fā)讀寫速速度慢2、關系數據庫庫支撐容量有限限------類似Facebook、Twitter這樣的SNS網站,用戶每天產生生海量的用戶戶動態(tài),每月月會產生幾億條條用戶動態(tài),,對于關系型型數據庫庫來說說,在在一張數數億條條記錄錄的表表里面進進行SQL查詢,,效率率是極極其低低下乃至不不可忍忍受的的。3、關系系數據據庫擴展性性差4、數據日日趨龐龐大,無論論是入入庫和和查詢詢,都出現現性能能瓶頸頸5、用戶戶的應應用和和分析析結果果呈整整合趨趨勢,,對實時性性和響響應時時間要要求越越來越越高Nosql13關系數數據庫庫與Hadoop分布式式系統(tǒng)統(tǒng)的比較—————為何云云計算算數據據采用用Hadoop分布式式系統(tǒng)統(tǒng)14云計算算的核心技技術15云計算算提出出——hadoop思想用很多多小型型PC機來代代替大大型服服務器器16云計算算核心心技術術——hadoop子項目目家族族數據倉倉庫工工具,,可以以看成成是從從SQL到Map-Reduce的映射射器ZooKeeper用于協(xié)協(xié)調分分布Avro數據序序列化化工具具,用于支支持大大批量量數據據交換換的應應用。。支持持二進進制序序列化化方式式,可可以便便捷,,快速速地處處理大大量數數據Chukwa在Hadoop之上的的數據據采集集與分分析框框架、、主主要進進行日日志采采集和和分析析Pig可以看17云計算算核心心技術術——英特爾爾hadoop發(fā)行版版組件件SQL-to-HDFS工具,利用用jdbc連接關關系形形數據據庫如連接接Oracle要安裝裝:ojdbc6.jar如連接接My-Sql要安裝裝:mysql-connector18云計算算核心心技術術——hadoop的發(fā)展展歷史史2004年,Google發(fā)表論論文,,向全世界界介紹紹了MapReduce。2005年初,,為了了支持持Nutch搜索引引擎項項目,,Nutch
2006年1月,DougCutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發(fā)展成一個可在網絡上運行的系統(tǒng)。2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理。2007年,中國移動開始在“大云”研究中使用Hadoop技術,規(guī)模超過1000臺。2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯,并將其用于處理電子商務相關數據。云梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業(yè),掃描500TB數據。
19云計算算核心心技術術——hadoop的發(fā)展展歷史史2008年7月,Hadoop打破1TB數據排序序基準測試試記錄。。Yahoo!的一個Hadoop集群用209秒完成1TB數據的排排序,比比上一年年的紀錄錄保持者者保持的的297秒快了將將近90秒。2009年5月,Yahoo的團隊使使用Hadoop對1TB的數據進進行排序序只花了62秒時間。2010年5月,IBM提供了基基于Hadoop的大數據據分析軟軟件——InfoSphereBigInsights,包括基基礎版和和企業(yè)版版。2011年8月,Cloudera公布了一項有有益于合合作伙伴伴生態(tài)系系統(tǒng)的計計劃——創(chuàng)建一個個生態(tài)系統(tǒng)統(tǒng),以便硬硬件供應應商、軟軟件供應應商以及及系統(tǒng)集集成商可可以一起起探索如如何使用用Hadoop更好的洞洞察數據據。2011年8月,Dell與Cloudera聯合推出出Hadoop解決方案案——ClouderaEnterprise。20Hadoop框架云計算核核心技術術1、管理文文件系統(tǒng)統(tǒng)的命名名空間記錄每個個文件數數據塊在在各個Datanode上的位置置和副本本信息2、協(xié)調客客戶端對對文件的的訪問3、記錄命命名空間間內的改改動或空空間本身身屬性的的改動4、Namenode使用事務務日志記記錄HDFS元數據的的變化。。使用映映像文件件存儲文文件系統(tǒng)統(tǒng)的命名名空間,,包括文文件映射射,文件件屬性等等1、負責所所在物理理節(jié)點的的存儲管管理2、一次寫寫入,多多次讀取取3、文件由由數據塊塊組成,,典型的的塊大小小是64MB4、數據塊塊盡量散散布道各各個節(jié)點點21——分布式文文件系統(tǒng)統(tǒng)(HDFS)/MapReduce原理云計算核核心技術術MAPReduce22云計算核核心技術術——MapReduce編程模型型23Example:CountingWordsMap()?Input<filename,filetext>Parsesfileandemits<word,count>pairseg.<”hello”,1>Reduce()?Sumsvaluesforthesamekeyandemits<word,TotalCount>eg.<”hello”,(3527)>=><””hello””,17>24云計算核核心技術術——Hbase數據庫的的基本概概念1、HBase是一個分布式的、面向列的的開源數數據庫,來自Google論文“Bigtable:一個結構化數數據的分分布式存存儲系統(tǒng)統(tǒng)”2、HBase不同于一一般的關關系數據據庫,它是一個個適合于于非結構化化數據存存儲的數數據庫.另一個不不同的是是HBase基于列的而不是是基于行行的模式式25——Hbase邏輯模型云計算核核心技術術1、以表的的形式存存放數據據2、表由行行與列組組成,每每個列屬屬于某個個列族,,由行和和列確定定的存儲儲單元稱稱為元素素3、每個元元素保存存了同一一份數據據的多個個版本,,由時間戳來標識區(qū)區(qū)分限定符,,列名Key值天生面向向時間查查詢的數數據庫26——Hbase物理模型型云計算核核心技術術Hmaster管理元數數據(表表分區(qū)、、管理該該分區(qū)的的RegionServer)RegionSer通過過client讀寫寫數數據據Hbase的所所有有數數據據((Hlog和Hfile)均均存存儲儲到到HDFS上災難難分分析析一個個列列簇簇27云計計算算核核心心技技術術———行式式數數據據庫庫與與列列式式數數據據庫庫理理解解281、對對應應每每次次數據據操操作作的的時時間間,可可由由系統(tǒng)統(tǒng)自自動動生生成成,也也可可以以由由用用戶戶顯式式的的賦賦值值2、Hbase支持持兩兩種種數數據據版版本本回回收收方方式式::A、每個個數數據據單單元元,,只只存存儲儲指指定定個個數數的的最新新版版本本B、保存存指定定時時間間長長度度的版版本本((例例如如7天))3、常常見見的的客客戶戶端端時時間間查查詢詢::““某個個時時刻刻起起的的最最新新數數據據”或或““給我我全全部部版版本本的的數數據據”。。云計計算算核核心心技技術術———Hba29云計計算算核核心心技技術術———Hba1、Hbase適合合大量量插插入入同時時又又有讀讀取取的情情況況2、Hbase的瓶頸頸是硬盤盤傳傳輸輸速速度度3、Oracle的瓶頸頸是硬盤盤尋尋道道時時間間4、Hbase很適合合尋尋找找按按照照時時間間排排序序topn的場場景景30云計計算算核核心心技技術術———Hbase場景景案案列列::瀏瀏覽覽歷歷史史31云計計算算的的核心心技技術術在現現實實應應用用注意意::下下面面實實例例大大部部分分摘摘錄錄于于2012年hadoop與大大數數據據技技術術大大會會該會會議議舉舉行行時間間::2012年11月30日-12月1日在在北北京京該會會議議權權威威級級別別::32------應用用之之一一HadoopinTelecom云計計算算核核心心技技術術載波波的的優(yōu)優(yōu)化化用戶戶的的分分割割瞬間間查查詢詢3G用戶戶數數量量的的記記錄錄33云計計算算核核心心技技術術------應用用之之二二HadoopinSmartCity罰單單信息息流流處處理理34云計計算算核核心心技技術術------應用用之之三三阿里里云云““云云梯梯””集集群群發(fā)發(fā)展展淘寶寶的的搜搜索索引引擎擎能能夠夠對對數十十億億的商商品品數數據據進進行行實時時搜搜索索,另另外外還還擁擁有有自自主主研研發(fā)發(fā)的的文件件存存儲儲系系統(tǒng)統(tǒng)和緩緩存存系系統(tǒng)統(tǒng),以以及及Java中間間件件和和消消息息中中間間件件系系統(tǒng)統(tǒng),,這這一一切切組組成成了了一個個龐龐大大的的電電子子商商務務操操作作系系統(tǒng)統(tǒng)。35云計計算算核核心心技技術術------應用用之之三三阿里里云云““云云梯梯””數數據據平平臺臺框框架架36云計計算算核核心心技技術術------應用用之之三三百度度數數據據倉倉庫庫框框架架DW37云計計算算核核心心技技術術HADOOP------數據據存存入入和和抽抽取取每小小時時移移動動數數十十TB的交易易數數據、、交交互互數數據據和和流流數數據據38全球球領領先先的的獨獨立立企企業(yè)業(yè)數數據據集集成成軟軟件件提提供供商商云計計算算核核心心技技術術----應用用五五大數數據據是是云云計計算算的的兩兩大大核核心心內內容容之之一一39云計計算算核核心心技技術術全世界權威IT咨詢公司研究究報告預測KB,MB,GB、TB,PB、EB、ZB、YB、BB1ZB=1.153*1018KB40一、大數據存儲管理和索引查詢問題二、Hadoop性能優(yōu)化問題三、圖數據并并行計算模型型和框架四、并行化機器學習和數據挖掘算法五、社會網絡分析六、排名和推推薦七、Web信息挖掘和檢索八、媒體分析析檢索九、自然語言處理理十、大數據可視化計算與分析云計算核心技技術當今數據熱點研究的十個問題::----數據分析發(fā)展展趨勢系統(tǒng)層基礎算法應用算法應用技術41Hadoop----發(fā)展形勢hadoop42BerkeleyBDAS平臺43NoSQL數據庫基礎理論CAP理論與一致性性模型數據存儲模型型與數據庫Key-valueDBColumn-orientedDBDocument-orientedDBGraphDB…44CAP理論強一致性(Consistency)系統(tǒng)在執(zhí)行某某操作后仍處處于一致的狀狀態(tài)??捎眯裕ˋvailability)每一個操作能夠在在一定時間內內返回結果,,如果超時則則被認為不可可用。分區(qū)容錯性((Partitiontolerance)在網絡分區(qū)((被劃分成孤孤立的區(qū)域))的情況下仍仍可接受請求求。45/101多副本數據一一致性模型強一致性無論更新在哪哪個副本上進進行,之后的的所有操作都都能獲得更新新的數據。弱一致性用戶讀到某一一操作對系統(tǒng)統(tǒng)的更新需要要一段時間最終一致性保證用戶最終終能夠讀到某一操作作對系統(tǒng)的更更新46/10147應用場景:內容緩存,,主要用于處處理大量數據據的高訪問負負載,也用于于一些日志系系統(tǒng)。優(yōu)點:查找迅迅速缺點:數據無無結構,通常常只被當做字字符串或二進進制數據48Java實現的開源key-value數據庫特征數據自動冗余余備份于多個個結點上數據分區(qū)存儲儲單點故障對整整個系統(tǒng)透明明支持復雜數據據類型的序列列化將數據項進行行版本化,出出現故障時最最大限度保證證數據的完整整性49開源項目,源源代碼采用了了Apache2.0的使用許可特征自動將在線數數據遷移到低低延遲的存儲儲介質的技術術(內存,固固態(tài)硬盤,磁磁盤)可選的寫操作作一一異步,,同步(基于于復制,持久久化)多線程低鎖爭爭用盡可能使用異異步處理自動實現重復復數據刪除動態(tài)再平衡現現有集群通過把數據復復制到多個集集群單元和支支持快速失敗敗轉移來提供供系統(tǒng)的高可可用性。5051應用場景:分布式文件件系統(tǒng)優(yōu)點:查找迅迅速,可擴展展性強,更容容易進行分布布式擴展缺點:功能相相對有限525354最初由Facebook開發(fā),用于儲儲存收件箱等等簡單格式數數據,集GoogleBigTable的數據模型與與AmazonDynamo的完全分布式式的架構于一身Facebook于2008將Cassandra開源,此后,,由于Cassandra良好的可擴放放性,被Digg、Twitter等知名Web2.0網站所采納,,成為了一種種流行的分布布式結構化數數據存儲方案案。主要特征:模式靈活:使用Cassandra,像文檔存儲儲,你不必提提前解決記錄錄中的字段。。真正的可擴展展性:Cassandra是純粹意義上上的水平擴展展。為給集群群添加更多容容量,可以指指向另一臺電電腦。你不必必重啟任何進進程,改變應應用查詢,或或手動遷移任任何數據。分布式寫操作作:有可以在任何何地方任何時時間集中讀或或寫任何數據據。并且不會會有任何單點點失敗。列表數據結構構:在混合模式可可以將超級列列添加到5維。對于每個個用戶的索引引,這是非常常方便的。55應用場景:web應用等優(yōu)點:數據要要求不嚴格,,不需要預先先定義結構缺點:查詢能能力不高,缺缺乏統(tǒng)一的查查詢語法56可以通過JavaScriptObjectNotation(JSON)API訪問“Couch”=“ClusterOfUnreliableCommodityHardware””,目標具有高高度可伸縮性性,提供了高高可用性和高高可靠性,即即使運行在容容易出現故障障的硬件上也也是如此特點CouchDB是分布式的數數據庫,他可可以把存儲系系統(tǒng)分布到n臺物理的節(jié)點點上面,并且且很好的協(xié)調調和同步節(jié)點點之間的數據據讀寫一致性CouchDB是面向文檔的的數據庫,存存儲半結構化化的數據CouchDB支持RESTAPI,可以讓用戶戶使用JavaScript來操作CouchDB數據庫,也可可以用JavaScript編寫查詢語句句,用AJAX技術結合CouchDB開發(fā)出來的CMS系統(tǒng)會簡單方便57工作原理CouchDB構建在強大的的B+樹儲存引擎之上上。這種引擎擎負責對CouchDB中的數據進行行排序,并提提供一種能夠夠在對數均攤攤時間內執(zhí)行行搜索、插入入和刪除操作作的機制。數據庫的結構構獨立于模式式,依賴于使用視視圖創(chuàng)建文檔檔之間的任意意關系,使用Map/Reduce計算這些視圖圖的結果在CouchDB中沒有鎖機制制,它使用的的是多版本并并發(fā)性控制((Multiversionconcurrencycontrol,MVCC)58特點介于關系數據庫和非關系數據據庫之間的產產品,是非關關系數據庫當當中功能最豐豐富,最像關關系數據庫的的支持的數據結結構非常松散散,是類似json的bson格式,因此可可以存儲比較較復雜的數據據類型支持的查詢語語言非常強大大,其語法有有點類似于面面向對象的查查詢語言,幾幾乎可以實現現類似關系數數據庫單表查查詢的絕大部部分功能,而而且還支持對對數據建立索索引59技術特點面向集合存儲,易易存儲對象類類型的數據。。模式自由。支持動態(tài)查詢。支持完全索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《瑞典學派經濟理論》課件
- 2024年度城市道路土石方工程承包合同范本2篇
- 2024年版?zhèn)€人承包家具購買合同
- 2024年度農業(yè)養(yǎng)殖場獸醫(yī)人員聘用合同3篇
- 2025私企勞動合同協(xié)議書范本
- 2024年國際能源供應協(xié)議3篇
- 2024年標準版買賣合同書樣本版
- 2024實木地板綠色環(huán)保認證及全國市場推廣合同2篇
- 2024年城市基礎設施建設融資擔保合同范本3篇
- 2024太陽能熱水器維保服務與客戶滿意度提升協(xié)議3篇
- 讀了蕭平實導師的《念佛三昧修學次第》才知道原來念佛門中有微妙法
- 周邊傳動濃縮刮泥機檢驗報告(ZBG型)(完整版)
- 紙箱理論抗壓強度、邊壓強度、耐破強度的計算
- 土地增值稅清算審核指南
- 死亡通知書模板
- 鷸蚌相爭課件
- PMC(計劃物控)面試經典筆試試卷及答案
- 失業(yè)保險金申領表_11979
- 《質量管理體系文件》風險和機遇評估分析表
- 食品安全約談通知書
- 舒爾特方格A4直接打印版
評論
0/150
提交評論