




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
一、大數(shù)據(jù)與云計算1.云計算是并行計算、分布式計算和網(wǎng)格計算的發(fā)展。2云計算服務類型:將基礎設施作為服務laas、將平臺作為服務paas、將軟件作為服務saas。3.云計算體系結(jié)構分為四層:物理資源層、資源池層,管理中間件層,SOA(service-oriented-architecture,面向服務的體系結(jié)構)構建層。4.云計算有更低的硬件和網(wǎng)絡成本、更低的管理成本和電力成本,也有更高的資源利用率。5.云計算特點:超大規(guī)模、虛擬化、高可靠性、通用性、高可伸縮性、按需服務、極其廉價二、Google云計算原理和應用Google云計算技術包括:Google文件系統(tǒng)GFS、分布式計算編程模型MapReduce、分布式鎖Chubby、分布式結(jié)構化數(shù)據(jù)表BigTable、分布式存儲系統(tǒng)Megastore、分布式監(jiān)控系統(tǒng)Dapper、海量的交互式分析工具Dremel,以及內(nèi)存大數(shù)據(jù)分析系統(tǒng)powerdrill。2.GFS是一個大型的分布式文件系統(tǒng)GoogleFileSystem3.GFS將文件按照固定大小進行分塊,默認是64MB,每一塊稱為一個chunk,每一個chunk都有一個索引號。4.GFS特點:采用中心服務器模式、不緩存數(shù)據(jù)、在用戶態(tài)下實現(xiàn)、只提供專用接口5.master容錯,Master上保存了GFS文件系統(tǒng)的三種元數(shù)據(jù)NameSpace,文件系統(tǒng)目錄結(jié)構、Chunk與文件名的映射表、Chunk副本的位置信息(默認有三個副本)6.chunkserver容錯:GFS中的每一個文件被劃分成多個Chunk,Chunk的默認大小是64MB,每個Chunk又劃分為若干Block(64KB),每個Block對應一個32bit的校驗和,保證數(shù)據(jù)正確。7.系統(tǒng)管理技術:大規(guī)模集群安裝技術、故障檢測技術、節(jié)點動態(tài)加入技術節(jié)能技術8.mapreduce模型:Map函數(shù)--對一部分原始數(shù)據(jù)進行指定的操作。每個Map操作都針對不同的原始數(shù)據(jù),因此Map與Map之間是互相獨立的,這使得它們可以充分并行化。reduce函數(shù)--操作—對每個Map所產(chǎn)生的一部分中間結(jié)果進行合并操作,每個Reduce所處理的Map中間結(jié)果是互不交叉的,reduce也可以在并行環(huán)境下執(zhí)行。9.MapReduce函數(shù)把輸入文件分成M塊,每塊大概16M~64MB。10.Chubby幾個重要的特性:Chubby不支持內(nèi)部文件的移動;不記錄文件的最后訪問時間;另外在Chubby中并沒有符號連接(SymbolicLink,又叫軟連接,類似于Windows系統(tǒng)中的快捷方式)和硬連接(HardLink,類似于別名)的概念11.用戶打開某個節(jié)點的同時會獲取一個類似于UNIX中文件描述符(FileDescriptor)的句柄,這個句柄由以下三個部分組成:校驗數(shù)位:防止其他用戶創(chuàng)建或猜測這個句柄、序號:確定句柄由當前還是以前的主服務器創(chuàng)建、模式信息:用于新的主服務器重新創(chuàng)建一個舊句柄。補充:Bigtable是Google開發(fā)的基于GFS和Chubby的分布式存儲系統(tǒng)。12.分布式結(jié)構化數(shù)據(jù)表Bigtable設計動機與目標:需要存儲的數(shù)據(jù)種類繁多、海量的服務請求、商用數(shù)據(jù)庫無法滿足Google的需求。13.Bigtable選用了Google自己開發(fā)的分布式鎖服務Chubby14.Google應用程序引擎:GoogleAppEngine為每個應用程序提供了一個安全運行環(huán)境,該沙盒可以保證每個應用程序能夠安全的隔離運行。第五章、hadoop2.01.2002年開源組織Apache成立開源搜索引擎項目Nutch,2004年Google三大論文,Apache實現(xiàn)了Nutch版的NDFS和MapReduce2006年NDFS和MapReduce移出Nutch,形成獨立項目,稱為Hadoop。2.hadoop分布式文件系統(tǒng)HDFS可以部署在廉價的硬件上,能夠高容錯、可靠的存儲海量數(shù)據(jù)(可以達到TB甚至PB級)。它還可以和Yarn中的mapreduce編程模型很好的結(jié)合,為應用程序提供高吞吐量的數(shù)據(jù)訪問,適用于大數(shù)據(jù)應用程序。3.HDFS架構:4.HDFS內(nèi)部特性:冗余備份、副本存放副本選擇HDFS會盡量使用離程序最近的副本來滿足用戶請求,這樣可以減少總帶寬消耗和讀延時。如果在讀取程序的同一個機架上有一個副本,那么就使用這個副本;如果HDFS機群跨了多個數(shù)據(jù)中心,那么讀取程序?qū)?yōu)先考慮本地數(shù)據(jù)中心的副本。HDFS的架構支持數(shù)據(jù)均衡策略。如果某個DataNode的剩余磁盤空間下降到一定程度,按照均衡策略,系統(tǒng)會自動把數(shù)據(jù)從這個DataNode移動到其他節(jié)點。當對某個文件有很高需求時,系統(tǒng)可能會啟動一個計劃創(chuàng)建該文件的新副本,并重新平衡集群中的其他數(shù)據(jù)。4心跳檢測5數(shù)據(jù)完整性檢測6元數(shù)據(jù)磁盤失效7簡單一致性模型、流式數(shù)據(jù)訪問客戶端緩存客戶端創(chuàng)建文件的請求不是立即到達NameNode,HDFS客戶端先把數(shù)據(jù)緩存到本地的一個臨時文件,程序的寫操作透明地重定向到這個臨時文件。當這個臨時文件累積的數(shù)據(jù)超過一個塊的大?。?28MB)時,客戶端才會聯(lián)系NameNode。NameNode在文件系統(tǒng)中插入文件名,給它分配一個數(shù)據(jù)塊,這樣客戶端就把數(shù)據(jù)從本地的緩存刷新到指定的數(shù)據(jù)塊中。當文件關閉后,臨時文件中剩余的未刷新數(shù)據(jù)也會被傳輸?shù)紻ataNode中,然后客戶端告訴NameNode文件已關閉,此時NameNode才將文件創(chuàng)建操作寫入日志進行存儲。如果NameNode在文件關閉之前死機,那么文件將會丟失。如果不采用客戶端緩存,網(wǎng)絡速度和擁塞都會對輸出產(chǎn)生很大的影響。流水線復制1)改進樹型結(jié)構:為了解決傳統(tǒng)數(shù)據(jù)中心樹結(jié)構上層交換網(wǎng)路存在的單點失效和瓶頸問題,Alfares等人將fattree引入數(shù)據(jù)中心網(wǎng)絡,fattree仍然采用三層級聯(lián)的交換機拓撲結(jié)構為服務器之間的通信提供無阻塞網(wǎng)路交換(核心-匯聚-接入)2)遞歸層次結(jié)構:Dcell、FiConn、Bcube3.軟件定義網(wǎng)絡SDN是一種新型的網(wǎng)絡技術,它將網(wǎng)絡的控制平面與數(shù)據(jù)轉(zhuǎn)發(fā)平面進行分離。SDN架構主要分為基礎設施層、控制層和應用層。4.云計算節(jié)能技術1)DVFS節(jié)能技術:控制cpu能耗的技術,當cpu未被完全利用時,通過降低cpu的供電電壓和時鐘頻率主動降低cpu性能,這樣可以帶來數(shù)量級的動態(tài)能耗降低。2)基于虛擬化的節(jié)能技術3)基于主機關閉/開啟的節(jié)能技術:隨機式策略、超時式策略和預測式策略。MapReduce編程實例WordCountpublicclassWordCount{publicstaticclassTokenizerMapperextendsMapper<Object,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{StringTokenizeritr=newStringTokenizer(value.toString());while(itr.hasMoreTokens()){word.set(itr.nextToken());context.write(word,one);}}}publicstaticclassIntSumReducer
extendsReducer<Text,IntWritable,Text,IntWritable>{privateIntWritableresult=newIntWritable();publicvoidreduce(Textkey,Iterable<IntWritable>values,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=val.get();}result.set(sum);context.write(key,result);}}publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();String[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();if(otherArgs.length!=2){System.err.println("Usage:wordcount<in><out>");System.exit(2);}Jobjob=newJob(conf,"wordcount");job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job,newPath(otherArgs[0]));FileOutputFormat.setOutputPath(job,newPath(otherArgs[1]));System.exit(job.waitForCompletion(true)?0:1);}}Mapreduce編程實例--矩陣相乘matrixInputFormat:publicclassmatrixInputFormatextendsInputFormat<Intpair,intPair>{publicmatrix[]m=newmatrix[2];//新建兩個實例publicList<InputSplit>getSplits(JobContextcontext)throwsIOExceptioninterruptionException{intNumOfFiles=readFile(context)for(intn=0;n<row;n++){row為行數(shù)for(intm=0;m〈col;m++){colmatrixInputSplitsplit=newmatrixInputSplit(n,this.m[0],m,this.m[1]);split.add(split);}}returnsplits}MatrixMultipublicclassmatrixMulti{publicstaticclassMatrixMapperextendsMapper<IntPair,IntPair,IntPair,IntWritable>{publicvoidmap(IntPairkey,IntPairvalue,Contextcontext)throwsIOException,InterruptionException{
intleft=value.getLeft();intright=value.getRight();intWritableresult=newIntWritable(left*right)context.write(key,result);}}publicstaticclassFirstPartitionerextendsPartitioner<IntPair,IntWritable>{intabs=Math.abs(key,getLeft())%numPartition;returnabs;}}publicstaticclassMatrixReducerextendsReducer<IntPair,IntWritable,IntPair,IntW
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 長沙環(huán)境保護職業(yè)技術學院《家居空間設計》2023-2024學年第二學期期末試卷
- 四川電影電視學院《小學班主任工作藝術》2023-2024學年第二學期期末試卷
- 信陽師范大學《口腔醫(yī)學前沿進展》2023-2024學年第一學期期末試卷
- 機車車輛涂裝工藝與材料考核試卷
- 玻璃物理性能模擬與預測考核試卷
- 焊接工藝在金屬回收利用中的應用考核試卷
- 氮肥產(chǎn)業(yè)的技術創(chuàng)新與產(chǎn)業(yè)競爭力考核試卷
- 高溫線路施工方案
- 電力儀表的智能電網(wǎng)效益分析報告研究考核試卷
- 海洋能源標準化考核試卷
- 債權法學習通超星期末考試答案章節(jié)答案2024年
- 安全生產(chǎn)標準化基本規(guī)范評分表
- 《Linux網(wǎng)絡操作系統(tǒng)實用教程(CentOS8)第2版》全套教學課件
- 2015年919公務員聯(lián)考《申論》政法干警河北卷及參考答案
- 幼兒園中班語言散文欣賞《芽》課件
- 汽輪發(fā)電機組軸系扭振在線監(jiān)測、分析與保護系統(tǒng)研究
- 期中測試卷(1-4單元)(試題)-2023-2024學年六年級下冊數(shù)學蘇教版
- 醫(yī)務人員不良執(zhí)業(yè)行為記分管理制度
- 高中數(shù)學奧賽輔導教材(共十講)
- 蘇科版八年級數(shù)學下冊??键c微專題提分精練難點特訓(四)選填壓軸50道(原卷版+解析)
- 《競爭對手的分析》課件
評論
0/150
提交評論