版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章云計算與大數(shù)據(jù)基礎1.在信息產業(yè)的發(fā)展歷程中。硬件驅動力,網(wǎng)絡驅動力,作為兩個重要的內在動力在不同的時期起著重要的作用25西摩克雷超級計算機之父約翰麥克錫云計算之父蒂姆伯納斯李萬維網(wǎng)發(fā)明人 A個網(wǎng)頁開發(fā)者吉姆格雷大數(shù)據(jù)之父6. MapReduce思想來源LISP語言7.按照資源封裝層次,云計算分為Iaas paas saas 三種8.教材 P2 1.1.210 .教材 P8 1.2.211 .教材 P10 1.2.3第二章云計算與大數(shù)據(jù)相關技術1.一致性hash算法原理:哈希算法是一種從稀疏值到緊密值范圍的映射方法,在存儲和計算定位時可以被看做 是一種路由算法。通過這種路與哦算法文件塊能
2、被唯一的定位到一個節(jié)點的位置。傳統(tǒng)的 hash算法容錯性和擴展性都不好,無法有效的適應面向數(shù)據(jù)系統(tǒng)節(jié)點的動態(tài)變化。意思就 是當集群需要增加節(jié)點,傳統(tǒng)的hash算法不容易檢測到新增加的節(jié)點,此為擴展性不好,而一致性hash算法增加一個節(jié)點只會影響增加的這個節(jié)點到前一個節(jié)點之間的數(shù)據(jù)。容錯 性就是如果不幸一個機器C宕機了,那么機器B和C之間的數(shù)據(jù)都會被 D執(zhí)行,那么受影響的數(shù)據(jù)只是機器 B和C之間的數(shù)據(jù)。當然,容錯性和擴展性對于節(jié)點數(shù)較多的集群是比較 有意義的,對于節(jié)點較少的集群似乎這兩個特性并沒有什么誘惑力。一致性hash的實際目的就是解決節(jié)點頻繁變化時的任務分配問題,一致性 hash將整 個h
3、ash值空間組織成一個虛擬圓環(huán),我們這里假設某hash函數(shù)H值空間為0(2人32-1),即32位無符號整形。下面簡述一下一致性hash的原理:這是一致性hash的整個值空間0(2A32-1)下一步將各個服務器使用 Hash進行一個哈希,具體可以選擇服務器的ip或主機名作為關鍵字進行哈希,這樣每臺機器就能確定其在哈希環(huán)上的位置,假設使用四臺機器進行hash :Nudta AHash()Nodb D忖口曲RHash() Ha&IX )Hash()Mu 但 C |將數(shù)據(jù)key使用相同的函數(shù) Hash計算出哈希值,并確定此數(shù)據(jù)在環(huán)上的位置,從此位置沿環(huán)順時針“行走”,第一臺遇到的服務器就是其應
4、該定位到的服務器。例如我們有 Object A、Object B、Object C、Object D 四個數(shù)據(jù)對象,經(jīng)過哈希計算后,在環(huán)空間上的位置如下:Node AHash()Hash( ) |It VHaBftQHash) IHash()NorlF C根據(jù)一致性哈希算法,數(shù)據(jù)A會被定為到 Node A上,B被定為到 Node B上,C被定為至ij Node C上,D被定為至ij Node D上卜面我們看看當集群機器比較少的情況例如系統(tǒng)中只有兩臺服務器,其環(huán)分布如下,Node AHash()Tjode b此時必然造成大量數(shù)據(jù)集中到Node A上,而只有極少量會定位到Node B上。為了解決這
5、種數(shù)據(jù)傾斜問題,一致性哈希算法引入了虛擬節(jié)點機制,即對每一個服務節(jié)點計算多個哈希,每個計算結果位置都放置一個此服務節(jié)點,稱為虛擬節(jié)點。具體做法可以在服務器ip或主機名的后面增加編號來實現(xiàn)。例如上面的情況,可以為每臺服務器計算三個虛擬節(jié)點,于是可以分別計算“Node A#1"、“Node A#2'、"Node A#3、"Node B#1"、"Node B#2'、"Node B#3'的哈希值,于是形成六個虛擬節(jié)點:Node AftlHash( )1Hash()Hash。Hash()Node B#2Node A訂2H
6、ash(J|Node 23同時數(shù)據(jù)定位算法不變,只是多了一步虛擬節(jié)點到實際節(jié)點的映射,例如定位到“NodeA#1"、“Node A#2'、"Node A#3'三個虛擬節(jié)點的數(shù)據(jù)均定位到Node A上。這樣就解決了服務節(jié)點少時數(shù)據(jù)傾斜的問題。在實際應用中,通常將虛擬節(jié)點數(shù)設置為 大,因此即使很少的服務節(jié)點也能做到相對均勻的數(shù)據(jù)分布。32甚至更2 .科學研究的四個范式:觀測實驗、理論、計算仿真、數(shù)據(jù)3 .物聯(lián)網(wǎng)產業(yè)鏈分為:標識,感知,處理,信息傳送4 .非關系型數(shù)據(jù)庫分為: Column-Oriented面向檢索的列式存儲,其存儲結構為列式結構如:Google
7、的 big tableapache 的 hbase(2) Key-Value面向高性能的并發(fā)讀/寫的緩存存儲,結構類似于 Hash表(hash算法真的要好好學,用的地方太多了,性能的確也是最高的),每個key分別對應一個value ,這種數(shù)據(jù)庫適合用來作為緩存系統(tǒng)使用,比如:MemcacheDB Berkeley DB ,redisflare(3) Document-Oriented面向海量數(shù)據(jù)訪問的文檔存儲,這類存儲類似key-value形式,只是value主要以JSON或者XML等格式進行存儲,比如 :mongoDB,CouchDB第三章虛擬化技術1 .Popek和Goldberg指出:虛
8、擬機具有同一性,高效性,可控性2 .虛擬化技術從計算機體系結構層次上可分為以下5類:指令集架構級虛擬化,硬件抽象層虛擬化,操作系統(tǒng)層虛擬化,編程語言上的虛擬化,庫函數(shù)虛擬化3 .常用的虛擬化軟件系統(tǒng)有VirtualBox , VMware Workstation , KVM4 .系統(tǒng)虛擬化具有 硬件無關性,隔離性,多實例,特權功能等優(yōu)點。5 .系統(tǒng)虛擬化可分為服務器虛擬化桌面虛擬化網(wǎng)絡虛擬化6 .服務器虛擬化按照虛擬化的部分可分為CPU虛擬化,內存虛擬化,I/O虛擬化7 .什么是廣義虛擬化技術:答:虛擬化技術是一種邏輯簡化技術,實現(xiàn)物理層向邏輯層的變化,對物理層運動復雜性的屏蔽,是系統(tǒng)對外運動
9、呈現(xiàn)出簡單的邏輯運行狀態(tài)8虛擬化技術有哪些優(yōu)勢劣勢?優(yōu)勢:1.虛擬化技術可提高資源利用率8 .提供相互隔離,高效的應用執(zhí)行環(huán)境9 .虛擬化可以簡化資源和資源管理10 虛擬化實現(xiàn)軟件和硬件的分離劣勢1.可能會使物理計算機負載過重11 升級和維護引起的安全問題12 物理計算機的影響第四章集群系統(tǒng)基礎1 .云計算領域存在兩個主要技術路線,一個是基于集群技術的云計算資源整合技術,一個是基于虛擬機的云計算資源切分技術2 .集群的設計要考慮 5個關鍵的問題是可用性單一系統(tǒng)映像作業(yè)管理并行文件系統(tǒng)高 效通信3 .傳統(tǒng)的集群系統(tǒng)可以分為高可用性系統(tǒng)負載均衡高性能虛擬化4類。4簡述Beowulf系統(tǒng)的主要特點答
10、:1 Beowulf系統(tǒng)通常由一個管理節(jié)點和多個計算節(jié)點構成2 Beowulf系統(tǒng)通常用最常見的硬件設備組成3 Beowulf系統(tǒng)同城采用哪些廉價且廣為傳播的軟件5 Lustre 存儲系統(tǒng)的組成有 MDS, MDT, OSS, OST, Client6 .簡述面向計算分布式系統(tǒng),混合分布式系統(tǒng),面向數(shù)據(jù)的分布式系統(tǒng)的實現(xiàn)機制, 分析三 種系統(tǒng)的區(qū)別.面向計算分布式系統(tǒng):P59 4.6.1混合型分布式系統(tǒng):P60 4.6.2面向數(shù)據(jù)的分布式系統(tǒng):P61 4.6.3分析區(qū)別:P64表4.2 3中分布式系統(tǒng)的對比第五章MPI-面向計算的高性能集群技術1,什么是MPIMPI( Message Pass
11、ing Interface )消息傳遞接口。它本身不是一個具體的實現(xiàn),而只是一 種標準描述。2, MPI支持FORTRAN77、C、Fortran90 、C+等語言的調用,能滿足大多數(shù)科學計算的應用需要。3,簡述MPICH行環(huán)境建立的主要步驟。(1) .配置好NFS服務,實現(xiàn)所有節(jié)點對主節(jié)點指定文件夾的共享,該文件夾為MPICH的安裝位置,數(shù)據(jù)和程序的存儲位置,這樣就可以避免在每個節(jié)點安裝MPICH啟動計算時也可以避免每次向各個節(jié)點分發(fā)程序。(2) .配置好各個節(jié)點間的互信,這一步就是實現(xiàn)集群內部個節(jié)點間無密碼訪問,因為MPICH在計算時需要在各節(jié)點進行數(shù)據(jù)交換,集群內的節(jié)點應用相互信任的節(jié)點
12、。(3) .編譯安裝配置 MPICH(4) 手配置 MPI節(jié)點間的ssh無密碼訪問。(1)生成私鑰id_dsa和公鑰id_dsa.pub(2)將該密鑰用作認證,進行訪問授權。(3)將-/.ssh目錄下的文件復制到所有節(jié)點。(4)檢查是否可以直接(不需要密碼)登錄其他節(jié)點。5,簡述基于蒙特卡羅思想求兀值的編程方法,并編寫用MPI程序。蒙特卡羅方法,又稱為隨機抽樣或統(tǒng)計試驗方法。代碼在 Page 83 -84第六章Hadoop-分布式大數(shù)據(jù)系統(tǒng)1 .谷歌三寶: mapreduce, bigtable , gfs2 .gfs的工作過程:p933 .HDFS分塊策略:p95第七章HPCC-面向數(shù)據(jù)的高
13、性能計算集群系統(tǒng)1,簡述HPCC勺主要特點。(1) 強大靈活的ECL語言,顯著提升了程序員編程的效率。(2) HPCC(統(tǒng)提供的Roxie集群提供了高效的在線查詢和分析服務。(3) ECL程序首先編譯為優(yōu)化的C+,高速性能得到保證。(4) 高效的錯誤恢復和冗余備份機制。(5) 穩(wěn)定和可靠的系統(tǒng)。(6) 相對于其他平臺,在較低的系統(tǒng)消耗上實現(xiàn)了更高的性能。2,高性能計算目前可以分為兩類:一類是面向 計算的高性能計算,另一類是面向數(shù)見的高性能計算。3,數(shù)據(jù)密集型集群計算系統(tǒng)主要有Hadoop HPCC Storm Apache Drill Rapid Miner Pentaho4,HPCC系統(tǒng)從總體物理上可以看作在同一個集群上部署了Thor(數(shù)據(jù)加工處理平臺)、Roxie(數(shù)據(jù)查詢、分析和數(shù)據(jù)倉庫)兩套集群計算系統(tǒng)。5, HPCC勺系統(tǒng)服務器包含 ECL服務器、Dali服務器、Sasha服務器、DFU服務器ESP服務器6,簡述HPCCF臺數(shù)據(jù)檢索任務的執(zhí)行過程。(1)加載原始數(shù)據(jù)(2)切分、分發(fā)待處理的數(shù)據(jù)(3)分發(fā)后原始數(shù)據(jù)的 ETL處理(4)向Roxie集群發(fā)布Page 117-1187,熟悉HPCC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年茶葉收購與倉儲管理合同2篇
- 水電安裝工程2025年度合同書協(xié)議2篇
- 二零二五版快遞物流服務質量監(jiān)控與評估協(xié)議合同2篇
- 二零二五年電子供應鏈采購合同3篇
- 二零二五年度校園巴士運營管理合同范本3篇
- 二零二五年高端餐飲會所租賃承包合同范本3篇
- 2025年危險品運輸及應急處理合同3篇
- 二零二五版物流倉儲與新能源利用合同3篇
- 小學教師事業(yè)單位聘用合同(2篇)
- 二零二五年度綠色交通PPP特許經(jīng)營權轉讓合同3篇
- 2024年云南省中考數(shù)學試題含答案解析
- 《火災調查 第2版》 課件全套 劉玲 第1-12章 緒論、詢問 -火災物證鑒定
- 汽車修理廠管理方案
- 借用他人名義買車協(xié)議完整版
- (正式版)JBT 5300-2024 工業(yè)用閥門材料 選用指南
- 校園超市經(jīng)營投標方案(技術方案)
- 基于Web服務的辦公系統(tǒng)設計與實現(xiàn)的開題報告
- 國企工程類工作總結
- 電腦教室設計方案
- 計算機江蘇對口單招文化綜合理論試卷
- 高速公路環(huán)保水保方案
評論
0/150
提交評論