管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術基礎、存儲系統(tǒng)_第1頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術基礎、存儲系統(tǒng)_第2頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術基礎、存儲系統(tǒng)_第3頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術基礎、存儲系統(tǒng)_第4頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術基礎、存儲系統(tǒng)_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

5.1數據庫與數據倉庫

5.2

通信與網絡

5.3

大數據和云計算5.1數據庫與數據倉庫5.1.1數據庫管理系統(tǒng)1.?數據庫管理系統(tǒng)數據庫管理系統(tǒng)是位于用戶與操作系統(tǒng)之間的一種數據管理軟件。數據庫管理系統(tǒng)使用戶能夠方便地定義數據和操縱數據,并能夠保證數據的安全性、完整性,多用戶對數據的并發(fā)使用以及發(fā)生故障后的系統(tǒng)恢復。數據庫管理系統(tǒng)具備數據庫定義、數據庫操縱、數據庫保護和數據庫建立和維護等功能,它們實際上是由一組不同的程序模塊來完成的。不同的數據庫管理系統(tǒng),其功能不完全相同,因此它包含的程序模塊也不完全一致。例如,關系型數據庫管理系統(tǒng)沒有數據的物理描述語言,一些層次數據庫管理系統(tǒng)和網狀數據庫管理系統(tǒng)沒有查詢語言。2.?數據庫管理系統(tǒng)的分類數據庫管理系統(tǒng)的分類如表5.1所示。3.?數據庫管理系統(tǒng)的組成一般來說,數據庫管理系統(tǒng)由3部分組成:數據定義語言及其翻譯程序、數據操縱(或查詢)語言及其編譯(或解釋)程序、數據庫管理例行程序。其中,數據定義語言和數據操縱語言稱為數據庫語言。數據庫語言是用戶使用數據庫的接口,數據庫管理系統(tǒng)支持用戶通過數據庫語言進行數據存取。1)?數據定義語言數據定義語言(DataDefinitionLanguage,DDL)通常被數據庫管理員或數據庫設計人員用來定義數據庫模式,如數據元素的名稱、特征、字域寬度和相互關系,以及數據的密碼、完整性限定等。數據庫管理系統(tǒng)負責對數據定義語言進行編譯,生成一系列元數據,并將其存儲到數據字典或系統(tǒng)目錄中。2)?數據操縱語言數據操縱語言(DataManipulationLanguage,DML)通常用來對數據庫中的數據進行增加、刪除、修改、查詢。數據操縱語言有兩種類型:第一種是非過程化的數據操縱語言,用戶只需以交互方式指定“需要什么數據”,不必給出“如何獲得這些數據”,一個數據操縱語言語句可以檢索和處理一組記錄,因此是基于集合的。第二種是過程化的數據操縱語言語句,這種語言只能檢索和處理一組記錄,因此是基于記錄的;過程化的數據操縱語言必須嵌入某種程序設計語言中使用,被嵌入的程序設計語言稱為宿主語言(HostLanguage),如C、Java語言,嵌入的數據操縱語言稱為數據子語言(DataSub-Language)。3)?數據庫管理例行程序數據庫管理例行程序也隨著系統(tǒng)的不同而不同,通常由系統(tǒng)運行控制程序、語言翻譯處理程序和數據庫管理系統(tǒng)的公共程序3部分組成。5.1.2數據庫系統(tǒng)結構數據庫系統(tǒng)是一個完整的、復雜的系統(tǒng)。它不僅指數據庫和數據庫管理系統(tǒng)本身,還指引進數據庫技術后的整個計算機系統(tǒng)。一般來說,數據庫系統(tǒng)由硬件、軟件、人員組成。數據庫系統(tǒng)的層次結構如圖5.1所示。1.?硬件數據庫管理系統(tǒng)的硬件部分包括中央處理器、內存、磁盤、磁帶以及其他外部設備。隨著數據庫中數據量的增大,以及數據庫管理系統(tǒng)規(guī)模的擴大,除了要求重要處理器的運算速度足夠快外,數據庫系統(tǒng)還要求硬件有足夠大的內存、大容量的直接存取設備和高性能的數據通道傳輸能力。2.?軟件數據庫系統(tǒng)的軟件部分包括操作系統(tǒng)、數據庫管理系統(tǒng)、用于開發(fā)應用程序的具有數據庫接口的高級語言及其編譯系統(tǒng)、以數據庫管理系統(tǒng)為核心的應用開發(fā)工具、為某應用環(huán)境開發(fā)的應用系統(tǒng)。3.?人員管理、使用和開發(fā)數據庫的人員主要有數據庫管理員(DataBaseAdministrator,DBA)、系統(tǒng)分析員、數據庫設計人員、應用程序員和最終用戶。他們不但熟悉操作系統(tǒng)、高級語言和數據庫管理系統(tǒng)等,而且對應用系統(tǒng)的業(yè)務處理工作也很理解。1)?數據庫管理員數據庫管理員是專門監(jiān)督和管理數據庫系統(tǒng)的一個或一組人員,全面負責數據庫的管理和控制。其主要職責包括:定義數據庫的結構和內容;決定數據庫的存儲結構和存儲策略;定義數據的安全性要求和完整性約束條件;監(jiān)控數據庫的運行和使用;負責數據庫的改進和重構;規(guī)劃和實現(xiàn)數據庫信息的備份和恢復;等等。2)?系統(tǒng)分析員系統(tǒng)分析員負責應用系統(tǒng)的需求分析和規(guī)范說明,與數據庫管理員和用戶一起確定系統(tǒng)的硬件和軟件配置,并參與數據庫系統(tǒng)的概念設計。3)?數據庫設計人員數據庫設計人員一般由數據庫管理員兼任,負責數據庫中數據的確定與數據庫的存儲結構、全局和局部邏輯結構的設計。4)?應用程序員應用程序員負責設計、編寫、調試和安裝應用系統(tǒng)程序模塊。5)?最終用戶最終用戶通過應用程序的用戶接口,如瀏覽器、菜單、表格、圖形或報表等直觀的數據表示方式使用數據庫。5.1.3數據庫設計1.?數據庫設計的含義數據庫是管理信息系統(tǒng)開發(fā)和建設的核心技術。因此,數據庫設計在管理信息系統(tǒng)的開發(fā)中占有重要的位置,數據庫設計的好壞將直接影響整個系統(tǒng)的效率。數據庫設計是利用現(xiàn)有的數據庫管理系統(tǒng)來建立數據庫的,需要將數據庫管理系統(tǒng)與現(xiàn)實世界有機結合起來。數據庫設計,尤其是大型數據庫的設計和開發(fā),是涉及多學科的綜合性技術,因此數據庫設計人員需要同時具備數據庫系統(tǒng)及其實際應用等方面的知識。他們不但要熟悉以數據庫管理系統(tǒng)為基礎的計算機系統(tǒng)、軟件工程的原理和方法,還要熟悉現(xiàn)實世界中處理的內容??梢哉f,設計一個性能良好的數據庫并不是一項簡單的工作。由于到目前為止還沒有一個完善的數據庫設計方法和工具,因此在數據庫設計中,數據庫設計人員的知識和經驗是首要的。對于同一個應用對象,同一個數據庫管理系統(tǒng),不同數據庫設計人員設計的數據庫其性能可能會有較大的差異。這就要求一方面用戶要盡可能地對數據庫系統(tǒng)的應用提出明確的需求,另一方面數據庫設計人員要使用規(guī)范的數據庫設計方法和工具。2.?數據庫設計的方法和工具由于信息結構的復雜性和應用對象的多樣性,傳統(tǒng)的數據庫設計主要采用手工試湊法。隨著研究人員的不斷探索,軟件工程技術被用于進行數據庫設計,因此數據庫設計更加規(guī)范,逐漸從一種技能向一個工程技術方向轉變。由于采用了規(guī)范化設計方法設計數據庫,因此數據庫的運行更加穩(wěn)定,同時降低了信息系統(tǒng)的維護成本。典型的數據庫設計方法如下:(1)?新奧爾良(NewOrleans)的4個階段方法。這種方法將數據庫設計分為需求分析(用戶要求分析)、概念設計(信息分析和定義)、邏輯設計(設計實現(xiàn))和物理設計(物理數據庫設計)4個階段。(2)?S.B.Yao方法。S.B.Yao等人將數據庫設計分為需求分析、模式構成、模式匯總、模式重構、模式分析和物理數據庫設計6個步驟。(3)?L.R.Palmer方法。L.R.Palmer等人認為數據庫設計應該為一步接一步的過程,并采用一些輔助手段來實現(xiàn)。E-R圖、第三范式、抽象語言規(guī)范等數據庫設計方法是用于數據庫設計不同階段的具體技術和方法。數據庫設計方法的基本思想是過程迭代和逐步求精。目前,數據庫設計工具已經有一批實用化產品。例如,OracleDesigner和PowerDesigner分別是Oracle公司和Sybase公司推出的數據庫設計工具。這些工具可以自動或輔助數據庫設計人員完成數據庫設計過程中的許多任務。目前,許多計算機輔助軟件工程(ComputerAidedSoftwareEngineering,CASE)工具使得數據庫設計和應用可以同時進行,被廣泛應用于大型數據庫的設計。3.?數據庫設計的過程數據庫系統(tǒng)的開發(fā)過程包括數據庫系統(tǒng)設計階段、數據庫系統(tǒng)實施階段、數據庫系統(tǒng)使用階段。其中,數據庫系統(tǒng)設計階段的主要步驟包括需求分析、概念結構設計、邏輯結構設計和物理結構設計。數據庫系統(tǒng)實施階段的主要步驟包括應用程序設計與調試、系統(tǒng)性能測試與試運行。數據庫系統(tǒng)使用階段的主要步驟包括數據庫系統(tǒng)運行與維護、數據庫系統(tǒng)重構。5.1.4數據倉庫在數據倉庫出現(xiàn)以前(1965—1990年),企業(yè)主要使用事務處理系統(tǒng),這個狀況持續(xù)了25年,人們將其稱為“遺留系統(tǒng)”環(huán)境。事務處理系統(tǒng)主要實現(xiàn)了數據的收集、數據的存儲、數據的在線存取。隨著時間的推移,企業(yè)數據庫中存儲了大量數據,但是由于缺乏從海量數據中提取有價值知識的工具,因此管理者往往無法及時獲得重要的決策信息,數據庫變成了“數據豐富,信息貧乏”的“數據墳墓”,于是產生了現(xiàn)在的數據倉庫技術。1.數據倉庫和數據倉庫系統(tǒng)的定義著名的數據倉庫專家W.H.Inmon在其著作《建立數據倉庫》(BuildingtheDataWarehouse)中對數據倉庫做了如下描述:“數據倉庫是一個面向主題的、集成的、隨時間變化的、相對穩(wěn)定的數據集合,用于支持管理決策?!痹摱x將數據倉庫與其他數據存儲系統(tǒng)(如關系數據庫系統(tǒng)和文件系統(tǒng))相區(qū)別。對于數據倉庫的概念,可以從兩個層次予以理解。首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業(yè)現(xiàn)有的操作型數據庫;其次,數據倉庫是多個異構的數據源的有效集成,集成后按照主題對其進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再進行修改。根據Inmon提出的數據倉庫的概念,數據倉庫具有以下特性:(1)?面向主題:數據倉庫中的數據是按照一定的主題進行組織的。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個事務型信息系統(tǒng)相關。企業(yè)數據倉庫常見的主題包括客戶、供應商、產品和銷售等。(2)?集成:數據倉庫中的數據是對來自多個分散的、異構的數據源中的數據進行抽取、清理,并對其進行加工、匯總和整理而得到的。在這一過程中,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業(yè)的一致的全局信息。(3)?隨時間變化:數據倉庫中的數據通常包含歷史信息,系統(tǒng)地記錄了企業(yè)從過去某一時刻(如開始應用數據倉庫的時刻)到目前各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來發(fā)展趨勢做出定量分析和預測。(4)?不可更新:數據倉庫中的數據主要供企業(yè)進行決策分析使用,所涉及的數據操作主要是數據查詢,某個數據一旦進入數據倉庫,一般情況下將長期保留。也就是說,數據倉庫中有大量的查詢操作,但修改和刪除操作較少,一般只進行定期的加載和刷新。一個完整的數據倉庫系統(tǒng)的定義是:數據倉庫系統(tǒng)=抽取/轉換/加載+數據倉庫+聯(lián)機分析處理+數據挖掘+決策支持。由該定義可以看出,數據倉庫系統(tǒng)涉及眾多關鍵技術,包括數據預處理技術、數據倉庫建模技術、數據立方體技術、聯(lián)機分析處理技術、數據挖掘技術、決策支持技術等,合理使用這些關鍵技術是數據倉庫系統(tǒng)構建成功的關鍵。2.數據倉庫系統(tǒng)的體系結構數據倉庫的建立可以看作構造和使用數據倉庫的過程。構造數據倉庫需要進行數據集成、數據清理和數據統(tǒng)一。數據倉庫不是靜態(tài)的,它的任務是以企業(yè)現(xiàn)行業(yè)務系統(tǒng)和大量業(yè)務數據的積累為基礎,將這些業(yè)務數據和信息加以整理、歸納和重組,并及時提供給相應的管理者。因此,從企業(yè)角度看,建立數據倉庫既是一個過程,也是一項工程。數據倉庫系統(tǒng)體系結構包含4個層次,如圖5.4所示。5.1.5聯(lián)機分析處理和數據挖掘1.聯(lián)機分析處理技術的基本概念在線分析處理或聯(lián)機分析處理(OLAP)是一項廣泛應用的數據倉庫應用技術。數據倉庫中的信息資源要想被有效利用,就必須使用分析工具。聯(lián)機分析處理就是專門用于復雜決策分析的一種決策分析工具。它根據分析人員的要求,迅速、靈活地對大量數據進行復雜的查詢處理,并且以直觀的、容易理解的形式呈現(xiàn)查詢結果,將其提供給決策人員,使其能夠迅速、準確地掌握企業(yè)的運營情況和市場的需求。聯(lián)機分析處理技術有兩個特點:一是在線性(On-Line),表現(xiàn)為對用戶請求的快速響應和交互式操作,它的實現(xiàn)是由客戶-服務器結構完成的;二是采用多維數據庫進行多維分析(MultidimensionalAnalysis),它是聯(lián)機分析處理技術的核心。聯(lián)機分析處理主要針對特定問題的聯(lián)機數據進行查詢和分析。在查詢和分析匯總時,系統(tǒng)首先要對原始數據按照用戶的要求進行轉換處理,使這些數據真正反映用戶眼中問題的某個真實方面(“維”);然后以各種可能的方式對這些數據進行快速、穩(wěn)定、一致和交互式的存取操作,并允許用戶按照需要對數據進行深入的觀察。2.數據挖掘的概念數據挖掘又稱為數據庫中的知識發(fā)現(xiàn),它是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的人們事先不知道、但又是潛在有用的信息和知識的過程。數據挖掘已被數據庫界廣泛研究,其中關聯(lián)規(guī)則的挖掘是一個重要的問題。數據挖掘使用了人工智能和傳統(tǒng)的統(tǒng)計學方法。它與傳統(tǒng)的數據分析(如查詢、報表、聯(lián)機分析處理等)的本質區(qū)別在于:數據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識的。因此,數據挖掘得到的信息具有預先未知的、有效的和實用的3個特征。企業(yè)進行數據挖掘,就是企業(yè)按照既定的業(yè)務目標對大量的企業(yè)數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的過程。其中,未知的規(guī)律是指未曾被預料到的規(guī)律,數據挖掘就是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,有時可能是違背直覺的,甚至是出人意料的信息或知識。3.數據挖掘和數據倉庫大部分情況下,進行數據挖掘前都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中。由于數據倉庫中的數據已被清理過,而且所有數據不一致的問題都已被解決了,因此對數據倉庫中的數據進行挖掘比較合適。但是,如果數據倉庫的計算資源很緊張,那么最好建立一個單獨的數據挖掘庫。數據挖掘庫可以是數據倉庫的一個邏輯上的子集,而不一定是物理上單獨的數據庫。4.數據挖掘過程數據挖掘過程必須在一定的環(huán)境中進行。數據挖掘環(huán)境如圖5.6所示。整個數據挖掘過程是交互的、與領域相關的,需要設計人員,特別是具有領域知識、經驗的專家參與,它并不是一個全自動化的過程。數據挖掘的基本過程如圖5.7所示。5.2通?信?與?網?絡5.2.1計算機網絡1.計算機網絡的概念計算機網絡是利用通信設備和通信介質將地理位置分散的、具有獨立功能的多臺計算機連接起來,按照協(xié)議進行數據通信,以實現(xiàn)信息傳遞和資源共享的系統(tǒng)。網絡按照其物理范圍可以分為局域網、城域網和廣域網。局域網的范圍在幾公里以內,一般企業(yè)的內部網、校園網等都是典型的局域網。城域網是指一座城市的主干網,范圍可達幾十公里,用于連接政府機構、教育科研單位、企事業(yè)等單位內部的局域網,實現(xiàn)網絡間的通信。廣域網所覆蓋的范圍從幾十公里到幾千公里,用來實現(xiàn)不同地區(qū)的局域網或城域網的互聯(lián),可以提供不同地區(qū)、城市和國家計算機之間的通信。要實現(xiàn)通信,離不開通信介質。通信介質可以分為有線和無線兩大類。有線介質包括雙絞線、同軸電纜和光纖。其中,雙絞線和同軸電纜為金屬導體,利用導線電流傳輸數據;光纖則通過光波實現(xiàn)數據傳送。衛(wèi)星通信、紅外通信、激光通信以及微波通信屬于無線通信范疇,它們利用電磁波傳輸數據。2.計算機網絡的功能計算機網絡的功能包括支持數據通信、實現(xiàn)資源共享、增加可靠性、提高系統(tǒng)處理能力等。1)?支持數據通信現(xiàn)代社會信息量激增,信息交互也日益增多,早期每年有幾萬噸郵政信件要傳遞,利用計算機網絡傳遞信件是當前流行的傳遞方式。電子郵件比傳統(tǒng)的通信工具有更多的優(yōu)點,它不像電話需要通話者同時在場,也不像廣播系統(tǒng)只是單方向傳遞信息,在速度上比傳統(tǒng)郵件快得多。另外,電子郵件還可以攜帶聲音、圖像和視頻,實現(xiàn)多媒體通信。即時通信也越來越受到人們,特別是年輕人的喜愛。QQ和微信是目前較流行的聊天工具,可以實時地在通信雙方之間傳遞文字、聲音甚至視頻信息。2)?實現(xiàn)資源共享在計算機網絡中,有許多重要的資源,如大型數據庫、巨型計算機等,為了充分利用這些資源,應該進行資源共享。資源共享包括硬件資源的共享,也包括軟件資源的共享。資源共享的結果是避免重復投資和勞動,從而提高資源的利用率,使系統(tǒng)的整體性能價格比得到改善。現(xiàn)代管理信息系統(tǒng)以數據庫為核心,數據庫中存放了企業(yè)的各種數據,這些數據是企業(yè)的寶貴資源。利用計算機網絡,這些數據資源可以很方便地傳遞到需要它的用戶手里。3)?增加可靠性在一個系統(tǒng)內,單個部件或單臺計算機的暫時失效必須通過替換資源的辦法來維持系統(tǒng)的繼續(xù)運行。在計算機網絡中,各種資源(尤其是程序和數據)可以存放在多臺計算機中,一旦一臺計算機出現(xiàn)故障,就可以將任務交由網絡中的其他計算機完成,不會出現(xiàn)單機在無后備的情況下產生故障使全系統(tǒng)癱瘓的現(xiàn)象,從而提高了全系統(tǒng)提供服務的可靠性。4)?提高系統(tǒng)處理能力單機的處理能力是有限的,而且由于種種原因(如時差),計算機之間的忙閑程度是不均勻的。當一臺機器不能完成處理任務時,可以按照一定的算法將任務交給不同的計算機分工協(xié)作完成,達到均衡地使用網絡資源進行分布式處理的目的。利用網絡技術,能夠將多臺計算機聯(lián)成高性能的計算機系統(tǒng),使用這種系統(tǒng)解決大型復雜的問題,其費用比采用高性能的大中型計算機低得多,甚至能夠解決連超級計算機也解決不了的問題。目前,即時通信和電子郵件已成為人們重要的通信手段。視頻點播、網絡游戲、博客、微博、微信、社交網絡、網絡社區(qū)以及電子商務正逐漸走入普通百姓的生活、學習和工作當中。在未來,誰擁有“信息資源”,誰能有效使用“信息資源”,誰就能在各種競爭中占據主導地位。計算機網絡作為信息收集、存儲、傳輸、處理和利用的整體系統(tǒng),將在信息社會中得到更加廣泛的應用。隨著網絡技術的不斷發(fā)展,各種網絡應用層出不窮,并將逐漸深入社會的各個領域及人們的日常生活,改變著人們的工作、學習和生活乃至思維方式。3.網絡體系結構由于計算機網絡很復雜,設計的軟件和硬件技術很多,由此應該將其分層設計實現(xiàn)。計算機網絡各層及其協(xié)議的集合稱為網絡體系結構。網絡體系結構一般用模型來表達。1)?OSI模型在20世紀80年代早期,國際標準化組織(ISO)即開始致力于制定一套普遍適用的規(guī)范集合,以使得全球范圍的計算機平臺可以進行開放式通信。國際標準化組織創(chuàng)建了一個有助于開發(fā)和理解計算機的通信模型,即開放系統(tǒng)互聯(lián)(OpenSystemsInterconnection,OSI)模型。OSI模型將網絡體系結構劃分為七層:物理層、數據鏈路層、網絡層、傳輸層、會話層、表示層和應用層,如圖5.8所示。OSI模型各層的主要功能如表5.2所示。2)?TCP/IP模型TCP/IP模型是由傳輸控制協(xié)議/互聯(lián)網協(xié)議(TransmissionControlProtocol/InternetProtocol,TCP/IP)及各協(xié)議之間的關系來描述的。通過TCP/IP,不同操作系統(tǒng)、不同架構的多種物理網絡之間均可進行通信。TCP/IP協(xié)議族的層次與OSI模型的層次并不大嚴格對應。TCP/IP模型是四層結構,圖5.9描述了TCP/IP模型和OSI模型之間大體上的對應關系。TCP/IP在網絡接口層并沒有定義具體的協(xié)議,它可以利用其他網絡所定義的底層協(xié)議。網際層對應OSI模型的網絡層,主要通過IP來處理數據分組。傳輸層與OSI模型的傳輸層功能相同,提供了兩個傳輸層協(xié)議:可靠的面向連接的傳輸控制協(xié)議(TCP)和無線連接的用戶數據報協(xié)議(UDP)。應用層包括所有高層協(xié)議。在TCP/IP模型中,IP是其核心,所有的數據傳輸都是通過IP完成的。IP是一個分組交換協(xié)議。IP只負責將數據分組傳送到目的主機,無論傳輸正確與否,不做驗證,不發(fā)確認,也不保證數據分組的到達順序,而這些問題是由傳輸層的TCP來解決的。TCP為應用層提供了可靠的、無差錯的通信服務。在數據分組到達目的地址后,TCP檢查數據分組在傳輸過程中是否有錯誤,如果接收端發(fā)現(xiàn)有損壞的數據分組,就要求發(fā)送端重新發(fā)送被損壞的數據分組,確認無誤后再將數據分組重新組合成完整的報文。5.2.2計算機網絡技術1.?InternetInternet即在TCP/IP協(xié)議下實現(xiàn)的全球性的互聯(lián)網絡。Internet可以連接各種各樣的計算機系統(tǒng)和計算機網絡,不論是微型的計算機還是大/中型計算機,不論是局域網還是廣域網,不管它們在世界上任何地方,只要遵循TCP/IP協(xié)議,就可以連入Internet。Internet提供了豐富的、瞬息萬變的信息資源,成為人們獲取信息的一種方便、快捷、有效的手段,可是說是信息社會的重要支柱。2.?IntranetIntranet(企業(yè)內聯(lián)網)是把Internet技術應用到企業(yè)內部建立的基于開放技術的新型網絡體系結構,可以說是組織內部的Internet。Intranet采用瀏覽器/服務器(Browser/Server,B/S)系統(tǒng)結構。這種結構實質上是C/S結構在新的技術條件下的延伸。在傳統(tǒng)的C/S結構中,Server僅作為數據庫服務器,進行數據的管理,大量的應用程序都在客戶端進行。這樣,每個客戶都必須安裝應用程序和工具,因而,客戶端很復雜,系統(tǒng)的靈活性、可擴展性都受到很大的影響。在Intranet結構下,C/S結構自然延伸為三層或多層結構,形成B/S應用模式。在這種方式下,Web服務器既是瀏覽服務器,又是應用服務器,可以運行大量的應用程序,從而使客戶端變得很簡單。3.?虛擬專網(VirtualPrivateNetworks,VPN)如果一家企業(yè)是分布式的,外地員工需要像通過局域網一樣訪問企業(yè)內部數據,在過去,只能通過調制解調器或遠程訪問服務器訪問局域網內部數據。這種方式不僅價格昂貴,而且傳輸速度慢。虛擬專網采用加密、認證和通道技術,提供了Internet上兩點間的安全通信。這樣,對采用Internet技術的企業(yè)而言,好像有了一個專用的廣域網一樣。由于虛擬專網是在Internet的點對點通信,不僅適合于移動或者遠程用戶,而且適用于分公司和總公司之間以及企業(yè)與供應商、分銷商之間的通信等,從而構成了安全的Extranet。在虛擬專網中,采用了協(xié)議通道技術,數據包首先被加密,然后封裝到IP包中并通過Internet傳輸,在目的端由特定的主機或路由器解密。4.?ExtranetExtranet即擴展的Intranet(ExtendedIntranet),它通過Internet把分散在不同地理位置的Intranet聯(lián)系起來。Internet不能提供數據傳輸過程的安全性,而采用Extranet進行遠程系統(tǒng)通信時,可利用通道技術提高通信兩端的安全性級別。Extranet通過虛擬專用網絡方式使企業(yè)與其他企業(yè)或客戶聯(lián)系起來,完成共同目標的合作網絡。Extranet既不像Internet那樣提供公共服務,也不像Intranet那樣僅僅提供對內服務,它可以有選擇地向公眾開放其服務或向有選擇的合作者開發(fā)其服務,為電子商務或其他商業(yè)應用提供安全廣域網平臺。通常情況下,Extranet只是Intranet和Internet基礎設施上的邏輯覆蓋,而不是物理網絡的重構。5.3大數據和云計算5.3.1大數據1.?大數據的概念大數據不是一個確切的概念,根據維基百科的定義,大數據是指無法在一定時間內用傳統(tǒng)數據庫軟件對其內容進行抓取、管理和處理的數據集合。大數據的產生是計算機和網絡通信技術廣泛應用的結果,而互聯(lián)網、云計算、移動互聯(lián)網、物聯(lián)網、社交網絡等新一代信息技術的發(fā)展,對大數據的產生起到了催化劑的作用,由此帶來了四大變化:一是數據由企業(yè)內部向企業(yè)外部擴展;二是數據由Web1.0向Web2.0擴展;三是數據由互聯(lián)網向移動互聯(lián)網擴展;四是數據由計算機/互聯(lián)網向物聯(lián)網擴展。這四個變化,讓數據產生的源頭數量成倍地增加,數據量也大幅度地增長。大數據不只是數據規(guī)模大,更由于其多樣性、非結構化特征明顯導致數據存儲、處理和挖掘異常困難。業(yè)界通常用4個V,即數據體量巨大(Volume)、數據類型繁多(Variety)、數據流動快(Velocity)、價值密度低(Value)來概括大數據的特征。2.?大數據分析的特征與傳統(tǒng)的數據分析方法相比,大數據時代數據分析的轉變可以用更多、更雜、更好三個特征來描述。(1)?更多:不是隨機樣本,而是全體數據。(2)?更雜:不是精確性,而是混雜性。(3)?更好:不是因果關系,而是相關關系。3.?大數據處理的總體架構與關鍵技術大數據應用需要一個統(tǒng)一的平臺,使得用戶能夠在統(tǒng)一的平臺上對不同類型的數據進行處理和存儲,集成各種工具和服務來管理異構存儲環(huán)境下的各類數據,并建立一個實時預測分析解決方案,整合結構化的數據倉庫和非結構化的分析工具。在這個大數據平臺上,用戶可以在任何時間、任何地點通過任何設備進行大數據的集中共享和協(xié)同訪問。1)?大數據平臺Hadoop的總體架構大數據的產生、組織和處理主要通過分布式文件處理系統(tǒng)來實現(xiàn),其主流的技術是Hadoop+MapReduce。Apache基金會發(fā)布了基于開源技術的大數據平臺Hadoop的總體架構,如圖5.11所示。2)?大數據存儲結構HDFS即Hadoop分布式文件系統(tǒng)(HadoopDistributedSystem),前身為Google文件系統(tǒng)(GoogleFileSystem,GFS),運行于大規(guī)模集群之上,集群由廉價的普通計算機構成。整個文件系統(tǒng)采用的是元數據集中管理與數據塊分散存儲相結合的模式,并通過數據復制來實現(xiàn)高度容錯。HBase即Hadoop數據庫,是GoogleBigtable的開源實現(xiàn)。HBase建立在HDFS之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的分布式非關系型(NotOnlySQL,NoSQL)數據庫系統(tǒng)。3)?大數據處理框架MapReduce是一個分布式計算軟件框架?;贛apReduce編寫的應用程序能夠運行在由普通計算機組成的大規(guī)模集群之上,并以一種可靠、容錯的方式并行處理TB級以上的數據集,特別適合用于海量的結構化、半結構化和非結構化數據的混合處理。MapReduce采用先分后合的數據處理方式。Map即“分解”,把海量數據分割成了若干部分,分給多臺處理器并行處理;Reduce即“合并”,對各臺處理器處理后的結果進行匯總操作以得到最終結果。4)?大數據訪問框架大數據訪問框架實現(xiàn)了對傳統(tǒng)關系數據庫和Hadoop的訪問,其主流技術包括Mahout、Pig、Hive、Sqoop等。Mahout:一個很強大的數據挖掘工具,是一個分布式機器學習算法的集合。Mahout最大的優(yōu)點就是基于Hadoop實現(xiàn),把很多以前運行于單機上的算法,轉化為了MapReduce模式,這樣大大提升了算法可處理的數據量和處理性能。Pig:基于Hadoop的數據流處理語言,可以將類SQL的數據分析請求轉換為一系列經過優(yōu)化處理的MapReduce運算。Hive:一個數據倉庫工具,是MapReduce實現(xiàn)的用來查詢和分析結構化數據的中間件。Hive的類SQL查詢語言可以查詢和分析存儲在Hadoop中的大規(guī)模數據。Sqoop:用于在Hadoop與傳統(tǒng)的數據庫間進行數據的傳遞,它可以將一個關系數據庫中的數據導入Hadoop的HDFS,也可以將HDFS的數據導入關系數據庫。5)?大數據服務框架大數據訪問框架之上是大數據服務框架,用于實現(xiàn)對大數據的組織和調度,為大數據分析做準備,其主流技術包括Zookeeper、Flume等。Zookeeper:主要用來解決分布式應用中經常遇到的一些數據管理問題,如統(tǒng)一命名服務、狀態(tài)同步服務、集群管理、分布式應用配置項的管理等。Flume:一個分布式、高可靠、高可用的海量日志采集、聚合和傳輸的系統(tǒng),支持在系統(tǒng)中定制各類數據發(fā)送方,用于收集數據;對數據可進行簡單處理,并寫到各種數據接收方。5.3.2網絡計算隨著計算機技術和網絡技術的發(fā)展以及全球經濟模式的變化,網絡計算模型也在不斷發(fā)展。所謂網絡計算,是指網絡上的多臺計算機協(xié)同處理一個復雜的計算任務,每臺計算機負責一部分,這樣可以大大提高運算效率。從集中式計算到分布式計算,再到移動計算和普適計算,每種計算模型都各有特點。企業(yè)信息系統(tǒng)的應用結構也隨著計算模型的變化而變化。1.?集中式計算集中式計算誕生于早期的大型機時代,當時計算機龐大而昂貴,一個組織機構不可能為每個用戶單獨提供整臺計算機,主機必然是共享的,所有用戶都是通過系統(tǒng)的終端設備(啞終端)使用主機的資源。終端設備僅僅是一個輸入輸出接口設備,沒有任何處理和存儲能力。主機應用程序既負責與用戶的交互,又負責對數據的管理。這種計算機模式又稱為主機/終端模式。由于物流設備的限制,采用這種計算模式的所有計算數據和程序都只能位于主機系統(tǒng)上,從而形成典型的“集中存儲、集中計算”模式。集中式系統(tǒng)是以主機為中心的計算環(huán)境,數據管理、事務處理高度集中,初始成本高。這種模式下的信息系統(tǒng)維護與升級只涉及主機,管理成本低。一般來說,集中式計算可靠、高效、安全,管理也方便。但隨著用戶的增多,對主機處理能力的要求越來越高,一旦原有主機不能滿足需要,企業(yè)要投入高昂的成本進行主機的升級或替換。同時各主機平臺之間的差異越大,不同主機之間的資源共享和互操越困難。該模型適用于大規(guī)模集中式應用,如科學與工程計算和集中式事務數據處理。2.?分布式計算20世紀80年代以后,隨著微型計算機技術和局域網的興起,計算機應用領域被大大拓寬。桌面辦公應用和數據庫技術的大力發(fā)展,使協(xié)同計算和分布式計算的理念得以迅速推廣。分布式計算又可以分為幾種不同的計算模型。1)?客戶-服務器模型隨著客戶-服務器計算模型的出現(xiàn),人們找到了解決異構平臺之間資源共享的最佳方法,用戶可以選擇適合自己需要的客戶端、操作系統(tǒng)和應用程序?;诳蛻?服務器結構的分布式計算逐漸成為企業(yè)應用平臺的主流計算模型,其結構如圖5.12所示。2)?瀏覽器-服務器模型為了解決傳統(tǒng)兩層結構客戶-服務器模型中的固有問題,出現(xiàn)了三層客戶-服務器模型,即客戶-應用服務器-數據庫服務器模型。在這種三層結構中,客戶端應用程序只完成基本的顯示、輸入和輸出;應用邏輯在中間的應用服務器上進行處理,應用服務器接收客戶端的請求,根據應用邏輯將該請求轉化為數據庫請求與數據庫服務器進行交互,并將交互結果返回給客戶端;而數據則放在后端的數據庫服務器上。其模型如圖5.13所示。3)?P2P計算模型P2P是在Internet上實施網絡計算的新模型。在這種模型下,服務器與客戶端的界限消失了,網絡上所有的節(jié)點都可以“平等”共享其他節(jié)點的計算資源。系統(tǒng)中的成員同時扮演服務器與客戶端的角色,網絡應用的核心從中央服務器向網絡邊緣的終端設備擴散。在這個分布式系統(tǒng)中,各個節(jié)點是邏輯對等的,節(jié)點之間可以直接進行數據通信而不必通過中間的服務器,每個節(jié)點都可以請求服務(客戶端的特性),也可以提供服務(服務器的特性)。在P2P網絡中,每個節(jié)點都為網絡提供了一些資源,當越來越多的節(jié)點加入網絡時,網絡的性能就會增強。因此,當網絡增大時,它的性能也會增強,這是與客戶-服務器計算模型的不同之處。在客戶-服務器網絡中,當網絡增大(即越來越多的客戶端加入)時,中央服務器的壓力就會增大,最后有可能會導致服務器癱瘓。P2P計算模型帶來的一個重要變化是改變了“內容”所在的位置,內容從“中心”走向“邊緣”。也就是說,內容將不是存放在幾個主要的服務器上,而是存放在所有用戶的個人計算機上。除了幫助優(yōu)化網絡性能之外,P2P計算模型還可以用來消除由于單點故障而影響全局的危險。在企業(yè)應用方面,可以利用客戶端之間的分布式服務代替一些費用高昂的數據中心功能,在客戶端上實現(xiàn)數據的備份和存儲。3.?移動計算移動計算是隨著移動通信、互聯(lián)網、數據庫、分布式計算等技術的發(fā)展而興起的新技術。移動計算是移動終端和無線網絡的結合。移動終端具有多樣性,如筆記本電腦、平板電腦、智能手機,以及可穿戴式設備,如智能手表、手環(huán)、眼鏡等。大部分移動計算是通過移動網絡進行的。除了消除時間和空間的限制,實現(xiàn)隨時隨地的通信之外,移動計算還可以實現(xiàn)產品和服務的可定位性。了解用戶在任何時刻的位置是為其提供相關產品和服務的關鍵?;诋a品及服務的位置而實現(xiàn)的電子商務應用,被稱為定位電子商務。全球定位系統(tǒng)(GlobalPositioningSystem,GPS)可以將各種精確的定位信息傳遞到用戶持有的無線設備上。例如,可以利用移動設備來尋找距離最近的電影院、餐館或停車場。同時GPS還能夠將用戶的位置告知他人。定位服務可以針對全體人員,如購物中心內所有的顧客;也可以針對特定的目標,如依據用戶所處的不同位置及不同喜好提供不同的信息,將定位服務和個性化服務結合起來。4.?普適計算普適計算,又稱普存計算、普及計算、遍布式計算、泛在計算,是一個強調和環(huán)境融為一體的計算概念,而計算機本身則從人們的視線里消失。在普適計算的模式下,人們能夠在任何時間、任何地點、以任何方式進行信息的獲取與處理。普適計算的含義十分廣泛,所涉及的技術包括移動通信技術、小型計算設備制造技術、小型計算設備上的操作系統(tǒng)技術及軟件技術等。在信息時代,普適計算可以降低設備使用的復雜程度,使人們的生活更輕松、更有效率。實際上,普適計算是網絡計算的自然延伸,它使得不僅個人電腦,而且其他小巧的智能設備也可以連接到網絡中,從而方便人們即時地獲得信息并采取行動。科學家認為,普適計算是一種狀態(tài),在這種狀態(tài)下,iPad等移動設備、谷歌文檔或遠程游戲技術Online等云計算應用程序、4G或廣域Wi-Fi等高速無線網絡將整合在一起,清除“計算機”作為獲取數字服務的中央媒介的地位。隨著每輛汽車、每臺照相機、每臺電腦、每塊手表以及每個電視屏幕都擁有幾乎無限的計算能力,計算機將徹底退居到“幕后”以至于用戶感覺不到它們的存在。5.3.3云計算1.?云計算的概念云計算的定義有很多種,被業(yè)界廣泛接受的是美國國家標準與技術研究院(NIST)所給出的定義:“云計算是一種模型,它可以隨時隨地、便捷地、隨需應變地訪問可配置計算資源共享池中的資源(如網絡、服務器、存儲、應用和服務),只需與最小的資源管理工作或服務提供商進行交互,這些資源就能夠被迅速供應和釋放?!痹诋斀癯錆M競爭的環(huán)境中,組織在提高效率和轉變IT流程以達到事半功倍的效果方面的壓力越來越大。企業(yè)需要縮短產品上市時間,需要更大的靈活性、更高的可用性,并降低成本來滿足不斷變化的業(yè)務需求以及加快創(chuàng)新的步伐。這些業(yè)務需求使IT團隊面臨許多挑戰(zhàn)。一些主要挑戰(zhàn)是連續(xù)向世界各地的客戶提供服務,快速更新技術和更快地調配IT資源,并在實現(xiàn)所有這一切的同時降低成本。隨著云計算這種新計算模式的出現(xiàn),這些長期挑戰(zhàn)得到了解決,通過云計算,組織和個人能夠以服務的形式獲取和調配IT資源。云計算的優(yōu)點主要有:(1)?降低了IT成本:用戶可根據按使用付費或按訂閱價格購買云服務,從而減少或消除了用戶的IT資金開支。(2)?業(yè)務靈活性:云計算可提供快速分配和擴展計算容量的能力。云計算可將調配和部署新應用程序和服務所需的時間從數月減少到數分鐘,使得企業(yè)能夠更快地對市場變化做出響應,并縮短產品上市時間。(3)?靈活擴展:云計算使用戶能夠輕松增加、減少計算資源需求。用戶可單向和自動地擴展計算資源,而無須與云服務提供商進行交互。云計算靈活的服務調配功能通??上蛟品沼脩籼峁┮环N無限可擴展的體驗。(4)?高可用性:云計算能夠確保不同級別的資源都具有可用性,具體取決于用戶的策略和優(yōu)先級。冗余基礎架構組件(服務器、網絡路徑和存儲設備以及群集軟件)支持云部署的容錯功能。這些技術可覆蓋位于不同地理區(qū)域的多個數據中心,從而避免由于區(qū)域故障而引起的數據不可用情況。因此,對于企業(yè)用戶而言,云計算幫助他們降低了初始投資,需要時購買,不需要時就退購。云計算幫助企業(yè)解決了信息化基礎設施構建問題,因此對于許多對成本比較敏感的中小企業(yè)而言具有極大的價值。云計算模型由三種交付模式、四種部署模型、五個基本特性構成。2.?云交付模式云交付模式是云計算服務提供者提供的事先打包好的信息技術資源組合。三種常見的交付模式是:基礎設施作為服務(IaaS)、平臺作為服務(PaaS)和軟件作為服務(SaaS)。這三種模式是互相關聯(lián)的,并且可以組合起來使用。1)?基礎設施作為服務(IaaS)IaaS是指向用戶提供的功能用于調配處理、存儲網絡和其他基礎計算資源,用戶能夠在其中部署和運行任意軟件(包括操作系統(tǒng)和應用程序)。用戶不管理或控制基礎云基礎架構,但可控制操作系統(tǒng)和部署的應用程序;可以有限制地控制選擇的網絡組件(例如主機防火墻)。IaaS是云服務堆棧的基本層,它是SaaS和PaaS的基礎。2)?平臺作為服務(PaaS)PaaS是指向用戶提供的功能將部署到云基礎架構用戶創(chuàng)建的或獲得的應用程序上,這些應用程序是使用提供商支持的編程語言、庫、服務和工具創(chuàng)建的。用戶不管理或控制基礎云基礎架構(包括網絡、服務器、操作系統(tǒng)或存儲),但可控制已部署的應用程序,并可以控制應用程序宿主環(huán)境的配置設置。PaaS還用作應用程序開發(fā)環(huán)境,由云服務提供商提供相關服務。用戶可使用這些平臺對其應用程序編碼,然后在云架構上部署這些應用程序。由于已部署應用程序的工作負載各不相同,因此計算資源的可擴展性通常由計算平臺以透明方式進行保證。3)?軟件作為服務(SaaS)SaaS是指用戶可以使用云平臺上提供的應用。可從各種客戶端設備通過瘦客戶端接口(例如Web瀏覽器(如基于Web的電子郵件))或程序接口訪問這些應用程序。用戶不管理或控制基礎云基礎架構(包括網絡、服務器、操作系統(tǒng)、存儲甚至單個應用程序功能),但可控制應用中的用戶特定設置。在SaaS模式中,應用程序(如客戶關系管理(CRM)、電子郵件和即時消息(IM))作為云服務提供商的服務來提供。云服務提供商以獨占方式管理所需的計算基礎架構和軟件來支持這些服務。SaaS模式允許用戶更改一些應用程序配置,以自定義應用程序。3.?云部署模型1)?公有云在公有云模式中,云基礎架構被調配為由公眾公開使用,它可由企業(yè)、學院或政府組織或這些組織的組合擁有、管理和操作。它的存在以云提供商為前提。用戶使用提供商通過Internet提供的云服務,并支付定量使用費用或訂閱費用。公有云的優(yōu)勢在于其低資金成本和良好的可擴展性。但是,對于用戶來說,這些優(yōu)勢會帶來一些風險:無法控制云中的資源,涉及機密數據的安全性,存在網絡性能和互操作性問題。常見的公有云服務提供商包括Amazon、Google和S。2)?私有云在私有云模式中,云基礎架構被調配為由包含多個用戶(例如業(yè)務單位)的單個組織以獨占方式使用。它可由組織、第三方或它們的組合擁有、管理和操作,并且可以現(xiàn)場或異地方式存在。私有云模式具有以下兩種類型:現(xiàn)場私有云:也稱為內部云,由組織的數據中心托管,能使組織標準化其云服務管理流程和安全性。但此模式在大小和資源可擴展性方面具有限制,還需組織為物理資源承擔資金成本和維護成本?,F(xiàn)場私有云最適合于需要完全控制其應用程序、基礎架構配置和安全性機制的組織。外部托管的私有云:此類型的私有云在組織外部托管,由第三方組織管理。第三方組織為特定組織提供專用云環(huán)境,能完全保證隱私性和機密性。3)?社區(qū)云在社區(qū)云模式中,云基礎架構被調配為由組織中的特定社區(qū)的用戶以獨占方式使用,這些用戶具有共同關心的問題(如任務、安全需求、策略和遵從性考慮事項)。它可由社區(qū)、第三方或它們的組合中的一個或多個組織擁有、管理和操作,可以現(xiàn)場或異地方式存在。與公有云相比,社區(qū)云中的成本分散到更少的用戶身上,因此,此模式更昂貴些,但可提供更高級別的隱私性、安全性和遵從性。與私有云相比,社區(qū)云還可向組織提供對大量資源池的訪問。4)?混合云在混合云模式中,云基礎架構是兩個或更多個不同的云基礎架構(私有云、社區(qū)云或公有云)的組合,這些云基礎架構保留唯一的實體,但由支持數據和應用程序移植性的標準化或專用技術綁定在一起?;旌夏J皆试S組織將不太關鍵的應用程序和數據部署到公有云,從而利用公有云的可擴展性和經濟高效性。組織的任務關鍵型應用程序和數據保留在可提供更高安全性的私有云上。4.?云特性根據NIST,云基礎架構應有五個基本特性。(1)?按需自助服務:用戶可自動根據需要單向調配計算功能(如服務器時間和網絡存儲),而無須與云服務提供商進行人工交互。云服務提供商發(fā)布服務目錄,該目錄包含有關可供用戶使用的所有云服務的信息。服務目錄包含有關服務屬性、價格和請求流程的信息。用戶可通過基于Web的用戶界面查看服務目錄,并使用它來請求服務。用戶可利用這些“隨時可用的”服務或更改一些服務參數來自定義服務。(2)?廣泛的網絡訪問:可通過網絡使用功能,并通過標準機制訪問功能,這些機制可提升異構精簡或非精簡客戶端平臺(例如移動電話、平板電腦、筆記本電腦和工作站)的使用率。(3)?資源共用:共用提供商的計算資源,以便使用多重租用模式向多個客戶提供服務,并根據用戶需求動態(tài)分配和重新分配不同的物理和虛擬資源??蛻敉ǔo法控制或了解提供的資源的準確位置,但可指定抽象級別更高的位置(例如國家/地區(qū)、州或數據中心)。存儲、處理、內存和網絡帶寬都屬于資源。注意:多重租用是使用一組資源向多個獨立用戶(租戶)提供服務的體系結構。這可降低用戶的服務成本。虛擬化支持云中的資源共用和多重租用。(4)?快速靈活:有時可自動靈活調配和發(fā)布功能,以便根據需求快速向外和向內擴展。對于用戶,可用于調配的功能通常顯示為無限,并且可隨時占用任意數量的資源。用戶的IT資源需求發(fā)生波動時,可利用云的快速靈活性。(5)?可計量的服務:云系統(tǒng)可自動控制和優(yōu)化資源使用,方法是利用與服務類型(例如存儲、處理、帶寬和活動用戶賬戶)相對應的某個抽象級別的計量功能。通過監(jiān)控和報告資源的使用情況,可清楚地向提供商和用戶提供有關所使用服務的信息。5.?云計算的關鍵技術網格計算、實用計算、虛擬化和面向服務的體系結構是云計算的支持技術。網格計算是分布式計算的一種形式,它使網絡中的大量異構計算機的資源能夠同時共同處理一個任務。網格計算支持并行計算,最適合大型工作負載。實用計算是一種服務調配模式,其中,服務提供商根據需要將計算資源提供給客戶,并根據使用情況對他們進行收費。這類似于其他實用服務(如電),收費是根據使用情況來計算的。虛擬化是一種從資源用戶抽象IT資源的物理特征的技術。它支持將資源作為池來查看和管理,并允許用戶在池中創(chuàng)建虛擬資源。與在非虛擬化環(huán)境中調配相比,虛擬化可以更靈活地調配IT資源,可以幫助優(yōu)化資源利用率和更高效地提供資源。面向服務的體系結構(SOA)用于提供一組可彼此通信的服務。這些服務可共同執(zhí)行某項活動,或僅在服務間傳遞數據。6.1信息存儲與管理概述

6.2數據中心環(huán)境

6.3數據保護:RAID

6.4智能存儲系統(tǒng)6.1信息存儲與管理概述6.1.1數據和信息概述信息對企業(yè)的重要性、企業(yè)對信息的依賴性以及信息的數量也在以驚人的速度提高。企業(yè)需要以快速、可靠的方式獲取對成功至關重要的信息。隨著企業(yè)對信息的依賴性日益提高,數據存儲、保護和管理方面的挑戰(zhàn)也隨之增大。與數據可用性和保護相關的法律、法規(guī)和合同業(yè)務進一步增加了這些挑戰(zhàn)。隨著計算機和通信技術的進步,數據生成和共享的速率呈指數級增長。以下是導致數字數據增長的一些因素:(1)?數據處理能力的提高?,F(xiàn)代計算機的處理和存儲功能顯著提高,使得各種類型的內容和介質能夠從常規(guī)格式轉換為數字格式。(2)?數字存儲成本的降低。技術進步以及存儲設備成本的降低提供了低成本存儲解決方案,這一成本優(yōu)勢提高了數字數據生成和存儲的速率。(3)?價格合理、速度更快的通信技術的發(fā)展。(4)?應用程序和智能設備的劇增。智能手機、平板電腦和更新的數字設備以及智能應用程序極大地促進了數字內容的生成。根據數據的存儲和管理方式,數據可分為結構化數據和非結構化數據,如圖6.1所示。結構化數據以嚴格定義的格式按行和列進行組織,以使應用程序能夠有效地進行檢索和處理。結構化數據通常使用數據庫管理系統(tǒng)(DBMS)進行存儲。如果數據的元素不能按行和列存儲,因而難以通過應用程序進行查詢和檢索,則這樣的數據就是非結構化數據。鑒于這些數據的非結構化性質,難以使用傳統(tǒng)的客戶關系管理應用程序對其進行檢索。如今所創(chuàng)建的絕大多數新數據都是非結構化數據。采用新的體系結構、技術、技巧和技能存儲、管理、分析來自眾多源的非結構化數據和從中實現(xiàn)價值會給行業(yè)帶來挑戰(zhàn)。大數據是一個不斷變化的新概念,是指大小超出常用軟件工具,在可接受時間限制內具備捕獲、存儲、管理和處理能力的數據集。它包括各種源生成的結構化和非結構化數據。這些數據集通常需要實時捕獲或更新以便進行分析、預測建模和決策制訂。傳統(tǒng)的IT基礎架構以及數據處理工具和方法不足以應對大數據的數據量、多樣性、動態(tài)性和復雜性。實時分析大數據需要高性能、大規(guī)模的并行處理(MPP)數據平臺以及對數據集進行高級分析的新技術、體系結構和工具。數據科學是一門新興學科,它使組織能夠從大數據中獲得業(yè)務價值。數據科學是幾門現(xiàn)有學科的綜合,它使數據專家能夠開發(fā)先進的算法來分析大量信息,從而推動創(chuàng)造新價值并做出更多數據驅動的決策。當前希望采用數據科學技術的一些行業(yè)和市場包括醫(yī)療和科研、醫(yī)療保健、公共管理、欺詐檢測、社會媒體、銀行、保險公司以及其他受益于大數據分析的基于數字信息的實體。大數據所需的存儲體系結構管理應簡單、高效且便宜,可同時提供對多個平臺和數據源的訪問。6.1.2存儲概述在計算環(huán)境中,用來存儲數據的設備稱為存儲設備,簡稱存儲。存儲類型取決于數據的類型及其創(chuàng)建速度和使用頻率。有多種數據存儲方式可供企業(yè)選擇,包括內部硬盤、外部磁盤陣列和磁帶。以往,組織都將計算機(大型機)和信息存儲設備(磁帶盤和磁盤組)集中放在其數據中心內。隨著開放系統(tǒng)的演變,其成本合理性和易部署性使得各業(yè)務部門有機會擁有自己的服務器和存儲設備。在開放系統(tǒng)的早期實施中,存儲設備通常內置于服務器之中。這些存儲設備無法與其他任何服務器共享。此方法稱為以服務器為中心的存儲體系結構。在此體系結構中,每臺服務器具有有限數量的存儲設備,且任何管理任務都可能會導致信息不可用。企業(yè)中部門服務器的激增導致信息支離破碎,且缺乏保護和管理,因而增加了資本性支出和運營成本。為應對這些難題,存儲從以服務器為中心的體系結構演變?yōu)橐孕畔橹行牡捏w系結構,如圖6.2所示。6.1.3數據中心概述組織通過數據中心向整個企業(yè)提供集中式數據處理功能。數據中心擁有并管理大量數據。數據中心基礎架構包括硬件組件、軟件組件、環(huán)境控制系統(tǒng)。大型組織通常維護多個數據中心,以便分散數據處理工作負載并在發(fā)生災難時提供備份。一個數據中心要實現(xiàn)基本功能,必須要有以下五個核心部件。應用程序:為計算操作提供邏輯的計算機程序。數據庫管理系統(tǒng)(DBMS):提供結構化存儲方式,可將數據存儲在相互關聯(lián)并按邏輯組織的多個表中。主機/計算:運行應用程序和數據庫的計算平臺(硬件、固件和軟件)。網絡:便于在各種網絡設備之間進行通信的數據路徑。存儲裝置:持久存儲數據供后續(xù)使用的設備。這些核心元素通常被作為單獨的實體來查看和管理,但所有這些元素必須協(xié)同工作,才能滿足數據處理需求。圖6.3展示了一個在線訂單處理系統(tǒng),其中包含五個核心部件以及它們在商業(yè)處理中的應用。數據中心的無中斷運營對于企業(yè)的生存和成功至關重要。因此,很有必要利用可靠的存儲基礎設施來保證數據隨時可訪問。圖6.4所示的是對數據中心基礎設施的所有部件都適用的基本要求。管理數據中心涉及許多任務。關鍵的管理活動包括以下內容:(1)?監(jiān)視:收集有關數據中心中運行的各種元素和服務的信息的持續(xù)過程。監(jiān)視的數據中心的各個方面包括安全、性能、可用性和容量。(2)?報告:對資源性能、容量和利用率定期執(zhí)行報告。報告任務有助于建立業(yè)務合理性以及對與數據中心操作關聯(lián)的成本進行計費。(3)?資源調配:提供運行數據中心所需硬件、軟件和其他資源的過程。資源調配活動主要包括可滿足容量、可用性、性能和安全要求的資源管理。虛擬化和云計算極大地改變了數據中心基礎架構資源的調配和管理方式。組織正在對數據中心的各種元素快速部署虛擬化以優(yōu)化其利用率。此外,持續(xù)的IT成本壓力和隨需應變數據處理需求也促進了云計算的采用。6.1.4虛擬化概述虛擬化是指抽象化物理資源(如計算、存儲和網絡)并讓其顯示為邏輯資源的技術。虛擬化已在IT行業(yè)中以不同形式存在數年。常見的虛擬化應用有計算系統(tǒng)中使用的虛擬內存和原始磁盤的分區(qū)。虛擬化支持共用物理資源以及提供物理資源功能的聚合視圖。通過計算虛擬化,可將共用物理服務器的CPU容量視為所有CPU處理能力的聚合。虛擬化還支持集中化管理共用資源??筛鶕灿梦锢碣Y源創(chuàng)建和調配虛擬資源。這些虛擬資源共享共用物理資源,這樣可提高物理資源的利用率。根據業(yè)務需求,可向虛擬資源中添加容量或從中刪除容量,而不會中斷應用程序或影響用戶。隨著IT資產利用率的提高,組織將節(jié)省與采購和管理新物理資源關聯(lián)的成本。此外,減少物理資源意味著降低空間和能源消耗,這將帶來更高的經濟價值和實現(xiàn)綠色計算。除此之外,還有應用程序虛擬化和桌面虛擬化。應用程序虛擬化打破了應用程序與底層平臺(OS和硬件)之間的相關性,可在虛擬化容器中封裝應用程序和所需的OS資源。此技術支持部署應用程序,而無須對在其中部署應用程序的底層OS、文件系統(tǒng)或計算平臺的注冊表進行任何更改。由于虛擬化應用程序在單獨環(huán)境中運行,因此可保護底層OS和其他應用程序免遭潛在損壞。在許多方案中,如果多個應用程序或同一應用程序的多個版本安裝在同一計算平臺上,則可能會發(fā)生沖突。應用程序虛擬化可通過隔離不同版本的應用程序和關聯(lián)的O/S資源來消除此沖突。桌面虛擬化是一項支持從終端設備斷開用戶狀態(tài)、操作系統(tǒng)(OS)和應用程序的技術。它打破了硬件與其OS、應用程序、用戶配置文件和設置之間的相關性,使IT員工能夠獨立更改、更新和部署這些元素。臺式機位于數據中心且在虛擬機上運行,而用戶會從各種客戶端設備中遠程訪問這些臺式機。應用程序執(zhí)行和數據存儲在數據中心集中執(zhí)行。由于臺式機作為虛擬機在組織的數據中心中運行,因此可降低數據泄露和竊取的風險。它還有助于執(zhí)行集中化備份和簡化遵從性程序。虛擬桌面易于維護,因為應用修補程序、部署應用程序和OS以及集中調配或刪除用戶都很簡單。計算虛擬化是一項掩蔽物理硬件并將其從操作系統(tǒng)中抽象出來的技術。它支持對單個或群集物理機并行運行多個操作系統(tǒng)。此技術支持創(chuàng)建便攜式虛擬計算系統(tǒng),稱為虛擬機(VM)。每臺虛擬機均以隔離方式運行操作系統(tǒng)和應用程序實例。計算虛擬化通過位于硬件和虛擬機之間的虛擬化層來實現(xiàn)。這一層也稱為虛擬機管理程序。該虛擬機管理程序可提供硬件資源,如所有虛擬機的CPU、內存和網絡。在物理服務器中,可以創(chuàng)建大量虛擬機,具體取決于物理服務器的硬件功能。虛擬機是邏輯實體,但對于操作系統(tǒng)而言就像物理主機一樣,包括其自身的CPU、內存、網絡控制器和磁盤。但是,所有虛擬機均以隔離方式共享相同的基本物理硬件。從虛擬機管理程序角度看,虛擬機是包括虛擬機配置文件、數據文件等的獨立文件集合。6.2數據中心環(huán)境6.2.1數據中心的關鍵部件一個數據中心的關鍵部件包括集中管理的主機、存儲、連接(或網絡)、應用和數據庫管理系統(tǒng)。1.?主機用戶通過應用程序存儲和檢索數據,運行這些應用程序的計算機稱為主機或計算系統(tǒng)。主機可以是物理機,也可以是虛擬機。計算虛擬化軟件可以在一個物理計算架構上創(chuàng)建多個虛擬機。物理機包括桌面計算機、服務器或服務器群集、虛擬服務器、筆記本電腦和移動設備。主機包含CPU、內存、I/O設備和軟件集合,可執(zhí)行計算操作。軟件包括操作系統(tǒng)、文件系統(tǒng)、邏輯卷管理器、設備驅動程序等。這些軟件可以分別安裝,也可以成為操作系統(tǒng)的一部分。2.?存儲存儲是數據中心內的核心元素。存儲設備可使用磁介質、光學介質或固態(tài)介質。例如,磁盤、磁帶和軟盤使用磁介質,CD/DVD光盤使用光學介質,可移動閃存或閃存驅動器使用固態(tài)介質。過去,磁帶是備份最常用的存儲設備,因為其成本很低。但是,磁帶在性能和管理方面具有各種限制,由于這些限制以及磁盤驅動器的實用性,磁帶不再是企業(yè)級數據中心備份目標的首選。光盤存儲適用于小型的單用戶計算場合,還可用于小型應用程序(如游戲)的分發(fā),或者用于將少量數據從一臺計算機轉移到另一臺計算機。能夠一次寫入、多次讀取(WORM)是光盤存儲器的優(yōu)點。光盤在一定程度上可以保證其內容未經修改。因此,對于在創(chuàng)建后不會更改、數量相對較少的固定內容,光盤可用作成本低廉的長期存儲設備。組成陣列的光盤集合稱作光盤機,仍然用作固定內容存儲。其他形式的光盤包括CD-RW、Blue-ray(藍光)磁盤和各種各樣的DVD。光盤的缺點是容量和速度有限,不適用于業(yè)務數據存儲。閃存驅動器(或固態(tài)驅動器,SSD)使用半導體介質,可提供高性能、低功耗。它擁有極高的性能,能滿足性能敏感型應用的需求。閃存驅動器使用基于半導體的固態(tài)存儲(閃存)來存取數據。與傳統(tǒng)的機械磁盤相比,閃存驅動器不含移動部件,因此沒有尋道時間和旋轉延遲。另外,因為是基于半導體的設備,所以閃存驅動器比機械磁盤更省電。3.?連接連接是指主機之間或主機與外圍設備(如打印機或存儲設備)之間的互連。這里著重討論主機與存儲設備之間的連接。主機與存儲設備之間的連接與通信通過物理組件和接口協(xié)議來實現(xiàn)。1)?物理組件物理組件是將主機與存儲設備連接起來的硬件。連接主機與存儲設備的三個物理組件為主機接口設備、端口和纜線。主機接口設備(或主機適配器)可將主機連接到其他主機和存儲設備,主機接口設備包括主機總線適配器(HBA)和網絡接口卡(NIC)。HBA是特定于應用程序的集成電路(ASIC)板,在主機與存儲設備之間發(fā)揮I/O接口作用,從而為CPU減輕了其他I/O處理負擔。一臺主機通常包含多個HBA。端口是支持主機與外部設備之間連接的特殊出口。HBA可以包含一個或多個用于將主機連接到存儲設備的端口。纜線使用銅纜或光纜介質將主機連接到內部或外部設備。2)?接口協(xié)議接口協(xié)議用于支持主機與存儲設備之間的通信。主機與存儲設備之間通信的常用接口協(xié)議有集成的設備電子系統(tǒng)/高級技術附件(IDE/ATA)、小型計算機系統(tǒng)接口(SCSI)、光纖通道(FC)和Internet協(xié)議(IP)。4.?應用應用是指提供計算操作邏輯的計算機程序。應用程序通過向底層操作系統(tǒng)發(fā)送請求來對存儲設備執(zhí)行讀/寫(R/W)操作。應用程序可分層放在數據庫中,數據庫再使用操作系統(tǒng)服務對存儲設備執(zhí)行讀/寫操作。數據中心環(huán)境中部署的應用程序通常分為業(yè)務應用程序、基礎架構管理應用程序、數據保護應用程序和安全應用程序。這些應用程序包括電子郵件、企業(yè)資源規(guī)劃(ERP)、決策支持系統(tǒng)(DSS)、資源管理、備份、身份驗證和反病毒應用程序等。應用程序生成的I/O(輸入/輸出)特性會影響存儲系統(tǒng)的整體性能和存儲解決方案設計。應用程序的常見I/O特性包括:I/O的大小、特點及其在工作峰值產生的I/O數量。5.?數據庫管理系統(tǒng)數據庫是一種結構化存儲方式,可將數據存儲在相互關聯(lián)并按邏輯組織的多個表中。數據庫有助于優(yōu)化數據的存儲和檢索。DBMS可控制數據庫的創(chuàng)建、維護和使用,以及處理應用程序的數據請求并指示操作系統(tǒng)從存儲中傳輸相應的數據。6.2.2磁盤驅動器組件和磁盤的結構1.?磁盤驅動器組件硬盤驅動器主要由盤片、磁盤軸、讀/寫磁頭、傳動臂組件和控制器組成,如圖6.5所示。2.?磁盤的結構磁盤的結構如圖6.6所示,磁盤上的數據記錄在磁道上。磁道是盤片上以磁盤軸為中心的同心環(huán),以零開始從盤片外邊緣進行編號。盤片上每英寸的磁道數(TPI)稱為磁道密度,用來衡量盤片上磁道排布的緊密程度。6.2.3磁盤驅動器的性能磁盤驅動器是決定存儲系統(tǒng)環(huán)境總體性能的電子機械設備。1.?磁盤服務時間磁盤服務時間是指磁盤完成一個I/O請求所花費的時間。影響磁盤服務時間的因素有3個:尋道時間、旋轉延遲和數據傳輸速度。1)?尋道時間尋道時間用于描述通過徑向移動在盤片上定位讀/寫磁頭所用的時間。尋道時間具有以下規(guī)范:(1)?全程:讀/寫磁頭移動磁盤全寬(從最內側的磁道到最外側的磁道)這一距離所用的時間。(2)?平均:讀/寫磁頭從一個隨機磁道移至另一隨機磁道平均使用的時間,通常為全程尋道時間的1/3。(3)?道間:讀/寫磁頭在相鄰的兩個磁道間移動所用的時間。上述每項規(guī)范都以毫秒為單位度量。磁盤的尋道時間通常由驅動器制造商指定?,F(xiàn)代磁盤的平均尋道時間通常在3~15ms的范圍內。尋道時間對隨機磁道的I/O操作有較大影響。為了最大限度地縮短尋道時間,只能將數據寫入一部分可用柱面。這會導致驅動器的可用容量低于其實際容量,這稱作對驅動器采用短行程技術。2)?旋轉延遲為訪問數據,傳動臂會將讀/寫磁頭從盤片上移至特定磁道,同時盤片會進行旋轉以將所請求的扇區(qū)置于讀/寫磁頭下。盤片通過旋轉將數據置于讀/寫磁頭下所用的時間稱作旋轉延遲。此延遲取決于磁盤軸的旋轉速度,以毫秒為單位度量。平均旋轉延遲是旋轉一周所用時間的一半。與尋道時間相似,旋轉延遲對磁盤上隨機扇區(qū)的讀取/寫入產生的影響大于對相鄰扇區(qū)上的相同操作產生的影響。驅動器的旋轉延遲按以下公式計算:3)?數據傳輸速率數據傳輸速率(也稱作傳輸速度)是指單位時間驅動器可以向HBA輸送的平均數據量。在讀取操作中,數據先從磁盤盤片移至讀/寫磁頭,再移至驅動器的內部緩沖區(qū),最后通過接口從緩沖區(qū)移至主機HBA。在寫入操作中,數據通過驅動器的接口從HBA移至磁盤驅動器的內部緩沖區(qū),隨后從緩沖區(qū)移至讀/寫磁頭,最后從讀/寫磁頭移至盤片。讀/寫操作中的數據傳輸速率用內部傳輸速率和外部傳輸速率加以衡量,如圖6.7所示。2.?磁盤I/O控制器的利用率磁盤I/O控制器的利用率對I/O響應時間具有顯著影響。將磁盤視為一個包含隊列和磁盤I/O控制器的黑匣子。隊列是用于存放等待I/O控制器處理的I/O請求,磁盤I/O控制器用來處理在隊列中等待的I/O請求。I/O到達速度、隊列長度以及I/O控制器處理每個請求所用的時間決定了I/O響應時間。如果控制器處于忙狀態(tài)或利用率很高,則隊列大小會很大且響應時間會很長??刂破骼寐逝c平均響應時間之間的關系滿足以下公式:當利用率達到100%(即I/O控制器達到飽和)時,響應時間會接近于無窮大。實質上,飽和的組件(即瓶頸)會強制序列化I/O請求,這意味著每個I/O請求必須等待它前面的I/O請求完成。圖6.8顯示了利用率與響應時間的關系。該圖表明,隨著利用率提高,響應時間的變化是非線性的。當平均隊列大小很小時,響應時間保持在較短水平;隨著隊列負荷的增加,響應時間緩慢增加;當利用率超過70%時,響應時間呈指數級增加。因此,對于性能敏感型應用程序,磁盤的利用率通常低于其I/O服務功能的70%。6.2.4基于應用程序的需求和磁盤性能的存儲設計應用程序的存儲需求分析通常都是從確定存儲容量開始的。這可以根據文件系統(tǒng)的大小和數量,以及應用程序將要使用的數據庫部件來評估確定。要確定應用程序的存儲要求,首先要確定所需的存儲容量和I/O性能。可通過應用程序使用的文件系統(tǒng)以及數據庫組件的大小和數量輕松估計容量。應用程序在工作負載高峰時生成的I/O大小、I/O特性和I/O數量是影響性能、I/O響應時間和存儲系統(tǒng)設計的主要因素。I/O的磁盤服務時間(TS)是磁盤性能的一個關鍵指標;TS和磁盤利用率(U)可確定應用程序的I/O響應時間。如前所述,總磁盤服務時間是尋道時間、旋轉延遲和傳輸時間之和。TS可確定I/O控制器為I/O提供服務所用的時間,因此,每秒提供服務的I/O即IOPS的最大值為1/TS。上面計算的IOPS是在較高I/O控制器利用率(接近100%)下實現(xiàn)的。如果應用程序需要縮短響應時間,則磁盤利用率應保持在70%以下。應用程序所需的磁盤總數?=Max(為滿足容量所需的磁盤,為滿足性能所需的磁盤)為滿足應用程序的容量需求,所需的磁盤數量(DC):為滿足應用程序性能需求所需的磁盤數量(DP):根據磁盤服務時間,由磁盤提供服務的IOPS(TS):TS是I/O提供服務所用的時間,因此,由磁盤提供服務的IOPS值等于1/?TS。對于性能敏感型應用程序,有所以,應用程序所需的磁盤數量?=Max(DC,DP)。6.2.5閃存驅動器簡介閃存驅動器又稱為固態(tài)驅動器(SSD),是用于性能敏感型應用程序的超高性能的新一代驅動器。它的關鍵組件包括控制器、I/O接口、大容量存儲(存儲芯片的集合)和緩存。閃存驅動器使用基于半導體的固態(tài)內存(閃存)存儲和檢索數據。與傳統(tǒng)機械磁盤驅動器不同,閃存驅動器不包含運動部件,因此,它們沒有尋道和旋轉延遲。閃存驅動器可提供較高的IOPS,且響應時間非常短。另外,作為基于半導體的設備,相比機械磁盤驅動器,閃存驅動器耗電更少。閃存驅動器尤其適用于數據塊大小較小的應用程序和需要持續(xù)較低(低于1ms)響應時間的隨機讀取工作負載,以及需要快速處理大量信息的應用程序(如貨幣兌換、電子交易系統(tǒng)和實時數據源處理)等場合。總體來說,閃存驅動器可降低總體擁有成本(TCO)。利用閃存驅動器,企業(yè)可使用更少的驅動器滿足應用程序性能要求。這樣不但可以節(jié)約驅動器成本,而且可以節(jié)省電力、冷卻和空間消耗。驅動器的數量減少,管理存儲的成本也隨之降低了。6.3數據保護:RAID6.3.1RAID的實現(xiàn)方式RAID有兩種實現(xiàn)方式:硬件RAID和軟件RAID。在軟件RAID實現(xiàn)中,主機中的軟件提供RAID功能并由操作系統(tǒng)實現(xiàn)。該方式具有成本較低和簡單直觀的優(yōu)點,但是存在以下限制:(1)?軟件RAID會影響系統(tǒng)整體性能。這是因為需要額外的CPU周期來執(zhí)行RAID計算。(2)?軟件RAID并不支持所有的RAID級別。(3)?軟件RAID需與主機操作系統(tǒng)綁定,因此,對軟件RAID或操作系統(tǒng)升級進行兼容性驗證,會降低數據處理的靈活性。在硬件RAID實現(xiàn)中,可在主機或陣列中實現(xiàn)專用硬件控制器。控制器卡RAID是基于主機的硬件RAID實現(xiàn)方式,專用RAID控制器安裝在主機上,并且所有磁盤驅動器均與主機相連;也可將RAID控制器集成到主板上。在包含大量主機的數據中心環(huán)境下基于主機的RAID控制器不是高效的解決方案。外部RAID控制器是基于陣列的硬件RAID,它充當主機與磁盤之間的接口,將存儲卷提供給主機,主機將這些存儲卷作為物理驅動器進行管理。RAID控制器的主要功能包括:管理與控制磁盤聚合、轉換邏輯磁盤和物理磁盤之間的I/O請求、在磁盤出故障時重新生成數據。6.3.2RAID陣列的組成如圖6.9所示,RAID陣列是一個包含大量磁盤驅動器的存儲模塊,它支持通過硬件實現(xiàn)RAID。對RAID陣列中的磁盤子集進行組合,可以形成一個稱為“邏輯陣列”的邏輯關聯(lián),也可以將其稱為RAID集或RAID組。6.3.3RAID技術分條、數據鏡像和奇偶校驗等RAID技術構成了RAID分級的基礎,決定了RAID集的數據可用性和性能特點。1.?分條分條是一項跨越多個驅動器傳播數據以并行使用驅動器的技術。與從單個磁盤進行讀取和寫入相比,所有讀/寫磁頭同時工作,從而允許在較短時間內處理更多數據并提升性能。在RAID集的每個磁盤中,既定數量的連續(xù)編址磁盤塊定義為條塊。跨越RAID集中所有磁盤的一組對齊的條塊稱為條帶。條塊大小描述條塊中的數據塊數量,也是可以從集合中的單個磁盤讀取和寫入的最大數據量(。一個條帶中的所有條塊都具有相同的數據塊數。具有較小的條塊大小意味著在磁盤上分布數據時會將數據分成更小的部分。條帶大小是條塊大小與RAID集中數據磁盤數的乘積。條帶寬度是指條帶中數據條的數量。如果未使用奇偶校驗或鏡像,分條RAID不會提供任何數據保護。2.?數據鏡像鏡像是一項將相同數據存儲在兩臺不同的磁盤驅動器上,從而生成兩個數據拷貝的技術。如果一臺磁盤驅動器出現(xiàn)故障,那么正常運行的磁盤驅動器上的數據將完好無損,并且控制器可繼續(xù)通過鏡像對中仍正常運行的磁盤來滿足主機的數據請求。在用新磁盤替換故障磁盤后,控制器會從鏡像對中仍正常運行的磁盤上拷貝數據。該過程對主機是透明的。除了提供完善的數據冗余外,鏡像還支持從磁盤故障中快速恢復數據。但是,磁盤鏡像只提供數據保護,而不能代替數據備份。鏡像會不斷捕獲數據更改,而備份則捕獲數據在某個時間點的映像。鏡像涉及數據復制,因而所需的存儲容量是存儲數據量的兩倍。因此,鏡像的成本較高,比較適合不能承擔任何數據丟失風險的任務關鍵型應用程序。鏡像可提高讀取性能,因為有兩臺磁盤可以處理讀取請求,但是寫入性能稍弱于單個磁盤的性能,因為每個寫入請求在磁盤驅動器上都表現(xiàn)為兩次寫入。鏡像無法與分條RAID提供相同級別的寫入性能。3.?奇偶校驗奇偶校驗是一種既能為分條RAID提供數據保護,又能避免鏡像所需開銷的方法,是一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論