第1章 信息存儲的介紹_第1頁
第1章 信息存儲的介紹_第2頁
第1章 信息存儲的介紹_第3頁
第1章 信息存儲的介紹_第4頁
第1章 信息存儲的介紹_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 2009 EMC Corporation. All rights reserved.信息存儲和檢索 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 2 一.信息存儲: 1. 存儲系統(tǒng) 2. 存儲網(wǎng)絡(luò)技術(shù) 二. 信息檢索: 1. 布爾檢索 2. 詞項詞典與倒排記錄表 3.詞典及容錯式檢索 4.索引構(gòu)建 5.索引壓縮 6.文檔評分、詞項權(quán)重計算及向量空間模型 2009 EMC Corporation. All rights reserved.Introdu

2、ction to Information Storage and Management - 3 二. 信息檢索: 7.一個完整搜索系統(tǒng)中的評分計算 8.信息檢索的評價 9.相關(guān)反饋及查詢擴展 10.相關(guān)反饋及查詢擴展 11.XML 檢索 12.概率檢索模型 2009 EMC Corporation. All rights reserved.第1章 信息存儲與管理的介紹 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 5為什么要信息存儲為什么要信息存儲 “

3、數(shù)字時代 信息爆炸” 21st 世紀是一個信息時代 信息增長率不斷提高 信息是成功的重要要素 隨著數(shù)據(jù)獲取設(shè)備數(shù)量的增長及數(shù)據(jù)的廣泛應(yīng)用,越來越多的信息由個人產(chǎn)生,超過了商業(yè)信息的生產(chǎn)量。 當個人的信息被其他人共享時,該信息會增值。 信息產(chǎn)生時,通常存儲在本地設(shè)備上,如手機、攝像機、筆記本,需要對大量信息進行存儲和管理。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 6信息需要良性循環(huán)信息需要良性循環(huán)Users of InformationCentra

4、lized information storage and processingUploading informationAccessing informationWired WirelessWiredWirelessNetworkNetworkDemand for more InformationCreators of informationVirtuous cycle of information 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 7信

5、息存儲的重要性信息存儲的重要性 信息對商業(yè)的日益增長的重要性大大增加了對數(shù)據(jù)存儲和管理的挑戰(zhàn)性。 商業(yè)機構(gòu)需要管理的數(shù)據(jù)信息已經(jīng)驅(qū)動著各種策略的產(chǎn)生,使之在數(shù)據(jù)生命周期內(nèi),根據(jù)數(shù)據(jù)的價值來分類和創(chuàng)建數(shù)據(jù)管理規(guī)則。 本章描述信息存儲架構(gòu)的發(fā)展,從簡單的直連式模型都復(fù)雜的網(wǎng)絡(luò)拓撲。 還介紹信息生命周期管理(Information Lifecycle Management, ILM)策略。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 81.1: 信息存儲信

6、息存儲根據(jù)這一章節(jié), 可以了解: 描述信息對個人和商業(yè)的重要性 數(shù)據(jù)和信息的定義 數(shù)據(jù)的分類 存儲架構(gòu)和它的演化過程 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 91.1.1 數(shù)據(jù)數(shù)據(jù) 當前的數(shù)據(jù)主要指數(shù)字數(shù)據(jù),下面是一些促進數(shù)字數(shù)據(jù)增長的要素: 數(shù)據(jù)處理能力的提升 數(shù)字存儲的低成本 可負擔(dān)的和更快的通信技術(shù) 誰創(chuàng)建了數(shù)據(jù)? 個人 商業(yè)“數(shù)據(jù)是原始事實的集合,從中可以得到一些結(jié)論?!?101010101010101011010000101010110

7、10101010101010101010101010101010VideoPhotoBookLetterDigital Data 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 101.1.1 數(shù)據(jù)數(shù)據(jù) 研究和商業(yè)數(shù)據(jù)實例: 地震:包括收集不同來源和不同參數(shù)的地震數(shù)據(jù),以及其他需要處理后才有意義的相關(guān)數(shù)據(jù)。 生成數(shù)據(jù):包括產(chǎn)品不同方法的數(shù)據(jù),比如庫存、價格、可用量和銷售量。 客戶數(shù)據(jù):關(guān)系到公司客戶的數(shù)據(jù),比如訂購信息、發(fā)貨地址以及購買歷史清單。 醫(yī)療數(shù)

8、據(jù):涉及到醫(yī)療護理的數(shù)據(jù),比如病人歷史記錄、放射圖像、藥物詳細信息和其他醫(yī)療器械、保險信息等。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 111.1.2 數(shù)據(jù)類型數(shù)據(jù)類型 數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 其中超過80% 企業(yè)信息是非架構(gòu)化Rows and ColumnsContractsImagesManualsX-RaysInstant MessagesFormsE-Mail AttachmentsCheckDocumentsPDFsWeb P

9、agesAudio VideoInvoicesRich MediaStructured (20%)Unstructured (80%) 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 121.1.3 信息信息 不管是結(jié)構(gòu)化數(shù)據(jù)還是非架構(gòu)化數(shù)據(jù),除非在一個有意義的環(huán)境下,否則都不能滿足任何個人的或是商業(yè)的目的。 商業(yè)應(yīng)用分析原始數(shù)據(jù)以找出有意義的趨勢。基于這些基本趨勢,公司可以制定和修改其策略。例如,只需通過分析客戶的購買模式和維護客戶的物品清單,零售商就

10、可以辨認出客戶喜歡的樣式和品牌的名字。 有效的數(shù)據(jù)分析不僅給現(xiàn)在的商業(yè)應(yīng)用帶來利益,而且通過采用創(chuàng)造性方式使用數(shù)據(jù)還能創(chuàng)造出潛在的、新的商業(yè)機會。 “求職招聘門戶網(wǎng)站”就是這樣一個實例。為了接觸到更廣泛的潛在雇主,找工作的人把他們的簡歷發(fā)布在各種提供工作搜索功能的網(wǎng)站上。 這些網(wǎng)站收集這些簡歷并將其集中在一個可以讓雇主訪問的地方。另外,公司也會提供工作職位到求職招聘網(wǎng)站上。 “工作匹配軟件”就可以根據(jù)簡歷中的關(guān)鍵字和職位要求中的關(guān)鍵字進行匹配。 2009 EMC Corporation. All rights reserved.Introduction to Information Stora

11、ge and Management - 131.1.4 存儲存儲 由于個人和商業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)必須存儲起來,以便在進一步處理可以進行訪問。 在一個計算環(huán)境下,用來存儲數(shù)據(jù)的設(shè)備被稱為存儲設(shè)備(storage device,或簡稱storage)。 存儲設(shè)備的類型取決于數(shù)據(jù)類型以及數(shù)據(jù)創(chuàng)建和使用的頻率。像手機或數(shù)碼相機中的內(nèi)存、DVD、CD-ROM和個人電腦中的硬盤等都是存儲設(shè)備的實例。 商業(yè)應(yīng)用中通常使用的幾種存儲介質(zhì)包括內(nèi)部硬盤、外部磁盤陣列和磁帶。 2009 EMC Corporation. All rights reserved.Introduction to Information S

12、torage and Management - 141.2 存儲技術(shù)和架構(gòu)的發(fā)展存儲技術(shù)和架構(gòu)的發(fā)展 以前,所有的組織在其數(shù)據(jù)中心都有集中的計算機(大型)和信息存儲設(shè)備(磁帶卷和磁盤架)。 分散的企業(yè)部門內(nèi)部服務(wù)器導(dǎo)致了信息的難于保護、不易管理,并產(chǎn)生了信息孤島以及增加了操作的開銷。 起初,只有有限的策略和方法來管理這些服務(wù)器及其創(chuàng)建的數(shù)據(jù)。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 151.2 存儲技術(shù)和架構(gòu)的發(fā)展存儲技術(shù)和架構(gòu)的發(fā)展 為了克服這

13、些困難,存儲技術(shù)從非智能存儲發(fā)展到智能網(wǎng)絡(luò)存儲: 冗余磁盤陣列(Redundant Array of Independent Disks, RAID):這種技術(shù)是用來解決數(shù)據(jù)的存儲成本、性能和可用性等問題。 直接存儲(Direct-attached Storage, DAS): 存儲設(shè)備直接連接到服務(wù)器(主機)或是機器中的服務(wù)器組。存儲設(shè)備可以在服務(wù)器的內(nèi)部或者外部。外部DAS緩解了內(nèi)部存儲的容量限制。 存儲區(qū)域網(wǎng)(Storage Area Network, SAN): 這是一個專用的、高性能的光纖通道(FC)網(wǎng)絡(luò),用來完成服務(wù)器和存儲設(shè)備之間塊級別的通信。存儲設(shè)備被分區(qū)并指定給不同服務(wù)器,從

14、而被分別訪問。相比于DAS,SAN提供了更好的可擴展性、可用性、性能和更低的成本。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 16 網(wǎng)絡(luò)互聯(lián)存儲(Network-attached Storage, NAS): 這是一個專用于文件服務(wù)類應(yīng)用的存儲設(shè)備。不像SAN,它通過現(xiàn)有的通信網(wǎng)絡(luò)(LAN)連接,并為不同客戶提供文件訪問。由于它主要是為文件服務(wù)類應(yīng)用提供存儲服務(wù),所以較其他通用文件服務(wù)器,它有更高的擴展性、可用性、性能和更低的成本。 IP存儲區(qū)域網(wǎng)

15、(Internet Protocol SAN, IPSAN): IPSAN是存儲架構(gòu)里的一個最新的發(fā)展,是SAN和NAS技術(shù)的集成。IPSAN提供了在局域網(wǎng)和廣域網(wǎng)(LAN和WAN)上的塊級別傳輸,從而具有更高的數(shù)據(jù)融合性和可用性。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 17Storage Technology and Architecture EvolutionIP SANMulti Protocol RouterSAN / NASFC SA

16、NLANRAID ArrayJBODInternal DASTime 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 181.3 數(shù)據(jù)中心基礎(chǔ)設(shè)施數(shù)據(jù)中心基礎(chǔ)設(shè)施 企業(yè)組織通過數(shù)據(jù)中心為整個企業(yè)提供集中的數(shù)據(jù)處理能力。 數(shù)據(jù)中心基礎(chǔ)設(shè)施包括計算機、存儲系統(tǒng)、網(wǎng)絡(luò)設(shè)備、專用的備用電源和環(huán)境控制設(shè)備(如空調(diào)和滅火器) 大型組織通常維護多個數(shù)據(jù)中心,以便分散數(shù)據(jù)處理負擔(dān),并在災(zāi)難發(fā)生時提供數(shù)據(jù)備份。數(shù)據(jù)中心的存儲需求往往要不同的存儲架構(gòu)組合才能滿足。 2009

17、 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 191.3.1 核心部件核心部件 一個數(shù)據(jù)中心要實現(xiàn)基本功能,必須要有5個核心部件: - 應(yīng)用:一個應(yīng)用就是一個提供了計算操作邏輯的計算機程序。應(yīng)用(比如一個訂購處理系統(tǒng))可以部署在數(shù)據(jù)庫之上,通過使用操作系統(tǒng)提供的服務(wù)來完成對存儲設(shè)備的讀寫操作。 - 數(shù)據(jù)庫:通常,數(shù)據(jù)庫管理系統(tǒng)(DBMS)提供了一種結(jié)構(gòu)化方式,把數(shù)據(jù)存儲成具有關(guān)聯(lián)關(guān)系的邏輯表。DBMS可以優(yōu)化存儲和檢索數(shù)據(jù)的過程。 - 服務(wù)器和操作系統(tǒng):指運行

18、應(yīng)用和數(shù)據(jù)庫的計算平臺。 - 網(wǎng)絡(luò):指介于客戶端和服務(wù)器之間,或是服務(wù)器和存儲之間的一個數(shù)據(jù)通路。 -存儲陣列:永久存儲數(shù)據(jù)以供后續(xù)使用的設(shè)備。 通常這些核心部件都被視為獨立的管理單元,但只要所有這些部件一起工作才能達到數(shù)據(jù)處理的要求。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 20Example of an Order Processing SystemLANFC SANStorage ArrayDBMSServer/ OSApplication

19、 User InterfaceClient 1. 用戶通過客戶端的訂購處理軟件的用戶界面(AUI)發(fā)出一個訂單。 2. 客戶通過局域網(wǎng)(LAN)與服務(wù)器相連,通過服務(wù)器上的DBMS更新相關(guān)信息,如客戶姓名、地址、付款方式和訂購數(shù)量。 3. DBMS通過服務(wù)器操作系統(tǒng)將數(shù)據(jù)寫到存儲陣列中物理磁盤上的數(shù)據(jù)庫中。 4. 存儲網(wǎng)絡(luò)在服務(wù)器和存儲陣列之間提供了通信連接,并傳輸相關(guān)的讀寫命令。 5. 存儲陣列在接收到服務(wù)器的讀寫命令后,在物理磁盤上進行必要的存儲數(shù)據(jù)操作。 2009 EMC Corporation. All rights reserved.Introduction to Informati

20、on Storage and Management - 211.3.2 數(shù)據(jù)中心部件的關(guān)鍵需求數(shù)據(jù)中心部件的關(guān)鍵需求 數(shù)據(jù)中心操作的不可中斷性對商業(yè)機構(gòu)的生存和成功至關(guān)重要。因此,很有必要用一個可靠的存儲基礎(chǔ)設(shè)施來保證數(shù)據(jù)隨時可訪問。對數(shù)據(jù)中心的需求:AvailabilityData IntegritySecurityCapacityScalabilityPerformanceManageability 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 2

21、21.3.3 管理存儲基礎(chǔ)設(shè)施管理存儲基礎(chǔ)設(shè)施 管理一個現(xiàn)代的復(fù)雜數(shù)據(jù)中心牽涉到許多任務(wù)。關(guān)鍵的管理任務(wù)包括以下幾點: - 監(jiān)控(Monitoring): 持續(xù)不斷地收集信息和復(fù)查整個數(shù)據(jù)中心的基礎(chǔ)設(shè)施。數(shù)據(jù)中心需要監(jiān)控的方面包括安全性、性能、可訪問性和容量。 - 報告(Reporting):周期性地反映資源的性能、容量和使用率。報告可以幫助確定與數(shù)據(jù)中心運行相關(guān)的業(yè)務(wù)評判和分攤費用。 - 供應(yīng)(Provision):提供支持數(shù)據(jù)中心運行的性能、容量和使用率。供應(yīng)行為包括容量和資源規(guī)劃。 2009 EMC Corporation. All rights reserved.Introductio

22、n to Information Storage and Management - 231.4 信息管理中的關(guān)鍵挑戰(zhàn)信息管理中的關(guān)鍵挑戰(zhàn) 數(shù)字世界的爆炸:數(shù)字世界的爆炸: 信息的增長速度正呈指數(shù)級上升。為保證高可用性而進行的數(shù)據(jù)復(fù)制以及數(shù)據(jù)的多用途都是信息多重增長的重要原因。 對信息依賴的上升對信息依賴的上升 信息的策略性使用在決定商業(yè)成功上起到了重要的作用,并且在市場中也提供了競爭優(yōu)勢。 信息價值的改變信息價值的改變 今天看起來有價值的信息,在明天看來也許會貶值。信息的價值隨著時間不斷改變。 2009 EMC Corporation. All rights reserved.Introduc

23、tion to Information Storage and Management - 241.5 生命周期管理生命周期管理 信息生命周期(信息生命周期(Information Lifecycle):):是指隨著時間變化而發(fā)生的“信息價值的改變”。在創(chuàng)建之初,數(shù)據(jù)通常有最高的價值并且使用頻繁。隨著數(shù)據(jù)存在時間的不斷增加,對數(shù)據(jù)的訪問就不那么頻繁,其價值也在逐步降低。根據(jù)信息價值的變化,掌握信息生命周期對于部署合適的存儲基礎(chǔ)設(shè)施是十分有幫助的。CreateAccessMigrateArchiveDisposeNew orderValueProcess orderDeliver orderWar

24、ranty claimFulfilled orderAgeddataWarrantyVoidedProtect Time 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 251.5.1 信息生命周期管理處理信息生命周期管理處理信息生命周期管理信息生命周期管理(ILM)是一種主動的策略,它允許一個是一種主動的策略,它允許一個IT組織根據(jù)預(yù)先定組織根據(jù)預(yù)先定義的商業(yè)策略來高效地管理數(shù)據(jù)的整個生命周期,并通過優(yōu)化存儲基礎(chǔ)設(shè)義的商業(yè)策略來高效地管理數(shù)據(jù)的整個生命

25、周期,并通過優(yōu)化存儲基礎(chǔ)設(shè)施來實現(xiàn)最大的投資回報。施來實現(xiàn)最大的投資回報。ILM策略應(yīng)具有以下特征:策略應(yīng)具有以下特征: - 以業(yè)務(wù)為中心(以業(yè)務(wù)為中心(Business-centric): 它應(yīng)該和業(yè)務(wù)的關(guān)鍵流程、關(guān)鍵它應(yīng)該和業(yè)務(wù)的關(guān)鍵流程、關(guān)鍵應(yīng)用以及初始狀態(tài)整合在一起,以滿足現(xiàn)在和將來的信息增長需求。應(yīng)用以及初始狀態(tài)整合在一起,以滿足現(xiàn)在和將來的信息增長需求。 - 集中式管理(集中式管理(Centrally managed):業(yè)務(wù)的所有信息都應(yīng)該在業(yè)務(wù)的所有信息都應(yīng)該在ILM策略策略的考慮范圍之內(nèi)。的考慮范圍之內(nèi)。 - 基于策略的(基于策略的(Policy-based): ILM的實現(xiàn)不

26、應(yīng)該局限在幾個部門里。的實現(xiàn)不應(yīng)該局限在幾個部門里。它應(yīng)該作為一個策略來實現(xiàn),并且包含所有的業(yè)務(wù)應(yīng)用、流程和資源。它應(yīng)該作為一個策略來實現(xiàn),并且包含所有的業(yè)務(wù)應(yīng)用、流程和資源。 - 異構(gòu)的異構(gòu)的(heterogeneous): 一個一個ILM策略應(yīng)該把所有類型的存儲平臺和操策略應(yīng)該把所有類型的存儲平臺和操作系統(tǒng)都考慮進來。作系統(tǒng)都考慮進來。 - 優(yōu)化的優(yōu)化的(optimized):由于信息價值的不同,由于信息價值的不同,ILM策略應(yīng)該考慮不同的存策略應(yīng)該考慮不同的存儲需要,并且儲需要,并且 按照信息對商業(yè)的價值來分配存儲資源。按照信息對商業(yè)的價值來分配存儲資源。 2009 EMC Corpor

27、ation. All rights reserved.Introduction to Information Storage and Management - 26分層存儲分層存儲分層存儲是一種通過定義不同存儲級別來降低總體存儲成本的方法。每一分層存儲是一種通過定義不同存儲級別來降低總體存儲成本的方法。每一層都要不同級別的保護、性能、數(shù)據(jù)訪問頻率和其他考慮因素。層都要不同級別的保護、性能、數(shù)據(jù)訪問頻率和其他考慮因素。信息根據(jù)其在不同時間段內(nèi)的價值存儲在不同層上并進行相應(yīng)的移動。例信息根據(jù)其在不同時間段內(nèi)的價值存儲在不同層上并進行相應(yīng)的移動。例如,關(guān)鍵任務(wù)和最經(jīng)常訪問的信息需要存儲在第一層次,該

28、層次使用了最如,關(guān)鍵任務(wù)和最經(jīng)常訪問的信息需要存儲在第一層次,該層次使用了最高性能的存儲介質(zhì),也具有最高的保護級別。高性能的存儲介質(zhì),也具有最高的保護級別。中等訪問頻率和其他次重要數(shù)據(jù)存儲在第二個層次,該層次相應(yīng)的存儲介中等訪問頻率和其他次重要數(shù)據(jù)存儲在第二個層次,該層次相應(yīng)的存儲介質(zhì)會便宜些,其性能和保護能力也屬于中等。質(zhì)會便宜些,其性能和保護能力也屬于中等。很少使用或面向特殊事件使用的信息則可以存儲在更低的層次上。很少使用或面向特殊事件使用的信息則可以存儲在更低的層次上。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 271.5.2 ILM實現(xiàn)實現(xiàn)Policy-based Alignment of Storage Infrastructure with Data ValueAUTOMATE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論