版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫學(xué)號:1004458班級:193113姓名:華秀指導(dǎo)老師:李程俊1月20日目錄TOC\o"1-2"\h\u9028一、數(shù)據(jù)倉庫的定義 15013二、實時數(shù)據(jù)倉庫的技術(shù)基礎(chǔ)和研究現(xiàn)狀 21961.技術(shù)基礎(chǔ): 257602.研究現(xiàn)狀 613922三、什么是OLTP、OLAP它們的區(qū)別有哪些? 62225OLTP: 615442OLAP: 68304OLAP和OLTP的區(qū)別 715110四、OLAP有哪些操作 72724五、數(shù)據(jù)立方體 88469六、數(shù)據(jù)挖掘分類 925493七、數(shù)據(jù)挖掘技術(shù) 102444(1)決策樹辦法 104722(2)關(guān)聯(lián)規(guī)則 1032208(3)神經(jīng)網(wǎng)絡(luò) 101590(4)遺傳算法 1014193(5)聚類分析 111711(6)統(tǒng)計學(xué)習(xí) 1127031(7)粗糙集 118874八、Kmeans聚類算法 11一、數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫之父BillInmon在1991年出版的“BuildingtheDataWarehouse”一書中所提出的定義被廣泛接受:數(shù)據(jù)倉庫(DataWarehouse)是一種面對主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策(DecisionMakingSupport)。對于數(shù)據(jù)倉庫的概念我們能夠從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面對分析型數(shù)據(jù)解決,它不同于公司現(xiàn)有的操作型數(shù)據(jù)庫;另首先,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),并且寄存在數(shù)據(jù)倉庫中的數(shù)據(jù)普通不再修改。數(shù)據(jù)倉庫是近年來才提出的新概念.所謂數(shù)據(jù)倉庫(DataWarehouse)是指這樣一種數(shù)據(jù)的存儲地,來自于異地、異構(gòu)的數(shù)據(jù)源或數(shù)據(jù)庫的數(shù)據(jù)經(jīng)加工后在數(shù)據(jù)倉庫中存儲、提取和維護(hù).傳統(tǒng)數(shù)據(jù)庫重要面對業(yè)務(wù)解決,而數(shù)據(jù)倉庫面對復(fù)雜數(shù)據(jù)分析、高層決策支持.數(shù)據(jù)倉庫提供來自種類不同的應(yīng)用系統(tǒng)的集成化和歷史化的數(shù)據(jù),為有關(guān)部門或公司進(jìn)行全局范疇的戰(zhàn)略決策和長久趨勢分析提供了有效的支持.數(shù)據(jù)倉庫使顧客擁有任意提取數(shù)據(jù)的自由,而不干擾業(yè)務(wù)數(shù)據(jù)庫的正常運(yùn)行.現(xiàn)在,某些公司已經(jīng)在傳統(tǒng)數(shù)據(jù)解決方面有了較豐富的經(jīng)驗,他們采用數(shù)據(jù)倉庫但愿能從中得到更多好處,例如,以合理的代價獲得有效的決策支持、增進(jìn)公司中業(yè)務(wù)解決過程的重組、改善并強(qiáng)化對客戶的服務(wù)、強(qiáng)化公司的資產(chǎn)/負(fù)債管理、增進(jìn)市場優(yōu)化、加速資金周轉(zhuǎn)、協(xié)助實現(xiàn)公司的規(guī)模優(yōu)化.數(shù)據(jù)倉庫的產(chǎn)生和發(fā)展為數(shù)據(jù)采掘技術(shù)開辟了新的戰(zhàn)場,同時也提出了新的規(guī)定和挑戰(zhàn).現(xiàn)在的研究還重要著眼于數(shù)據(jù)倉庫的構(gòu)建和維護(hù)的基本理論、辦法上,例如數(shù)據(jù)倉庫更新問題的研究,由于這是邁向?qū)嵱没牡谝徊降?、首要的任?wù).下一步將把重點放在數(shù)據(jù)倉庫的有效應(yīng)用研究上.為高級的決策支持服務(wù)是數(shù)據(jù)倉庫的最后目的,因此基于數(shù)據(jù)倉庫的數(shù)據(jù)采掘理論和技術(shù)的研究,自然成為信息科學(xué)學(xué)術(shù)界的熱點問題.二、實時數(shù)據(jù)倉庫的技術(shù)基礎(chǔ)和研究現(xiàn)狀1.技術(shù)基礎(chǔ):數(shù)據(jù)倉庫系列技術(shù),重要支撐技術(shù)有下列某些:數(shù)據(jù)庫技術(shù)、ETL技術(shù)、OLAP技術(shù)、元數(shù)據(jù)管理技術(shù)、前臺呈現(xiàn)技術(shù)、報表技術(shù)、挖掘技術(shù)、仿真優(yōu)化技術(shù)。這些支撐技術(shù)結(jié)合各行業(yè)業(yè)務(wù)后,能夠生產(chǎn)各式各樣的應(yīng)用。固然這些技術(shù)中,重點突出了在數(shù)據(jù)倉庫方面的特性,而無視了計算機(jī)技術(shù)的某些特性。例如:OLAP技術(shù),那么就需要計算機(jī)存儲技術(shù)、壓縮技術(shù)、分區(qū)技術(shù)、加解密技術(shù)、圖形化技術(shù)等等,這里就不再單獨列示。數(shù)據(jù)庫技術(shù)是支撐數(shù)據(jù)倉庫技術(shù)的最基礎(chǔ)技術(shù)。有關(guān)系數(shù)據(jù)庫、層次數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫等類型,現(xiàn)在呈現(xiàn)比較好的發(fā)展態(tài)勢的對象關(guān)系數(shù)據(jù)庫也是一種類型。最典型的是關(guān)系數(shù)據(jù)庫的應(yīng)用。在數(shù)據(jù)倉庫實踐中,關(guān)系數(shù)據(jù)庫是實質(zhì)的數(shù)據(jù)庫存儲工具,但針對不同的數(shù)據(jù)倉庫方案,有的關(guān)系數(shù)據(jù)庫是還提供了有關(guān)的數(shù)據(jù)倉庫元素的查詢函數(shù)或組件,在支撐數(shù)據(jù)倉庫數(shù)據(jù)存儲的基礎(chǔ)上,還能支撐數(shù)據(jù)倉庫的數(shù)據(jù)探查,例如:Teradata,但是,大部分?jǐn)?shù)據(jù)庫,以及在大部分?jǐn)?shù)據(jù)倉庫建設(shè)方案中,只是運(yùn)用數(shù)據(jù)庫作為數(shù)據(jù)存儲的工具。這樣,實質(zhì)上數(shù)據(jù)倉庫與數(shù)據(jù)庫在技術(shù)體現(xiàn)看起來可能是同樣的,但是,在系統(tǒng)存儲模型上卻有著本質(zhì)的區(qū)別。數(shù)據(jù)庫技術(shù)在存儲模型建設(shè)方面強(qiáng)調(diào)數(shù)據(jù)模型的規(guī)范性和高效存儲能力(少冗余),例如:關(guān)系模式符合第三范式。但是,數(shù)據(jù)倉庫技術(shù)在存儲模型建設(shè)方面強(qiáng)調(diào)數(shù)據(jù)查詢的方便性和快速響應(yīng)能力。那么,在數(shù)據(jù)倉庫技術(shù)存儲模型方面,基于數(shù)據(jù)庫技術(shù)而發(fā)展的關(guān)系模式的理念已經(jīng)被顛覆,取而代之是多個各樣的數(shù)據(jù)倉庫數(shù)據(jù)模型。如:星型模型,雪花模型等等。數(shù)據(jù)庫表也將原來的關(guān)系模式改稱為了事實表和維表,將原來數(shù)據(jù)庫技術(shù)中并不關(guān)心的屬性域及之間的關(guān)系,也分別取了自己的業(yè)務(wù)名稱,如:維度,量度,層次,粒度等。星形構(gòu)造數(shù)據(jù)模型:
雪花構(gòu)造數(shù)據(jù)模型:
兩者區(qū)別:星型架構(gòu)中,每個維度都有一種由某些部分構(gòu)成的主鍵,該主鍵連接到事實數(shù)據(jù)表中由多個部分構(gòu)成的主鍵的一種部分。在雪花模型中,一種或多個維表分解成多個表,每個表都有連接到主維度表而不是事實數(shù)據(jù)表的有關(guān)性維度表。
ETL技術(shù)是支撐數(shù)據(jù)倉庫系統(tǒng)正常運(yùn)轉(zhuǎn)的基本技術(shù)。由于數(shù)據(jù)倉庫系統(tǒng)是集成的、與時間有關(guān)的數(shù)據(jù)集合。隨著時間的推移,多個新數(shù)據(jù)的進(jìn)入,舊數(shù)據(jù)的轉(zhuǎn)移等等工作,倉庫建設(shè)前后,都沒有間斷過。要實現(xiàn)這些數(shù)據(jù)的自動更新運(yùn)轉(zhuǎn),以及新業(yè)務(wù)數(shù)據(jù)、舊格式新的不同代碼的數(shù)據(jù)進(jìn)行較好的適應(yīng)性自動更新運(yùn)轉(zhuǎn),ETL技術(shù)是必不可少的技術(shù)之一。ETL是Extraction、Transformation、Loading數(shù)據(jù)抽取、轉(zhuǎn)換、裝載系統(tǒng),該系統(tǒng)整合不同的數(shù)據(jù)源過來的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行初步的規(guī)格化整頓,清洗除雜。OLAP技術(shù)聯(lián)機(jī)分析解決(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當(dāng)時,Codd認(rèn)為聯(lián)機(jī)事務(wù)解決(OLTP)已不能滿足終端顧客對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫進(jìn)行的簡樸查詢也不能滿足顧客分析的需求。顧客的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計算才干得到成果,而查詢的成果并不能滿足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。Codd提出OLAP的12條準(zhǔn)則來描述OLAP系統(tǒng)。基于Codd的12條準(zhǔn)則,各個軟件開發(fā)廠家見仁見智,其中一種流派,認(rèn)為能夠沿用關(guān)系型數(shù)據(jù)庫來存儲多維數(shù)據(jù),于是,基于稀疏矩陣表達(dá)辦法的星型構(gòu)造(starschema)就出現(xiàn)了。后來又演化出雪花構(gòu)造。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫的OLAP稱為RelationalOLAP,簡稱ROLAP。代表產(chǎn)品有InformixMetacube、MicrosoftSQLServerOLAPServices。ArborSoftware嚴(yán)格遵照Codd的定義,自行建立了多維數(shù)據(jù)庫,來寄存聯(lián)機(jī)分析系統(tǒng)數(shù)據(jù),開創(chuàng)了多維數(shù)據(jù)存儲的先河,后來的諸多家公司紛紛采用多維數(shù)據(jù)存儲。被人們稱為MuiltdimensionOLAP,簡稱MOLAP,代表產(chǎn)品有Hyperion(原ArborSoftware)Essbase、ShowcaseStrategy等。相對于ServerOLAP而言。部分分析工具廠家建議把部分?jǐn)?shù)據(jù)下載到本地,為顧客提供本地的多維分析。代表產(chǎn)品有BrioDesigner,BusinessObject。這樣也形成了另一種OLAP俗稱ClientOLAP??v觀整個OLAP以及BI的發(fā)展歷史,從OLTP統(tǒng)計功效à特定模型查詢開發(fā)àROLAPàMOLAP和ClientOLAP,這樣一種產(chǎn)品的不停創(chuàng)新發(fā)展過程中,使OLAP技術(shù)不停成熟和得到市場的承認(rèn),也為BI應(yīng)用提供了較好的技術(shù)保障,使得與傳統(tǒng)的OLTP系統(tǒng)在市場中平分秋色。基于Codd的12條準(zhǔn)則具體是:準(zhǔn)則1OLAP模型必須提供多維概念視圖;準(zhǔn)則2透明性準(zhǔn)則;準(zhǔn)則3存取能力推測;準(zhǔn)則4穩(wěn)定的報表能力;準(zhǔn)則5客戶/服務(wù)器體系構(gòu)造;準(zhǔn)則6維的等同性準(zhǔn)則;準(zhǔn)則7動態(tài)的稀疏矩陣解決準(zhǔn)則;準(zhǔn)則8多顧客支持能力準(zhǔn)則;準(zhǔn)則9非受限的跨維操作;準(zhǔn)則10直觀的數(shù)據(jù)操縱;準(zhǔn)則11靈活的報表生成;準(zhǔn)則12不受限的維與聚集層次元數(shù)據(jù)管理技術(shù):所謂元數(shù)據(jù)metadata是有關(guān)數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目的定義,轉(zhuǎn)換規(guī)則等有關(guān)的核心數(shù)據(jù)。同時元數(shù)據(jù)還包含有關(guān)數(shù)據(jù)含義的商業(yè)信息,全部這些信息都應(yīng)當(dāng)妥善保存,并較好地管理。為數(shù)據(jù)倉庫的發(fā)展和使用提供方便。元數(shù)管理中,能有效的優(yōu)化數(shù)據(jù)倉庫中的多個數(shù)據(jù)模型,乃至能夠通過元數(shù)據(jù)管理實現(xiàn)一種多個數(shù)據(jù)倉庫數(shù)據(jù)模型的生產(chǎn)平臺。高效的建立數(shù)據(jù)模型,并同時高效的管理對無感情數(shù)據(jù)的描述數(shù)據(jù),數(shù)據(jù)一致,描述一致,理解一致,使模型能不停改善和繼承。前臺呈現(xiàn)技術(shù):重要是含有對集成的數(shù)據(jù)模型(例如:倉庫模型、多維CUBE等)含有數(shù)據(jù)探查、檢索、靈活的圖表、甚至影像多媒體的呈現(xiàn)技術(shù)。前臺呈現(xiàn)技術(shù)重要的技術(shù)目的是將沒有感情的、枯燥的構(gòu)造化數(shù)據(jù),用和諧的方式、靈活的方式、可定義的方式呈現(xiàn)出來,使不懂?dāng)?shù)據(jù)構(gòu)造的人一眼就能夠理解其中數(shù)據(jù)的含義和業(yè)務(wù)體現(xiàn)?,F(xiàn)在已經(jīng)進(jìn)行較好實踐該技術(shù)的產(chǎn)品,主流重要有:CognosPowerplay,Bo,Brio等等。報表技術(shù):該技術(shù)重要是將集成的數(shù)據(jù)模型(例如:倉庫模型、多維CUBE等)里的數(shù)據(jù),按照復(fù)雜的格式、指定行列統(tǒng)計項形成的特殊的報表。普通簡樸的報表能夠使用前臺呈現(xiàn)技術(shù)實現(xiàn),而復(fù)雜的報表則需要報表技術(shù)來滿足規(guī)定。報表技術(shù)中,能夠靈活的制訂多個報表模版庫和指標(biāo)庫,根據(jù)每個區(qū)塊或單元格的需要引用指標(biāo),實現(xiàn)一系列復(fù)雜的符合規(guī)定的報表成果?,F(xiàn)在重要的主流產(chǎn)品有:CognosR,Brio,CrystalReports,OracleReports等等。挖掘技術(shù):該技術(shù)能實現(xiàn)找出數(shù)據(jù)庫中隱藏的信息,用模型來擬合數(shù)據(jù),探索型數(shù)據(jù)分析(Exploratorydataanalysis),數(shù)據(jù)驅(qū)動型的發(fā)現(xiàn)(Datadrivendiscovery),演繹型學(xué)習(xí)(Deductivelearning)功效。運(yùn)用一種或多個算法,對海量數(shù)據(jù)進(jìn)行探索,試圖發(fā)現(xiàn)未知的模式或關(guān)系,最后做出預(yù)測或總結(jié)規(guī)律。使用挖掘技術(shù)建立的數(shù)據(jù)模型我們稱為挖掘模型。挖掘模型的精度是挖掘模型的生命。影響模型的精度的因素重要有下列某些方面的重要因素:(1)建模數(shù)據(jù)的數(shù)據(jù)質(zhì)量以及應(yīng)用模型的數(shù)據(jù)質(zhì)量;(2)對不同數(shù)據(jù)的業(yè)務(wù)理解,并能有效的寬定預(yù)選模型變量因素;(3)模型的對的的模式使用和挖掘算法使用;(4)模型的對的參數(shù)使用和技巧使用?,F(xiàn)在主流的挖掘工具重要有:DataMinerforJava,DB2IntelligentMiner,AnalysisServices(MinerEngine),SASEnterpriseMiner,Clementine等等。仿真優(yōu)化技術(shù):仿真優(yōu)化技術(shù)是運(yùn)用一系列參數(shù)化的條件來模擬現(xiàn)實復(fù)雜環(huán)境中的人和物,根據(jù)各活動實體的內(nèi)在復(fù)雜關(guān)系的互相作用,在實驗室中就能夠預(yù)知將來的一種技術(shù)辦法。仿真技術(shù)是對現(xiàn)實場景的模擬,然后,運(yùn)用模擬的模型,推演將來。影響仿真推演,獲得最優(yōu)化方案的重要因素有:對現(xiàn)實環(huán)境中多個因素及影響權(quán)重的充足考慮并得到技術(shù)表達(dá);對多個因素之間復(fù)雜聯(lián)系充足定義;數(shù)據(jù)充足且質(zhì)量可靠;仿真及優(yōu)化算法及參數(shù)運(yùn)用得當(dāng)?,F(xiàn)在市面重要有的產(chǎn)品有:SIMUL8,Matlab等等。2.研究現(xiàn)狀實時數(shù)據(jù)倉庫面臨的第一種挑戰(zhàn)就是數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載進(jìn)數(shù)據(jù)倉庫的過程。幾乎全部的ETL工具和系統(tǒng),不管是由廠商提供的還是顧客單獨編程實現(xiàn)的,都是基于批解決的工作模式.源數(shù)據(jù)普通按每天、每七天或每月這種固定的周期加載進(jìn)數(shù)據(jù)倉庫。并且在數(shù)據(jù)加載的過程中,數(shù)據(jù)倉庫處在停工的狀態(tài),顧客不允許訪問數(shù)據(jù)倉庫。普通這種盯L過程是在夜晚進(jìn)行的,因此對傳統(tǒng)數(shù)據(jù)倉庫的顧客沒有什么影響,但是實時數(shù)據(jù)倉庫就不允許數(shù)據(jù)倉庫處在這種停工的基于盯L實時數(shù)據(jù)倉庫數(shù)據(jù)加載方式是批解決的過程,是通過不停縮短批解決的周期,盡量靠近實時。這是一種準(zhǔn)實時數(shù)據(jù)倉庫的實現(xiàn)模式。若顧客對實時性的規(guī)定并不高,例如能夠接受按一天或幾小時的實時性,這是一種較好解決方案,由于這種方案基于傳統(tǒng)數(shù)據(jù)倉庫,是對傳統(tǒng)數(shù)據(jù)倉庫的改善,不會變化原有投資:但如果顧客實時性規(guī)定比較高,采用這種方式,就要不停增加硬件投入,通過提高系統(tǒng)的執(zhí)行性能解決實時性的問題,又會增加顧客的投資,因此這是一種準(zhǔn)實時的方式,而不是真正意義上的實時數(shù)據(jù)倉庫。三、什么是OLTP、OLAP它們的區(qū)別有哪些?OLTP:On-LineTransactionProcessing聯(lián)機(jī)事務(wù)解決系統(tǒng)(OLTP)也稱為面對交易的解決系統(tǒng),其基本特性是顧客的原始數(shù)據(jù)能夠立刻傳送到計算中心進(jìn)行解決,并在很短的時間內(nèi)給出解決成果。這樣做的最大優(yōu)點是能夠即時地解決輸入的數(shù)據(jù),及時地回答。也稱為實時系統(tǒng)(RealtimeSystem)。衡量聯(lián)機(jī)事務(wù)解決系統(tǒng)的一種重要性能指標(biāo)是系統(tǒng)性能,具體體現(xiàn)為實時響應(yīng)時間(ResponseTime),即顧客在終端上送入數(shù)據(jù)之后,到計算機(jī)對這個請求給出回復(fù)所需要的時間。OLTP數(shù)據(jù)庫旨在使事務(wù)應(yīng)用程序僅寫入所需的數(shù)據(jù),方便盡快解決單個事務(wù)。支持大量并發(fā)顧客定時添加和修改數(shù)據(jù)。反映隨時變化的單位狀態(tài),但不保存其歷史統(tǒng)計。包含大量數(shù)據(jù),其中涉及用于驗證事務(wù)的大量數(shù)據(jù)。含有復(fù)雜的構(gòu)造。能夠進(jìn)行優(yōu)化以對事務(wù)活動做出響應(yīng)。提供用于支持單位日常運(yùn)行的技術(shù)基礎(chǔ)構(gòu)造。個別事務(wù)能夠很快地完畢,并且只需訪問相對較少的數(shù)據(jù)。OLTP系統(tǒng)旨在解決同時輸入的成百上千的事務(wù)。OLAP:聯(lián)機(jī)分析解決,英文名稱為On-LineAnalysisProcessing,簡寫為OLAP。隨著數(shù)據(jù)庫技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫存儲的數(shù)據(jù)量從20世紀(jì)80年代的兆(M)字節(jié)及千兆(G)字節(jié)過渡到現(xiàn)在的兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時,顧客的查詢需求也越來越復(fù)雜,涉及的已不僅是查詢或操縱一張關(guān)系表中的一條或幾條統(tǒng)計,并且要對多張表中千萬條統(tǒng)計的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一規(guī)定。操作型應(yīng)用和分析型應(yīng)用,特別是在性能上難以兩全,人們經(jīng)常在關(guān)系數(shù)據(jù)庫中放寬了對冗余的限制,引入了統(tǒng)計及綜合數(shù)據(jù),但這些統(tǒng)計綜合數(shù)據(jù)的應(yīng)用邏輯是分散而雜亂的、非系統(tǒng)化的,因此分析功效有限,不靈活,維護(hù)困難。在國外,不少軟件廠商采用了發(fā)展其前端產(chǎn)品來彌補(bǔ)關(guān)系數(shù)據(jù)庫管理系統(tǒng)支持的局限性,他們通過專門的數(shù)據(jù)綜合引擎,輔之以更加直觀的數(shù)據(jù)訪問界面,力圖統(tǒng)一分散的公共應(yīng)用邏輯,在短時間內(nèi)響應(yīng)非數(shù)據(jù)解決專業(yè)人員的復(fù)雜查詢規(guī)定。1993年,E.F.Codd(關(guān)系數(shù)據(jù)庫之父)將這類技術(shù)定義為“聯(lián)機(jī)分析解決”。聯(lián)機(jī)分析解決是共享多維信息的、針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析的快速軟件技術(shù)。它通過對信息的多個可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行進(jìn)一步觀察。決策數(shù)據(jù)是多維數(shù)據(jù),多維數(shù)據(jù)就是決策的重要內(nèi)容。OLAP專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,能夠根據(jù)分析人員的規(guī)定快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢解決,并且以一種直觀而易懂的形式將查詢成果提供應(yīng)決策人員,方便他們精確掌握公司(公司)的經(jīng)營狀況,理解對象的需求,制訂對的的方案。聯(lián)機(jī)分析解決含有靈活的分析功效、直觀的數(shù)據(jù)操作和分析成果可視化表達(dá)等突出優(yōu)點,從而使顧客對基于大量復(fù)雜數(shù)據(jù)的分析變得輕松而高效,以利于快速做出對的判斷。它可用于證明人們提出的復(fù)雜的假設(shè),其成果是以圖形或者表格的形式來表達(dá)的對信息的總結(jié)。它并不將異常信息標(biāo)記出來,是一種知識證明的辦法。OLAP和OLTP的區(qū)別OLTPOLAP顧客操作人員,低層管理人員決策人員,高級管理人員功效日常操作解決分析決策DB設(shè)計面對應(yīng)用面對主題數(shù)據(jù)現(xiàn)在的,最新的細(xì)節(jié)的,二維的分立的歷史的,聚集的,多維的集成的,統(tǒng)一的存取讀/寫數(shù)十條統(tǒng)計讀上百萬條統(tǒng)計工作單位簡樸的事務(wù)復(fù)雜的查詢顧客數(shù)上千個上百個DB大小100MB-GB100GB-TB四、OLAP有哪些操作我們已經(jīng)懂得OLAP的操作是以查詢——也就是數(shù)據(jù)庫的SELECT操作為主,但是查詢能夠很復(fù)雜,例如基于關(guān)系數(shù)據(jù)庫的查詢能夠多表關(guān)聯(lián),能夠使用COUNT、SUM、AVG等聚合函數(shù)。OLAP正是基于多維模型定義了某些常見的面對分析的操作類型是這些操作顯得更加直觀。OLAP的多維分析操作涉及:鉆?。―rill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(zhuǎn)(Pivot),下面還是以上面的數(shù)據(jù)立方體為例來逐個解釋下:
鉆?。―rill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將匯總數(shù)據(jù)拆分到更細(xì)節(jié)的數(shù)據(jù),例如通過對第二季度的總銷售數(shù)據(jù)進(jìn)行鉆取來查看第二季度4、5、6每月的消費數(shù)據(jù),如上圖;固然也能夠鉆取浙江省來查看杭州市、寧波市、溫州市……這些都市的銷售數(shù)據(jù)。上卷(Roll-up):鉆取的逆操作,即從細(xì)粒度數(shù)據(jù)向高層的聚合,如將江蘇省、上海市和浙江省的銷售數(shù)據(jù)進(jìn)行匯總來查看江浙滬地區(qū)的銷售數(shù)據(jù),如上圖。切片(Slice):選擇維中特定的值進(jìn)行分析,例如只選擇電子產(chǎn)品的銷售數(shù)據(jù),或者第二季度的數(shù)據(jù)。切塊(Dice):選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析,例如選擇第一季度到第二季度的銷售數(shù)據(jù),或者是電子產(chǎn)品和日用品的銷售數(shù)據(jù)。旋轉(zhuǎn)(Pivot):即維的位置的交換,就像是二維表的行列轉(zhuǎn)換,如圖中通過旋轉(zhuǎn)實現(xiàn)產(chǎn)品維和地區(qū)維的交換。五、數(shù)據(jù)立方體數(shù)據(jù)立方體是一類多維矩陣,讓顧客從多個角度探索和分析數(shù)據(jù)集,普通是一次同時考慮三個因素(維度)。當(dāng)我們試圖從一堆數(shù)據(jù)中提取信息時,我們需要工具來協(xié)助我們找到那些有關(guān)聯(lián)的和重要的信息,以及探討不同的情景。一份報告,不管是印在紙上的還是出現(xiàn)在屏幕上,都是數(shù)據(jù)的二維表達(dá),是行和列構(gòu)成的表格。在我們只有兩個因素要考慮時,這就足矣,但在真實世界中我們需要更強(qiáng)的工具。數(shù)據(jù)立方體是二維表格的多維擴(kuò)展,猶如幾何學(xué)中立方體是正方形的三維擴(kuò)展同樣。“立方體”這個詞讓我們想起三維的物體,我們也能夠把三維的數(shù)據(jù)立方體看作是一組類似的互相疊加起來的二維表格。但是數(shù)據(jù)立方體不局限于三個維度。大多數(shù)在線分析解決(OLAP)系統(tǒng)能用諸多個維度構(gòu)建數(shù)據(jù)立方體,例如,微軟的SQLServerAnalysisServices工具允許維度數(shù)高達(dá)64個(即使在空間或幾何范疇想像更高維度的實體還是個問題)。在實際中,我們常慣用諸多個維度來構(gòu)建數(shù)據(jù)立方體,但我們傾向于一次只看三個維度。數(shù)據(jù)立方體之因此有價值,是由于我們能在一種或多個維度上給立方體做索引。關(guān)系OLAP就運(yùn)用了關(guān)系數(shù)據(jù)庫模型。ROLAP數(shù)據(jù)立方體是按關(guān)系表格的集合實現(xiàn)的(最多可達(dá)維度數(shù)目的兩倍),來替代多維陣列。其中的表格叫做立方單元,代表特定的視圖。由于立方單元是一種常規(guī)的數(shù)據(jù)庫表格,因此我們能用傳統(tǒng)的RDBMS技術(shù)(如索引和連接)來解決和查詢它們。這種形式對大量的數(shù)據(jù)集合可能是有效的,由于這些表格必須只能包含實際有數(shù)據(jù)的數(shù)據(jù)立方單元。但是ROLAP缺少了用MOLAP實現(xiàn)時所含有的內(nèi)在索引功效。相反,給定表格中的每個統(tǒng)計必須涉及全部的屬性值而任何集合的或摘要的數(shù)據(jù)。這種額外的開銷可能會抵消掉某些節(jié)省出來的空間,而隱性索引的缺少意味著我們必須提供顯性的索引。從構(gòu)造角度看,數(shù)據(jù)立方體由兩個單元構(gòu)成:維度和測度。維度已經(jīng)解釋過了,測度就是實際的數(shù)據(jù)值。六、數(shù)據(jù)挖掘分類從不同的視角看,數(shù)據(jù)挖掘技術(shù)有幾個分類辦法[2]:根據(jù)發(fā)現(xiàn)知識的種類分類;根據(jù)挖掘的數(shù)據(jù)庫的種類分類和根據(jù)采用的技術(shù)分類.*根據(jù)發(fā)現(xiàn)知識的種類分類這種分類辦法有:總結(jié)(Summarization)規(guī)則采掘、特性(Characterization)規(guī)則采掘、關(guān)聯(lián)(Association)規(guī)則采掘、分類(Classification)規(guī)則采掘、聚類(Clustering)規(guī)則采掘、趨勢(Trend)分析、偏差(Deviation)分析、模式分析(PatternAnalysis)等.如果以采掘知識的抽象層次劃分,又有原始層次(PrimitiveLevel)的數(shù)據(jù)采掘、高層次(HighLevel)的數(shù)據(jù)采掘和多層次(MultipleLevel)的數(shù)據(jù)采掘等.*根據(jù)采掘的數(shù)據(jù)庫分類數(shù)據(jù)采掘基于的數(shù)據(jù)庫類型有:關(guān)系型(Relational)、事務(wù)型Transactional)、面對對象型(Objected-Oriented)、主動型(Active)、空間型(Spatial)、時間型(Temporal)、文本型(Textual)、多媒體(Multi-Media)、異質(zhì)(Heterogeneous)數(shù)據(jù)庫和遺留(Legacy)系統(tǒng)等.七、數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘中的慣用技術(shù)(1)決策樹辦法決策樹是代表著決策集的樹形構(gòu)造,普通都是自上而下生成的,選擇分類的辦法有諸多個,但是目的一致,就是對目的類嘗試最佳的分類。決策樹是一種慣用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到某些有價值的,潛在的信息。它的重要優(yōu)點是描述簡樸,分類速度快,特別適合大規(guī)模的數(shù)據(jù)解決。最有影響和最早的決策樹辦法是由quinlan提出的出名的基于信息嫡的ID3算法。它的重要問題是:ID3是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹,復(fù)雜概念的體現(xiàn)困難;同性間的互有關(guān)系強(qiáng)調(diào)不夠;抗噪性差。針對上述問題,出現(xiàn)了許多較好的改善算法,如Schhlnlner和fisher設(shè)計了ID4遞增式學(xué)習(xí)算法等。最為典型的決策樹學(xué)習(xí)算法是ID3算法,它采用自頂向下不回溯方略,確保找到一種簡樸的樹,算法C4.5是ID3算法的擴(kuò)展,將分類領(lǐng)域從類別屬性擴(kuò)展到數(shù)值型屬性。(2)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則用來揭示數(shù)據(jù)與數(shù)據(jù)之間未知的互相依賴關(guān)系。由一種條件和一種成果構(gòu)成的,形如IF...THEN…的簡樸形式就叫做規(guī)則,關(guān)聯(lián)規(guī)則挖掘就是掃描整個數(shù)據(jù)集,從中找出含有給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。其中最具代表性的是R.Agrawal提出的Apriori算法。(3)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)構(gòu)造的非線性預(yù)測模型,通過學(xué)習(xí)進(jìn)行模式識別。它基于人腦的組織模式,將眾多構(gòu)造和功效極其簡樸的神經(jīng)元通過多個方式聯(lián)接成一種復(fù)雜的網(wǎng)絡(luò)構(gòu)造,以實現(xiàn)復(fù)雜的智能行為。神經(jīng)網(wǎng)絡(luò)含有很強(qiáng)的自學(xué)習(xí)能力,能夠自動地從訓(xùn)練樣本中學(xué)習(xí)領(lǐng)域知識,網(wǎng)絡(luò)含有很強(qiáng)的自適應(yīng)能力,并且神經(jīng)網(wǎng)絡(luò)的智能活動體現(xiàn)為一種并行的聯(lián)想方式,能夠像人腦同樣實現(xiàn)快速的“推理”。神經(jīng)網(wǎng)絡(luò)能夠分成四種類型,即前向型、反饋型、隨機(jī)型和自組織競爭型。神經(jīng)網(wǎng)絡(luò)的性質(zhì)重要取決于兩個因素:一種是網(wǎng)絡(luò)的拓?fù)錁?gòu)造,另一種是網(wǎng)絡(luò)的權(quán)值和工作規(guī)則,這兩者結(jié)合起來構(gòu)成一種網(wǎng)絡(luò)的重要特性。隨著網(wǎng)絡(luò)構(gòu)造和功效的不同,網(wǎng)絡(luò)權(quán)值的學(xué)習(xí)算法也不同,從學(xué)習(xí)過程的組織與管理而言分有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí);從學(xué)習(xí)過程的推理和決策方式而言分?jǐn)M定性學(xué)習(xí)、隨機(jī)學(xué)習(xí)和含糊學(xué)習(xí)。(4)遺傳算法遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的搜索優(yōu)化算法。它首先將問題的可能的解按某種形式進(jìn)行編碼,編碼后的解稱為染色體;隨機(jī)選用N個染色體作為初始種群,再根據(jù)預(yù)定的評價函數(shù)對每個染色體計算適應(yīng)值,性能較好的染色體有較高的適應(yīng)值;選擇適應(yīng)值較高的染色體進(jìn)行復(fù)制,并通過遺傳算子,產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,形成新的種群,直至最后收斂到一種最適應(yīng)環(huán)境的個體,得到問題的最優(yōu)化解。(5)聚類分析聚類是將數(shù)據(jù)集分成若干不同的類,使得在同一類的數(shù)據(jù)對象盡量相似,而不同類中的數(shù)據(jù)盡量相異。聚類與分類的根本區(qū)別在于:分類需要事先懂得所根據(jù)的對象特性,而聚類是在不懂得對象特性的基礎(chǔ)上要找到這個特性。因此在諸多應(yīng)用中,聚類分析作為一種數(shù)據(jù)預(yù)解決過程,是進(jìn)一步分析和解決數(shù)據(jù)的基礎(chǔ)。聚類分析能夠作為一種獲得數(shù)據(jù)分布狀況、觀察每個類的特性和對特定類進(jìn)一步分析的獨立工具。通過聚類,能夠識別密集和稀疏的區(qū)域,發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間的互有關(guān)系等。(6)統(tǒng)計學(xué)習(xí)統(tǒng)計分析辦法重要用于完畢知識總結(jié)和關(guān)系型知識挖掘。對關(guān)系表中的各屬性進(jìn)行統(tǒng)計分析,找出它們之間存在的關(guān)系。關(guān)系表中的屬性之間普通存在兩種關(guān)系:第一種是函數(shù)關(guān)系,能用函數(shù)公式表達(dá)的擬定性關(guān)系。第二種是有關(guān)關(guān)系,即不能通過函數(shù)公式表達(dá)的關(guān)系,例如人的年紀(jì)與血壓之間,這些變量之間存在著親密的關(guān)系,但不能由一種(或幾個)變量的數(shù)值精確地求出另一種變量的值。但擬定性和有關(guān)關(guān)系之間并沒有一道不可逾越的鴻溝。由于測量誤差等因素,擬定性關(guān)系事實上往往通過有關(guān)關(guān)系呈現(xiàn)出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《電路分析基 礎(chǔ)》課件-西電第2章電路分析的基本方法
- 《大學(xué)英語聽力應(yīng)用教程(第1冊)》課件-Unit 12 What is Intelligence
- 杭州開創(chuàng)非融資性擔(dān)保有限公司的擔(dān)保合同
- 天津航道局勞務(wù)派遣合同
- 2025年三明貨運(yùn)從業(yè)資格證考試題庫
- 2025年太原貨運(yùn)資格證試題答案
- 2025年海西下載貨運(yùn)從業(yè)資格證模擬考試系統(tǒng)試題
- 2025年三亞貨運(yùn)從業(yè)資格證模擬考試下載
- 水電工程項目招標(biāo)疑問
- 水果中心配電房施工合同
- 醫(yī)院患者診療信息安全風(fēng)險評估和應(yīng)急工作機(jī)制制定應(yīng)急預(yù)案XX醫(yī)院患者診療信息安全風(fēng)險應(yīng)急預(yù)案
- 科技論文寫作PPTPPT通用課件
- 漆洪波教授解讀美國婦產(chǎn)科醫(yī)師學(xué)會“妊娠高血壓疾病指南2013版”
- 《劉姥姥進(jìn)大觀園》課本劇劇本3篇
- 標(biāo)準(zhǔn)OBD-II故障碼
- 連鑄機(jī)維護(hù)及維修標(biāo)準(zhǔn)
- 低壓配電室安全操作規(guī)程
- 廣東省醫(yī)療機(jī)構(gòu)應(yīng)用傳統(tǒng)工藝配制中藥制劑首次備案工作指南
- 大學(xué)英語議論文寫作模板
- 安川機(jī)器人遠(yuǎn)程控制總結(jié) 機(jī)器人端
- 良性陣發(fā)性位置性眩暈診療和治療
評論
0/150
提交評論