




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)倉庫數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第1頁!參考教材數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用技術(shù)王麗珍等,科學(xué)出版社,2004年其它參考書Buildingthedatawarehouse,W.HInmon,機(jī)械工業(yè)出版社2004TheDataWarehouseToolkit(2ndEdition)R.Kimball電子工業(yè)出版社2002DataMining:ConceptsandTechniques.JiaweiHanandMichelineKamber.機(jī)械工業(yè)出版社,2001.史忠植,知識發(fā)現(xiàn),清華大學(xué)出版社,2002數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第2頁!課程主要內(nèi)容概述數(shù)據(jù)倉庫聯(lián)機(jī)分析處理數(shù)據(jù)倉庫的設(shè)計(jì)數(shù)據(jù)預(yù)處理
維度建模數(shù)據(jù)挖掘聚類關(guān)聯(lián)規(guī)則
分類數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第3頁!信息技術(shù)發(fā)展的幾個(gè)階段1960s:數(shù)據(jù)采集、數(shù)據(jù)庫創(chuàng)建階段集中于原始文件的處理層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫1970s:關(guān)系數(shù)據(jù)庫管理系統(tǒng)關(guān)系數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫管理系統(tǒng)E-R模型、SQL語言、查詢處理和優(yōu)化、OLTP(恢復(fù)和并發(fā)技術(shù))1980s:高級數(shù)據(jù)庫管理系統(tǒng)面向?qū)ο髷?shù)據(jù)庫、對象-關(guān)系數(shù)據(jù)庫、主動(dòng)數(shù)據(jù)庫、演繹數(shù)據(jù)庫、模糊數(shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)空數(shù)據(jù)庫、統(tǒng)計(jì)數(shù)據(jù)庫數(shù)據(jù)挖掘技術(shù)1990s:數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘,多媒體數(shù)據(jù)庫,Web數(shù)據(jù)庫、DataStream數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第4頁!企業(yè)信息化建設(shè)提出了更高的要求市場競爭日益激烈—?jiǎng)?chuàng)造競爭優(yōu)勢需要及時(shí)、準(zhǔn)確的做出科學(xué)決策科學(xué)決策必須以準(zhǔn)確、有效的數(shù)據(jù)為基礎(chǔ)充分利用現(xiàn)有數(shù)據(jù),將它轉(zhuǎn)化為信息數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第5頁!操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別原始數(shù)據(jù)/操作型數(shù)據(jù)導(dǎo)出數(shù)據(jù)/分析型數(shù)據(jù)面向應(yīng)用面向主題詳細(xì)的綜合的,或提煉的在訪問瞬間是準(zhǔn)確的代表過去的數(shù)據(jù),快照是為日常工作服務(wù)為管理者服務(wù)可更新不更新重復(fù)運(yùn)行啟發(fā)式運(yùn)行處理需求預(yù)先可知處理需求事先不知道非冗余性總是存在冗余對性能要求高對性能要求寬松一次訪問一個(gè)單元一次訪問一個(gè)集合靜態(tài)結(jié)構(gòu):可變的內(nèi)容結(jié)構(gòu)靈活訪問頻繁訪問很少或不多數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第6頁!在實(shí)際中經(jīng)常存在這樣數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第7頁!數(shù)據(jù)可信性(續(xù))外部數(shù)據(jù)問題一位分析員把《華爾街日報(bào)》的數(shù)據(jù)帶進(jìn)系統(tǒng)另一位將《商業(yè)周刊》的數(shù)據(jù)進(jìn)入系統(tǒng)數(shù)據(jù)一旦進(jìn)入系統(tǒng),往往已失去“身份”,并且一位分析員也不知道另一位分析員所輸入的數(shù)據(jù)開始時(shí)就不是同一個(gè)公共的數(shù)據(jù)源部門A最初來源于文件XYZ部門B最初來源于DBABC數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第8頁!現(xiàn)有數(shù)據(jù)庫系統(tǒng)處理分析型應(yīng)用
存在的問題——生產(chǎn)率為了生成一個(gè)企業(yè)報(bào)表,必須經(jīng)過獲得源數(shù)據(jù)定位和分析數(shù)據(jù):由于同名不同義、同義不同名,很難準(zhǔn)確定位和分析,可能造成進(jìn)一步的混亂把數(shù)據(jù)加工成報(bào)告要寫許多程序,每個(gè)程序必須客戶化(與客戶環(huán)境有關(guān))程序會(huì)涉及公司具有的各種技術(shù)由于定位數(shù)據(jù)困難,檢索所要的數(shù)據(jù)是一件很麻煩的事完成任務(wù)需要很長時(shí)間定位數(shù)據(jù)+獲得數(shù)據(jù)+集成報(bào)告,完成任務(wù)所需時(shí)間較長每份報(bào)告各自需求不同,因此每份報(bào)告所需要的時(shí)間都很長。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第9頁!章數(shù)據(jù)倉庫基本概念數(shù)據(jù)倉庫技術(shù)產(chǎn)生的背景什么是數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第10頁!面向主題的數(shù)據(jù)組織主題:宏觀分析領(lǐng)域所涉及的分析對象采用面向事務(wù)進(jìn)行數(shù)據(jù)組織,其特點(diǎn)為:充分考慮企業(yè)的部門組織結(jié)構(gòu)和業(yè)務(wù)活動(dòng)反映企業(yè)內(nèi)部數(shù)據(jù)流動(dòng)情況,業(yè)務(wù)處理的數(shù)據(jù)流程與業(yè)務(wù)處理流程中的單據(jù)、票證、文檔有良好的對應(yīng)數(shù)據(jù)與應(yīng)用(數(shù)據(jù)的處理)有一定的對應(yīng)例:保險(xiǎn)公司:面向應(yīng)用(操作):財(cái)產(chǎn)險(xiǎn)、壽險(xiǎn)、健康險(xiǎn)、意外險(xiǎn)。面向主題的數(shù)據(jù)組織方式:在較高的層次上對分析對象的數(shù)據(jù)的一個(gè)完整、一致的描述。例:保險(xiǎn)公司:面向主題:客戶、保單、保費(fèi)、理賠(賠款)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第11頁!面向主題數(shù)據(jù)組織的實(shí)現(xiàn)舉例多個(gè)表數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第12頁!面向主題數(shù)據(jù)組織的實(shí)現(xiàn)舉例(續(xù)二)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第13頁!數(shù)據(jù)倉庫的特點(diǎn):集成的消除沖突:不一致,同名異義、異名同義、單位不統(tǒng)一等等,需要進(jìn)行數(shù)據(jù)清理(因?yàn)閬碓从诓煌淖酉到y(tǒng),與不同的主要邏輯捆綁)數(shù)據(jù)的綜合和計(jì)算:可在抽取數(shù)據(jù)時(shí);也可在進(jìn)入DW以后。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第14頁!數(shù)據(jù)倉庫的特點(diǎn):相對穩(wěn)定的一般不修改,只追加;過期限的數(shù)據(jù)可從DW中移走(刪去);對DW,主要是查詢,DWMS比DBMS要簡單可不考慮并發(fā)控制要考慮性能(因?yàn)椴樵償?shù)據(jù)量大)和界面友好(對高層管理者)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第15頁!數(shù)據(jù)倉庫的特點(diǎn):反映歷史變化碼鍵包含時(shí)間項(xiàng)不斷增加新的數(shù)據(jù)內(nèi)容;刪去過時(shí)的數(shù)據(jù);例如:超過10年的數(shù)據(jù)與時(shí)間有關(guān)的綜合數(shù)據(jù):隨時(shí)間變化而重新組合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第16頁!章數(shù)據(jù)倉庫基本概念數(shù)據(jù)倉庫技術(shù)產(chǎn)生的背景什么是數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第17頁!概述-數(shù)據(jù)倉庫基本概念數(shù)據(jù)倉庫技術(shù)產(chǎn)生的背景什么是數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第18頁!企業(yè)信息化建設(shè)現(xiàn)狀在數(shù)據(jù)庫技術(shù)的支持下,一大批成熟的業(yè)務(wù)信息系統(tǒng)投入運(yùn)行,為企業(yè)發(fā)展作出了巨大貢獻(xiàn)各類信息系統(tǒng)大多屬于面向事務(wù)處理的OLTP系統(tǒng)信息系統(tǒng)多年運(yùn)行,積累了大量的數(shù)據(jù)數(shù)據(jù)是一種寶貴的資源,但沒有充分發(fā)揮作用管理決策層對數(shù)據(jù)分析基礎(chǔ)平臺(tái)的需求日益強(qiáng)烈數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第19頁!分析人員典型的信息需求覆蓋企業(yè)內(nèi)部信息、合作伙伴信息和市場信息覆蓋綜合信息和明細(xì)信息覆蓋當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)高可用性高質(zhì)量的數(shù)據(jù)(一致性、完整性)支持各種不同的分析方法數(shù)據(jù)定義符合業(yè)務(wù)人員要求組織內(nèi)部橫向共享信息數(shù)據(jù)的重構(gòu)個(gè)人授權(quán)服務(wù)和質(zhì)量管理組織之間合作伙伴客戶驅(qū)動(dòng)的解決方案戰(zhàn)略聯(lián)盟價(jià)值鏈和供應(yīng)鏈?zhǔn)袌龈偁帉κ质袌龇指顚?shí)時(shí)的市場行情全球化數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第20頁!現(xiàn)有數(shù)據(jù)庫系統(tǒng)處理分析型應(yīng)用
存在的問題——數(shù)據(jù)可信性數(shù)據(jù)沒有同一時(shí)間基準(zhǔn)例如:一個(gè)企業(yè)的兩個(gè)部門向管理者呈送報(bào)表部門A,于星期天傍晚抽取了分析所需的數(shù)據(jù),結(jié)論為業(yè)績上升10%部門B,于星期三下午抽取了分析所需的數(shù)據(jù),結(jié)論為業(yè)績下降15%算法不同部門A使用的是舊帳號部門B使用的是大帳號多次抽取,擴(kuò)大了上述兩個(gè)問題用抽取程序從數(shù)據(jù)庫/文件中抽取數(shù)據(jù),并存放起來,然后又在此基礎(chǔ)上再次進(jìn)行抽取,從數(shù)據(jù)進(jìn)入系統(tǒng)到提供分析往往經(jīng)過8、9次的抽取。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第21頁!“蜘蛛網(wǎng)”問題沒有統(tǒng)一規(guī)劃和設(shè)計(jì)數(shù)據(jù)模型不一致數(shù)據(jù)定義不一致數(shù)據(jù)準(zhǔn)確性差,冗余度高業(yè)務(wù)流程發(fā)生變化歷史數(shù)據(jù)不統(tǒng)一、不規(guī)范解決方案:深入、全面、客觀的數(shù)據(jù)源分析建立數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第22頁!現(xiàn)有數(shù)據(jù)庫系統(tǒng)處理分析型應(yīng)用
存在的問題——從數(shù)據(jù)到信息例如:“今年的帳戶情況與前五年比較”涉及大量應(yīng)用:儲(chǔ)蓄應(yīng)用、貸款、即期匯票管理、信托,而這些應(yīng)用并未集成。沒有足夠的歷史數(shù)據(jù):貸款部門,擁有二年的數(shù)據(jù)銀行存折處理,擁有一年的數(shù)據(jù)即期匯票管理只有60天的數(shù)據(jù)現(xiàn)金交易處理具有18個(gè)月的數(shù)據(jù)。數(shù)據(jù)不一致問題:同名不同義、同義不同名,例如M/F,Male/Female外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第23頁!數(shù)據(jù)倉庫要解決的基本問題全局范圍內(nèi)統(tǒng)一數(shù)據(jù)視圖數(shù)據(jù)內(nèi)容數(shù)據(jù)的完整性數(shù)據(jù)的準(zhǔn)確性數(shù)據(jù)的一致性數(shù)據(jù)組織面向分析決策數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第24頁!數(shù)據(jù)倉庫的定義對數(shù)據(jù)倉庫的理解數(shù)據(jù)倉庫用于支持管理和決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的面向交易的操作型數(shù)據(jù)庫;數(shù)據(jù)倉庫是對多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù)。數(shù)據(jù)倉庫(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。
—W.H.Inmon數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第25頁!數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第26頁!面向主題數(shù)據(jù)組織的實(shí)現(xiàn)舉例(續(xù)一)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第27頁!數(shù)據(jù)倉庫的特點(diǎn):集成的操作型數(shù)據(jù)庫面向特殊應(yīng)用每一個(gè)數(shù)據(jù)庫面向特定的應(yīng)用,各類應(yīng)用(包括其相關(guān)的數(shù)據(jù)庫)之間相互獨(dú)立。系統(tǒng)的發(fā)展經(jīng)歷一個(gè)長期的過程數(shù)據(jù)倉庫集成的數(shù)據(jù)倉庫中的數(shù)據(jù)從建立時(shí)開始,面向整個(gè)企業(yè)的分析處理,數(shù)據(jù)倉庫中的數(shù)據(jù)是已經(jīng)集成了的,消除了數(shù)據(jù)的不一致性.在某個(gè)時(shí)間點(diǎn)完成設(shè)計(jì),實(shí)現(xiàn)需要經(jīng)歷一個(gè)長期的不斷迭代的過程數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第28頁!數(shù)據(jù)倉庫的特點(diǎn):相對穩(wěn)定的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第29頁!數(shù)據(jù)倉庫的特點(diǎn):反映歷史變化數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述1final共32頁,您現(xiàn)在瀏覽的是第30頁!數(shù)據(jù)倉庫的特點(diǎn):反映歷史變化操作型數(shù)據(jù)與DW中的數(shù)據(jù)比較操作型環(huán)境60-90天數(shù)據(jù)記錄能被更新碼中不一定包括時(shí)間元素?cái)?shù)據(jù)倉庫5-10年數(shù)據(jù)數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中數(shù)學(xué)錯(cuò)題資源的分類與研究
- 蘆薈多糖與聚硅氧烷協(xié)同制備糖硅酮凝膠敷料及其性能研究
- 電商物流企業(yè)戰(zhàn)略規(guī)劃與執(zhí)行力度分析
- 生物實(shí)驗(yàn)教學(xué)與學(xué)生興趣激發(fā)的雙重策略
- 醫(yī)學(xué)級抗敏舒緩霜行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 科技企業(yè)如何運(yùn)用社交媒體增強(qiáng)品牌形象
- 2025年大型袋式除塵器項(xiàng)目發(fā)展計(jì)劃
- 出口鞋類企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報(bào)告
- 想象性群際接觸對大學(xué)生合作行為的實(shí)證研究-內(nèi)隱職業(yè)偏見的中介作用
- 防水防漏材料企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報(bào)告
- 公文寫作與處理真題1000題含答案
- 田字格(綠色標(biāo)準(zhǔn))
- 氧化鋁生產(chǎn)工藝教學(xué)(拜耳法)PPT課件
- 停車場巡視記錄表
- 森林防火安全責(zé)任書(施工隊(duì)用)
- 《汽車性能評價(jià)與選購》課程設(shè)計(jì)
- 35kV絕緣導(dǎo)線門型直線桿
- 水庫應(yīng)急搶險(xiǎn)與典型案例分析
- 49式武當(dāng)太極劍動(dòng)作方位
- 工程成本分析報(bào)告(新)
- 國際學(xué)術(shù)會(huì)議海報(bào)模板16-academic conference poster model
評論
0/150
提交評論