版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
決策支持系統(tǒng)決策支持系統(tǒng)第九章
數(shù)據(jù)挖掘與數(shù)據(jù)可視化本章學(xué)習(xí)目的與要求理解數(shù)據(jù)挖掘的基本概念;掌握數(shù)據(jù)挖掘常用的算法;理解數(shù)據(jù)可視化的基本概念;內(nèi)容提示第一節(jié)數(shù)據(jù)挖掘第二節(jié)數(shù)據(jù)可視化第一節(jié)數(shù)據(jù)挖掘第一節(jié)數(shù)據(jù)挖掘數(shù)據(jù)挖掘的概念;數(shù)據(jù)挖掘的任務(wù)。
(一)數(shù)據(jù)挖掘概念---前言
信息產(chǎn)業(yè)的發(fā)展引發(fā)了數(shù)據(jù)的大量聚集,如一個中等規(guī)模企業(yè)每天要產(chǎn)生100MB以上來自各生產(chǎn)經(jīng)營等多方面的商業(yè)數(shù)據(jù);在科研方面,以美國宇航局的數(shù)據(jù)庫為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá)3~4TB之多。據(jù)估計,1993年全球數(shù)據(jù)存貯容量約為二千TB,到2000年增加到三百萬TB,面對這極度膨脹的數(shù)據(jù)信息量,人們受到“信息爆炸”、“混沌信息空間”和“數(shù)據(jù)過剩”的巨大壓力。前言人類的各項活動都是基于人類的智慧和知識,即對外部世界的觀察和了解,做出正確的判斷和決策以及采取正確的行動;而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料,它本身沒有任何意義。從數(shù)據(jù)到知識到智慧,需要經(jīng)過分析加工處理精煉的過程。前言數(shù)據(jù)與知識間的關(guān)系數(shù)據(jù)到知識的轉(zhuǎn)變
數(shù)據(jù)倉庫的出現(xiàn),為更深入對數(shù)據(jù)進(jìn)行分析提供了條件,它不同于管理日常工作數(shù)據(jù)的數(shù)據(jù)庫,它更便于分析針對特定主題的集成化的、時變的的數(shù)據(jù),且這些數(shù)據(jù)一旦存入就不再發(fā)生變化;
OLAP是數(shù)據(jù)分析手段的一大進(jìn)步,以往的分析工具所得到的報告結(jié)果只能回答“什么”(WHAT),而OLAP的分析結(jié)果能回答“為什么”(WHY)。數(shù)據(jù)到知識的轉(zhuǎn)變
但OLAP是建立在用戶對深藏在數(shù)據(jù)中的某種知識有預(yù)感和假設(shè)的前提下,由用戶指導(dǎo)的信息分析與知識發(fā)現(xiàn)過程;
由于數(shù)據(jù)倉庫中的數(shù)據(jù)來源于多個數(shù)據(jù)源,因此其中埋藏著豐富的不為用戶所知的有用信息和知識,而要使企業(yè)能及時準(zhǔn)確地做出科學(xué)的經(jīng)營決策,就需要有基于計算機(jī)與信息技術(shù)的智能化自動工具,來幫助挖掘隱藏在數(shù)據(jù)中的各類知識。數(shù)據(jù)挖掘的產(chǎn)生九十年代中期以來,許多軟件開發(fā)商,基于數(shù)理統(tǒng)計、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、進(jìn)化計算和模式識別等多種技術(shù)和市場需求,開發(fā)了許多數(shù)據(jù)挖掘與知識發(fā)現(xiàn)軟件工具,從而形成了近年來軟件開發(fā)市場的熱點。目前數(shù)據(jù)挖掘工具已開始向智能化整體數(shù)據(jù)分析解決方案發(fā)展,這是從數(shù)據(jù)到知識演化過程中的一個重要里程碑。數(shù)據(jù)挖掘的產(chǎn)生數(shù)據(jù)到知識的演化過程示意圖(一)數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(DataMining,DM):又名數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledgediscoveryfromdatabase,簡稱KDD),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程。簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識。數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘過程示意圖數(shù)據(jù)挖掘的過程整個知識挖掘過程是由若干挖掘步驟組成,而數(shù)據(jù)挖掘僅是其中的一個主要步驟。整個知識挖掘的主要步驟有:(1)數(shù)據(jù)清洗:清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù);(2)數(shù)據(jù)集成:將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起;(3)數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式。數(shù)據(jù)挖掘的過程(4)數(shù)據(jù)挖掘:利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識;(5)模式評估:根據(jù)一定評估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出有意義的模式知識;(6)知識表示:利用可視化和知識表達(dá)技術(shù),向用戶展示所挖掘出的相關(guān)知識。(二)數(shù)據(jù)挖掘的任務(wù)利用數(shù)據(jù)挖掘技術(shù)可以幫助獲得決策所需的多種知識。在許多情況下,用戶并不知道數(shù)據(jù)存在哪些有價值的信息知識,因此對于一個數(shù)據(jù)挖掘系統(tǒng)而言,它應(yīng)該能夠同時搜索發(fā)現(xiàn)多種模式的知識,以滿足用戶的期望和實際需要。(二)數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘功能以及所能夠挖掘的知識類型說明描述如下:(1)關(guān)聯(lián)分析;(2)分類與預(yù)測;(3)聚類分析;(4)異類分析;(5)演化分析。(1)關(guān)聯(lián)分析
關(guān)聯(lián)分析(associationanalysis)就是從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識(又稱為關(guān)聯(lián)規(guī)則,associationrules)。關(guān)聯(lián)分析廣泛用于市場營銷、事務(wù)分析等應(yīng)用領(lǐng)域。通常關(guān)聯(lián)規(guī)則具有:X?Y形式,表示“數(shù)據(jù)庫中的滿足X中條件的記錄也一定滿足Y中的條件”。關(guān)聯(lián)分析示例一個數(shù)據(jù)挖掘系統(tǒng)可以從一個商場的銷售(交易事務(wù)處理)記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:Age(X,”20-29”)∧income(X,“20K-30K”)?buys(X,”MP3”)[support=2%,confidence=60%]上述關(guān)聯(lián)規(guī)則表示:該商場有2%的顧客年齡在20歲到29歲且收入在2萬到3萬之間,這群顧客中有60%的人購買了MP3,或者說這群顧客購買MP3的概率為60%。(2)分類與預(yù)測分類(classification)就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別(class),即將未知事例映射到某種離散類別之一。分類模型(或函數(shù))可以通過分類挖掘算法從一組訓(xùn)練樣本數(shù)據(jù)(其類別歸屬已知)中學(xué)習(xí)獲得。(2)分類與預(yù)測分類通常用于預(yù)測未知數(shù)據(jù)實例的歸屬類別(有限離散值),如一個銀行客戶的信用等級是屬于A級、B級還是C級。但在一些情況下,需要預(yù)測某數(shù)值屬性的值(連續(xù)數(shù)值),這樣的分類就被稱為預(yù)測(prediction)。盡管預(yù)測既包括連續(xù)數(shù)值的預(yù)測,也包括有限離散值的分類;但一般還是使用預(yù)測來表示對連續(xù)數(shù)值的預(yù)測;而使用分類來表示對有限離散值的預(yù)測分類與預(yù)測示例表中給出打高爾夫球與天氣的關(guān)系,要求根據(jù)條件屬性的不同取值來決定是否可以打高爾夫球。IDOutlookTemperatureHumidityWindyClass1OvercastHotHighNotN2OvercastHotHighVeryN3OvercastHotHighMediumN………………38SunnyHotHighMediumP39RainMildHighNotN40RainMildHighMediumN分類與預(yù)測示例分類結(jié)果(決策樹)(3)聚類分析聚類分析(clusteringanalysis)與分類預(yù)測方法明顯不同之處在于:分類所學(xué)習(xí)獲取分類預(yù)測模型所使用的數(shù)據(jù)是已知類別歸屬,屬于有教師監(jiān)督學(xué)習(xí)方法;而聚類分析所處理的數(shù)據(jù)均是無類別歸屬。因此聚類分析屬于無教師監(jiān)督學(xué)習(xí)方法。聚類原則:類內(nèi)距離最小,類間距離最大。(4)異類分析一個數(shù)據(jù)庫中的數(shù)據(jù)一般不可能都符合分類預(yù)測或聚類分析所獲得的模型。那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對象就被稱為異類(outlier)。對異類數(shù)據(jù)的分析處理通常就稱為異類挖掘。(4)異類分析
之前許多數(shù)據(jù)挖掘方法都在正式進(jìn)行數(shù)據(jù)挖掘之前就將這些異類作為噪聲或意外而將其排除在數(shù)據(jù)挖掘的分析處理范圍之內(nèi)。但在一些應(yīng)用場合,如各種商業(yè)欺詐行為的自動檢測,小概率發(fā)生的事件(數(shù)據(jù))往往比經(jīng)常發(fā)生的事件(數(shù)據(jù))更有挖掘價值。例如:可以根據(jù)購買的發(fā)生地點、購買商品類型和購買頻率等發(fā)現(xiàn)屬于信用卡詐騙的購買行為(異類數(shù))。(5)演化分析數(shù)據(jù)演化分析(evolutionanalysis)就是對隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進(jìn)行建模描述。這一建模手段包括:概念描述、對比概念描述、關(guān)聯(lián)分析、分類分析、時間相關(guān)數(shù)據(jù)分析(這其中又包括:時序數(shù)據(jù)分析、序列或周期模式匹配,以及基于相似性的數(shù)據(jù)分析)。演化分析示例例如:利用演化分析方法可對股市主要股票交易數(shù)據(jù)(時序數(shù)據(jù))進(jìn)行分析,以便獲得整個股票市場的股票演化規(guī)律,以及一個特定股票的變化規(guī)律,這種規(guī)律或許能夠幫助預(yù)測股票市場上的股票價格,從而有效提高投資回報率。第二節(jié)數(shù)據(jù)可視化第二節(jié)數(shù)據(jù)可視化數(shù)據(jù)可視化的概念;數(shù)據(jù)可視化的意義。
(一)數(shù)據(jù)可視化的概念數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)之視覺表現(xiàn)形式的研究。數(shù)據(jù)可視化是當(dāng)前的一個熱點問題,特別在交互設(shè)計領(lǐng)域,如何把數(shù)據(jù)——特別是大規(guī)模的數(shù)據(jù)進(jìn)行可視化就成為了一個非常熱門的問題。(一)數(shù)據(jù)可視化的概念可視化(Visualization):利用計算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 飯店內(nèi)部員工承包合同范本
- 合同范本模板填寫
- 化妝造型合同范本
- 定制餐具合同范本
- 切邊合同范本
- 春晚合同范本
- 《積的近似值》教學(xué)案例
- 培訓(xùn)租憑合同范本
- 《化工單元操作》教案
- 政府對外投資合同范本
- 《IT人員職業(yè)規(guī)劃》
- 維勒夫特優(yōu)質(zhì)獲獎?wù)n件
- 初級社會統(tǒng)計學(xué)智慧樹知到答案章節(jié)測試2023年哈爾濱工程大學(xué)
- 無犯罪記錄證明公函
- 詩歌鑒賞基本知識點
- 人文英語3范文+人文英語3閱讀740
- GB/T 3274-2007碳素結(jié)構(gòu)鋼和低合金結(jié)構(gòu)鋼熱軋厚鋼板和鋼帶
- GB/T 311.3-2007絕緣配合第3部分:高壓直流換流站絕緣配合程序
- GB/T 30393-2013制取沼氣秸稈預(yù)處理復(fù)合菌劑
- 離心泵與風(fēng)機(jī)的結(jié)構(gòu)、工作原理
- 《草船借箭》課件
評論
0/150
提交評論