版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘入門
數(shù)據(jù)挖掘入門引言KDD與數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢數(shù)據(jù)預(yù)處理可視化數(shù)據(jù)挖掘引言一、引言什么激發(fā)了數(shù)據(jù)挖掘
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù)可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛應(yīng)用于各種領(lǐng)域,如商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等。面對海量數(shù)據(jù)庫和大量繁雜信息,如何才能從中提取有價值的知識,進一步提高信息的利用率,由此引發(fā)了一個新的研究方向:基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase)及相應(yīng)的數(shù)據(jù)挖掘(DataMining)理論和技術(shù)的研究。一、引言為什么數(shù)據(jù)挖掘是重要的
數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求??焖僭鲩L的海量數(shù)據(jù)收集存放在大型和大量的數(shù)據(jù)庫中,沒有強有力的工具,這些數(shù)據(jù)就變成了“數(shù)據(jù)墳?zāi)埂薄y得再訪問的數(shù)據(jù)檔案。因此數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識“金塊”。為什么數(shù)據(jù)挖掘是重要的2.1KDD定義人們給KDD下過很多定義,內(nèi)涵也各不相同,目前公認的定義是由Fayyad等人提出的。所謂基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。二、KDD與數(shù)據(jù)挖掘2.1KDD定義二、KDD與數(shù)據(jù)挖掘2.2KDD過程
KDD是一個人機交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供。從宏觀上看,KDD過程主要經(jīng)由三個部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。數(shù)據(jù)挖掘入門講課教案課件知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowle知識發(fā)現(xiàn)(KDD)的步驟數(shù)據(jù)準備:了解KDD應(yīng)用領(lǐng)域的有關(guān)情況。包括熟悉相關(guān)的知識背景,搞清用戶需求。數(shù)據(jù)選?。簲?shù)據(jù)選取的目的是確定目標數(shù)據(jù),根據(jù)用戶的需要從原始數(shù)據(jù)庫中選取相關(guān)數(shù)據(jù)或樣本。在此過程中,將利用一些數(shù)據(jù)庫操作對數(shù)據(jù)庫進行相關(guān)處理。數(shù)據(jù)預(yù)處理:對步驟2中選出的數(shù)據(jù)進行再處理,檢查數(shù)據(jù)的完整性及一致性,消除噪聲及與數(shù)據(jù)挖掘無關(guān)的冗余數(shù)據(jù),根據(jù)時間序列和已知的變化情況,利用統(tǒng)計等方法填充丟失的數(shù)據(jù)。知識發(fā)現(xiàn)(KDD)的步驟數(shù)據(jù)準備:了解KDD應(yīng)用領(lǐng)域的有關(guān)情數(shù)據(jù)變換:根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)再處理,主要是通過投影或利用數(shù)據(jù)庫的其它操作減少數(shù)據(jù)量。確定KDD目標:根據(jù)用戶的要求,確定KDD要發(fā)現(xiàn)的知識類型。選擇算法:根據(jù)步驟5確定的任務(wù),選擇合適的知識發(fā)現(xiàn)算法,包括選取合適的模型和參數(shù)。數(shù)據(jù)變換:根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)再處理,主要是數(shù)據(jù)挖掘:這是整個KDD過程中很重要的一個步驟。運用前面的選擇算法,從數(shù)據(jù)庫中提取用戶感興趣的知識,并以一定的方式表示出來。模式解釋:對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進行解釋。通過機器評估剔除冗余或無關(guān)模式,若模式不滿足,再返回到前面某些處理步驟中反復(fù)提取。知識評價:將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。其中也包括對知識一致性的檢查,以確信本次發(fā)現(xiàn)的知識不會與以前發(fā)現(xiàn)的知識相抵觸。數(shù)據(jù)挖掘:這是整個KDD過程中很重要的一個步驟。運用前面的選什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從海量的數(shù)據(jù)中抽取感興趣的(有價值的、隱含的、以前沒有用但是潛在有用信息的)模式和知識。其它可選擇的名字數(shù)據(jù)庫中知識挖掘、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古、數(shù)據(jù)捕撈、信息獲取、事務(wù)智能等。廣義觀點數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫中或其它信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫。可以在數(shù)據(jù)上進行數(shù)據(jù)清理和集成。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負責提取相關(guān)數(shù)據(jù)。知識庫:是領(lǐng)域知識,用于指導(dǎo)搜索,或評估結(jié)果模式的興趣度。數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)挖掘引擎:數(shù)據(jù)挖掘系統(tǒng)的基本部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。模式評估模塊:使用興趣度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上,可能使用興趣度閾值過濾發(fā)現(xiàn)的模式。圖形用戶界面:該模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務(wù),提供信息,幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進行探索式數(shù)據(jù)挖掘。數(shù)據(jù)挖掘入門講課教案課件數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理3.1可以分別按挖掘任務(wù)、挖掘?qū)ο蠛屯诰蚍椒▉矸诸?。按挖掘任?wù)分類:包括分類或預(yù)測知識模型發(fā)現(xiàn),數(shù)據(jù)總結(jié),數(shù)據(jù)聚類,關(guān)聯(lián)規(guī)則發(fā)現(xiàn),時序模式發(fā)現(xiàn),依賴關(guān)系或依賴模型發(fā)現(xiàn),異常和趨勢發(fā)現(xiàn)等。按挖掘?qū)ο蠓诸悾喊P(guān)系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫,空間數(shù)據(jù)庫,時態(tài)數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構(gòu)數(shù)據(jù)庫,數(shù)據(jù)倉庫,演繹數(shù)據(jù)庫和Web數(shù)據(jù)庫等。三、數(shù)據(jù)挖掘方法3.1可以分別按挖掘任務(wù)、挖掘?qū)ο蠛屯诰蚍椒▉矸诸?。三、?shù)按挖掘方法分類:包括統(tǒng)計方法,機器學(xué)習方法,神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法,其中:統(tǒng)計方法可分為:回歸分析(多元回歸、自回歸等),判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等),聚類分析(系統(tǒng)聚類、動態(tài)聚類等),探索性分析(主成分分析、相關(guān)分析等)等。機器學(xué)習方法可分為:歸納學(xué)習方法(決策樹、規(guī)則歸納等),基于范例學(xué)習,遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可以分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等),自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習等)。數(shù)據(jù)庫方法分為:多為數(shù)據(jù)分析和OLAP技術(shù),此外還有面向?qū)傩缘臍w納方法。按挖掘方法分類:包括統(tǒng)計方法,機器學(xué)習方法,神經(jīng)網(wǎng)絡(luò)方法和數(shù)3.2數(shù)據(jù)挖掘方法粗糙集1982年波蘭數(shù)學(xué)家Z.Pawlak針對G.Frege的邊界線區(qū)域思想提出了粗糙集(RoughSet),他把那些無法確認的個體都歸屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集。粗糙集理論主要特點在于它恰好反映了人們用粗糙集方法處理不分明問題的常規(guī)性,即以不完全信息或知識去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進行分類數(shù)據(jù)的能力。3.2數(shù)據(jù)挖掘方法模糊集
經(jīng)典集合理論對應(yīng)二值邏輯,一個元素要么屬于、要么不屬于給定集合。因此經(jīng)典集合不能很好地描述具有模糊性和不確定性的問題。美國加利福尼亞大學(xué)的扎德教授于1965年提出了模糊集合論,用隸屬程度來描述差異的中間過渡,是一種用精確的數(shù)學(xué)語言對模糊性進行描述的方法。
模糊集
定義:論域X={x}上的模糊集合A由隸屬函數(shù)A(x)來表征。其中A(x)在實軸的閉區(qū)間[0,1]中取值,A(x)的大小反映x對于模糊集合A的隸屬程度。A(x)的值接近1,表示x隸屬于A的程度很高。A(x)的值接近0,表示x隸屬于A的程度很低。特例,當A的值域取[0,1]閉區(qū)間的兩個端點,亦即{0,1}兩個值時,A便退化為一個普通的邏輯子集。隸屬函數(shù)也就退化為普通邏輯值。定義:論域X={x}上的模糊集合A由隸屬函聚類分析
聚類是對物理的或抽象的對象集合分組的過程。聚類生成的組為簇,簇是數(shù)據(jù)對象的集合。簇內(nèi)部任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象間具有較高的相異度。相異度可以根據(jù)描述對象的屬性值計算,對象間的距離是最常采用的度量指標。在實際應(yīng)用中,經(jīng)常將一個簇中的數(shù)據(jù)對象作為一個整體看待。用聚類生成的簇來表達數(shù)據(jù)集不可避免地會損失一些信息,但卻可以使問題得到必要的簡化。主要的數(shù)據(jù)挖掘聚類方法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法聚類分析關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則反映一個事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個事物或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個事物就能夠通過其他事物預(yù)測到。人們希望在海量的商業(yè)交易記錄中發(fā)現(xiàn)感興趣的數(shù)據(jù)關(guān)聯(lián)關(guān)系,用以幫助商家作出決策。例如:面包2%牛奶1.5%(占超市交易總數(shù))2%和1.5%表明這兩種商品在超市經(jīng)營中的重要程度,稱為支持度。商家關(guān)注高支持度的產(chǎn)品。面包=〉牛奶60%在購買面包的交易中,有60%的交易既買了面包又買了牛奶,成60%為規(guī)則“面包=〉牛奶”的信任度。信任度反映了商品間的關(guān)聯(lián)程度。關(guān)聯(lián)規(guī)則
項目構(gòu)成的集合稱為項集。項集在事物數(shù)據(jù)庫中出現(xiàn)的次數(shù)占總事物的百分比叫做項集的支持度。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集。
關(guān)聯(lián)規(guī)則就是支持度和信任度分別滿足用戶給定閾值的規(guī)則。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需要經(jīng)歷如下兩個步驟:(1)找出所有的頻繁項。(2)由頻繁項集生成滿足最小信任度閾值的規(guī)則。
5.人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是指由簡單計算單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),能夠模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能。組成神經(jīng)網(wǎng)絡(luò)的單個神經(jīng)元的結(jié)構(gòu)簡單,功能有限,但是,由大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)系統(tǒng)可以實現(xiàn)強大的功能。由于現(xiàn)實世界的數(shù)據(jù)關(guān)系相當復(fù)雜,非線性問題和噪聲數(shù)據(jù)普遍存在。將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于數(shù)據(jù)挖掘,希望借助其非線性處理能力和容噪能力,得到較好的數(shù)據(jù)挖掘結(jié)果。將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于數(shù)據(jù)挖掘的主要障礙是,通過人工神經(jīng)網(wǎng)絡(luò)學(xué)習到的知識難于理解;學(xué)習時間太長,不適于大型數(shù)據(jù)集。5.人工神經(jīng)網(wǎng)絡(luò)6,分類與預(yù)測分類和預(yù)測是兩種重要的數(shù)據(jù)分析方法,在商業(yè)上的應(yīng)用很多。分類和預(yù)測可以用于提取描述重要數(shù)據(jù)類型或預(yù)測未來的數(shù)據(jù)趨勢。分類的目的是提出一個分類函數(shù)或分類模型(即分類器)通過分類器將數(shù)據(jù)對象映射到某一個給定的類別中。數(shù)據(jù)分類可以分為兩步進行。第一步建立模型,用于描述給定的數(shù)據(jù)集合。通過分析由屬性描述的數(shù)據(jù)集合來建立反映數(shù)據(jù)集合特性的模型。第二步是用模型對數(shù)據(jù)對象進行分類。預(yù)測的目的是從歷史數(shù)據(jù)記錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能夠?qū)κ孪任粗臄?shù)據(jù)進行預(yù)測。6,分類與預(yù)測分類的方法:決策樹:決策樹內(nèi)部節(jié)點進行屬性值測試,并根據(jù)屬性值判斷由該節(jié)點引出的分支,在決策樹的葉結(jié)點得到結(jié)論。內(nèi)部節(jié)點是屬性或?qū)傩缘募?,葉節(jié)點代表樣本所屬的類或類分布。貝葉斯分類:是一種統(tǒng)計學(xué)分類方法,可以預(yù)測類成員關(guān)系關(guān)系的可能性,如給定樣本屬于一個特征類的概率。貝葉斯方法已在文本分類、字母識別、經(jīng)濟預(yù)測等領(lǐng)域獲得了成功的應(yīng)用。基于遺傳算法分類:模擬生物進化過程中的計算模型,是自然遺傳學(xué)與計算機科學(xué)互相結(jié)合、互相滲透而形成的新的計算方法。利用選擇、交叉、變異等操作對子代進行操作,優(yōu)點是問題求解與初始條件無關(guān),搜索最優(yōu)解的能力極強,可以對各種數(shù)據(jù)挖掘技術(shù)進行優(yōu)化。分類的方法:預(yù)測預(yù)測是構(gòu)造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或區(qū)間值。預(yù)測的目的是從歷史數(shù)據(jù)中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測。例如,金融系統(tǒng)可以根據(jù)顧客信譽卡消費量預(yù)測他未來的刷卡消費量或用于信譽證實。推銷人員希望在開拓新客戶時,找出顧客一些共同特征,預(yù)測出潛在顧客群。預(yù)測的方法主要是回歸統(tǒng)計,包括:線性回歸、非線性回歸、多元回歸、泊松回歸、對數(shù)回歸等。分類也可以用來預(yù)測。預(yù)測7,多媒體數(shù)據(jù)挖掘多媒體數(shù)據(jù)庫系統(tǒng)由多媒體數(shù)據(jù)庫管理系統(tǒng)和多媒體數(shù)據(jù)庫構(gòu)成。其中多媒體數(shù)據(jù)庫用于存儲和管理多媒體數(shù)據(jù),多媒體數(shù)據(jù)庫管理系統(tǒng)負責對多媒體數(shù)據(jù)庫進行管理。多媒體數(shù)據(jù)庫包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),如音頻數(shù)據(jù)、視頻數(shù)據(jù)、文本數(shù)據(jù)和圖像數(shù)據(jù)等。多媒體數(shù)據(jù)挖掘就是通過綜合分析多媒體數(shù)據(jù)的內(nèi)容和語義,從大量多媒體數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價值的、可理解的模式,得出事件的發(fā)展趨向和關(guān)聯(lián)關(guān)系,為用戶提供問題求解層次上的決策支持能力。7,多媒體數(shù)據(jù)挖掘
多媒體數(shù)據(jù)是指由多種不同類型多媒體數(shù)據(jù)組成的,包括文本、圖形、圖像、聲音、視頻圖像、動畫等不同類型的媒體數(shù)據(jù)。為了挖掘多媒體數(shù)據(jù),必須對兩種或多種類型的媒體數(shù)據(jù)進行綜合挖掘。多媒體挖掘的方法有兩種:一種是先從多媒體數(shù)據(jù)數(shù)據(jù)庫中提取出結(jié)構(gòu)化數(shù)據(jù),然后用傳統(tǒng)的數(shù)據(jù)挖掘工具在這些結(jié)構(gòu)化的數(shù)據(jù)上進行挖掘。另一種解決辦法是研究開發(fā)可以直接對多媒體數(shù)據(jù)進行挖掘的工具。
四、數(shù)據(jù)挖掘系統(tǒng)與應(yīng)用數(shù)據(jù)挖掘系統(tǒng)的開發(fā)工作十分復(fù)雜,不僅要有大量的數(shù)據(jù)挖掘算法,而且其應(yīng)用領(lǐng)域往往取決于最終用戶的知識結(jié)構(gòu)等因素。下面介紹幾個數(shù)據(jù)挖掘系統(tǒng):SKICAT是MIT噴氣推進實驗室與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠的類星體的工具。Health-KEFIR是用于健康狀況預(yù)警的知識發(fā)現(xiàn)系統(tǒng)。TASA是為預(yù)測通信網(wǎng)絡(luò)故障而開發(fā)的通信網(wǎng)絡(luò)預(yù)警分析系統(tǒng)。會產(chǎn)生“如果在某一時間段內(nèi)發(fā)生某些預(yù)警信息組合,那么其他類型的預(yù)警信息將在某個時間范圍內(nèi)發(fā)生”的規(guī)則。時間段大小由用戶定義。R-MINI運用分類技術(shù)從噪聲中提取有價值的信息。由于是在微弱變化中獲取信息,該系統(tǒng)也可以應(yīng)用于證券領(lǐng)域中的股市行情預(yù)測。四、數(shù)據(jù)挖掘系統(tǒng)與應(yīng)用數(shù)據(jù)挖掘系統(tǒng)的KDW是大型商業(yè)數(shù)據(jù)庫中的交互分析系統(tǒng)。包括聚類、分類、總結(jié)、相關(guān)性分析等多種模式。DBMiner是加拿大SimonFraser大學(xué)開發(fā)的一個多任務(wù)KDD系統(tǒng)。能夠完成多種知識發(fā)現(xiàn),綜合了多種數(shù)據(jù)挖掘技術(shù)。Clementine可以把直觀的圖形用戶界面與多種分析技術(shù)結(jié)合在一起,包括神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則和規(guī)則歸納技術(shù)。Darwin包含神經(jīng)網(wǎng)絡(luò)、決策書和K-鄰近三種數(shù)據(jù)挖掘方法,處理分類、預(yù)測和預(yù)報問題。DMW是一個用在信用卡欺詐分析方面的數(shù)據(jù)挖掘工具,支持反向傳播神經(jīng)網(wǎng)絡(luò)算法,并能以自動和人工模式操作IntelligentMiner是IBM開發(fā)的包括人工智能、機器學(xué)習、語言分析和知識發(fā)現(xiàn)領(lǐng)域成果在內(nèi)的復(fù)雜軟件解決方案。KDW是大型商業(yè)數(shù)據(jù)庫中的交互分析系統(tǒng)。包括聚類、分類、總結(jié)五,數(shù)據(jù)預(yù)處理為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)五,數(shù)據(jù)預(yù)處理為什么需要數(shù)據(jù)預(yù)處理?為什么需要數(shù)據(jù)預(yù)處理?在現(xiàn)實社會中,存在著大量的“臟”數(shù)據(jù)不完整性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)采集設(shè)備和數(shù)據(jù)錄入人員)
缺少感興趣的屬性感興趣的屬性缺少部分屬性值僅僅包含聚合數(shù)據(jù),沒有詳細數(shù)據(jù)噪音數(shù)據(jù)(采集數(shù)據(jù)的設(shè)備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸)數(shù)據(jù)中包含錯誤的信息存在著部分偏離期望值的孤立點不一致性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)錄入人員)數(shù)據(jù)結(jié)構(gòu)的不一致性Label的不一致性數(shù)據(jù)值的不一致性為什么需要數(shù)據(jù)預(yù)處理?在現(xiàn)實社會中,存在著大量的“臟”數(shù)據(jù)為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨立的數(shù)據(jù)源關(guān)系數(shù)據(jù)庫多維數(shù)據(jù)庫(DataCube)文件、文檔數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為了數(shù)據(jù)挖掘的方便海量數(shù)據(jù)的處理數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下)為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨立的為什么需要數(shù)據(jù)預(yù)處理?沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須基于高質(zhì)量的數(shù)據(jù)基礎(chǔ)上數(shù)據(jù)倉庫是在高質(zhì)量數(shù)據(jù)上的集成為什么需要數(shù)據(jù)預(yù)處理?沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填入缺失數(shù)據(jù)平滑噪音數(shù)據(jù)確認和去除孤立點解決不一致性數(shù)據(jù)集成多個數(shù)據(jù)庫、DataCube和文件系統(tǒng)的集成數(shù)據(jù)轉(zhuǎn)換規(guī)范化、聚集等數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)的容量進行有效的縮減數(shù)據(jù)離散化對于一個特定的連續(xù)屬性,尤其是連續(xù)的數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實際數(shù)據(jù)值,以減少屬性值的個數(shù).數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗
數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗主要任務(wù)補充缺失數(shù)據(jù)識別孤立點,平滑噪音數(shù)據(jù)處理不一致的數(shù)據(jù)數(shù)據(jù)清洗主要任務(wù)缺失數(shù)據(jù)的處理部分數(shù)據(jù)通常是不可用的在許多元組中部分屬性值為空。如:在客戶表中的客戶收入為空。導(dǎo)致數(shù)據(jù)缺失的原因數(shù)據(jù)采集設(shè)備的故障由于與其它信息的數(shù)據(jù)存在不一致性,因此數(shù)據(jù)項被刪除由于不理解或者不知道而未能輸入在當時數(shù)據(jù)輸入的時候,該數(shù)據(jù)項不重要而忽略數(shù)據(jù)傳輸過程中引入的錯誤缺失數(shù)據(jù)通常需要經(jīng)過合理的推斷予以添加缺失數(shù)據(jù)的處理部分數(shù)據(jù)通常是不可用的缺失數(shù)據(jù)的處理方法忽略該記錄(元組)通常在進行分類、描述、聚類等挖掘,但是元組缺失類標識時該種方法通常不是最佳的,尤其是缺失數(shù)據(jù)比例比較大的時候手工填入空缺的值枯燥、費時,可操作性差,不推薦使用使用一個全局的常量填充空缺數(shù)值給定一個固定的屬性值如:未知、不祥、Unknown、Null等簡單,但是沒有意義缺失數(shù)據(jù)的處理方法忽略該記錄(元組)使用屬性的平均值填充空缺數(shù)值簡單方便、挖掘結(jié)果容易產(chǎn)生不精確的結(jié)果使用與給定元組同一個類別的所有樣本的平均值分類非常重要,尤其是分類指標的選擇使用最有可能的值予以填充利用回歸、基于推導(dǎo)的使用貝葉斯形式化的方法的工具或者判定樹歸納確定利用屬性之間的關(guān)系進行推斷,保持了屬性之間的聯(lián)系缺失數(shù)據(jù)的處理方法(續(xù))使用屬性的平均值填充空缺數(shù)值缺失數(shù)據(jù)的處理方法(續(xù))噪音數(shù)據(jù)噪音數(shù)據(jù):一個度量(指標)變量中的隨機錯誤或者偏差主要原因數(shù)據(jù)采集設(shè)備的錯誤數(shù)據(jù)錄入問題數(shù)據(jù)傳輸問題部分技術(shù)的限制數(shù)據(jù)轉(zhuǎn)換中的不一致數(shù)據(jù)清理中所需要處理的其它問題重復(fù)的記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)噪音數(shù)據(jù)噪音數(shù)據(jù):一個度量(指標)變量中的隨機錯誤或者偏差噪音數(shù)據(jù)的處理分箱(Binning)的方法聚類方法檢測并消除異常點線性回歸對不符合回歸的數(shù)據(jù)進行平滑處理人機結(jié)合共同檢測由計算機檢測可疑的點,然后由用戶確認噪音數(shù)據(jù)的處理分箱(Binning)的方法處理噪音數(shù)據(jù):分箱方法分箱(Binning)方法:基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲數(shù)據(jù)的值基本步驟:首先,對數(shù)據(jù)進行排序,并分配到具有相同寬度/深度的不同的“箱子”中其次,通過箱子的平均值(Means)、中值(Median)、或者邊界值等來進行平滑處理處理噪音數(shù)據(jù):分箱方法分箱(Binning)方法:分箱(Binning)方法舉例對數(shù)據(jù)進行排序:4,8,9,15,21,21,24,25,26,28,29,34對數(shù)據(jù)進行分割(相同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根據(jù)bin中的平均值進行離散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29分箱(Binning)方法舉例對數(shù)據(jù)進行排序:4,8,基于聚類分析的平滑處理基于聚類分析的平滑處理通過線性回歸的平滑處理xyy=x+1X1Y1Y1’通過線性回歸的平滑處理xyy=x+1X1Y1Y1’主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理數(shù)據(jù)集成數(shù)據(jù)集成的概念將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中數(shù)據(jù)源包括:多個數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設(shè)中的一個重要問題數(shù)據(jù)集成的內(nèi)容模式集成利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息主要工作是識別現(xiàn)實世界中的實體定義冗余數(shù)據(jù)的處理檢測和解決數(shù)值沖突對于現(xiàn)實世界中的同一實體,來自于不同數(shù)據(jù)源的屬性值可能不同主要原因:不同的數(shù)據(jù)表示、度量單位、編碼方式以及語義的不同數(shù)據(jù)集成數(shù)據(jù)集成的概念模式集成數(shù)據(jù)類型沖突性別:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String數(shù)據(jù)標簽沖突:解決同名異義、異名同義學(xué)生成績、分數(shù)度量單位沖突學(xué)生成績百分制:100~0五分制:A、B、C、D、E字符表示:優(yōu)、良、及格、不及格概念不清最近交易額:前一個小時、昨天、本周、本月?聚集沖突:根源在于表結(jié)構(gòu)的設(shè)計
模式集成數(shù)據(jù)類型沖突冗余數(shù)據(jù)的處理從多個數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導(dǎo)致數(shù)據(jù)的冗余不同的屬性在不同的數(shù)據(jù)源中是不同的命名方式有些屬性可以從其它屬性中導(dǎo)出,例如:銷售額=單價×銷售量有些冗余可以通過相關(guān)分析檢測到其中:n是元組的個數(shù),和分別是A和B的平均值,和分別是A和B的標準差元組級的“重復(fù)”,也是數(shù)據(jù)冗余的一個重要方面減少冗余數(shù)據(jù),可以大大提高數(shù)據(jù)挖掘的性能冗余數(shù)據(jù)的處理從多個數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導(dǎo)致數(shù)據(jù)的冗數(shù)據(jù)轉(zhuǎn)換平滑處理:從數(shù)據(jù)中消除噪音數(shù)據(jù)聚集操作:對數(shù)據(jù)進行綜合,類似于DataCube的構(gòu)建數(shù)據(jù)概化:構(gòu)建概念層次數(shù)據(jù)規(guī)范化:將數(shù)據(jù)集中到一個較小的范圍之中最大-最小規(guī)范化z-score(零-均值)規(guī)范化小數(shù)范圍規(guī)范化(0–1規(guī)范化)屬性構(gòu)造構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換平滑處理:從數(shù)據(jù)中消除噪音數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換:規(guī)范化最大-最小規(guī)范化對原始數(shù)據(jù)進行線性變換保持了原始數(shù)據(jù)值之間的關(guān)系當有新的輸入,落在原數(shù)據(jù)區(qū)之外,該方法將面臨“越界”錯誤受到孤立點的影響可能會比較大數(shù)據(jù)轉(zhuǎn)換:規(guī)范化最大-最小規(guī)范化數(shù)據(jù)轉(zhuǎn)換:規(guī)范化(續(xù))z-score(零-均值)規(guī)范化屬性基于平均值和標準差規(guī)范化當屬性的最大值和最小值未知,或者孤立點左右了最大-最小規(guī)范化時,該方法有效0-1規(guī)范化(小數(shù)定標規(guī)范化)通過移動屬性的小數(shù)點位置進行規(guī)范化例如A的值為125,那么|A|=125,則j=3,有v=0.125。WherejisthesmallestintegersuchthatMax(||)<1數(shù)據(jù)轉(zhuǎn)換:規(guī)范化(續(xù))z-score(零-均值)規(guī)范化Whe屬性構(gòu)造由給定的屬性構(gòu)造并增添新的屬性,以幫助提高精度和對高維數(shù)據(jù)結(jié)構(gòu)的理解屬性結(jié)構(gòu)還可以幫助平緩使用判定算法分類的分裂問題例如:Area=Width×Height銷售額=單價×銷售量屬性構(gòu)造由給定的屬性構(gòu)造并增添新的屬性,以幫助提高精度和對高主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)歸約的提出在數(shù)據(jù)倉庫中可能保存TB級的數(shù)據(jù),大數(shù)據(jù)量的數(shù)據(jù)挖掘,可能需要大量的時間來完成整個數(shù)據(jù)的數(shù)據(jù)挖掘。數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)的容量進行有效的縮減數(shù)據(jù)歸約的方法數(shù)據(jù)立方體聚集:聚集操作作用于立方體中的數(shù)據(jù)減少數(shù)據(jù)維度(維歸約):可以檢測并刪除不相關(guān)、弱相關(guān)或者冗余的屬性或維數(shù)據(jù)壓縮:使用編碼機制壓縮數(shù)據(jù)集數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示替換或估計數(shù)據(jù)數(shù)據(jù)歸約的提出在數(shù)據(jù)倉庫中可能保存TB級的數(shù)據(jù),大數(shù)據(jù)量的數(shù)DataCube的聚集“基點方體”“頂點方體”DataCube中的多個層次的聚集進一步縮減所要處理的數(shù)據(jù)量當響應(yīng)OLAP查詢或者數(shù)據(jù)挖掘時,應(yīng)當使用與給定任務(wù)相關(guān)的“最小方體”DataCube的聚集“基點方體”維歸約(特征提取)維歸約:通過刪除不相關(guān)的屬性(或維)減少數(shù)據(jù)量特征選取(屬性子集的選取):選取最小的特征屬性集合,得到的數(shù)據(jù)挖掘結(jié)果與所有特征參加的數(shù)據(jù)挖掘結(jié)果相近或完全一致特征提取,對于d個屬性來說,具有2d個可能的子集維歸約(特征提取)維歸約:通過刪除不相關(guān)的屬性(或維)減少數(shù)維歸約的主要方法利用啟發(fā)式的方法來減少數(shù)據(jù)維度(隨著維度的增長數(shù)據(jù)量將呈指數(shù)級別增長):逐步向前選擇:維數(shù)逐步增多的方法(每次增添“最好”的屬性)逐步向后選擇:維數(shù)逐步減少的方法(每次刪除“最差”的屬性)兩者組合的方法判定樹歸納方法(ID3,C4.5)維歸約的主要方法利用啟發(fā)式的方法來減少數(shù)據(jù)維度(隨著維度的增基于判定樹歸納的方法Initialattributeset:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>Reducedattributeset:{A1,A4,A6}YYYNNN基于判定樹歸納的方法Initialattributese數(shù)據(jù)壓縮數(shù)據(jù)壓縮:應(yīng)用數(shù)據(jù)編碼或變換,以便得到數(shù)據(jù)的歸約或壓縮表示無損壓縮:原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息字符串壓縮是典型的無損壓縮現(xiàn)在已經(jīng)有許多很好的方法但是它們只允許有限的數(shù)據(jù)操作有損壓縮:只能重新構(gòu)造原數(shù)據(jù)的近似表示影像文件的壓縮是典型的有損壓縮典型的方法:小波變換、主要成分分析數(shù)據(jù)壓縮數(shù)據(jù)壓縮:應(yīng)用數(shù)據(jù)編碼或變換,以便得到數(shù)據(jù)的歸約或壓數(shù)值歸約數(shù)值歸約:通過選擇替代的、“較小”的數(shù)據(jù)表示形式來減少數(shù)據(jù)量有參的方法假設(shè)數(shù)據(jù)符合某些模型,通過評估模型參數(shù),僅需要存儲參數(shù),不需要存儲實際數(shù)據(jù)(孤立點也可能被存放)典型方法:對數(shù)線性模型,它估計離散的多維概率分布無參的方法不存在假想的模型典型方法:直方圖、聚類和抽樣數(shù)值歸約數(shù)值歸約:通過選擇替代的、“較小”的數(shù)據(jù)表示形式來減直方圖類似于分箱技術(shù),是一種流行的數(shù)據(jù)歸約方式將屬性值劃分為不相交的子集,或“桶”桶安放在水平軸上,而桶的高度(和面積)是該桶所代表的值的平均頻率。每個桶只表示單個屬性值,則稱其為“單桶”。通常,“桶”表示給定屬性的一個連續(xù)空間可以通過編程,動態(tài)修改部分參數(shù),進行合理構(gòu)造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount直方圖類似于分箱技術(shù),是一種流行的數(shù)據(jù)歸約方式count51主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)離散化和概念層次屬性值分類枚舉型有序的無序的連續(xù)型:如Real類型數(shù)據(jù)離散化對于一個特定的連續(xù)屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實際數(shù)據(jù)值,以減少屬性值的個數(shù)。概念層次利用高層的概念(如兒童、青年、中年、老年等)來代替低層的實際數(shù)據(jù)值(實際年齡),以減少屬性值的個數(shù)。數(shù)據(jù)離散化和概念層次屬性值分類數(shù)值數(shù)據(jù)的離散化和概念分層建立的方法分箱(Binning)直方圖分析聚類分析的方法根據(jù)自然分類進行分割數(shù)值數(shù)據(jù)的離散化和概念分層建立的方法分箱(Binning)分箱方法:一種簡單的離散化技術(shù)相同寬度(距離)數(shù)據(jù)分割將數(shù)據(jù)分成N等份,各個等份數(shù)據(jù)之間具有相同的距離如果A和B分別為屬性值中的最大值和最小值,那么各個數(shù)據(jù)等份之間的距離為:W=(B-A)/N.異常點將會扮演很重要的角色傾斜的數(shù)據(jù)不能很好的解決相同深度(頻率)數(shù)據(jù)分割將數(shù)據(jù)分成N等份,各個等份具有相同的數(shù)據(jù)個數(shù)。具有較好的可伸縮性適合于數(shù)據(jù)分類的情況分箱方法:一種簡單的離散化技術(shù)相同寬度(距離)數(shù)據(jù)分割離散化:直方圖方法將數(shù)據(jù)分割到若干個桶之中,用桶中的平均值(或求和等)來表示各個桶。可以通過編程,動態(tài)修改部分參數(shù),進行合理構(gòu)造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount離散化:直方圖方法將數(shù)據(jù)分割到若干個桶之中,用桶中的平均值(離散化:聚類分析方法將數(shù)據(jù)按照“類內(nèi)最大相似度,類間最小相似度的原則”對數(shù)據(jù)進行有效聚類利用聚類的中心點來表示該類所包含的對象數(shù)據(jù)聚類將非常有效,但是必須保證數(shù)據(jù)中沒有噪音數(shù)據(jù)離散化:聚類分析方法將數(shù)據(jù)按照“類內(nèi)最大相似度,類間最小相似按照自然分類進行數(shù)據(jù)分割利用3-4-5法則對數(shù)字型數(shù)據(jù)分類,將數(shù)據(jù)分成若干個“自然”的區(qū)間:如果在所有數(shù)字的最高位覆蓋3,6,7或9個不同的值,則將數(shù)據(jù)分成3段。3(1,1,1)6(2,2,2)7(2,3,2)9(3,3,3)如果在所有數(shù)字的最高位覆蓋2,4,8個不同的值,則將數(shù)據(jù)分成4段。如果在所有數(shù)字的最高位覆蓋1,5,10個不同的值,則將數(shù)據(jù)分成5段。按照自然分類進行數(shù)據(jù)分割利用3-4-5法則對數(shù)字型數(shù)據(jù)分類3-4-5法則舉例例1:包含數(shù)據(jù):101、110、203、222、305、315方法:最高位包含3個值(1、2、3)分成[100,200),[200,300),[300,400)三段例2:包含數(shù)據(jù):101、110、103、422、405、415,400方法:最高位包含2個值(1、4)分成[100,150),[150,200),[400,450),[450,500)四段例3:包含數(shù)據(jù):101、210、203、322、305、415,500方法:最高位包含5個值(1、2、3、4、5)分成[100,200),[200,300),[300,400),[400,500),[500,600)五段3-4-5法則舉例例1:包含數(shù)據(jù):101、110、203、分類數(shù)據(jù)的概念分層概念分層是由用戶或?qū)<覍哂衅蜿P(guān)系的屬性的一種層次關(guān)系的顯式表示。也是一種數(shù)據(jù)分類的顯式表示。概念層次的獲得隱式存儲于數(shù)據(jù)庫中。如:地址。由專家顯式給出。借助數(shù)據(jù)分析自動生成。概念層次的表示基于實例。如:{freshman,...,senior}undergraduate.;基于數(shù)據(jù)庫表模式。如:address(city,province,country)?;谝?guī)則。如:good(x)undergraduate(x)∧gpa(x)3.5。分類數(shù)據(jù)的概念分層概念分層是由用戶或?qū)<覍哂衅蜿P(guān)系的屬性概念層次樹舉例概念層次樹將大大減少挖掘數(shù)據(jù)的數(shù)據(jù)量。countryprovince_or_statecitystreet15distinctvalues65distinctvalues3567distinctvalues674,339distinctvalues概念層次樹舉例概念層次樹將大大減少挖掘數(shù)據(jù)的數(shù)據(jù)量。coun主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?本章小結(jié)數(shù)據(jù)的預(yù)處理無論對于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是非常重要的一個環(huán)節(jié)數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約和特征選取數(shù)據(jù)的離散化數(shù)據(jù)預(yù)處理涉及面廣,現(xiàn)已建立了一系列的方法,但是目前仍然是一個非常活躍的研究領(lǐng)域本章小結(jié)數(shù)據(jù)的預(yù)處理無論對于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是非常重要的六,可視化數(shù)據(jù)挖掘可視化:使用計算機圖形學(xué)創(chuàng)建可視化圖像,幫助用戶理解復(fù)雜,大規(guī)模數(shù)據(jù)可視化數(shù)據(jù)挖掘:使用可視化技術(shù),從大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)隱含,有用知識的過程信息可視化數(shù)據(jù)挖掘可視化數(shù)據(jù)挖掘六,可視化數(shù)據(jù)挖掘可視化:使用計算機圖形學(xué)創(chuàng)建可視化圖像,信息可視化信息可視化:結(jié)合了科學(xué)可視化、人機交互、數(shù)據(jù)挖掘、圖像技術(shù)、圖形學(xué)、認知科學(xué)等諸多學(xué)科的理論和方法,而逐步發(fā)展起來的。信息可視化參考模型信息可視化信息可視化:結(jié)合了科學(xué)可視化、人機交互、數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘可視化的目的提供對大規(guī)模數(shù)據(jù)集定性的理解查看數(shù)據(jù)中的模式,趨勢,結(jié)構(gòu),不規(guī)則性,關(guān)系等幫助尋找感興趣的區(qū)域,為進一步定量分析提供合適的參數(shù)為計算機得出的結(jié)果提供可視化的證明可視化數(shù)據(jù)挖掘可視化的目的可視化數(shù)據(jù)挖掘可視化與數(shù)據(jù)挖掘的結(jié)合數(shù)據(jù)可視化數(shù)據(jù)挖掘結(jié)果可視化數(shù)據(jù)挖掘過程可視化交互式可視化數(shù)據(jù)挖掘可視化數(shù)據(jù)挖掘可視化與數(shù)據(jù)挖掘的結(jié)合數(shù)據(jù)可視化數(shù)據(jù)可視化以下面兩種方式觀察數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù):在不同的粒度或抽象層面觀察屬性或維度的不同結(jié)合數(shù)據(jù)可以被表示成不同的格式,柱狀圖、餅狀圖、散點圖、三維立方體、曲線、數(shù)據(jù)分布圖表等數(shù)據(jù)可視化數(shù)據(jù)可視化MineSet-數(shù)據(jù)可視化數(shù)據(jù)的直方圖,均值,中值,標準差,四分位數(shù)MineSet-數(shù)據(jù)可視化數(shù)據(jù)的直方圖,均值,中值,標準差數(shù)據(jù)挖掘結(jié)果可視化以視圖的形式給出由數(shù)據(jù)挖掘算法得出的結(jié)果或知識例如決策樹貝葉斯網(wǎng)絡(luò)關(guān)聯(lián)規(guī)則聚類孤立點數(shù)據(jù)挖掘結(jié)果可視化以視圖的形式給出由數(shù)據(jù)挖掘算法得出的結(jié)果或SASEnterpriseMiner:
scatterplots
SASEnterpriseMiner:scatterVisualizationofassociationrulesinMineSet3.0VisualizationofassociationrVisualizationofa
decisiontree
inMineSet3.0VisualizationofadecisiontrVisualizationof
clustergroupings
inSASVisualizationofclustergroup數(shù)據(jù)挖掘過程可視化將數(shù)據(jù)挖掘各種處理過程用可視化的方式呈現(xiàn)給用戶,可以看到:數(shù)據(jù)是如何被提取的是從哪個數(shù)據(jù)庫或數(shù)據(jù)倉庫提取的數(shù)據(jù)被選擇數(shù)據(jù)如何被清理,整合,處理和挖掘的在數(shù)據(jù)挖掘中采用什么方法數(shù)據(jù)被存儲在哪里數(shù)據(jù)挖掘過程可視化將數(shù)據(jù)挖掘各種處理過程用可視化的方式呈現(xiàn)給Visualizationof
DataMiningProcesses
byClementine可視化流程使得數(shù)據(jù)觀察和交互的變得簡單方便
VisualizationofDataMiningP交互式可視化數(shù)據(jù)挖掘使用可視化工具在數(shù)據(jù)挖掘過程中幫助用戶作出更加合理的挖掘決定更好的理解數(shù)據(jù)和樣本用戶可以根據(jù)理解作出決定用戶可以根據(jù)領(lǐng)域知識作出決定可視化結(jié)果使用戶能夠指導(dǎo)下次算法執(zhí)行交互式可視化數(shù)據(jù)挖掘使用可視化工具在數(shù)據(jù)挖掘過程中幫助用戶作
謝謝!
數(shù)據(jù)挖掘入門講課教案課件數(shù)據(jù)挖掘入門
數(shù)據(jù)挖掘入門引言KDD與數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢數(shù)據(jù)預(yù)處理可視化數(shù)據(jù)挖掘引言一、引言什么激發(fā)了數(shù)據(jù)挖掘
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù)可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛應(yīng)用于各種領(lǐng)域,如商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等。面對海量數(shù)據(jù)庫和大量繁雜信息,如何才能從中提取有價值的知識,進一步提高信息的利用率,由此引發(fā)了一個新的研究方向:基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase)及相應(yīng)的數(shù)據(jù)挖掘(DataMining)理論和技術(shù)的研究。一、引言為什么數(shù)據(jù)挖掘是重要的
數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求。快速增長的海量數(shù)據(jù)收集存放在大型和大量的數(shù)據(jù)庫中,沒有強有力的工具,這些數(shù)據(jù)就變成了“數(shù)據(jù)墳?zāi)埂薄y得再訪問的數(shù)據(jù)檔案。因此數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識“金塊”。為什么數(shù)據(jù)挖掘是重要的2.1KDD定義人們給KDD下過很多定義,內(nèi)涵也各不相同,目前公認的定義是由Fayyad等人提出的。所謂基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。二、KDD與數(shù)據(jù)挖掘2.1KDD定義二、KDD與數(shù)據(jù)挖掘2.2KDD過程
KDD是一個人機交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供。從宏觀上看,KDD過程主要經(jīng)由三個部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。數(shù)據(jù)挖掘入門講課教案課件知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowle知識發(fā)現(xiàn)(KDD)的步驟數(shù)據(jù)準備:了解KDD應(yīng)用領(lǐng)域的有關(guān)情況。包括熟悉相關(guān)的知識背景,搞清用戶需求。數(shù)據(jù)選?。簲?shù)據(jù)選取的目的是確定目標數(shù)據(jù),根據(jù)用戶的需要從原始數(shù)據(jù)庫中選取相關(guān)數(shù)據(jù)或樣本。在此過程中,將利用一些數(shù)據(jù)庫操作對數(shù)據(jù)庫進行相關(guān)處理。數(shù)據(jù)預(yù)處理:對步驟2中選出的數(shù)據(jù)進行再處理,檢查數(shù)據(jù)的完整性及一致性,消除噪聲及與數(shù)據(jù)挖掘無關(guān)的冗余數(shù)據(jù),根據(jù)時間序列和已知的變化情況,利用統(tǒng)計等方法填充丟失的數(shù)據(jù)。知識發(fā)現(xiàn)(KDD)的步驟數(shù)據(jù)準備:了解KDD應(yīng)用領(lǐng)域的有關(guān)情數(shù)據(jù)變換:根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)再處理,主要是通過投影或利用數(shù)據(jù)庫的其它操作減少數(shù)據(jù)量。確定KDD目標:根據(jù)用戶的要求,確定KDD要發(fā)現(xiàn)的知識類型。選擇算法:根據(jù)步驟5確定的任務(wù),選擇合適的知識發(fā)現(xiàn)算法,包括選取合適的模型和參數(shù)。數(shù)據(jù)變換:根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)再處理,主要是數(shù)據(jù)挖掘:這是整個KDD過程中很重要的一個步驟。運用前面的選擇算法,從數(shù)據(jù)庫中提取用戶感興趣的知識,并以一定的方式表示出來。模式解釋:對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進行解釋。通過機器評估剔除冗余或無關(guān)模式,若模式不滿足,再返回到前面某些處理步驟中反復(fù)提取。知識評價:將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。其中也包括對知識一致性的檢查,以確信本次發(fā)現(xiàn)的知識不會與以前發(fā)現(xiàn)的知識相抵觸。數(shù)據(jù)挖掘:這是整個KDD過程中很重要的一個步驟。運用前面的選什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從海量的數(shù)據(jù)中抽取感興趣的(有價值的、隱含的、以前沒有用但是潛在有用信息的)模式和知識。其它可選擇的名字數(shù)據(jù)庫中知識挖掘、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古、數(shù)據(jù)捕撈、信息獲取、事務(wù)智能等。廣義觀點數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫中或其它信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫??梢栽跀?shù)據(jù)上進行數(shù)據(jù)清理和集成。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負責提取相關(guān)數(shù)據(jù)。知識庫:是領(lǐng)域知識,用于指導(dǎo)搜索,或評估結(jié)果模式的興趣度。數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)挖掘引擎:數(shù)據(jù)挖掘系統(tǒng)的基本部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。模式評估模塊:使用興趣度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上,可能使用興趣度閾值過濾發(fā)現(xiàn)的模式。圖形用戶界面:該模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務(wù),提供信息,幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進行探索式數(shù)據(jù)挖掘。數(shù)據(jù)挖掘入門講課教案課件數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理3.1可以分別按挖掘任務(wù)、挖掘?qū)ο蠛屯诰蚍椒▉矸诸?。按挖掘任?wù)分類:包括分類或預(yù)測知識模型發(fā)現(xiàn),數(shù)據(jù)總結(jié),數(shù)據(jù)聚類,關(guān)聯(lián)規(guī)則發(fā)現(xiàn),時序模式發(fā)現(xiàn),依賴關(guān)系或依賴模型發(fā)現(xiàn),異常和趨勢發(fā)現(xiàn)等。按挖掘?qū)ο蠓诸悾喊P(guān)系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫,空間數(shù)據(jù)庫,時態(tài)數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構(gòu)數(shù)據(jù)庫,數(shù)據(jù)倉庫,演繹數(shù)據(jù)庫和Web數(shù)據(jù)庫等。三、數(shù)據(jù)挖掘方法3.1可以分別按挖掘任務(wù)、挖掘?qū)ο蠛屯诰蚍椒▉矸诸?。三、?shù)按挖掘方法分類:包括統(tǒng)計方法,機器學(xué)習方法,神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法,其中:統(tǒng)計方法可分為:回歸分析(多元回歸、自回歸等),判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等),聚類分析(系統(tǒng)聚類、動態(tài)聚類等),探索性分析(主成分分析、相關(guān)分析等)等。機器學(xué)習方法可分為:歸納學(xué)習方法(決策樹、規(guī)則歸納等),基于范例學(xué)習,遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可以分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等),自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習等)。數(shù)據(jù)庫方法分為:多為數(shù)據(jù)分析和OLAP技術(shù),此外還有面向?qū)傩缘臍w納方法。按挖掘方法分類:包括統(tǒng)計方法,機器學(xué)習方法,神經(jīng)網(wǎng)絡(luò)方法和數(shù)3.2數(shù)據(jù)挖掘方法粗糙集1982年波蘭數(shù)學(xué)家Z.Pawlak針對G.Frege的邊界線區(qū)域思想提出了粗糙集(RoughSet),他把那些無法確認的個體都歸屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集。粗糙集理論主要特點在于它恰好反映了人們用粗糙集方法處理不分明問題的常規(guī)性,即以不完全信息或知識去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進行分類數(shù)據(jù)的能力。3.2數(shù)據(jù)挖掘方法模糊集
經(jīng)典集合理論對應(yīng)二值邏輯,一個元素要么屬于、要么不屬于給定集合。因此經(jīng)典集合不能很好地描述具有模糊性和不確定性的問題。美國加利福尼亞大學(xué)的扎德教授于1965年提出了模糊集合論,用隸屬程度來描述差異的中間過渡,是一種用精確的數(shù)學(xué)語言對模糊性進行描述的方法。
模糊集
定義:論域X={x}上的模糊集合A由隸屬函數(shù)A(x)來表征。其中A(x)在實軸的閉區(qū)間[0,1]中取值,A(x)的大小反映x對于模糊集合A的隸屬程度。A(x)的值接近1,表示x隸屬于A的程度很高。A(x)的值接近0,表示x隸屬于A的程度很低。特例,當A的值域取[0,1]閉區(qū)間的兩個端點,亦即{0,1}兩個值時,A便退化為一個普通的邏輯子集。隸屬函數(shù)也就退化為普通邏輯值。定義:論域X={x}上的模糊集合A由隸屬函聚類分析
聚類是對物理的或抽象的對象集合分組的過程。聚類生成的組為簇,簇是數(shù)據(jù)對象的集合。簇內(nèi)部任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象間具有較高的相異度。相異度可以根據(jù)描述對象的屬性值計算,對象間的距離是最常采用的度量指標。在實際應(yīng)用中,經(jīng)常將一個簇中的數(shù)據(jù)對象作為一個整體看待。用聚類生成的簇來表達數(shù)據(jù)集不可避免地會損失一些信息,但卻可以使問題得到必要的簡化。主要的數(shù)據(jù)挖掘聚類方法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法聚類分析關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則反映一個事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個事物或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個事物就能夠通過其他事物預(yù)測到。人們希望在海量的商業(yè)交易記錄中發(fā)現(xiàn)感興趣的數(shù)據(jù)關(guān)聯(lián)關(guān)系,用以幫助商家作出決策。例如:面包2%牛奶1.5%(占超市交易總數(shù))2%和1.5%表明這兩種商品在超市經(jīng)營中的重要程度,稱為支持度。商家關(guān)注高支持度的產(chǎn)品。面包=〉牛奶60%在購買面包的交易中,有60%的交易既買了面包又買了牛奶,成60%為規(guī)則“面包=〉牛奶”的信任度。信任度反映了商品間的關(guān)聯(lián)程度。關(guān)聯(lián)規(guī)則
項目構(gòu)成的集合稱為項集。項集在事物數(shù)據(jù)庫中出現(xiàn)的次數(shù)占總事物的百分比叫做項集的支持度。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集。
關(guān)聯(lián)規(guī)則就是支持度和信任度分別滿足用戶給定閾值的規(guī)則。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需要經(jīng)歷如下兩個步驟:(1)找出所有的頻繁項。(2)由頻繁項集生成滿足最小信任度閾值的規(guī)則。
5.人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是指由簡單計算單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),能夠模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能。組成神經(jīng)網(wǎng)絡(luò)的單個神經(jīng)元的結(jié)構(gòu)簡單,功能有限,但是,由大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)系統(tǒng)可以實現(xiàn)強大的功能。由于現(xiàn)實世界的數(shù)據(jù)關(guān)系相當復(fù)雜,非線性問題和噪聲數(shù)據(jù)普遍存在。將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于數(shù)據(jù)挖掘,希望借助其非線性處理能力和容噪能力,得到較好的數(shù)據(jù)挖掘結(jié)果。將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于數(shù)據(jù)挖掘的主要障礙是,通過人工神經(jīng)網(wǎng)絡(luò)學(xué)習到的知識難于理解;學(xué)習時間太長,不適于大型數(shù)據(jù)集。5.人工神經(jīng)網(wǎng)絡(luò)6,分類與預(yù)測分類和預(yù)測是兩種重要的數(shù)據(jù)分析方法,在商業(yè)上的應(yīng)用很多。分類和預(yù)測可以用于提取描述重要數(shù)據(jù)類型或預(yù)測未來的數(shù)據(jù)趨勢。分類的目的是提出一個分類函數(shù)或分類模型(即分類器)通過分類器將數(shù)據(jù)對象映射到某一個給定的類別中。數(shù)據(jù)分類可以分為兩步進行。第一步建立模型,用于描述給定的數(shù)據(jù)集合。通過分析由屬性描述的數(shù)據(jù)集合來建立反映數(shù)據(jù)集合特性的模型。第二步是用模型對數(shù)據(jù)對象進行分類。預(yù)測的目的是從歷史數(shù)據(jù)記錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能夠?qū)κ孪任粗臄?shù)據(jù)進行預(yù)測。6,分類與預(yù)測分類的方法:決策樹:決策樹內(nèi)部節(jié)點進行屬性值測試,并根據(jù)屬性值判斷由該節(jié)點引出的分支,在決策樹的葉結(jié)點得到結(jié)論。內(nèi)部節(jié)點是屬性或?qū)傩缘募?,葉節(jié)點代表樣本所屬的類或類分布。貝葉斯分類:是一種統(tǒng)計學(xué)分類方法,可以預(yù)測類成員關(guān)系關(guān)系的可能性,如給定樣本屬于一個特征類的概率。貝葉斯方法已在文本分類、字母識別、經(jīng)濟預(yù)測等領(lǐng)域獲得了成功的應(yīng)用。基于遺傳算法分類:模擬生物進化過程中的計算模型,是自然遺傳學(xué)與計算機科學(xué)互相結(jié)合、互相滲透而形成的新的計算方法。利用選擇、交叉、變異等操作對子代進行操作,優(yōu)點是問題求解與初始條件無關(guān),搜索最優(yōu)解的能力極強,可以對各種數(shù)據(jù)挖掘技術(shù)進行優(yōu)化。分類的方法:預(yù)測預(yù)測是構(gòu)造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或區(qū)間值。預(yù)測的目的是從歷史數(shù)據(jù)中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測。例如,金融系統(tǒng)可以根據(jù)顧客信譽卡消費量預(yù)測他未來的刷卡消費量或用于信譽證實。推銷人員希望在開拓新客戶時,找出顧客一些共同特征,預(yù)測出潛在顧客群。預(yù)測的方法主要是回歸統(tǒng)計,包括:線性回歸、非線性回歸、多元回歸、泊松回歸、對數(shù)回歸等。分類也可以用來預(yù)測。預(yù)測7,多媒體數(shù)據(jù)挖掘多媒體數(shù)據(jù)庫系統(tǒng)由多媒體數(shù)據(jù)庫管理系統(tǒng)和多媒體數(shù)據(jù)庫構(gòu)成。其中多媒體數(shù)據(jù)庫用于存儲和管理多媒體數(shù)據(jù),多媒體數(shù)據(jù)庫管理系統(tǒng)負責對多媒體數(shù)據(jù)庫進行管理。多媒體數(shù)據(jù)庫包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),如音頻數(shù)據(jù)、視頻數(shù)據(jù)、文本數(shù)據(jù)和圖像數(shù)據(jù)等。多媒體數(shù)據(jù)挖掘就是通過綜合分析多媒體數(shù)據(jù)的內(nèi)容和語義,從大量多媒體數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價值的、可理解的模式,得出事件的發(fā)展趨向和關(guān)聯(lián)關(guān)系,為用戶提供問題求解層次上的決策支持能力。7,多媒體數(shù)據(jù)挖掘
多媒體數(shù)據(jù)是指由多種不同類型多媒體數(shù)據(jù)組成的,包括文本、圖形、圖像、聲音、視頻圖像、動畫等不同類型的媒體數(shù)據(jù)。為了挖掘多媒體數(shù)據(jù),必須對兩種或多種類型的媒體數(shù)據(jù)進行綜合挖掘。多媒體挖掘的方法有兩種:一種是先從多媒體數(shù)據(jù)數(shù)據(jù)庫中提取出結(jié)構(gòu)化數(shù)據(jù),然后用傳統(tǒng)的數(shù)據(jù)挖掘工具在這些結(jié)構(gòu)化的數(shù)據(jù)上進行挖掘。另一種解決辦法是研究開發(fā)可以直接對多媒體數(shù)據(jù)進行挖掘的工具。
四、數(shù)據(jù)挖掘系統(tǒng)與應(yīng)用數(shù)據(jù)挖掘系統(tǒng)的開發(fā)工作十分復(fù)雜,不僅要有大量的數(shù)據(jù)挖掘算法,而且其應(yīng)用領(lǐng)域往往取決于最終用戶的知識結(jié)構(gòu)等因素。下面介紹幾個數(shù)據(jù)挖掘系統(tǒng):SKICAT是MIT噴氣推進實驗室與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠的類星體的工具。Health-KEFIR是用于健康狀況預(yù)警的知識發(fā)現(xiàn)系統(tǒng)。TASA是為預(yù)測通信網(wǎng)絡(luò)故障而開發(fā)的通信網(wǎng)絡(luò)預(yù)警分析系統(tǒng)。會產(chǎn)生“如果在某一時間段內(nèi)發(fā)生某些預(yù)警信息組合,那么其他類型的預(yù)警信息將在某個時間范圍內(nèi)發(fā)生”的規(guī)則。時間段大小由用戶定義。R-MINI運用分類技術(shù)從噪聲中提取有價值的信息。由于是在微弱變化中獲取信息,該系統(tǒng)也可以應(yīng)用于證券領(lǐng)域中的股市行情預(yù)測。四、數(shù)據(jù)挖掘系統(tǒng)與應(yīng)用數(shù)據(jù)挖掘系統(tǒng)的KDW是大型商業(yè)數(shù)據(jù)庫中的交互分析系統(tǒng)。包括聚類、分類、總結(jié)、相關(guān)性分析等多種模式。DBMiner是加拿大SimonFraser大學(xué)開發(fā)的一個多任務(wù)KDD系統(tǒng)。能夠完成多種知識發(fā)現(xiàn),綜合了多種數(shù)據(jù)挖掘技術(shù)。Clementine可以把直觀的圖形用戶界面與多種分析技術(shù)結(jié)合在一起,包括神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則和規(guī)則歸納技術(shù)。Darwin包含神經(jīng)網(wǎng)絡(luò)、決策書和K-鄰近三種數(shù)據(jù)挖掘方法,處理分類、預(yù)測和預(yù)報問題。DMW是一個用在信用卡欺詐分析方面的數(shù)據(jù)挖掘工具,支持反向傳播神經(jīng)網(wǎng)絡(luò)算法,并能以自動和人工模式操作IntelligentMiner是IBM開發(fā)的包括人工智能、機器學(xué)習、語言分析和知識發(fā)現(xiàn)領(lǐng)域成果在內(nèi)的復(fù)雜軟件解決方案。KDW是大型商業(yè)數(shù)據(jù)庫中的交互分析系統(tǒng)。包括聚類、分類、總結(jié)五,數(shù)據(jù)預(yù)處理為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)五,數(shù)據(jù)預(yù)處理為什么需要數(shù)據(jù)預(yù)處理?為什么需要數(shù)據(jù)預(yù)處理?在現(xiàn)實社會中,存在著大量的“臟”數(shù)據(jù)不完整性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)采集設(shè)備和數(shù)據(jù)錄入人員)
缺少感興趣的屬性感興趣的屬性缺少部分屬性值僅僅包含聚合數(shù)據(jù),沒有詳細數(shù)據(jù)噪音數(shù)據(jù)(采集數(shù)據(jù)的設(shè)備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸)數(shù)據(jù)中包含錯誤的信息存在著部分偏離期望值的孤立點不一致性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)錄入人員)數(shù)據(jù)結(jié)構(gòu)的不一致性Label的不一致性數(shù)據(jù)值的不一致性為什么需要數(shù)據(jù)預(yù)處理?在現(xiàn)實社會中,存在著大量的“臟”數(shù)據(jù)為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨立的數(shù)據(jù)源關(guān)系數(shù)據(jù)庫多維數(shù)據(jù)庫(DataCube)文件、文檔數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為了數(shù)據(jù)挖掘的方便海量數(shù)據(jù)的處理數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下)為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨立的為什么需要數(shù)據(jù)預(yù)處理?沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須基于高質(zhì)量的數(shù)據(jù)基礎(chǔ)上數(shù)據(jù)倉庫是在高質(zhì)量數(shù)據(jù)上的集成為什么需要數(shù)據(jù)預(yù)處理?沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填入缺失數(shù)據(jù)平滑噪音數(shù)據(jù)確認和去除孤立點解決不一致性數(shù)據(jù)集成多個數(shù)據(jù)庫、DataCube和文件系統(tǒng)的集成數(shù)據(jù)轉(zhuǎn)換規(guī)范化、聚集等數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)的容量進行有效的縮減數(shù)據(jù)離散化對于一個特定的連續(xù)屬性,尤其是連續(xù)的數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實際數(shù)據(jù)值,以減少屬性值的個數(shù).數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗
數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗主要任務(wù)補充缺失數(shù)據(jù)識別孤立點,平滑噪音數(shù)據(jù)處理不一致的數(shù)據(jù)數(shù)據(jù)清洗主要任務(wù)缺失數(shù)據(jù)的處理部分數(shù)據(jù)通常是不可用的在許多元組中部分屬性值為空。如:在客戶表中的客戶收入為空。導(dǎo)致數(shù)據(jù)缺失的原因數(shù)據(jù)采集設(shè)備的故障由于與其它信息的數(shù)據(jù)存在不一致性,因此數(shù)據(jù)項被刪除由于不理解或者不知道而未能輸入在當時數(shù)據(jù)輸入的時候,該數(shù)據(jù)項不重要而忽略數(shù)據(jù)傳輸過程中引入的錯誤缺失數(shù)據(jù)通常需要經(jīng)過合理的推斷予以添加缺失數(shù)據(jù)的處理部分數(shù)據(jù)通常是不可用的缺失數(shù)據(jù)的處理方法忽略該記錄(元組)通常在進行分類、描述、聚類等挖掘,但是元組缺失類標識時該種方法通常不是最佳的,尤其是缺失數(shù)據(jù)比例比較大的時候手工填入空缺的值枯燥、費時,可操作性差,不推薦使用使用一個全局的常量填充空缺數(shù)值給定一個固定的屬性值如:未知、不祥、Unknown、Null等簡單,但是沒有意義缺失數(shù)據(jù)的處理方法忽略該記錄(元組)使用屬性的平均值填充空缺數(shù)值簡單方便、挖掘結(jié)果容易產(chǎn)生不精確的結(jié)果使用與給定元組同一個類別的所有樣本的平均值分類非常重要,尤其是分類指標的選擇使用最有可能的值予以填充利用回歸、基于推導(dǎo)的使用貝葉斯形式化的方法的工具或者判定樹歸納確定利用屬性之間的關(guān)系進行推斷,保持了屬性之間的聯(lián)系缺失數(shù)據(jù)的處理方法(續(xù))使用屬性的平均值填充空缺數(shù)值缺失數(shù)據(jù)的處理方法(續(xù))噪音數(shù)據(jù)噪音數(shù)據(jù):一個度量(指標)變量中的隨機錯誤或者偏差主要原因數(shù)據(jù)采集設(shè)備的錯誤數(shù)據(jù)錄入問題數(shù)據(jù)傳輸問題部分技術(shù)的限制數(shù)據(jù)轉(zhuǎn)換中的不一致數(shù)據(jù)清理中所需要處理的其它問題重復(fù)的記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)噪音數(shù)據(jù)噪音數(shù)據(jù):一個度量(指標)變量中的隨機錯誤或者偏差噪音數(shù)據(jù)的處理分箱(Binning)的方法聚類方法檢測并消除異常點線性回歸對不符合回歸的數(shù)據(jù)進行平滑處理人機結(jié)合共同檢測由計算機檢測可疑的點,然后由用戶確認噪音數(shù)據(jù)的處理分箱(Binning)的方法處理噪音數(shù)據(jù):分箱方法分箱(Binning)方法:基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲數(shù)據(jù)的值基本步驟:首先,對數(shù)據(jù)進行排序,并分配到具有相同寬度/深度的不同的“箱子”中其次,通過箱子的平均值(Means)、中值(Median)、或者邊界值等來進行平滑處理處理噪音數(shù)據(jù):分箱方法分箱(Binning)方法:分箱(Binning)方法舉例對數(shù)據(jù)進行排序:4,8,9,15,21,21,24,25,26,28,29,34對數(shù)據(jù)進行分割(相同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根據(jù)bin中的平均值進行離散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29分箱(Binning)方法舉例對數(shù)據(jù)進行排序:4,8,基于聚類分析的平滑處理基于聚類分析的平滑處理通過線性回歸的平滑處理xyy=x+1X1Y1Y1’通過線性回歸的平滑處理xyy=x+1X1Y1Y1’主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理數(shù)據(jù)集成數(shù)據(jù)集成的概念將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中數(shù)據(jù)源包括:多個數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設(shè)中的一個重要問題數(shù)據(jù)集成的內(nèi)容模式集成利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息主要工作是識別現(xiàn)實世界中的實體定義冗余數(shù)據(jù)的處理檢測和解決數(shù)值沖突對于現(xiàn)實世界中的同一實體,來自于不同數(shù)據(jù)源的屬性值可能不同主要原因:不同的數(shù)據(jù)表示、度量單位、編碼方式以及語義的不同數(shù)據(jù)集成數(shù)據(jù)集成的概念模式集成數(shù)據(jù)類型沖突性別:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String數(shù)據(jù)標簽沖突:解決同名異義、異名同義學(xué)生成績、分數(shù)度量單位沖突學(xué)生成績百分制:100~0五分制:A、B、C、D、E字符表示:優(yōu)、良、及格、不及格概念不清最近交易額:前一個小時、昨天、本周、本月?聚集沖突:根源在于表結(jié)構(gòu)的設(shè)計
模式集成數(shù)據(jù)類型沖突冗余數(shù)據(jù)的處理從多個數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導(dǎo)致數(shù)據(jù)的冗余不同的屬性在不同的數(shù)據(jù)源中是不同的命名方式有些屬性可以從其它屬性中導(dǎo)出,例如:銷售額=單價×銷售量有些冗余可以通過相關(guān)分析檢測到其中:n是元組的個數(shù),和分別是A和B的平均值,和分別是A和B的標準差元組級的“重復(fù)”,也是數(shù)據(jù)冗余的一個重要方面減少冗余數(shù)據(jù),可以大大提高數(shù)據(jù)挖掘的性能冗余數(shù)據(jù)的處理從多個數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導(dǎo)致數(shù)據(jù)的冗數(shù)據(jù)轉(zhuǎn)換平滑處理:從數(shù)據(jù)中消除噪音數(shù)據(jù)聚集操作:對數(shù)據(jù)進行綜合,類似于DataCube的構(gòu)建數(shù)據(jù)概化:構(gòu)建概念層次數(shù)據(jù)規(guī)范化:將數(shù)據(jù)集中到一個較小的范圍之中最大-最小規(guī)范化z-score(零-均值)規(guī)范化小數(shù)范圍規(guī)范化(0–1規(guī)范化)屬性構(gòu)造構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換平滑處理:從數(shù)據(jù)中消除噪音數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換:規(guī)范化最大-最小規(guī)范化對原始數(shù)據(jù)進行線性變換保持了原始數(shù)據(jù)值之間的關(guān)系當有新的輸入,落在原數(shù)據(jù)區(qū)之外,該方法將面臨“越界”錯誤受到孤立點的影響可能會比較大數(shù)據(jù)轉(zhuǎn)換:規(guī)范化最大-最小規(guī)范化數(shù)據(jù)轉(zhuǎn)換:規(guī)范化(續(xù))z-score(零-均值)規(guī)范化屬性基于平均值和標準差規(guī)范化當屬性的最大值和最小值未知,或者孤立點左右了最大-最小規(guī)范化時,該方法有效0-1規(guī)范化(小數(shù)定標規(guī)范化)通過移動屬性的小數(shù)點位置進行規(guī)范化例如A的值為125,那么|A|=125,則j=3,有v=0.125。WherejisthesmallestintegersuchthatMax(||)<1數(shù)據(jù)轉(zhuǎn)換:規(guī)范化(續(xù))z-score(零-均值)規(guī)范化Whe屬性構(gòu)造由給定的屬性構(gòu)造并增添新的屬性,以幫助提高精度和對高維數(shù)據(jù)結(jié)構(gòu)的理解屬性結(jié)構(gòu)還可以幫助平緩使用判定算法分類的分裂問題例如:Area=Width×Height銷售額=單價×銷售量屬性構(gòu)造由給定的屬性構(gòu)造并增添新的屬性,以幫助提高精度和對高主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)歸約的提出在數(shù)據(jù)倉庫中可能保存TB級的數(shù)據(jù),大數(shù)據(jù)量的數(shù)據(jù)挖掘,可能需要大量的時間來完成整個數(shù)據(jù)的數(shù)據(jù)挖掘。數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)的容量進行有效的縮減數(shù)據(jù)歸約的方法數(shù)據(jù)立方體聚集:聚集操作作用于立方體中的數(shù)據(jù)減少數(shù)據(jù)維度(維歸約):可以檢測并刪除不相關(guān)、弱相關(guān)或者冗余的屬性或維數(shù)據(jù)壓縮:使用編碼機制壓縮數(shù)據(jù)集數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示替換或估計數(shù)據(jù)數(shù)據(jù)歸約的提出在數(shù)據(jù)倉庫中可能保存TB級的數(shù)據(jù),大數(shù)據(jù)量的數(shù)DataCube的聚集“基點方體”“頂點方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國旅游度假區(qū)行業(yè)資本規(guī)劃與股權(quán)融資戰(zhàn)略制定與實施研究報告
- 2025-2030年中國咖啡館行業(yè)并購重組擴張戰(zhàn)略制定與實施研究報告
- 新形勢下金融押運行業(yè)快速做大市場規(guī)模戰(zhàn)略制定與實施研究報告
- 2025-2030年中國商用廚房電器行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 2025-2030年中國汽車分時租賃行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 2025-2030年中國鈷行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 關(guān)于大學(xué)生對學(xué)校組織愛心活動的關(guān)注及其背后真實心理的調(diào)查
- 國有企業(yè)2024年工作情況總結(jié)及2025年工作計劃
- 2024-2030年中國金融系列行業(yè)市場全景分析及投資前景展望報告
- 電力工程招投標過程中的風險分析與管理措施
- 礦用液壓支架的設(shè)計液壓支架的設(shè)計
- 最新深基坑驗收記錄表-開挖條件驗收表4-2
- 勤工助學(xué)申請表
- 《茶館》教學(xué)反思
- DB44∕T 635-2009 政府投資應(yīng)用軟件開發(fā)項目價格評估及計算方法
- 安裝工程定額講義
- 復(fù)旦大學(xué)留學(xué)生入學(xué)考試模擬卷
- 【信息技術(shù)應(yīng)用能力提升工程2.0】A3演示文稿設(shè)計與制作 初中語文《雖有嘉肴》主題說明
- 小學(xué)四年級奧數(shù)教程30講(經(jīng)典講解)
- 爛尾樓工程聯(lián)建檢測與鑒定
- 汽車技術(shù)服務(wù)與營銷畢業(yè)論文備選題目
評論
0/150
提交評論