大數(shù)據(jù)知識(shí)點(diǎn)梳理

上傳人：r*** IP屬地：北京上傳時(shí)間：2022-11-09 格式：DOCX 頁(yè)數(shù)：23 大?。?36.85KB 積分：17 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩18頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院—//第一章引論1、什么是數(shù)據(jù)挖掘？數(shù)據(jù)挖掘更正確的命名為“從數(shù)據(jù)中挖掘知識(shí)”，是數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)（KDD）的同義詞。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過(guò)程，數(shù)據(jù)源包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、web、其他信息存儲(chǔ)庫(kù)或動(dòng)態(tài)的流入系統(tǒng)的數(shù)據(jù)。2、知識(shí)發(fā)現(xiàn)的過(guò)程是什么？知識(shí)發(fā)現(xiàn)的過(guò)程為：（1）數(shù)據(jù)清理（消除噪聲和刪除不一致的數(shù)據(jù)）（2）數(shù)據(jù)集成（多種數(shù)據(jù)源可以組合在一起）（3）數(shù)據(jù)選擇（從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù)）（4）數(shù)據(jù)變換（通過(guò)匯總或聚集操作，把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式）（5）數(shù)據(jù)挖掘（基本步驟，使用智能方法提取數(shù)據(jù)模式）（6）模式評(píng)估（根據(jù)某種興趣度度量，識(shí)別代表知識(shí)的真正有趣的模式）（7）知識(shí)表示（使用可視化和知識(shí)表示技術(shù)，向用戶(hù)提供挖掘的知識(shí)）3、什么類(lèi)型的數(shù)據(jù)可以挖掘？數(shù)據(jù)挖掘可以作用于任何類(lèi)型的數(shù)據(jù)，數(shù)據(jù)的最基本形式是數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、事務(wù)數(shù)據(jù)。也可以用于數(shù)據(jù)流、有序/序列數(shù)據(jù)、圖或網(wǎng)絡(luò)數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)和萬(wàn)維網(wǎng)。（1）數(shù)據(jù)庫(kù)數(shù)據(jù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存儲(chǔ)數(shù)據(jù)的軟件程序組成。關(guān)系數(shù)據(jù)庫(kù)是表的匯集，每個(gè)表被賦予一個(gè)唯一的名字，含有一組屬性（列或字段），并且通常存放大量元組（記錄或行）。每個(gè)元組代表一個(gè)對(duì)象，被唯一的關(guān)鍵字標(biāo)識(shí)，并被一組屬性值描述。通常為關(guān)系數(shù)據(jù)庫(kù)構(gòu)建語(yǔ)義數(shù)據(jù)模型，如實(shí)體-聯(lián)系（ER）數(shù)據(jù)模型。（2）數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù)，存放在一致的模式下，并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息，并且通常是匯總的。數(shù)據(jù)倉(cāng)庫(kù)用稱(chēng)作數(shù)據(jù)立方體的多維數(shù)據(jù)結(jié)構(gòu)建模。每個(gè)維對(duì)應(yīng)于模式中的一個(gè)或一組屬性，每個(gè)單元存放某種聚集度量值⑶事務(wù)數(shù)據(jù)每個(gè)記錄代表一個(gè)事務(wù)4、什么類(lèi)型的模式可以挖掘？數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)發(fā)現(xiàn)的模式，一般而言，這些任務(wù)可以分為兩類(lèi)：描述性和預(yù)測(cè)性。描述性挖掘任務(wù)刻畫(huà)目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì)，預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行歸納，以便進(jìn)行預(yù)測(cè)。（1）類(lèi)/概念描述：特征化與區(qū)分?jǐn)?shù)據(jù)可以與類(lèi)或概念相關(guān)聯(lián)。數(shù)據(jù)特征化是目標(biāo)類(lèi)數(shù)據(jù)的一般特性或特征的匯總。將數(shù)據(jù)匯總和特征化的方法：基于統(tǒng)計(jì)度量和圖的簡(jiǎn)單數(shù)據(jù)匯總、基于數(shù)據(jù)立方體的OLAP上卷操作、面向?qū)傩缘臍w納技術(shù)。數(shù)據(jù)特征的輸出可以用多種形式提供：餅圖、條圖、曲線(xiàn)、多位數(shù)據(jù)立方體、多維表；數(shù)據(jù)區(qū)分是將目標(biāo)類(lèi)數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類(lèi)對(duì)象的一般特性進(jìn)行比較。（2）挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性頻繁模式包括頻繁項(xiàng)集（基礎(chǔ)）、頻繁子序列和頻繁子結(jié)構(gòu)。（3）用于預(yù)測(cè)分析的分類(lèi)與回歸分類(lèi)預(yù)測(cè)類(lèi)別標(biāo)號(hào)，而回歸建立連續(xù)值函數(shù)模型?；貧w分析是最常用的數(shù)值預(yù)測(cè)統(tǒng)計(jì)學(xué)方法，相關(guān)分析可能需要在分類(lèi)和回歸之前進(jìn)行，它試圖識(shí)別與分類(lèi)和回歸過(guò)程顯著相關(guān)的屬性。（4）聚類(lèi)分析聚類(lèi)分析數(shù)據(jù)對(duì)象，而不考慮類(lèi)標(biāo)號(hào)。（5）離群點(diǎn)分析大部分?jǐn)?shù)據(jù)挖掘都將離群點(diǎn)作為噪聲或異常而丟棄，然而在一些應(yīng)用中可以做離群點(diǎn)分析或異常挖掘5、支持度與置信度支持度表示事物數(shù)據(jù)庫(kù)中滿(mǎn)足規(guī)則的事物所占的百分比，置信度評(píng)估所發(fā)現(xiàn)的規(guī)則的確信程度。support（XnY）=P（XuY）confidence（XnY）=P（YIX）準(zhǔn)確率即被一個(gè)規(guī)則正確分類(lèi)的數(shù)據(jù)所占的百分比，覆蓋率類(lèi)似于“支持度”表示規(guī)則可以作用的數(shù)據(jù)所占的百分比。課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院第二章認(rèn)識(shí)數(shù)據(jù)1、數(shù)據(jù)對(duì)象與數(shù)據(jù)類(lèi)型數(shù)據(jù)對(duì)象又稱(chēng)樣本、實(shí)例、數(shù)據(jù)點(diǎn)或?qū)ο?，?shù)據(jù)對(duì)象存放在數(shù)據(jù)庫(kù)中，則他們?yōu)閿?shù)據(jù)元組，即數(shù)據(jù)庫(kù)的行對(duì)應(yīng)于數(shù)據(jù)對(duì)象，列對(duì)應(yīng)于屬性。屬性：表示數(shù)據(jù)對(duì)象的一個(gè)特征（屬性、維、特征、變量）標(biāo)稱(chēng)屬性：一些符號(hào)或事物的名稱(chēng)（分類(lèi)的或枚舉的），標(biāo)稱(chēng)屬性可以取整數(shù)值，但是不能把它視為數(shù)值屬性。二元屬性：是一種標(biāo)稱(chēng)屬性，只有兩種狀態(tài)，0或1,0通常表示該屬性不出現(xiàn)，1表示出現(xiàn)。二元屬性有對(duì)稱(chēng)與非對(duì)稱(chēng)兩種。序數(shù)屬性：可能的值之間具有意義的序或秩評(píng)定，但是相繼值之間的差是未知的。中心趨勢(shì)可以用它的眾數(shù)和中位數(shù)表示，但不能定義均值。數(shù)值屬性：定量的，用整數(shù)或?qū)崝?shù)值表示，數(shù)值屬性可以是區(qū)間標(biāo)度的或比率標(biāo)度的。除了中心趨勢(shì)度量中位數(shù)和眾數(shù)之外，還可以計(jì)算均值。比率標(biāo)度屬性是具有固有零點(diǎn)的數(shù)值屬性。離散屬性與連續(xù)屬性：離散屬性具有有限或無(wú)限可數(shù)個(gè)值，可以用或不用整數(shù)表示2、數(shù)據(jù)的基本統(tǒng)計(jì)描述（1）中心趨勢(shì)度量，度量數(shù)據(jù)分布的中部或中心位置，包括均值、加權(quán)平均、中位數(shù)、眾數(shù)和中列數(shù)；均值對(duì)極端值比較敏感，為了抵消少數(shù)極端值的影響，可以使用截尾均值；對(duì)于非對(duì)稱(chēng)數(shù)據(jù)，數(shù)據(jù)中心最好用中位數(shù)；眾數(shù)是集合中出現(xiàn)最頻繁的值，分為單峰、雙峰和三峰，對(duì)于適度傾斜的單峰數(shù)值數(shù)據(jù)，有經(jīng)驗(yàn)公式：均值■眾數(shù)=3*（均值-中位數(shù)）；中列數(shù)是數(shù)據(jù)集的最大和最小值的平均值。（2）數(shù)據(jù)的散布，最常見(jiàn)度量是極差、四分位數(shù)、四分位極差、五數(shù)概括和盒圖，以及數(shù)據(jù)的方差和標(biāo)準(zhǔn)差。極差：最大值與最小值之差；分位數(shù)：是取自數(shù)據(jù)分布的每隔一定間隔上的點(diǎn)，把數(shù)據(jù)劃分成基本上大小相等的連貫集合；識(shí)別可以的離群點(diǎn)的通常規(guī)則是，挑選落在第3個(gè)四分位數(shù)之上或第1個(gè)四分位數(shù)之下至少1.5*IQR處的值，IQR為四分位數(shù)極差（Q3-Q1）；五數(shù)概括由中位數(shù)、四分位數(shù)Q1和Q3、最小和最大觀測(cè)值組成；盒圖是一種流行的分布的直觀表示。課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttpsn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttpsn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院n■.離群點(diǎn)—最大觀測(cè)值；Q3中位數(shù)——;——Q1一」最小觀測(cè)值方差和標(biāo)準(zhǔn)差指出數(shù)據(jù)分布的散布程度。低標(biāo)準(zhǔn)差意味數(shù)據(jù)觀測(cè)趨向于非?？拷?，高標(biāo)準(zhǔn)差表示數(shù)據(jù)散布在一個(gè)大的值域中。（3）可視化審視數(shù)據(jù)，包括條圖、餅圖和線(xiàn)圖，還有分位數(shù)圖、分位數(shù)-分位數(shù)圖、直方圖和散點(diǎn)圖。分位數(shù)圖：是一種觀察單變量數(shù)據(jù)分布得簡(jiǎn)單有效方法，顯示給定屬性的所有數(shù)據(jù)。分位數(shù)-分位數(shù)圖（q-q圖），可以觀察從一個(gè)分布到另一個(gè)分布是否有漂移。直方圖：概括給定屬性X的分布的圖形方法；散點(diǎn)圖：確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或趨勢(shì)的最有效的圖形方法之一?；緮?shù)據(jù)描述和圖形統(tǒng)計(jì)顯示有助于識(shí)別噪聲和離群點(diǎn)，對(duì)于數(shù)據(jù)清理特別有用。3、數(shù)據(jù)可視化數(shù)據(jù)可視化旨在通過(guò)圖形表示清晰有效地表達(dá)數(shù)據(jù)。（1）基于像素的可視化技術(shù)像素的顏色反應(yīng)該維的值，每維創(chuàng)建一個(gè)窗口。（2）幾何投影可視化技術(shù)幾何投影技術(shù)幫助用戶(hù)發(fā)現(xiàn)多維數(shù)據(jù)集的投影，二維散點(diǎn)圖通過(guò)不同顏色或形狀表述不同的數(shù)據(jù)點(diǎn)，三維散點(diǎn)圖使用笛卡爾坐標(biāo)系的三個(gè)坐標(biāo)軸，對(duì)于維數(shù)超過(guò)4的數(shù)據(jù)集，散點(diǎn)圖一般不太有效。平行坐標(biāo)可以處理更高的維度，繪制n個(gè)等距離、相互平行的軸，每維一個(gè)。（3）基于圖符的可視化技術(shù)兩種流行的圖符技術(shù)—一切爾諾夫臉和人物線(xiàn)條畫(huà)。切爾諾夫臉：有助于揭示數(shù)據(jù)中的趨勢(shì)，臉的要素表示維的值，局限性為在表示多重聯(lián)系的能力方面，且無(wú)法顯示具體的數(shù)據(jù)值，此外面部特征因感知的重要性而異。人物線(xiàn)條畫(huà)：把多維數(shù)據(jù)映射到5段人物線(xiàn)條畫(huà)中，其中每個(gè)畫(huà)都有四肢和一個(gè)軀體。（4）層次可視化技術(shù)把所有維劃分成子集，這些子空間按層次可視化。（5）可視化復(fù)雜對(duì)象和關(guān)系標(biāo)簽云是用戶(hù)產(chǎn)生的標(biāo)簽的統(tǒng)計(jì)量的可視化。標(biāo)簽云的用法有兩種，單個(gè)術(shù)語(yǔ)的標(biāo)簽云可以使用標(biāo)簽的大小表示該標(biāo)簽被不同的用戶(hù)用于該術(shù)語(yǔ)的次數(shù)，多個(gè)術(shù)語(yǔ)上可視化標(biāo)簽統(tǒng)計(jì)量時(shí)，使用標(biāo)簽的大小表示該標(biāo)簽用于的術(shù)語(yǔ)數(shù)，即標(biāo)簽的人氣。4、度量數(shù)據(jù)的相似性和相異性（1）數(shù)據(jù)矩陣與相異性矩陣數(shù)據(jù)矩陣（對(duì)象-屬性結(jié)構(gòu)），每行對(duì)應(yīng)于一個(gè)對(duì)象，每列代表一個(gè)屬性，也稱(chēng)為二模矩陣相異性矩陣（對(duì)象-對(duì)象結(jié)構(gòu)），存放n個(gè)對(duì)象兩兩之間的鄰近度，只包含一類(lèi)實(shí)體，稱(chēng)為單模矩陣相似性度量可以表示成相異性度量的函數(shù)sim（i,j）=1-d（i,j）（2）標(biāo)稱(chēng)屬性的鄰近性度量標(biāo)稱(chēng)屬性對(duì)象之間的相異性可以根據(jù)不匹配率來(lái)計(jì)算P-md（,j）=PM是匹配的數(shù)目（i，j取值相同狀態(tài)的屬性數(shù)），p是刻畫(huà)對(duì)象的屬性總數(shù)；（3）二元屬性的鄰近性度量對(duì)象j對(duì)象i10sum1qrq+r0sts+tsumq+sr+tp課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院kn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttk基于對(duì)稱(chēng)二元屬性的相異性稱(chēng)作對(duì)稱(chēng)的二元相異性，i,j的相異性為基于非對(duì)稱(chēng)的二元屬性的相異性稱(chēng)為非對(duì)稱(chēng)的二元相異性，非對(duì)稱(chēng)的二元屬性，兩個(gè)狀態(tài)不是同等重要的，若取值為1被認(rèn)為比取值為0更有意義，負(fù)匹配t被認(rèn)為不重要而忽略，r+s則i，j相異性為d(i,j)=q+r+s(4)數(shù)值屬性的相異性最流行的距離度量是歐幾里得距離d(i,j)=.jt^^^T^~-x~)+(一x)%i1j1i2j2ipjp曼哈頓距離d(i,j)=1x-xI+Ix-xI+Ix-xIi1j1i2j2ipjp歐幾里得距離和曼哈頓距離都滿(mǎn)足數(shù)學(xué)性質(zhì)：非負(fù)性：d(i,j)三0：距離是一個(gè)非負(fù)的值同一性：d(i,j)=0：對(duì)象到自身的距離為0對(duì)稱(chēng)性：d(i,j)=d(j,i)：距離是一個(gè)對(duì)稱(chēng)函數(shù)三角不等式：d(i,j)Wd(i,k)+d(k,j)從對(duì)象i到對(duì)象j的距離不會(huì)大于途徑任何其他對(duì)象k的距離閔可夫斯基距離d(i,j)=mIx-xIh+1x-xIh+……Ix-xIhi1j1i2j2ipjp(5)序數(shù)屬性的鄰近性度量第三章數(shù)據(jù)預(yù)處理1、為什么要進(jìn)行數(shù)據(jù)預(yù)處理？數(shù)據(jù)質(zhì)量涉及很多因素，包括準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和可解釋性。不正確、不完整和不一致的數(shù)據(jù)是現(xiàn)實(shí)世界的大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)共同特點(diǎn)。數(shù)據(jù)預(yù)處理可以改進(jìn)數(shù)據(jù)的質(zhì)量，有助于提高挖掘過(guò)程的準(zhǔn)確率和效率。2、數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)預(yù)處理的主要步驟：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換。(1)數(shù)據(jù)清理通過(guò)填寫(xiě)缺失值，光滑噪聲數(shù)據(jù)，識(shí)別或刪除離群點(diǎn)并解決不一致性來(lái)“清理”數(shù)據(jù)；數(shù)據(jù)歸約得到數(shù)據(jù)集的簡(jiǎn)化表示，數(shù)據(jù)歸約策略包括維歸約和數(shù)值歸約。維

歸約使用數(shù)據(jù)編碼方案，以便得到原始數(shù)據(jù)的簡(jiǎn)化或“壓縮”，包括數(shù)據(jù)壓縮技術(shù)（小波變換和主成分分析）、屬性子集選擇和屬性構(gòu)造，在數(shù)值歸約中，使用參數(shù)模型（回歸和對(duì)數(shù)線(xiàn)性模型）或非參數(shù)模型（直方圖、聚類(lèi)、抽樣或數(shù)據(jù)聚集），用較小的表示取代數(shù)據(jù)。缺失值方法適用缺點(diǎn)忽略元組元組有多個(gè)屬性缺少值忽略元組不能使用該元組剩余屬性值，這些數(shù)據(jù)可能有用人工填寫(xiě)缺少數(shù)據(jù)少費(fèi)時(shí)，數(shù)據(jù)集大缺失值多時(shí)不適用常量填充簡(jiǎn)單不可靠中心度量填充正常數(shù)據(jù)適用均值，傾斜數(shù)據(jù)使用中位數(shù)數(shù)據(jù)不可靠同類(lèi)樣本屬性均值或平均值填充給定類(lèi)數(shù)據(jù)分布傾斜則選擇中位數(shù)數(shù)據(jù)不可靠最可能的值填充可以使用回歸、貝葉斯形式、決策樹(shù)歸納確定最流行但數(shù)據(jù)不可靠噪聲數(shù)據(jù)：被測(cè)量的變量的隨機(jī)誤差或方差。方法分箱考察數(shù)據(jù)鄰近值，進(jìn)行局部光滑，有箱中位數(shù)光滑及箱邊界光滑回歸函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)離群點(diǎn)分析通過(guò)聚類(lèi)來(lái)檢測(cè)離群點(diǎn)數(shù)據(jù)清理的第一步是偏差檢測(cè)，唯一性規(guī)則是指每個(gè)值都必須不同于該屬性的其他值，連續(xù)性規(guī)則是說(shuō)屬性的最低和最高值之間沒(méi)有缺失值，并且所有的值都必須是唯一的，空值規(guī)則是指空白、問(wèn)號(hào)、特殊符號(hào)或指示空值條件的其他串的使用，以及如何處理這樣的值。有大量不同的商業(yè)工具可以幫助我們進(jìn)行偏差監(jiān)測(cè)：數(shù)據(jù)清洗工具使用簡(jiǎn)單的領(lǐng)域知識(shí)，檢查并糾正數(shù)據(jù)中的錯(cuò)誤；數(shù)據(jù)審計(jì)工具通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)規(guī)則和聯(lián)系，并檢測(cè)違反這些條件的數(shù)據(jù)來(lái)發(fā)現(xiàn)偏差；數(shù)據(jù)遷移工具允許簡(jiǎn)單的變換；ETL工具允許用戶(hù)通過(guò)圖形用戶(hù)界面說(shuō)明變換。（2）數(shù)據(jù)集成：合并來(lái)自多個(gè)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)，存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中，如存放在數(shù)據(jù)倉(cāng)庫(kù)中。冗余：一個(gè)屬性如果能由另一個(gè)或另一組屬性“導(dǎo)出”，則這個(gè)屬性可能是冗余的。有些冗余可以被相關(guān)分析檢測(cè)，對(duì)于標(biāo)稱(chēng)數(shù)據(jù)，我們使用卡方檢驗(yàn)，對(duì)于數(shù)值屬性，我們使用相關(guān)系數(shù)或協(xié)方差；——標(biāo)稱(chēng)數(shù)據(jù)的卡方檢驗(yàn)：將兩個(gè)數(shù)據(jù)元組用相依表顯示；——數(shù)值數(shù)據(jù)的相關(guān)系數(shù)：相關(guān)系數(shù)越大，相關(guān)性越強(qiáng)，可以作為冗余而被刪除；——數(shù)值數(shù)據(jù)的協(xié)方差：（3）數(shù)據(jù)歸約數(shù)據(jù)歸約策略包括維歸約、數(shù)量歸約和數(shù)據(jù)壓縮。維歸約減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)，維歸約的方法包括小波變換和主成分分析；數(shù)量歸約用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)；數(shù)據(jù)壓縮使用變換，以便得到原數(shù)據(jù)的歸約或“壓縮”表示，分為有損和無(wú)損。——小波變換是一種線(xiàn)性信號(hào)處理技術(shù)，小波變換后的數(shù)據(jù)可以截短，僅存放一小部分最強(qiáng)的小波系數(shù)，就能保留近似的壓縮數(shù)據(jù)，可以用于多維數(shù)據(jù)，如數(shù)據(jù)立方體?！鞒煞址治鏊阉鱧個(gè)最能代表數(shù)據(jù)的n維正交向量，其中kWn，原數(shù)據(jù)投影到一個(gè)小得多的空間，導(dǎo)致維歸約?；具^(guò)程如下：1）對(duì)輸入數(shù)據(jù)規(guī)范化，使得每個(gè)屬性都落入相同的區(qū)間2）計(jì)算k個(gè)標(biāo)準(zhǔn)正交向量，作為規(guī)范化輸入數(shù)據(jù)的基。這些是單位向量，每一個(gè)都垂直于其他向量。這些向量稱(chēng)為主成分。輸入數(shù)據(jù)是主成分的線(xiàn)性組合。3）對(duì)主成分按照“重要性”降序排列，去掉較弱的成分來(lái)歸約數(shù)據(jù)。主成分分析能夠更好的處理稀疏數(shù)據(jù)，小波變換更適合高維數(shù)據(jù)?！獙傩宰蛹x擇，通過(guò)刪除不相關(guān)或冗余的屬性減少數(shù)據(jù)量，選擇的目標(biāo)是找出最小屬性集?！貧w和對(duì)數(shù)線(xiàn)性模型，可以用來(lái)近似給定的數(shù)據(jù)，在線(xiàn)性回歸中，對(duì)數(shù)據(jù)建模，使之?dāng)M合到一條直線(xiàn)?！狈綀D，屬性值劃分規(guī)則等寬、等頻——聚類(lèi)，把數(shù)據(jù)元組看做對(duì)象，將對(duì)象劃分為群或簇，用數(shù)據(jù)的簇代表替換實(shí)際數(shù)據(jù)?！闃?，用數(shù)據(jù)小得多的隨機(jī)樣本表示大型數(shù)據(jù)集?！獢?shù)據(jù)立方體聚集3、數(shù)據(jù)變換與數(shù)據(jù)離散化數(shù)據(jù)變換策略包括光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化、由標(biāo)稱(chēng)數(shù)據(jù)產(chǎn)生概念分層第四章數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理1、什么是數(shù)據(jù)倉(cāng)庫(kù)？數(shù)據(jù)倉(cāng)庫(kù)是一種數(shù)據(jù)庫(kù)，它與單位的操作數(shù)據(jù)庫(kù)分別維護(hù)。是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合，支持管理者的決策過(guò)程。通常只需要兩種數(shù)據(jù)訪(fǎng)問(wèn)操作：數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪(fǎng)問(wèn)。我們把建立數(shù)據(jù)倉(cāng)庫(kù)看做構(gòu)建和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程，數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。2、操作數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別？聯(lián)機(jī)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢(xún)處理，這種系統(tǒng)稱(chēng)作聯(lián)機(jī)事務(wù)處理系統(tǒng)（OLTP），數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)可以用不同的格式組織和提供給數(shù)據(jù)，以便滿(mǎn)足不同用戶(hù)的形形色色的需求，這種系統(tǒng)叫做聯(lián)機(jī)分析處理系統(tǒng)（OLAP）OLTPOLAP用戶(hù)和系統(tǒng)的面向性面向顧客用于辦事員、客戶(hù)和信息技術(shù)專(zhuān)業(yè)人員的事物和查詢(xún)處理面向市場(chǎng)用于知識(shí)工人（經(jīng)理、主管和分析人員）的數(shù)據(jù)分析數(shù)據(jù)內(nèi)容管理當(dāng)前數(shù)據(jù)數(shù)據(jù)瑣碎，難以用于決策管理歷史數(shù)據(jù)提供匯總和聚集機(jī)制，易于有根據(jù)的決策數(shù)據(jù)庫(kù)設(shè)計(jì)實(shí)體-聯(lián)系（ER）數(shù)據(jù)模型面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)星形或雪花模型面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)視圖只關(guān)注一個(gè)企業(yè)或部口門(mén)內(nèi)部的當(dāng)前數(shù)據(jù)常?？缭綌?shù)據(jù)庫(kù)模式的多個(gè)版本訪(fǎng)問(wèn)模式主要是短的原子事務(wù)大部分是只讀操作3、為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù)？分離的主要原因是有助于提高兩個(gè)系統(tǒng)的性能。1）操作數(shù)據(jù)庫(kù)為已知的任務(wù)和負(fù)載設(shè)計(jì)，數(shù)據(jù)倉(cāng)庫(kù)的查詢(xún)通常很復(fù)雜，在操作數(shù)據(jù)庫(kù)上處理OLAP查詢(xún)，可能會(huì)大大降低操作任務(wù)的性能課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院tt//CCS課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院tt//CCS課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院n2）操作數(shù)據(jù)庫(kù)支持多事務(wù)的并發(fā)處理，需要并發(fā)控制和恢復(fù)機(jī)制，OLAP查詢(xún)只需要對(duì)匯總和聚集數(shù)據(jù)記錄進(jìn)行只讀訪(fǎng)問(wèn)，會(huì)大大降低OLTP系統(tǒng)的吞吐量3）兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同4、數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)？數(shù)據(jù)倉(cāng)庫(kù)是一種多層次體系結(jié)構(gòu)，通常采用三層體系結(jié)構(gòu)：底層是倉(cāng)庫(kù)數(shù)據(jù)庫(kù)服務(wù)器，使用后端工具和實(shí)用程序，由操作數(shù)據(jù)庫(kù)或其他外部數(shù)據(jù)源提取數(shù)據(jù)，放入底層。中間層是OLAP服務(wù)器，典型實(shí)現(xiàn)使用關(guān)系OLAP模型或使用多維OLAP模型頂層是前端客戶(hù)層，包括查詢(xún)和報(bào)告工具、分析工具或數(shù)據(jù)挖掘工具。5、數(shù)據(jù)倉(cāng)庫(kù)模型？從結(jié)構(gòu)的角度看，數(shù)據(jù)倉(cāng)庫(kù)有三種模型：企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市和虛擬倉(cāng)庫(kù)。企業(yè)倉(cāng)庫(kù)：提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成，通常來(lái)自一個(gè)或多個(gè)操作數(shù)據(jù)庫(kù)系統(tǒng)或外部信息提供者，并且是多功能的。數(shù)據(jù)集市：包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集，范圍限于選定的主題虛擬倉(cāng)庫(kù)：虛擬倉(cāng)庫(kù)是操作數(shù)據(jù)庫(kù)上視圖的集合對(duì)于開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，一種推薦的方法是以遞增、進(jìn)化的方式實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)，首先在一個(gè)合理短的時(shí)間內(nèi)定義一個(gè)高層次的企業(yè)數(shù)據(jù)模型，在不同的主題和可能的應(yīng)用之間，提供企業(yè)范圍的、一致的、集成的數(shù)據(jù)視圖。其次，基于相同的企業(yè)數(shù)據(jù)模型，并行的實(shí)現(xiàn)獨(dú)立的數(shù)據(jù)集市和企業(yè)數(shù)據(jù)倉(cāng)庫(kù)，再次，通過(guò)中心服務(wù)器集成不同的數(shù)據(jù)集市，構(gòu)造分布數(shù)據(jù)集市，最后構(gòu)造一個(gè)多層數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)，在數(shù)據(jù)倉(cāng)庫(kù)中，元數(shù)據(jù)是定義倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。包括以下內(nèi)容：數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述、操作元數(shù)據(jù)、用于匯總的算法、由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射、關(guān)于系統(tǒng)性能的數(shù)據(jù)、商務(wù)元數(shù)據(jù)。6、數(shù)據(jù)倉(cāng)庫(kù)建模數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具基于多維數(shù)據(jù)模型，這種模型將數(shù)據(jù)看做數(shù)據(jù)立方體形式。（1）數(shù)據(jù)立方體：允許以多維對(duì)數(shù)據(jù)建模和觀察，每個(gè)維都可以有一個(gè)與之相關(guān)聯(lián)的表（維表），n維數(shù)據(jù)立方體顯示成n-1維立方體的序列。（2）多維數(shù)據(jù)模型的模式：最流行的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型是多維數(shù)據(jù)模型，可以是星形模式、雪花模式或事實(shí)星座模式。——星形模式，最常見(jiàn)的模型范型是星形模式，數(shù)據(jù)倉(cāng)庫(kù)包括一個(gè)大的中心表（事實(shí)表），包含大批數(shù)據(jù)并且不含冗余，一組小的附屬表（維表），每維一個(gè)?！┗Ｊ?，是星形模式的變種，雪花模式的維表可能是規(guī)范化形式，以便減少冗余，這種表易于維護(hù)，并節(jié)省存儲(chǔ)空間。由于執(zhí)行查詢(xún)需要更多的連接操作，雪花結(jié)構(gòu)可能降低瀏覽的效率，因此不如星形模式流行?！聦?shí)星座，復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表，這種模式稱(chēng)為星系模式或事實(shí)星座。數(shù)據(jù)倉(cāng)庫(kù)收集了關(guān)于整個(gè)組織的主題信息，因此是企業(yè)范圍的，數(shù)據(jù)倉(cāng)庫(kù)多選用星座模式；數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門(mén)子集，針對(duì)選定的主題，因此是部門(mén)范圍的，數(shù)據(jù)集市多采用星形或雪花模式（3）維：概念分層的作用，概念分層定義一個(gè)映射序列，將低層概念集映射到較高層、更一般的概念（4）度量的分類(lèi)和計(jì)算，立方體度量是一個(gè)數(shù)值函數(shù)，該函數(shù)可以對(duì)數(shù)據(jù)立方體空間的每個(gè)點(diǎn)求值，度量根據(jù)其所用的聚集函數(shù)可以分為三類(lèi)：分布的、代數(shù)的和整體的.——分布的，數(shù)據(jù)劃分成n個(gè)集合，將函數(shù)用于每一個(gè)部分，得到n個(gè)聚集值，如果函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于整個(gè)數(shù)據(jù)集得到的結(jié)果是一樣的，則該函數(shù)可以用分布方式計(jì)算。例如sum（）、count（）。——代數(shù)的，一個(gè)聚集函數(shù)如果能夠用一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算，而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得，則它是代數(shù)的。例如avg（）=sum（）/count（）——整體的，一個(gè)聚集函數(shù)如果描述它的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界，則它是整體的。例如median。（5）典型的OLAP操作，上卷操作通過(guò)延一個(gè)維的概念分層向上攀升或者通過(guò)維歸約在數(shù)據(jù)立方體上進(jìn)行聚集；下鉆是上卷的逆操作；切片和切塊，切片操作在給定的立方體的一個(gè)維上進(jìn)行選擇，導(dǎo)致一個(gè)子立方體；轉(zhuǎn)軸是一種目視操作，轉(zhuǎn)動(dòng)數(shù)據(jù)的視角，提供數(shù)據(jù)的替代表示；其他OLAP操作，鉆過(guò)執(zhí)行涉及多個(gè)事實(shí)表的查詢(xún)，鉆透使用關(guān)系SQL機(jī)制，鉆透到數(shù)據(jù)立方體的底層，到后端關(guān)系表。——OLAP系統(tǒng)與統(tǒng)計(jì)數(shù)據(jù)庫(kù)（6）查詢(xún)多維數(shù)據(jù)庫(kù)的星網(wǎng)查詢(xún)模型星網(wǎng)模型由從中心點(diǎn)發(fā)出的射線(xiàn)組成，其中每一條射線(xiàn)代表一個(gè)維的概念分層。7、數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與使用關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)，必須考慮四種不同的視圖：自頂向下視圖、數(shù)據(jù)源視圖、數(shù)據(jù)倉(cāng)課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院//n課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院//n課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttp//cccc庫(kù)視圖和商務(wù)查詢(xún)視圖。從軟件工程的角度看，數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造包含以下步驟：規(guī)劃、需求研究、問(wèn)題分析、倉(cāng)庫(kù)設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉(cāng)庫(kù)。大型軟件系統(tǒng)可以用兩種方法開(kāi)發(fā)：瀑布式方法和螺旋式方法。瀑布式方法在進(jìn)行下一步之前，每一步都進(jìn)行結(jié)構(gòu)的和系統(tǒng)的分析，螺旋式方法實(shí)際功能漸增的系統(tǒng)的快速產(chǎn)生，相繼發(fā)布之間的間隔很短。在許多公司，數(shù)據(jù)倉(cāng)庫(kù)用作企業(yè)管理的計(jì)劃一一執(zhí)行一一評(píng)估“閉環(huán)”反饋系統(tǒng)的必要部分。有三類(lèi)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用：信息處理、分析處理和數(shù)據(jù)挖掘。信息處理支持查詢(xún)和基本的統(tǒng)計(jì)分析，并使用交叉表、表、圖表或圖進(jìn)行報(bào)告?；诓樵?xún)，可以發(fā)現(xiàn)有用的信息；分析處理支持基本的OLAP操作，包括切片與切塊、下鉆、上卷和轉(zhuǎn)軸。由用戶(hù)選定的數(shù)據(jù)倉(cāng)庫(kù)子集，在多粒度上導(dǎo)出匯總的信息。數(shù)據(jù)挖掘支持知識(shí)發(fā)現(xiàn)，包括找出隱藏的模式和關(guān)聯(lián)，構(gòu)造分析模型，進(jìn)行分類(lèi)和預(yù)測(cè)，并使用可視化工具提供挖掘結(jié)果。8、OLAP和數(shù)據(jù)挖掘相同嗎？OLAP是數(shù)據(jù)匯總/聚集工具，幫助簡(jiǎn)化數(shù)據(jù)分析；數(shù)據(jù)挖掘自動(dòng)發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識(shí)。OLAP工具的目標(biāo)是簡(jiǎn)化和支持交互數(shù)據(jù)分析；數(shù)據(jù)挖掘工具的目標(biāo)是盡可能自動(dòng)處理，盡管允許用戶(hù)指導(dǎo)這一過(guò)程。數(shù)據(jù)挖掘包含數(shù)據(jù)描述和數(shù)據(jù)建模，OLAP的功能基本上是用戶(hù)指導(dǎo)的匯總和比較。數(shù)據(jù)挖掘不限于分析存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)，可以分析比數(shù)據(jù)倉(cāng)庫(kù)提供的匯總數(shù)據(jù)粒度更細(xì)的數(shù)據(jù)。也可以分析事務(wù)的、空間的、文本的和多媒體數(shù)據(jù)。9、多維數(shù)據(jù)庫(kù)OLAM多維數(shù)據(jù)挖掘特別重要:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的高質(zhì)量，環(huán)繞數(shù)據(jù)倉(cāng)庫(kù)的信息處理基礎(chǔ)設(shè)施、基于OLAP的多維數(shù)據(jù)探索、數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇10、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)要支持高校的數(shù)據(jù)立方體計(jì)算技術(shù)、存取方法和查詢(xún)處理技術(shù)。（1）數(shù)據(jù)立方體的有效計(jì)算多維數(shù)據(jù)分析的核心是有效計(jì)算許多維集合上的聚集，這些聚集稱(chēng)為分組，每個(gè)分組用一個(gè)方體表示，分組的集合形成定義數(shù)據(jù)立方體的方體的格。computecube操作與維災(zāi)難Computecube操作在操作指定的維的所有子集上計(jì)算聚集。數(shù)據(jù)立方體是方體的格；對(duì)于不同的查詢(xún)，聯(lián)機(jī)分析處理可能需要訪(fǎng)問(wèn)不同的方體。因此，提前計(jì)算所有的或者至少一部分方體是個(gè)好主意。預(yù)計(jì)算的主要挑戰(zhàn)是，如果數(shù)據(jù)立方體中素有的方體都預(yù)先計(jì)算，所需的存儲(chǔ)空間可能爆炸，特別是當(dāng)立方體包含許多維時(shí)。這個(gè)問(wèn)題成為維災(zāi)難。如果每個(gè)維沒(méi)有概念分層，n維數(shù)據(jù)立方體有2m方體；——部分物化：方體的選擇計(jì)算給定基本方體，方體的物化有三種選擇：不物化、完全物化、部分物化。不物化即不預(yù)先計(jì)算任何“非基本”方體，這導(dǎo)致回答查詢(xún)時(shí)實(shí)時(shí)計(jì)算昂貴的多維聚集，速度非常慢；完全物化即預(yù)先計(jì)算所有方體，需要海量存儲(chǔ)空間；部分物化即有選擇的計(jì)算整個(gè)可能的方體集中一個(gè)適當(dāng)?shù)淖蛹?，部分物化是存?chǔ)空間和響應(yīng)時(shí)間兩者之間的折中。冰山立方體是一個(gè)數(shù)據(jù)立方體，只存放聚集值大于某個(gè)最小支持度閾值的立方體單元，外殼立方體涉及預(yù)計(jì)算數(shù)據(jù)立方體的只有少量維的方體。（2）索引OLAP數(shù)據(jù)——位圖索引，允許在數(shù)據(jù)立方體中快速搜索，如果給定的屬性域包含n個(gè)值，則位圖索引中每項(xiàng)需要n個(gè)位，如果數(shù)據(jù)表給定航上該屬性值為v，則在位圖索引的對(duì)應(yīng)行，該值的位為1,該行的其他位均為0——連接索引，登記來(lái)自關(guān)系數(shù)據(jù)庫(kù)的兩個(gè)關(guān)系的可連接行，連接索引可以跨越多維，形成復(fù)合連接索引。（3）OLAP查詢(xún)的有效處理物化方體和構(gòu)造OLAP索引結(jié)構(gòu)的目的是加快數(shù)據(jù)立方體查詢(xún)處理的速度，查詢(xún)處理應(yīng)首先確定哪些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行，然后確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體。（4）OLAP服務(wù)器結(jié)構(gòu)：ROLAP/MOLAP/HOLAP的比較——關(guān)系OLAP（ROLAP）服務(wù)器，一種中間服務(wù)器，使用關(guān)系的或擴(kuò)充關(guān)系的DBMS存儲(chǔ)并管理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)，OLAP中間件支持其余部分——多維OLAP（MOLAP）服務(wù)器，通過(guò)基于數(shù)組的多維存儲(chǔ)引擎，支持?jǐn)?shù)據(jù)的多維視圖。多數(shù)都采用兩級(jí)存儲(chǔ)表示來(lái)處理稠密和稀疏數(shù)據(jù)集:識(shí)別較稠密的子立方體并作為數(shù)組結(jié)構(gòu)存儲(chǔ)，而稀疏子立方體使用壓縮技術(shù)，提高存儲(chǔ)利用率——混合OLAP（HOLAP）服務(wù)器，結(jié)合ROLAP和MOLAP技術(shù)、——特殊的SQL服務(wù)器，提供高級(jí)查詢(xún)語(yǔ)言和查詢(xún)處理，在只讀環(huán)境下，在星形和雪花形模式下支持SQL查詢(xún)。（5）數(shù)據(jù)泛化：面向?qū)傩缘臍w納數(shù)據(jù)泛化通過(guò)把相對(duì)底層的值用較高層概念替換來(lái)匯總數(shù)據(jù)，或通過(guò)減少維數(shù)，在涉及課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院k課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院k課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院s..n較少維數(shù)的概念空間匯總數(shù)據(jù)。概念描述，概念通常指數(shù)據(jù)的匯集，概念描述產(chǎn)生數(shù)據(jù)的特征和比較描述，當(dāng)被描述的概念涉及對(duì)象類(lèi)時(shí)，有時(shí)也稱(chēng)概念描述為類(lèi)描述。——數(shù)據(jù)特征的面向?qū)傩缘臍w納，數(shù)據(jù)立方體方法基本上是基于數(shù)據(jù)的物化視圖，通常在數(shù)據(jù)倉(cāng)庫(kù)中預(yù)先計(jì)算，面向?qū)傩缘臍w納基本上是面向查詢(xún)的、基于泛化的、聯(lián)機(jī)的數(shù)據(jù)分析處理技術(shù)。面向?qū)傩詺w納的基本思想是：首先使用數(shù)據(jù)庫(kù)查詢(xún)收集任務(wù)相關(guān)的數(shù)據(jù)，然后通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行泛化。屬性刪除基于如下規(guī)則：如果出示工作關(guān)系的某個(gè)屬性有大量不同的值，但是在該屬性上并沒(méi)有泛化操作符，或者它的較高層概念用其他屬性表示，則應(yīng)當(dāng)將該屬性從工作關(guān)系中刪除屬性泛化基于以下規(guī)則：如果初始工作關(guān)系的某個(gè)屬性有大量不同的值，并且該屬性上存在泛化操作符的集合，則應(yīng)當(dāng)選擇一個(gè)泛化操作符，并將它用于該屬性。屬性泛化控制有兩種技術(shù)：屬性泛化閾值控制：對(duì)所有的屬性設(shè)置一個(gè)泛化閾值或?qū)γ總€(gè)屬性設(shè)置一個(gè)閾值，如果屬性不同值個(gè)數(shù)大于該屬性泛化閾值，則進(jìn)行進(jìn)一步的屬性刪除或?qū)傩苑夯?；廣義關(guān)系閾值控制：為廣義關(guān)系設(shè)置一個(gè)閾值，如果廣義關(guān)系中不同元組的個(gè)數(shù)超過(guò)該閾值，則進(jìn)一步泛化。這兩種技術(shù)可以順序使用，首先使用屬性泛化閾值控制技術(shù)泛化每個(gè)屬性，然后使用關(guān)系閾值控制進(jìn)一步壓縮廣義關(guān)系。第五章數(shù)據(jù)立方體1、數(shù)據(jù)立方體計(jì)算：基本概念(1)立方體物化基本方體的單元是基本單元，非基本方體的單元是聚集單元。聚集單元在一個(gè)或多個(gè)維上聚集，其中每個(gè)聚集維用單元記號(hào)中的*指示。假設(shè)有一個(gè)n維數(shù)據(jù)立方體，令a=(a1,a2，....，an，measures)是.一一個(gè)單元，取自構(gòu)成數(shù)據(jù)立方體的一個(gè)方體。如果｛a1,a2，....，an｝中恰有m(mWn)個(gè)值不是*，則我們說(shuō)a是m維單元，如果m=n，則a是基本單元；否則是聚集單元。完全預(yù)計(jì)算的立方體為完全立方體，部分物化的立方體為冰山立方體。一種計(jì)算冰山立方體的樸素方法是，首先計(jì)算完全立方體，然后剪去不滿(mǎn)足冰山條件的單元。另一種有效的方法是直接計(jì)算冰山立方體，而不計(jì)算完全立方體。引入冰山立方體將減輕計(jì)算數(shù)據(jù)立方體中不重要聚集單元的負(fù)擔(dān)。(2)數(shù)據(jù)立方體計(jì)算的一般策略①排序、散列和分組，在立方體計(jì)算中，對(duì)共享一組相同維值的元組進(jìn)行聚集，需要利用排序、散列和分組對(duì)數(shù)據(jù)進(jìn)行訪(fǎng)問(wèn)和分組，以便有利于聚集的計(jì)算②同時(shí)聚集和緩存中間結(jié)果，從先前計(jì)算的較低層聚集而不是從基本事實(shí)表計(jì)算較高層聚集，從緩存的中間計(jì)算結(jié)果同時(shí)聚集可以減少開(kāi)銷(xiāo)很大的磁盤(pán)IO操作③當(dāng)存在多個(gè)子女方體時(shí)，由最小的子女聚集。當(dāng)存在多個(gè)子女方體時(shí)，由先前的最小子女方體計(jì)算父母方體更有效。④可以使用先驗(yàn)剪枝方法有效的計(jì)算冰山立方體。對(duì)于數(shù)據(jù)立方體，先驗(yàn)性質(zhì)表述如下：如果給定的單元不滿(mǎn)足最小支持度，則該單元的后代也都不滿(mǎn)足最小支持度。通常的冰山條件是單元必須滿(mǎn)足最小支持度閾值，如最小計(jì)數(shù)或總和。2、數(shù)據(jù)立方體的計(jì)算方法(1)完全立方體計(jì)算的多路數(shù)組聚集多路數(shù)組聚集方法使用多維數(shù)組作為基本的數(shù)據(jù)結(jié)構(gòu)，計(jì)算完全數(shù)據(jù)立方體。第六章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性：基本概念和方法頻繁模式是頻繁的出現(xiàn)在數(shù)據(jù)集中的模式，如果一個(gè)子結(jié)構(gòu)頻繁出現(xiàn)，則稱(chēng)它為(頻繁的)結(jié)構(gòu)模式。對(duì)于挖掘數(shù)據(jù)之間的關(guān)聯(lián)、相關(guān)性和許多其他有趣的聯(lián)系，發(fā)現(xiàn)這種頻繁模式起著至關(guān)重要的作用。止匕外，它對(duì)數(shù)據(jù)分類(lèi)、聚類(lèi)和其他數(shù)據(jù)挖掘任務(wù)也有幫助。1、基本概念(1)規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量，分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性。在典型情況下，關(guān)聯(lián)規(guī)則被認(rèn)為是有趣的，如果它滿(mǎn)足最小支持度閾值和最小置信度閾值。支持度support(AnB)=P(AuB)置信度confidence(AnB)=P(BIA)同時(shí)滿(mǎn)足最小支持度閾值和最小置信度閾值的規(guī)則稱(chēng)為強(qiáng)規(guī)則，用0%~100%之間的值表示。項(xiàng)的集合稱(chēng)為項(xiàng)集，包含k個(gè)項(xiàng)的項(xiàng)集稱(chēng)為k項(xiàng)集。項(xiàng)集的出現(xiàn)頻度是包含項(xiàng)集的事物數(shù)，簡(jiǎn)稱(chēng)為項(xiàng)集的頻度、支持度計(jì)數(shù)或計(jì)數(shù)。如果項(xiàng)集I的相對(duì)支持度滿(mǎn)足預(yù)定義的最小支持度閾值，則I是頻繁項(xiàng)集。頻繁k項(xiàng)集的集合通常記為L(zhǎng)K。課工場(chǎng)創(chuàng)意學(xué)院c課工場(chǎng)創(chuàng)意學(xué)院ccskccn課工場(chǎng)創(chuàng)意學(xué)院c課工場(chǎng)創(chuàng)意學(xué)院ccskccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院psknsupport(AuB)support_count(AuB)confidence(AnB)=P(BIA)=——=——support(A)support_count(A)可以看出規(guī)則AnB的置信度可以從A和AUB的支持度計(jì)數(shù)推出，因此挖掘關(guān)聯(lián)規(guī)則可以歸結(jié)為挖掘頻繁項(xiàng)集。(2)一般而言，關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過(guò)程一、找出所有的頻繁項(xiàng)集：根據(jù)定義，這些項(xiàng)集的每一個(gè)頻繁出現(xiàn)的次數(shù)至少與預(yù)定義的最小支持計(jì)數(shù)min_sup一樣二、由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則：根據(jù)定義，這些規(guī)則必須滿(mǎn)足最小支持度和最小置信度。如果一個(gè)項(xiàng)集是頻繁的，則它的每個(gè)子集也是頻繁的，一個(gè)長(zhǎng)項(xiàng)集將包含組合個(gè)數(shù)較短的頻繁子項(xiàng)集。項(xiàng)集X在數(shù)據(jù)集D中是閉的，如果不存在真超項(xiàng)集Y使得Y與X在D中具有相同的支持度計(jì)數(shù)，項(xiàng)集X是D中的閉頻繁項(xiàng)集，如果X在D中是閉的和頻繁的，項(xiàng)集X是D中的極大頻繁項(xiàng)集或極大項(xiàng)集。2、頻繁項(xiàng)集挖掘方法挖掘最簡(jiǎn)單形式的頻繁模式方法，Apriori算法是一種發(fā)現(xiàn)頻繁項(xiàng)集的基本算法。(1)通過(guò)限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集Apriori算法是布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法，算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)，使用一種稱(chēng)為逐層搜索的迭代方法，其中k項(xiàng)集用于探索k+1項(xiàng)集。首先，通過(guò)掃描數(shù)據(jù)庫(kù)，累計(jì)每個(gè)項(xiàng)的計(jì)數(shù)，并收集滿(mǎn)足最小支持度的項(xiàng)，找出頻繁1項(xiàng)集的集合。該集合記為L(zhǎng)1。然后，使用L1找出頻繁2項(xiàng)集的集合L2,使用L2找出L3,如此下去，直到不能再找到頻繁k項(xiàng)集缺點(diǎn)：每找出一個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描，為了提高頻繁項(xiàng)集逐層產(chǎn)生的效率，使用先驗(yàn)性質(zhì)壓縮搜索空間。先驗(yàn)性質(zhì)：頻繁項(xiàng)集的所有非空子集也一定是頻繁的。如果一個(gè)集合不能通過(guò)測(cè)試，則它的所有超集也都不能通過(guò)測(cè)試。如何使用LK-1找出LK？一、連接步：為找出LK,通過(guò)將4-1與自身連接產(chǎn)生候選k項(xiàng)集的集合。該候選項(xiàng)集的集合記為CK二、剪枝步：CK是LK的超集。掃描數(shù)據(jù)庫(kù)，確定CK中每個(gè)候選的計(jì)數(shù)，從而確定LK(2)由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則一旦由數(shù)據(jù)庫(kù)D中的事務(wù)找出頻繁項(xiàng)集，就可以直接由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Support_count(AuB)confidence]AnB)=P(AIB)二:-Support_count(A)-根據(jù)上式，關(guān)聯(lián)規(guī)則可以產(chǎn)生如下：對(duì)于每個(gè)頻繁項(xiàng)集L，產(chǎn)生L的所有非空子集Supportcount(t)對(duì)于L的每個(gè)非空子集s，如果>min_conf則輸出規(guī)則Support_count(s)snl-s，其中min_conf是最小置信度閾值。(3)提高Apriori算法的效率提高算法的效率需要一些變形。其中一些變形如下：——基于散列的技術(shù)，一種基于散列的技術(shù)可以用于壓縮候選k項(xiàng)集的集合CK——事務(wù)壓縮，不包含任何頻繁k項(xiàng)集的事務(wù)不可能包含任何頻繁k+1項(xiàng)集。因此，這種事務(wù)在其后的考慮時(shí)，可以加上標(biāo)記或刪除，因?yàn)楫a(chǎn)生j項(xiàng)集的數(shù)據(jù)庫(kù)掃描不再需要他們——?jiǎng)澐郑褂脛澐旨夹g(shù)，只需要掃描兩次數(shù)據(jù)庫(kù)就可以挖掘頻繁項(xiàng)集。首先，算法把D中的事務(wù)劃分成n個(gè)非重疊的分區(qū)，如果D中事務(wù)的最小相對(duì)支持度閾值為min_sup，則每個(gè)分區(qū)的最小支持度計(jì)數(shù)為min_supX該分區(qū)中的事務(wù)數(shù)，對(duì)每個(gè)分區(qū)，找出所有的局部頻繁項(xiàng)集。然后，第二次掃描D，評(píng)估每個(gè)候選的實(shí)際支持度，以確定全局頻繁項(xiàng)集。階段一——抽樣，抽樣方法的基本思想是，選取給定數(shù)據(jù)庫(kù)D的隨機(jī)樣本S，然后在S而不是D中搜索頻繁項(xiàng)集。犧牲精度換取有效性，可能丟失一些全局頻繁項(xiàng)集。為降低這種可能性，使用比最小支持度低的支持度閾值來(lái)找出S的局部頻繁項(xiàng)集?！?jiǎng)討B(tài)項(xiàng)集計(jì)數(shù)，將數(shù)據(jù)庫(kù)劃分為用開(kāi)始點(diǎn)標(biāo)記的塊?？梢栽谌魏伍_(kāi)始點(diǎn)添加新的候選項(xiàng)集課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http:cus_gccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http:cus_gccn(4)挖掘頻繁項(xiàng)集的模式增長(zhǎng)方法頻繁模式增長(zhǎng)(FP-growth)：首先，將代表頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一顆頻繁模式樹(shù)，概述仍保留項(xiàng)集的相關(guān)信息。然后，把這種壓縮后的數(shù)據(jù)庫(kù)劃分成一組條件數(shù)據(jù)庫(kù)，每個(gè)數(shù)據(jù)庫(kù)關(guān)聯(lián)一個(gè)頻繁項(xiàng)或模式段，并分別挖掘每個(gè)條件數(shù)據(jù)庫(kù)。(5)使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集Apriori算法和FP-growth算法都從TID項(xiàng)集格式({TID:itemset})的事務(wù)集中挖掘頻繁模式，其中TID是事務(wù)標(biāo)識(shí)符，而itemset是事務(wù)TID中購(gòu)買(mǎi)的商品，這種數(shù)據(jù)格式稱(chēng)為水平數(shù)據(jù)格式?；蛘?，數(shù)據(jù)也可以用項(xiàng)-TID集格式{item：TID_set}表示，其中item是項(xiàng)的名稱(chēng)，TID_set是包含item的事務(wù)的標(biāo)識(shí)符的集合，這種格式稱(chēng)為垂直數(shù)據(jù)格式。(6)挖掘閉模式和極大模式從閉頻繁項(xiàng)集的集合可以很容易的推出頻繁項(xiàng)集的集合和它們的支持度。挖掘閉頻繁項(xiàng)集的一種樸素方法是，首先挖掘頻繁項(xiàng)集的完全集，然后刪除這樣的頻繁項(xiàng)集，它們是某個(gè)頻繁項(xiàng)集的真子集，并且具有相同支持度。一種推薦的方法是在挖掘過(guò)程中直接搜索閉頻繁項(xiàng)集，在挖掘過(guò)程中，一旦識(shí)別閉項(xiàng)集就盡快對(duì)搜索空間進(jìn)行剪枝。剪枝包括以下幾個(gè)策略：項(xiàng)合并，如果包含頻繁項(xiàng)集X的每個(gè)事物都包含項(xiàng)集Y，但不包含Y的任何真超集，則XUY形成一個(gè)閉頻繁項(xiàng)集，并且不必再搜索包含X但不包含Y的任何項(xiàng)集。子項(xiàng)集剪枝：如果頻繁項(xiàng)集X是一個(gè)已經(jīng)發(fā)現(xiàn)的閉頻繁項(xiàng)集Y的真子集，并且support_count(X)=support_count(Y),則X和X在集合枚舉樹(shù)中的后代都不可能是閉頻繁項(xiàng)集，因此可以剪枝。項(xiàng)跳過(guò)：在深度優(yōu)先挖掘閉項(xiàng)集時(shí)，每一層都有一個(gè)與頭表和投影數(shù)據(jù)庫(kù)相關(guān)聯(lián)的前綴項(xiàng)集X。如果一個(gè)局部頻繁項(xiàng)P在不同層的多個(gè)頭表中都具有相同的支持度，則可以將P從較高層頭表中剪裁掉。3、模式評(píng)估方法提升度是一種簡(jiǎn)單的相關(guān)性度量，項(xiàng)集A的出現(xiàn)獨(dú)立于項(xiàng)集B的出現(xiàn)，如果P(AUB)=P(A)P⑻；否則，作為事件，項(xiàng)集A和B是依賴(lài)的和相關(guān)的。A和B出現(xiàn)之間的提升度可以通過(guò)公式計(jì)算life(AB)=P(AuB)

P(A)P(B)如果計(jì)算出的值小于1,則為負(fù)相關(guān)，意味著一個(gè)出現(xiàn)可能導(dǎo)致另一個(gè)不出現(xiàn)；如果計(jì)課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http//ccgccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http//ccgccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院//算出的值大于1,則A和B是正相關(guān)，意味著一個(gè)出現(xiàn)另一個(gè)也會(huì)出現(xiàn)；如果計(jì)算出的值等于1,則A和B是獨(dú)立的，它們之間沒(méi)有相關(guān)性。X2X2相關(guān)分析X2=Z（觀測(cè)值-期望值）2

期望值全置信度all_conf(A,B)=sup(全置信度all_conf(A,B)=sup(AuB)max{sup(A),sup(B)}=min{P(AIB),P(BIA)}最大置信度max_conf(A,B)=max{P(AIB),P(BIA)}余弦度量consin余弦度量consine(A,B)=sup(AuB)"P(A)*P(B)=jSup(A)義sup(B)零事務(wù)是不包含任何考察項(xiàng)集的事務(wù)第七章高級(jí)模式挖掘1.挖掘模式大部分研究都主要關(guān)注模式挖掘的三個(gè)方面所挖掘的模式類(lèi)型、挖掘方法和應(yīng)用?；谀Ｊ降亩鄻有?，模式挖掘可以使用如下標(biāo)準(zhǔn)進(jìn)行分類(lèi)：基本模式：頻繁模式是滿(mǎn)足最小支持度閾值的模式。如果不存在與P具有相同支持度的超模式P'，模式P是一個(gè)閉模式。如果不存在P的頻繁超模式，模式P是一個(gè)極大模式?；谀Ｊ剿婕暗某橄髮樱耗Ｊ交蜿P(guān)聯(lián)規(guī)則可能具有處于高、低或多個(gè)抽象層的項(xiàng)，則挖掘的規(guī)則集由多層關(guān)聯(lián)規(guī)則組成，反之，如果在給定的規(guī)則集中，規(guī)則不涉及不同抽象層的項(xiàng)或?qū)傩?，則該集合包含單層關(guān)聯(lián)規(guī)則?；谝?guī)則或模式所涉及的維數(shù)：如果關(guān)聯(lián)規(guī)則或模式中的項(xiàng)或?qū)傩灾簧婕耙粋€(gè)維，則它是單維關(guān)聯(lián)規(guī)則/模式。如果規(guī)則/模式涉及兩個(gè)或多個(gè)維，則它是多為關(guān)聯(lián)規(guī)則基于規(guī)則或模式中所處理的值類(lèi)型：如果規(guī)則考慮的關(guān)聯(lián)是項(xiàng)是否出現(xiàn)，則為布爾關(guān)聯(lián)規(guī)則；如果規(guī)則描述的是量化的項(xiàng)或?qū)傩灾g的關(guān)聯(lián)，則它是量化關(guān)聯(lián)規(guī)則。基于挖掘選擇性模式的約束或標(biāo)準(zhǔn)：被發(fā)現(xiàn)的模式或規(guī)則可以是基于約束的、近似的、壓縮的、近似匹配的。根據(jù)數(shù)據(jù)類(lèi)型和所涉及的應(yīng)用分類(lèi)：基于所挖掘的數(shù)據(jù)類(lèi)型和特征，在這種情況下，頻繁模式的挖掘本質(zhì)上是頻繁項(xiàng)集挖掘，也可以挖掘結(jié)構(gòu)模式，即結(jié)構(gòu)數(shù)據(jù)集中的頻繁子結(jié)構(gòu)。

基于應(yīng)用領(lǐng)域的特定語(yǔ)義：多樣性的應(yīng)用數(shù)據(jù)導(dǎo)致大量不同的模式挖掘方法基于數(shù)據(jù)分析的使用方法：頻繁模式挖掘充當(dāng)中間步驟，作為分類(lèi)的特征提取步驟使用為基于模式的分類(lèi)，基于模式的聚類(lèi)顯示了在聚類(lèi)高維數(shù)據(jù)方面的優(yōu)勢(shì)模式和規(guī)則的類(lèi)型基本模式-頻繁模式關(guān)聯(lián)規(guī)則閉/極大模式

生成元挖掘方法'模式挖掘研究擴(kuò)充的模式一.多層和多.

維模式多層（一致、變化或基于項(xiàng)集的支持度）

多維模式（包括高維模式）連續(xù)數(shù)據(jù)（基于離散化或基于統(tǒng)計(jì)）<」近似模式.不確定模式■壓縮模式稀有模或負(fù)模式模式和規(guī)則的類(lèi)型基本模式-頻繁模式關(guān)聯(lián)規(guī)則閉/極大模式

生成元挖掘方法'模式挖掘研究擴(kuò)充的模式一.多層和多.

維模式多層（一

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)知識(shí)點(diǎn)梳理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)知識(shí)點(diǎn)梳理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔