大數(shù)據(jù)知識(shí)點(diǎn)梳理_第1頁(yè)
大數(shù)據(jù)知識(shí)點(diǎn)梳理_第2頁(yè)
大數(shù)據(jù)知識(shí)點(diǎn)梳理_第3頁(yè)
大數(shù)據(jù)知識(shí)點(diǎn)梳理_第4頁(yè)
大數(shù)據(jù)知識(shí)點(diǎn)梳理_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院—//第一章引論1、什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘更正確的命名為“從數(shù)據(jù)中挖掘知識(shí)”,是數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KDD)的同義詞。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過(guò)程,數(shù)據(jù)源包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、web、其他信息存儲(chǔ)庫(kù)或動(dòng)態(tài)的流入系統(tǒng)的數(shù)據(jù)。2、知識(shí)發(fā)現(xiàn)的過(guò)程是什么?知識(shí)發(fā)現(xiàn)的過(guò)程為:(1)數(shù)據(jù)清理(消除噪聲和刪除不一致的數(shù)據(jù))(2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)(3)數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù))(4)數(shù)據(jù)變換(通過(guò)匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式)(5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)(6)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣的模式)(7)知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶(hù)提供挖掘的知識(shí))3、什么類(lèi)型的數(shù)據(jù)可以挖掘?數(shù)據(jù)挖掘可以作用于任何類(lèi)型的數(shù)據(jù),數(shù)據(jù)的最基本形式是數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、事務(wù)數(shù)據(jù)。也可以用于數(shù)據(jù)流、有序/序列數(shù)據(jù)、圖或網(wǎng)絡(luò)數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)和萬(wàn)維網(wǎng)。(1)數(shù)據(jù)庫(kù)數(shù)據(jù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存儲(chǔ)數(shù)據(jù)的軟件程序組成。關(guān)系數(shù)據(jù)庫(kù)是表的匯集,每個(gè)表被賦予一個(gè)唯一的名字,含有一組屬性(列或字段),并且通常存放大量元組(記錄或行)。每個(gè)元組代表一個(gè)對(duì)象,被唯一的關(guān)鍵字標(biāo)識(shí),并被一組屬性值描述。通常為關(guān)系數(shù)據(jù)庫(kù)構(gòu)建語(yǔ)義數(shù)據(jù)模型,如實(shí)體-聯(lián)系(ER)數(shù)據(jù)模型。(2)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù),存放在一致的模式下,并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉(cāng)庫(kù)用稱(chēng)作數(shù)據(jù)立方體的多維數(shù)據(jù)結(jié)構(gòu)建模。每個(gè)維對(duì)應(yīng)于模式中的一個(gè)或一組屬性,每個(gè)單元存放某種聚集度量值⑶事務(wù)數(shù)據(jù)每個(gè)記錄代表一個(gè)事務(wù)4、什么類(lèi)型的模式可以挖掘?數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)發(fā)現(xiàn)的模式,一般而言,這些任務(wù)可以分為兩類(lèi):描述性和預(yù)測(cè)性。描述性挖掘任務(wù)刻畫(huà)目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì),預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行歸納,以便進(jìn)行預(yù)測(cè)。(1)類(lèi)/概念描述:特征化與區(qū)分?jǐn)?shù)據(jù)可以與類(lèi)或概念相關(guān)聯(lián)。數(shù)據(jù)特征化是目標(biāo)類(lèi)數(shù)據(jù)的一般特性或特征的匯總。將數(shù)據(jù)匯總和特征化的方法:基于統(tǒng)計(jì)度量和圖的簡(jiǎn)單數(shù)據(jù)匯總、基于數(shù)據(jù)立方體的OLAP上卷操作、面向?qū)傩缘臍w納技術(shù)。數(shù)據(jù)特征的輸出可以用多種形式提供:餅圖、條圖、曲線(xiàn)、多位數(shù)據(jù)立方體、多維表;數(shù)據(jù)區(qū)分是將目標(biāo)類(lèi)數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類(lèi)對(duì)象的一般特性進(jìn)行比較。(2)挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性頻繁模式包括頻繁項(xiàng)集(基礎(chǔ))、頻繁子序列和頻繁子結(jié)構(gòu)。(3)用于預(yù)測(cè)分析的分類(lèi)與回歸分類(lèi)預(yù)測(cè)類(lèi)別標(biāo)號(hào),而回歸建立連續(xù)值函數(shù)模型?;貧w分析是最常用的數(shù)值預(yù)測(cè)統(tǒng)計(jì)學(xué)方法,相關(guān)分析可能需要在分類(lèi)和回歸之前進(jìn)行,它試圖識(shí)別與分類(lèi)和回歸過(guò)程顯著相關(guān)的屬性。(4)聚類(lèi)分析聚類(lèi)分析數(shù)據(jù)對(duì)象,而不考慮類(lèi)標(biāo)號(hào)。(5)離群點(diǎn)分析大部分?jǐn)?shù)據(jù)挖掘都將離群點(diǎn)作為噪聲或異常而丟棄,然而在一些應(yīng)用中可以做離群點(diǎn)分析或異常挖掘5、支持度與置信度支持度表示事物數(shù)據(jù)庫(kù)中滿(mǎn)足規(guī)則的事物所占的百分比,置信度評(píng)估所發(fā)現(xiàn)的規(guī)則的確信程度。support(XnY)=P(XuY)confidence(XnY)=P(YIX)準(zhǔn)確率即被一個(gè)規(guī)則正確分類(lèi)的數(shù)據(jù)所占的百分比,覆蓋率類(lèi)似于“支持度”表示規(guī)則可以作用的數(shù)據(jù)所占的百分比。課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院第二章認(rèn)識(shí)數(shù)據(jù)1、數(shù)據(jù)對(duì)象與數(shù)據(jù)類(lèi)型數(shù)據(jù)對(duì)象又稱(chēng)樣本、實(shí)例、數(shù)據(jù)點(diǎn)或?qū)ο?,?shù)據(jù)對(duì)象存放在數(shù)據(jù)庫(kù)中,則他們?yōu)閿?shù)據(jù)元組,即數(shù)據(jù)庫(kù)的行對(duì)應(yīng)于數(shù)據(jù)對(duì)象,列對(duì)應(yīng)于屬性。屬性:表示數(shù)據(jù)對(duì)象的一個(gè)特征(屬性、維、特征、變量)標(biāo)稱(chēng)屬性:一些符號(hào)或事物的名稱(chēng)(分類(lèi)的或枚舉的),標(biāo)稱(chēng)屬性可以取整數(shù)值,但是不能把它視為數(shù)值屬性。二元屬性:是一種標(biāo)稱(chēng)屬性,只有兩種狀態(tài),0或1,0通常表示該屬性不出現(xiàn),1表示出現(xiàn)。二元屬性有對(duì)稱(chēng)與非對(duì)稱(chēng)兩種。序數(shù)屬性:可能的值之間具有意義的序或秩評(píng)定,但是相繼值之間的差是未知的。中心趨勢(shì)可以用它的眾數(shù)和中位數(shù)表示,但不能定義均值。數(shù)值屬性:定量的,用整數(shù)或?qū)崝?shù)值表示,數(shù)值屬性可以是區(qū)間標(biāo)度的或比率標(biāo)度的。除了中心趨勢(shì)度量中位數(shù)和眾數(shù)之外,還可以計(jì)算均值。比率標(biāo)度屬性是具有固有零點(diǎn)的數(shù)值屬性。離散屬性與連續(xù)屬性:離散屬性具有有限或無(wú)限可數(shù)個(gè)值,可以用或不用整數(shù)表示2、數(shù)據(jù)的基本統(tǒng)計(jì)描述(1)中心趨勢(shì)度量,度量數(shù)據(jù)分布的中部或中心位置,包括均值、加權(quán)平均、中位數(shù)、眾數(shù)和中列數(shù);均值對(duì)極端值比較敏感,為了抵消少數(shù)極端值的影響,可以使用截尾均值;對(duì)于非對(duì)稱(chēng)數(shù)據(jù),數(shù)據(jù)中心最好用中位數(shù);眾數(shù)是集合中出現(xiàn)最頻繁的值,分為單峰、雙峰和三峰,對(duì)于適度傾斜的單峰數(shù)值數(shù)據(jù),有經(jīng)驗(yàn)公式:均值■眾數(shù)=3*(均值-中位數(shù));中列數(shù)是數(shù)據(jù)集的最大和最小值的平均值。(2)數(shù)據(jù)的散布,最常見(jiàn)度量是極差、四分位數(shù)、四分位極差、五數(shù)概括和盒圖,以及數(shù)據(jù)的方差和標(biāo)準(zhǔn)差。極差:最大值與最小值之差;分位數(shù):是取自數(shù)據(jù)分布的每隔一定間隔上的點(diǎn),把數(shù)據(jù)劃分成基本上大小相等的連貫集合;識(shí)別可以的離群點(diǎn)的通常規(guī)則是,挑選落在第3個(gè)四分位數(shù)之上或第1個(gè)四分位數(shù)之下至少1.5*IQR處的值,IQR為四分位數(shù)極差(Q3-Q1);五數(shù)概括由中位數(shù)、四分位數(shù)Q1和Q3、最小和最大觀測(cè)值組成;盒圖是一種流行的分布的直觀表示。課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttpsn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttpsn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院n■.離群點(diǎn)—最大觀測(cè)值;Q3中位數(shù)——;——Q1一」最小觀測(cè)值方差和標(biāo)準(zhǔn)差指出數(shù)據(jù)分布的散布程度。低標(biāo)準(zhǔn)差意味數(shù)據(jù)觀測(cè)趨向于非??拷?,高標(biāo)準(zhǔn)差表示數(shù)據(jù)散布在一個(gè)大的值域中。(3)可視化審視數(shù)據(jù),包括條圖、餅圖和線(xiàn)圖,還有分位數(shù)圖、分位數(shù)-分位數(shù)圖、直方圖和散點(diǎn)圖。分位數(shù)圖:是一種觀察單變量數(shù)據(jù)分布得簡(jiǎn)單有效方法,顯示給定屬性的所有數(shù)據(jù)。分位數(shù)-分位數(shù)圖(q-q圖),可以觀察從一個(gè)分布到另一個(gè)分布是否有漂移。直方圖:概括給定屬性X的分布的圖形方法;散點(diǎn)圖:確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或趨勢(shì)的最有效的圖形方法之一?;緮?shù)據(jù)描述和圖形統(tǒng)計(jì)顯示有助于識(shí)別噪聲和離群點(diǎn),對(duì)于數(shù)據(jù)清理特別有用。3、數(shù)據(jù)可視化數(shù)據(jù)可視化旨在通過(guò)圖形表示清晰有效地表達(dá)數(shù)據(jù)。(1)基于像素的可視化技術(shù)像素的顏色反應(yīng)該維的值,每維創(chuàng)建一個(gè)窗口。(2)幾何投影可視化技術(shù)幾何投影技術(shù)幫助用戶(hù)發(fā)現(xiàn)多維數(shù)據(jù)集的投影,二維散點(diǎn)圖通過(guò)不同顏色或形狀表述不同的數(shù)據(jù)點(diǎn),三維散點(diǎn)圖使用笛卡爾坐標(biāo)系的三個(gè)坐標(biāo)軸,對(duì)于維數(shù)超過(guò)4的數(shù)據(jù)集,散點(diǎn)圖一般不太有效。平行坐標(biāo)可以處理更高的維度,繪制n個(gè)等距離、相互平行的軸,每維一個(gè)。(3)基于圖符的可視化技術(shù)兩種流行的圖符技術(shù)—一切爾諾夫臉和人物線(xiàn)條畫(huà)。切爾諾夫臉:有助于揭示數(shù)據(jù)中的趨勢(shì),臉的要素表示維的值,局限性為在表示多重聯(lián)系的能力方面,且無(wú)法顯示具體的數(shù)據(jù)值,此外面部特征因感知的重要性而異。人物線(xiàn)條畫(huà):把多維數(shù)據(jù)映射到5段人物線(xiàn)條畫(huà)中,其中每個(gè)畫(huà)都有四肢和一個(gè)軀體。(4)層次可視化技術(shù)把所有維劃分成子集,這些子空間按層次可視化。(5)可視化復(fù)雜對(duì)象和關(guān)系標(biāo)簽云是用戶(hù)產(chǎn)生的標(biāo)簽的統(tǒng)計(jì)量的可視化。標(biāo)簽云的用法有兩種,單個(gè)術(shù)語(yǔ)的標(biāo)簽云可以使用標(biāo)簽的大小表示該標(biāo)簽被不同的用戶(hù)用于該術(shù)語(yǔ)的次數(shù),多個(gè)術(shù)語(yǔ)上可視化標(biāo)簽統(tǒng)計(jì)量時(shí),使用標(biāo)簽的大小表示該標(biāo)簽用于的術(shù)語(yǔ)數(shù),即標(biāo)簽的人氣。4、度量數(shù)據(jù)的相似性和相異性(1)數(shù)據(jù)矩陣與相異性矩陣數(shù)據(jù)矩陣(對(duì)象-屬性結(jié)構(gòu)),每行對(duì)應(yīng)于一個(gè)對(duì)象,每列代表一個(gè)屬性,也稱(chēng)為二模矩陣相異性矩陣(對(duì)象-對(duì)象結(jié)構(gòu)),存放n個(gè)對(duì)象兩兩之間的鄰近度,只包含一類(lèi)實(shí)體,稱(chēng)為單模矩陣相似性度量可以表示成相異性度量的函數(shù)sim(i,j)=1-d(i,j)(2)標(biāo)稱(chēng)屬性的鄰近性度量標(biāo)稱(chēng)屬性對(duì)象之間的相異性可以根據(jù)不匹配率來(lái)計(jì)算P-md(,j)=PM是匹配的數(shù)目(i,j取值相同狀態(tài)的屬性數(shù)),p是刻畫(huà)對(duì)象的屬性總數(shù);(3)二元屬性的鄰近性度量對(duì)象j對(duì)象i10sum1qrq+r0sts+tsumq+sr+tp課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院kn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttk基于對(duì)稱(chēng)二元屬性的相異性稱(chēng)作對(duì)稱(chēng)的二元相異性,i,j的相異性為基于非對(duì)稱(chēng)的二元屬性的相異性稱(chēng)為非對(duì)稱(chēng)的二元相異性,非對(duì)稱(chēng)的二元屬性,兩個(gè)狀態(tài)不是同等重要的,若取值為1被認(rèn)為比取值為0更有意義,負(fù)匹配t被認(rèn)為不重要而忽略,r+s則i,j相異性為d(i,j)=q+r+s(4)數(shù)值屬性的相異性最流行的距離度量是歐幾里得距離d(i,j)=.jt^^^T^~-x~)+(一x)%i1j1i2j2ipjp曼哈頓距離d(i,j)=1x-xI+Ix-xI+Ix-xIi1j1i2j2ipjp歐幾里得距離和曼哈頓距離都滿(mǎn)足數(shù)學(xué)性質(zhì):非負(fù)性:d(i,j)三0:距離是一個(gè)非負(fù)的值同一性:d(i,j)=0:對(duì)象到自身的距離為0對(duì)稱(chēng)性:d(i,j)=d(j,i):距離是一個(gè)對(duì)稱(chēng)函數(shù)三角不等式:d(i,j)Wd(i,k)+d(k,j)從對(duì)象i到對(duì)象j的距離不會(huì)大于途徑任何其他對(duì)象k的距離閔可夫斯基距離d(i,j)=mIx-xIh+1x-xIh+……Ix-xIhi1j1i2j2ipjp(5)序數(shù)屬性的鄰近性度量第三章數(shù)據(jù)預(yù)處理1、為什么要進(jìn)行數(shù)據(jù)預(yù)處理?數(shù)據(jù)質(zhì)量涉及很多因素,包括準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和可解釋性。不正確、不完整和不一致的數(shù)據(jù)是現(xiàn)實(shí)世界的大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)共同特點(diǎn)。數(shù)據(jù)預(yù)處理可以改進(jìn)數(shù)據(jù)的質(zhì)量,有助于提高挖掘過(guò)程的準(zhǔn)確率和效率。2、數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)預(yù)處理的主要步驟:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換。(1)數(shù)據(jù)清理通過(guò)填寫(xiě)缺失值,光滑噪聲數(shù)據(jù),識(shí)別或刪除離群點(diǎn)并解決不一致性來(lái)“清理”數(shù)據(jù);數(shù)據(jù)歸約得到數(shù)據(jù)集的簡(jiǎn)化表示,數(shù)據(jù)歸約策略包括維歸約和數(shù)值歸約。維

歸約使用數(shù)據(jù)編碼方案,以便得到原始數(shù)據(jù)的簡(jiǎn)化或“壓縮”,包括數(shù)據(jù)壓縮技術(shù)(小波變換和主成分分析)、屬性子集選擇和屬性構(gòu)造,在數(shù)值歸約中,使用參數(shù)模型(回歸和對(duì)數(shù)線(xiàn)性模型)或非參數(shù)模型(直方圖、聚類(lèi)、抽樣或數(shù)據(jù)聚集),用較小的表示取代數(shù)據(jù)。缺失值方法適用缺點(diǎn)忽略元組元組有多個(gè)屬性缺少值忽略元組不能使用該元組剩余屬性值,這些數(shù)據(jù)可能有用人工填寫(xiě)缺少數(shù)據(jù)少費(fèi)時(shí),數(shù)據(jù)集大缺失值多時(shí)不適用常量填充簡(jiǎn)單不可靠中心度量填充正常數(shù)據(jù)適用均值,傾斜數(shù)據(jù)使用中位數(shù)數(shù)據(jù)不可靠同類(lèi)樣本屬性均值或平均值填充給定類(lèi)數(shù)據(jù)分布傾斜則選擇中位數(shù)數(shù)據(jù)不可靠最可能的值填充可以使用回歸、貝葉斯形式、決策樹(shù)歸納確定最流行但數(shù)據(jù)不可靠噪聲數(shù)據(jù):被測(cè)量的變量的隨機(jī)誤差或方差。方法分箱考察數(shù)據(jù)鄰近值,進(jìn)行局部光滑,有箱中位數(shù)光滑及箱邊界光滑回歸函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)離群點(diǎn)分析通過(guò)聚類(lèi)來(lái)檢測(cè)離群點(diǎn)數(shù)據(jù)清理的第一步是偏差檢測(cè),唯一性規(guī)則是指每個(gè)值都必須不同于該屬性的其他值,連續(xù)性規(guī)則是說(shuō)屬性的最低和最高值之間沒(méi)有缺失值,并且所有的值都必須是唯一的,空值規(guī)則是指空白、問(wèn)號(hào)、特殊符號(hào)或指示空值條件的其他串的使用,以及如何處理這樣的值。有大量不同的商業(yè)工具可以幫助我們進(jìn)行偏差監(jiān)測(cè):數(shù)據(jù)清洗工具使用簡(jiǎn)單的領(lǐng)域知識(shí),檢查并糾正數(shù)據(jù)中的錯(cuò)誤;數(shù)據(jù)審計(jì)工具通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)規(guī)則和聯(lián)系,并檢測(cè)違反這些條件的數(shù)據(jù)來(lái)發(fā)現(xiàn)偏差;數(shù)據(jù)遷移工具允許簡(jiǎn)單的變換;ETL工具允許用戶(hù)通過(guò)圖形用戶(hù)界面說(shuō)明變換。(2)數(shù)據(jù)集成:合并來(lái)自多個(gè)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù),存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中,如存放在數(shù)據(jù)倉(cāng)庫(kù)中。冗余:一個(gè)屬性如果能由另一個(gè)或另一組屬性“導(dǎo)出”,則這個(gè)屬性可能是冗余的。有些冗余可以被相關(guān)分析檢測(cè),對(duì)于標(biāo)稱(chēng)數(shù)據(jù),我們使用卡方檢驗(yàn),對(duì)于數(shù)值屬性,我們使用相關(guān)系數(shù)或協(xié)方差;——標(biāo)稱(chēng)數(shù)據(jù)的卡方檢驗(yàn):將兩個(gè)數(shù)據(jù)元組用相依表顯示;——數(shù)值數(shù)據(jù)的相關(guān)系數(shù):相關(guān)系數(shù)越大,相關(guān)性越強(qiáng),可以作為冗余而被刪除;——數(shù)值數(shù)據(jù)的協(xié)方差:(3)數(shù)據(jù)歸約數(shù)據(jù)歸約策略包括維歸約、數(shù)量歸約和數(shù)據(jù)壓縮。維歸約減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù),維歸約的方法包括小波變換和主成分分析;數(shù)量歸約用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù);數(shù)據(jù)壓縮使用變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示,分為有損和無(wú)損。——小波變換是一種線(xiàn)性信號(hào)處理技術(shù),小波變換后的數(shù)據(jù)可以截短,僅存放一小部分最強(qiáng)的小波系數(shù),就能保留近似的壓縮數(shù)據(jù),可以用于多維數(shù)據(jù),如數(shù)據(jù)立方體?!鞒煞址治鏊阉鱧個(gè)最能代表數(shù)據(jù)的n維正交向量,其中kWn,原數(shù)據(jù)投影到一個(gè)小得多的空間,導(dǎo)致維歸約?;具^(guò)程如下:1)對(duì)輸入數(shù)據(jù)規(guī)范化,使得每個(gè)屬性都落入相同的區(qū)間2)計(jì)算k個(gè)標(biāo)準(zhǔn)正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。這些是單位向量,每一個(gè)都垂直于其他向量。這些向量稱(chēng)為主成分。輸入數(shù)據(jù)是主成分的線(xiàn)性組合。3)對(duì)主成分按照“重要性”降序排列,去掉較弱的成分來(lái)歸約數(shù)據(jù)。主成分分析能夠更好的處理稀疏數(shù)據(jù),小波變換更適合高維數(shù)據(jù)?!獙傩宰蛹x擇,通過(guò)刪除不相關(guān)或冗余的屬性減少數(shù)據(jù)量,選擇的目標(biāo)是找出最小屬性集?!貧w和對(duì)數(shù)線(xiàn)性模型,可以用來(lái)近似給定的數(shù)據(jù),在線(xiàn)性回歸中,對(duì)數(shù)據(jù)建模,使之?dāng)M合到一條直線(xiàn)?!狈綀D,屬性值劃分規(guī)則等寬、等頻——聚類(lèi),把數(shù)據(jù)元組看做對(duì)象,將對(duì)象劃分為群或簇,用數(shù)據(jù)的簇代表替換實(shí)際數(shù)據(jù)?!闃?,用數(shù)據(jù)小得多的隨機(jī)樣本表示大型數(shù)據(jù)集?!獢?shù)據(jù)立方體聚集3、數(shù)據(jù)變換與數(shù)據(jù)離散化數(shù)據(jù)變換策略包括光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化、由標(biāo)稱(chēng)數(shù)據(jù)產(chǎn)生概念分層第四章數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理1、什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)是一種數(shù)據(jù)庫(kù),它與單位的操作數(shù)據(jù)庫(kù)分別維護(hù)。是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理者的決策過(guò)程。通常只需要兩種數(shù)據(jù)訪(fǎng)問(wèn)操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪(fǎng)問(wèn)。我們把建立數(shù)據(jù)倉(cāng)庫(kù)看做構(gòu)建和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。2、操作數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別?聯(lián)機(jī)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢(xún)處理,這種系統(tǒng)稱(chēng)作聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP),數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)可以用不同的格式組織和提供給數(shù)據(jù),以便滿(mǎn)足不同用戶(hù)的形形色色的需求,這種系統(tǒng)叫做聯(lián)機(jī)分析處理系統(tǒng)(OLAP)OLTPOLAP用戶(hù)和系統(tǒng)的面向性面向顧客用于辦事員、客戶(hù)和信息技術(shù)專(zhuān)業(yè)人員的事物和查詢(xún)處理面向市場(chǎng)用于知識(shí)工人(經(jīng)理、主管和分析人員)的數(shù)據(jù)分析數(shù)據(jù)內(nèi)容管理當(dāng)前數(shù)據(jù)數(shù)據(jù)瑣碎,難以用于決策管理歷史數(shù)據(jù)提供匯總和聚集機(jī)制,易于有根據(jù)的決策數(shù)據(jù)庫(kù)設(shè)計(jì)實(shí)體-聯(lián)系(ER)數(shù)據(jù)模型面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)星形或雪花模型面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)視圖只關(guān)注一個(gè)企業(yè)或部口門(mén)內(nèi)部的當(dāng)前數(shù)據(jù)常??缭綌?shù)據(jù)庫(kù)模式的多個(gè)版本訪(fǎng)問(wèn)模式主要是短的原子事務(wù)大部分是只讀操作3、為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù)?分離的主要原因是有助于提高兩個(gè)系統(tǒng)的性能。1)操作數(shù)據(jù)庫(kù)為已知的任務(wù)和負(fù)載設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)的查詢(xún)通常很復(fù)雜,在操作數(shù)據(jù)庫(kù)上處理OLAP查詢(xún),可能會(huì)大大降低操作任務(wù)的性能課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院tt//CCS課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院tt//CCS課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院n2)操作數(shù)據(jù)庫(kù)支持多事務(wù)的并發(fā)處理,需要并發(fā)控制和恢復(fù)機(jī)制,OLAP查詢(xún)只需要對(duì)匯總和聚集數(shù)據(jù)記錄進(jìn)行只讀訪(fǎng)問(wèn),會(huì)大大降低OLTP系統(tǒng)的吞吐量3)兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同4、數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)?數(shù)據(jù)倉(cāng)庫(kù)是一種多層次體系結(jié)構(gòu),通常采用三層體系結(jié)構(gòu):底層是倉(cāng)庫(kù)數(shù)據(jù)庫(kù)服務(wù)器,使用后端工具和實(shí)用程序,由操作數(shù)據(jù)庫(kù)或其他外部數(shù)據(jù)源提取數(shù)據(jù),放入底層。中間層是OLAP服務(wù)器,典型實(shí)現(xiàn)使用關(guān)系OLAP模型或使用多維OLAP模型頂層是前端客戶(hù)層,包括查詢(xún)和報(bào)告工具、分析工具或數(shù)據(jù)挖掘工具。5、數(shù)據(jù)倉(cāng)庫(kù)模型?從結(jié)構(gòu)的角度看,數(shù)據(jù)倉(cāng)庫(kù)有三種模型:企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市和虛擬倉(cāng)庫(kù)。企業(yè)倉(cāng)庫(kù):提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成,通常來(lái)自一個(gè)或多個(gè)操作數(shù)據(jù)庫(kù)系統(tǒng)或外部信息提供者,并且是多功能的。數(shù)據(jù)集市:包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,范圍限于選定的主題虛擬倉(cāng)庫(kù):虛擬倉(cāng)庫(kù)是操作數(shù)據(jù)庫(kù)上視圖的集合對(duì)于開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),一種推薦的方法是以遞增、進(jìn)化的方式實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù),首先在一個(gè)合理短的時(shí)間內(nèi)定義一個(gè)高層次的企業(yè)數(shù)據(jù)模型,在不同的主題和可能的應(yīng)用之間,提供企業(yè)范圍的、一致的、集成的數(shù)據(jù)視圖。其次,基于相同的企業(yè)數(shù)據(jù)模型,并行的實(shí)現(xiàn)獨(dú)立的數(shù)據(jù)集市和企業(yè)數(shù)據(jù)倉(cāng)庫(kù),再次,通過(guò)中心服務(wù)器集成不同的數(shù)據(jù)集市,構(gòu)造分布數(shù)據(jù)集市,最后構(gòu)造一個(gè)多層數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)是定義倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。包括以下內(nèi)容:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述、操作元數(shù)據(jù)、用于匯總的算法、由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射、關(guān)于系統(tǒng)性能的數(shù)據(jù)、商務(wù)元數(shù)據(jù)。6、數(shù)據(jù)倉(cāng)庫(kù)建模數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具基于多維數(shù)據(jù)模型,這種模型將數(shù)據(jù)看做數(shù)據(jù)立方體形式。(1)數(shù)據(jù)立方體:允許以多維對(duì)數(shù)據(jù)建模和觀察,每個(gè)維都可以有一個(gè)與之相關(guān)聯(lián)的表(維表),n維數(shù)據(jù)立方體顯示成n-1維立方體的序列。(2)多維數(shù)據(jù)模型的模式:最流行的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型是多維數(shù)據(jù)模型,可以是星形模式、雪花模式或事實(shí)星座模式。——星形模式,最常見(jiàn)的模型范型是星形模式,數(shù)據(jù)倉(cāng)庫(kù)包括一個(gè)大的中心表(事實(shí)表),包含大批數(shù)據(jù)并且不含冗余,一組小的附屬表(維表),每維一個(gè)?!┗J?,是星形模式的變種,雪花模式的維表可能是規(guī)范化形式,以便減少冗余,這種表易于維護(hù),并節(jié)省存儲(chǔ)空間。由于執(zhí)行查詢(xún)需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的效率,因此不如星形模式流行?!聦?shí)星座,復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表,這種模式稱(chēng)為星系模式或事實(shí)星座。數(shù)據(jù)倉(cāng)庫(kù)收集了關(guān)于整個(gè)組織的主題信息,因此是企業(yè)范圍的,數(shù)據(jù)倉(cāng)庫(kù)多選用星座模式;數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門(mén)子集,針對(duì)選定的主題,因此是部門(mén)范圍的,數(shù)據(jù)集市多采用星形或雪花模式(3)維:概念分層的作用,概念分層定義一個(gè)映射序列,將低層概念集映射到較高層、更一般的概念(4)度量的分類(lèi)和計(jì)算,立方體度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)立方體空間的每個(gè)點(diǎn)求值,度量根據(jù)其所用的聚集函數(shù)可以分為三類(lèi):分布的、代數(shù)的和整體的.——分布的,數(shù)據(jù)劃分成n個(gè)集合,將函數(shù)用于每一個(gè)部分,得到n個(gè)聚集值,如果函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于整個(gè)數(shù)據(jù)集得到的結(jié)果是一樣的,則該函數(shù)可以用分布方式計(jì)算。例如sum()、count()。——代數(shù)的,一個(gè)聚集函數(shù)如果能夠用一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算,而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得,則它是代數(shù)的。例如avg()=sum()/count()——整體的,一個(gè)聚集函數(shù)如果描述它的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界,則它是整體的。例如median。(5)典型的OLAP操作,上卷操作通過(guò)延一個(gè)維的概念分層向上攀升或者通過(guò)維歸約在數(shù)據(jù)立方體上進(jìn)行聚集;下鉆是上卷的逆操作;切片和切塊,切片操作在給定的立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子立方體;轉(zhuǎn)軸是一種目視操作,轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示;其他OLAP操作,鉆過(guò)執(zhí)行涉及多個(gè)事實(shí)表的查詢(xún),鉆透使用關(guān)系SQL機(jī)制,鉆透到數(shù)據(jù)立方體的底層,到后端關(guān)系表。——OLAP系統(tǒng)與統(tǒng)計(jì)數(shù)據(jù)庫(kù)(6)查詢(xún)多維數(shù)據(jù)庫(kù)的星網(wǎng)查詢(xún)模型星網(wǎng)模型由從中心點(diǎn)發(fā)出的射線(xiàn)組成,其中每一條射線(xiàn)代表一個(gè)維的概念分層。7、數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與使用關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),必須考慮四種不同的視圖:自頂向下視圖、數(shù)據(jù)源視圖、數(shù)據(jù)倉(cāng)課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院//n課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院//n課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院ttp//cccc庫(kù)視圖和商務(wù)查詢(xún)視圖。從軟件工程的角度看,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造包含以下步驟:規(guī)劃、需求研究、問(wèn)題分析、倉(cāng)庫(kù)設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉(cāng)庫(kù)。大型軟件系統(tǒng)可以用兩種方法開(kāi)發(fā):瀑布式方法和螺旋式方法。瀑布式方法在進(jìn)行下一步之前,每一步都進(jìn)行結(jié)構(gòu)的和系統(tǒng)的分析,螺旋式方法實(shí)際功能漸增的系統(tǒng)的快速產(chǎn)生,相繼發(fā)布之間的間隔很短。在許多公司,數(shù)據(jù)倉(cāng)庫(kù)用作企業(yè)管理的計(jì)劃一一執(zhí)行一一評(píng)估“閉環(huán)”反饋系統(tǒng)的必要部分。有三類(lèi)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用:信息處理、分析處理和數(shù)據(jù)挖掘。信息處理支持查詢(xún)和基本的統(tǒng)計(jì)分析,并使用交叉表、表、圖表或圖進(jìn)行報(bào)告?;诓樵?xún),可以發(fā)現(xiàn)有用的信息;分析處理支持基本的OLAP操作,包括切片與切塊、下鉆、上卷和轉(zhuǎn)軸。由用戶(hù)選定的數(shù)據(jù)倉(cāng)庫(kù)子集,在多粒度上導(dǎo)出匯總的信息。數(shù)據(jù)挖掘支持知識(shí)發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類(lèi)和預(yù)測(cè),并使用可視化工具提供挖掘結(jié)果。8、OLAP和數(shù)據(jù)挖掘相同嗎?OLAP是數(shù)據(jù)匯總/聚集工具,幫助簡(jiǎn)化數(shù)據(jù)分析;數(shù)據(jù)挖掘自動(dòng)發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識(shí)。OLAP工具的目標(biāo)是簡(jiǎn)化和支持交互數(shù)據(jù)分析;數(shù)據(jù)挖掘工具的目標(biāo)是盡可能自動(dòng)處理,盡管允許用戶(hù)指導(dǎo)這一過(guò)程。數(shù)據(jù)挖掘包含數(shù)據(jù)描述和數(shù)據(jù)建模,OLAP的功能基本上是用戶(hù)指導(dǎo)的匯總和比較。數(shù)據(jù)挖掘不限于分析存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),可以分析比數(shù)據(jù)倉(cāng)庫(kù)提供的匯總數(shù)據(jù)粒度更細(xì)的數(shù)據(jù)。也可以分析事務(wù)的、空間的、文本的和多媒體數(shù)據(jù)。9、多維數(shù)據(jù)庫(kù)OLAM多維數(shù)據(jù)挖掘特別重要:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的高質(zhì)量,環(huán)繞數(shù)據(jù)倉(cāng)庫(kù)的信息處理基礎(chǔ)設(shè)施、基于OLAP的多維數(shù)據(jù)探索、數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇10、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)要支持高校的數(shù)據(jù)立方體計(jì)算技術(shù)、存取方法和查詢(xún)處理技術(shù)。(1)數(shù)據(jù)立方體的有效計(jì)算多維數(shù)據(jù)分析的核心是有效計(jì)算許多維集合上的聚集,這些聚集稱(chēng)為分組,每個(gè)分組用一個(gè)方體表示,分組的集合形成定義數(shù)據(jù)立方體的方體的格。computecube操作與維災(zāi)難Computecube操作在操作指定的維的所有子集上計(jì)算聚集。數(shù)據(jù)立方體是方體的格;對(duì)于不同的查詢(xún),聯(lián)機(jī)分析處理可能需要訪(fǎng)問(wèn)不同的方體。因此,提前計(jì)算所有的或者至少一部分方體是個(gè)好主意。預(yù)計(jì)算的主要挑戰(zhàn)是,如果數(shù)據(jù)立方體中素有的方體都預(yù)先計(jì)算,所需的存儲(chǔ)空間可能爆炸,特別是當(dāng)立方體包含許多維時(shí)。這個(gè)問(wèn)題成為維災(zāi)難。如果每個(gè)維沒(méi)有概念分層,n維數(shù)據(jù)立方體有2m方體;——部分物化:方體的選擇計(jì)算給定基本方體,方體的物化有三種選擇:不物化、完全物化、部分物化。不物化即不預(yù)先計(jì)算任何“非基本”方體,這導(dǎo)致回答查詢(xún)時(shí)實(shí)時(shí)計(jì)算昂貴的多維聚集,速度非常慢;完全物化即預(yù)先計(jì)算所有方體,需要海量存儲(chǔ)空間;部分物化即有選擇的計(jì)算整個(gè)可能的方體集中一個(gè)適當(dāng)?shù)淖蛹?,部分物化是存?chǔ)空間和響應(yīng)時(shí)間兩者之間的折中。冰山立方體是一個(gè)數(shù)據(jù)立方體,只存放聚集值大于某個(gè)最小支持度閾值的立方體單元,外殼立方體涉及預(yù)計(jì)算數(shù)據(jù)立方體的只有少量維的方體。(2)索引OLAP數(shù)據(jù)——位圖索引,允許在數(shù)據(jù)立方體中快速搜索,如果給定的屬性域包含n個(gè)值,則位圖索引中每項(xiàng)需要n個(gè)位,如果數(shù)據(jù)表給定航上該屬性值為v,則在位圖索引的對(duì)應(yīng)行,該值的位為1,該行的其他位均為0——連接索引,登記來(lái)自關(guān)系數(shù)據(jù)庫(kù)的兩個(gè)關(guān)系的可連接行,連接索引可以跨越多維,形成復(fù)合連接索引。(3)OLAP查詢(xún)的有效處理物化方體和構(gòu)造OLAP索引結(jié)構(gòu)的目的是加快數(shù)據(jù)立方體查詢(xún)處理的速度,查詢(xún)處理應(yīng)首先確定哪些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行,然后確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體。(4)OLAP服務(wù)器結(jié)構(gòu):ROLAP/MOLAP/HOLAP的比較——關(guān)系OLAP(ROLAP)服務(wù)器,一種中間服務(wù)器,使用關(guān)系的或擴(kuò)充關(guān)系的DBMS存儲(chǔ)并管理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù),OLAP中間件支持其余部分——多維OLAP(MOLAP)服務(wù)器,通過(guò)基于數(shù)組的多維存儲(chǔ)引擎,支持?jǐn)?shù)據(jù)的多維視圖。多數(shù)都采用兩級(jí)存儲(chǔ)表示來(lái)處理稠密和稀疏數(shù)據(jù)集:識(shí)別較稠密的子立方體并作為數(shù)組結(jié)構(gòu)存儲(chǔ),而稀疏子立方體使用壓縮技術(shù),提高存儲(chǔ)利用率——混合OLAP(HOLAP)服務(wù)器,結(jié)合ROLAP和MOLAP技術(shù)、——特殊的SQL服務(wù)器,提供高級(jí)查詢(xún)語(yǔ)言和查詢(xún)處理,在只讀環(huán)境下,在星形和雪花形模式下支持SQL查詢(xún)。(5)數(shù)據(jù)泛化:面向?qū)傩缘臍w納數(shù)據(jù)泛化通過(guò)把相對(duì)底層的值用較高層概念替換來(lái)匯總數(shù)據(jù),或通過(guò)減少維數(shù),在涉及課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院k課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院k課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院s..n較少維數(shù)的概念空間匯總數(shù)據(jù)。概念描述,概念通常指數(shù)據(jù)的匯集,概念描述產(chǎn)生數(shù)據(jù)的特征和比較描述,當(dāng)被描述的概念涉及對(duì)象類(lèi)時(shí),有時(shí)也稱(chēng)概念描述為類(lèi)描述。——數(shù)據(jù)特征的面向?qū)傩缘臍w納,數(shù)據(jù)立方體方法基本上是基于數(shù)據(jù)的物化視圖,通常在數(shù)據(jù)倉(cāng)庫(kù)中預(yù)先計(jì)算,面向?qū)傩缘臍w納基本上是面向查詢(xún)的、基于泛化的、聯(lián)機(jī)的數(shù)據(jù)分析處理技術(shù)。面向?qū)傩詺w納的基本思想是:首先使用數(shù)據(jù)庫(kù)查詢(xún)收集任務(wù)相關(guān)的數(shù)據(jù),然后通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行泛化。屬性刪除基于如下規(guī)則:如果出示工作關(guān)系的某個(gè)屬性有大量不同的值,但是在該屬性上并沒(méi)有泛化操作符,或者它的較高層概念用其他屬性表示,則應(yīng)當(dāng)將該屬性從工作關(guān)系中刪除屬性泛化基于以下規(guī)則:如果初始工作關(guān)系的某個(gè)屬性有大量不同的值,并且該屬性上存在泛化操作符的集合,則應(yīng)當(dāng)選擇一個(gè)泛化操作符,并將它用于該屬性。屬性泛化控制有兩種技術(shù):屬性泛化閾值控制:對(duì)所有的屬性設(shè)置一個(gè)泛化閾值或?qū)γ總€(gè)屬性設(shè)置一個(gè)閾值,如果屬性不同值個(gè)數(shù)大于該屬性泛化閾值,則進(jìn)行進(jìn)一步的屬性刪除或?qū)傩苑夯?;廣義關(guān)系閾值控制:為廣義關(guān)系設(shè)置一個(gè)閾值,如果廣義關(guān)系中不同元組的個(gè)數(shù)超過(guò)該閾值,則進(jìn)一步泛化。這兩種技術(shù)可以順序使用,首先使用屬性泛化閾值控制技術(shù)泛化每個(gè)屬性,然后使用關(guān)系閾值控制進(jìn)一步壓縮廣義關(guān)系。第五章數(shù)據(jù)立方體1、數(shù)據(jù)立方體計(jì)算:基本概念(1)立方體物化基本方體的單元是基本單元,非基本方體的單元是聚集單元。聚集單元在一個(gè)或多個(gè)維上聚集,其中每個(gè)聚集維用單元記號(hào)中的*指示。假設(shè)有一個(gè)n維數(shù)據(jù)立方體,令a=(a1,a2,....,an,measures)是.一一個(gè)單元,取自構(gòu)成數(shù)據(jù)立方體的一個(gè)方體。如果{a1,a2,....,an}中恰有m(mWn)個(gè)值不是*,則我們說(shuō)a是m維單元,如果m=n,則a是基本單元;否則是聚集單元。完全預(yù)計(jì)算的立方體為完全立方體,部分物化的立方體為冰山立方體。一種計(jì)算冰山立方體的樸素方法是,首先計(jì)算完全立方體,然后剪去不滿(mǎn)足冰山條件的單元。另一種有效的方法是直接計(jì)算冰山立方體,而不計(jì)算完全立方體。引入冰山立方體將減輕計(jì)算數(shù)據(jù)立方體中不重要聚集單元的負(fù)擔(dān)。(2)數(shù)據(jù)立方體計(jì)算的一般策略①排序、散列和分組,在立方體計(jì)算中,對(duì)共享一組相同維值的元組進(jìn)行聚集,需要利用排序、散列和分組對(duì)數(shù)據(jù)進(jìn)行訪(fǎng)問(wèn)和分組,以便有利于聚集的計(jì)算②同時(shí)聚集和緩存中間結(jié)果,從先前計(jì)算的較低層聚集而不是從基本事實(shí)表計(jì)算較高層聚集,從緩存的中間計(jì)算結(jié)果同時(shí)聚集可以減少開(kāi)銷(xiāo)很大的磁盤(pán)IO操作③當(dāng)存在多個(gè)子女方體時(shí),由最小的子女聚集。當(dāng)存在多個(gè)子女方體時(shí),由先前的最小子女方體計(jì)算父母方體更有效。④可以使用先驗(yàn)剪枝方法有效的計(jì)算冰山立方體。對(duì)于數(shù)據(jù)立方體,先驗(yàn)性質(zhì)表述如下:如果給定的單元不滿(mǎn)足最小支持度,則該單元的后代也都不滿(mǎn)足最小支持度。通常的冰山條件是單元必須滿(mǎn)足最小支持度閾值,如最小計(jì)數(shù)或總和。2、數(shù)據(jù)立方體的計(jì)算方法(1)完全立方體計(jì)算的多路數(shù)組聚集多路數(shù)組聚集方法使用多維數(shù)組作為基本的數(shù)據(jù)結(jié)構(gòu),計(jì)算完全數(shù)據(jù)立方體。第六章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性:基本概念和方法頻繁模式是頻繁的出現(xiàn)在數(shù)據(jù)集中的模式,如果一個(gè)子結(jié)構(gòu)頻繁出現(xiàn),則稱(chēng)它為(頻繁的)結(jié)構(gòu)模式。對(duì)于挖掘數(shù)據(jù)之間的關(guān)聯(lián)、相關(guān)性和許多其他有趣的聯(lián)系,發(fā)現(xiàn)這種頻繁模式起著至關(guān)重要的作用。止匕外,它對(duì)數(shù)據(jù)分類(lèi)、聚類(lèi)和其他數(shù)據(jù)挖掘任務(wù)也有幫助。1、基本概念(1)規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量,分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性。在典型情況下,關(guān)聯(lián)規(guī)則被認(rèn)為是有趣的,如果它滿(mǎn)足最小支持度閾值和最小置信度閾值。支持度support(AnB)=P(AuB)置信度confidence(AnB)=P(BIA)同時(shí)滿(mǎn)足最小支持度閾值和最小置信度閾值的規(guī)則稱(chēng)為強(qiáng)規(guī)則,用0%~100%之間的值表示。項(xiàng)的集合稱(chēng)為項(xiàng)集,包含k個(gè)項(xiàng)的項(xiàng)集稱(chēng)為k項(xiàng)集。項(xiàng)集的出現(xiàn)頻度是包含項(xiàng)集的事物數(shù),簡(jiǎn)稱(chēng)為項(xiàng)集的頻度、支持度計(jì)數(shù)或計(jì)數(shù)。如果項(xiàng)集I的相對(duì)支持度滿(mǎn)足預(yù)定義的最小支持度閾值,則I是頻繁項(xiàng)集。頻繁k項(xiàng)集的集合通常記為L(zhǎng)K。課工場(chǎng)創(chuàng)意學(xué)院c課工場(chǎng)創(chuàng)意學(xué)院ccskccn課工場(chǎng)創(chuàng)意學(xué)院c課工場(chǎng)創(chuàng)意學(xué)院ccskccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院psknsupport(AuB)support_count(AuB)confidence(AnB)=P(BIA)=——=——support(A)support_count(A)可以看出規(guī)則AnB的置信度可以從A和AUB的支持度計(jì)數(shù)推出,因此挖掘關(guān)聯(lián)規(guī)則可以歸結(jié)為挖掘頻繁項(xiàng)集。(2)一般而言,關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過(guò)程一、找出所有的頻繁項(xiàng)集:根據(jù)定義,這些項(xiàng)集的每一個(gè)頻繁出現(xiàn)的次數(shù)至少與預(yù)定義的最小支持計(jì)數(shù)min_sup一樣二、由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿(mǎn)足最小支持度和最小置信度。如果一個(gè)項(xiàng)集是頻繁的,則它的每個(gè)子集也是頻繁的,一個(gè)長(zhǎng)項(xiàng)集將包含組合個(gè)數(shù)較短的頻繁子項(xiàng)集。項(xiàng)集X在數(shù)據(jù)集D中是閉的,如果不存在真超項(xiàng)集Y使得Y與X在D中具有相同的支持度計(jì)數(shù),項(xiàng)集X是D中的閉頻繁項(xiàng)集,如果X在D中是閉的和頻繁的,項(xiàng)集X是D中的極大頻繁項(xiàng)集或極大項(xiàng)集。2、頻繁項(xiàng)集挖掘方法挖掘最簡(jiǎn)單形式的頻繁模式方法,Apriori算法是一種發(fā)現(xiàn)頻繁項(xiàng)集的基本算法。(1)通過(guò)限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集Apriori算法是布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法,算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),使用一種稱(chēng)為逐層搜索的迭代方法,其中k項(xiàng)集用于探索k+1項(xiàng)集。首先,通過(guò)掃描數(shù)據(jù)庫(kù),累計(jì)每個(gè)項(xiàng)的計(jì)數(shù),并收集滿(mǎn)足最小支持度的項(xiàng),找出頻繁1項(xiàng)集的集合。該集合記為L(zhǎng)1。然后,使用L1找出頻繁2項(xiàng)集的集合L2,使用L2找出L3,如此下去,直到不能再找到頻繁k項(xiàng)集缺點(diǎn):每找出一個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描,為了提高頻繁項(xiàng)集逐層產(chǎn)生的效率,使用先驗(yàn)性質(zhì)壓縮搜索空間。先驗(yàn)性質(zhì):頻繁項(xiàng)集的所有非空子集也一定是頻繁的。如果一個(gè)集合不能通過(guò)測(cè)試,則它的所有超集也都不能通過(guò)測(cè)試。如何使用LK-1找出LK?一、連接步:為找出LK,通過(guò)將4-1與自身連接產(chǎn)生候選k項(xiàng)集的集合。該候選項(xiàng)集的集合記為CK二、剪枝步:CK是LK的超集。掃描數(shù)據(jù)庫(kù),確定CK中每個(gè)候選的計(jì)數(shù),從而確定LK(2)由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則一旦由數(shù)據(jù)庫(kù)D中的事務(wù)找出頻繁項(xiàng)集,就可以直接由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Support_count(AuB)confidence]AnB)=P(AIB)二:-Support_count(A)-根據(jù)上式,關(guān)聯(lián)規(guī)則可以產(chǎn)生如下:對(duì)于每個(gè)頻繁項(xiàng)集L,產(chǎn)生L的所有非空子集Supportcount(t)對(duì)于L的每個(gè)非空子集s,如果>min_conf則輸出規(guī)則Support_count(s)snl-s,其中min_conf是最小置信度閾值。(3)提高Apriori算法的效率提高算法的效率需要一些變形。其中一些變形如下:——基于散列的技術(shù),一種基于散列的技術(shù)可以用于壓縮候選k項(xiàng)集的集合CK——事務(wù)壓縮,不包含任何頻繁k項(xiàng)集的事務(wù)不可能包含任何頻繁k+1項(xiàng)集。因此,這種事務(wù)在其后的考慮時(shí),可以加上標(biāo)記或刪除,因?yàn)楫a(chǎn)生j項(xiàng)集的數(shù)據(jù)庫(kù)掃描不再需要他們——?jiǎng)澐郑褂脛澐旨夹g(shù),只需要掃描兩次數(shù)據(jù)庫(kù)就可以挖掘頻繁項(xiàng)集。首先,算法把D中的事務(wù)劃分成n個(gè)非重疊的分區(qū),如果D中事務(wù)的最小相對(duì)支持度閾值為min_sup,則每個(gè)分區(qū)的最小支持度計(jì)數(shù)為min_supX該分區(qū)中的事務(wù)數(shù),對(duì)每個(gè)分區(qū),找出所有的局部頻繁項(xiàng)集。然后,第二次掃描D,評(píng)估每個(gè)候選的實(shí)際支持度,以確定全局頻繁項(xiàng)集。階段一——抽樣,抽樣方法的基本思想是,選取給定數(shù)據(jù)庫(kù)D的隨機(jī)樣本S,然后在S而不是D中搜索頻繁項(xiàng)集。犧牲精度換取有效性,可能丟失一些全局頻繁項(xiàng)集。為降低這種可能性,使用比最小支持度低的支持度閾值來(lái)找出S的局部頻繁項(xiàng)集?!?jiǎng)討B(tài)項(xiàng)集計(jì)數(shù),將數(shù)據(jù)庫(kù)劃分為用開(kāi)始點(diǎn)標(biāo)記的塊??梢栽谌魏伍_(kāi)始點(diǎn)添加新的候選項(xiàng)集課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http:cus_gccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http:cus_gccn(4)挖掘頻繁項(xiàng)集的模式增長(zhǎng)方法頻繁模式增長(zhǎng)(FP-growth):首先,將代表頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一顆頻繁模式樹(shù),概述仍保留項(xiàng)集的相關(guān)信息。然后,把這種壓縮后的數(shù)據(jù)庫(kù)劃分成一組條件數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)庫(kù)關(guān)聯(lián)一個(gè)頻繁項(xiàng)或模式段,并分別挖掘每個(gè)條件數(shù)據(jù)庫(kù)。(5)使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集Apriori算法和FP-growth算法都從TID項(xiàng)集格式({TID:itemset})的事務(wù)集中挖掘頻繁模式,其中TID是事務(wù)標(biāo)識(shí)符,而itemset是事務(wù)TID中購(gòu)買(mǎi)的商品,這種數(shù)據(jù)格式稱(chēng)為水平數(shù)據(jù)格式?;蛘?,數(shù)據(jù)也可以用項(xiàng)-TID集格式{item:TID_set}表示,其中item是項(xiàng)的名稱(chēng),TID_set是包含item的事務(wù)的標(biāo)識(shí)符的集合,這種格式稱(chēng)為垂直數(shù)據(jù)格式。(6)挖掘閉模式和極大模式從閉頻繁項(xiàng)集的集合可以很容易的推出頻繁項(xiàng)集的集合和它們的支持度。挖掘閉頻繁項(xiàng)集的一種樸素方法是,首先挖掘頻繁項(xiàng)集的完全集,然后刪除這樣的頻繁項(xiàng)集,它們是某個(gè)頻繁項(xiàng)集的真子集,并且具有相同支持度。一種推薦的方法是在挖掘過(guò)程中直接搜索閉頻繁項(xiàng)集,在挖掘過(guò)程中,一旦識(shí)別閉項(xiàng)集就盡快對(duì)搜索空間進(jìn)行剪枝。剪枝包括以下幾個(gè)策略:項(xiàng)合并,如果包含頻繁項(xiàng)集X的每個(gè)事物都包含項(xiàng)集Y,但不包含Y的任何真超集,則XUY形成一個(gè)閉頻繁項(xiàng)集,并且不必再搜索包含X但不包含Y的任何項(xiàng)集。子項(xiàng)集剪枝:如果頻繁項(xiàng)集X是一個(gè)已經(jīng)發(fā)現(xiàn)的閉頻繁項(xiàng)集Y的真子集,并且support_count(X)=support_count(Y),則X和X在集合枚舉樹(shù)中的后代都不可能是閉頻繁項(xiàng)集,因此可以剪枝。項(xiàng)跳過(guò):在深度優(yōu)先挖掘閉項(xiàng)集時(shí),每一層都有一個(gè)與頭表和投影數(shù)據(jù)庫(kù)相關(guān)聯(lián)的前綴項(xiàng)集X。如果一個(gè)局部頻繁項(xiàng)P在不同層的多個(gè)頭表中都具有相同的支持度,則可以將P從較高層頭表中剪裁掉。3、模式評(píng)估方法提升度是一種簡(jiǎn)單的相關(guān)性度量,項(xiàng)集A的出現(xiàn)獨(dú)立于項(xiàng)集B的出現(xiàn),如果P(AUB)=P(A)P⑻;否則,作為事件,項(xiàng)集A和B是依賴(lài)的和相關(guān)的。A和B出現(xiàn)之間的提升度可以通過(guò)公式計(jì)算life(AB)=P(AuB)

P(A)P(B)如果計(jì)算出的值小于1,則為負(fù)相關(guān),意味著一個(gè)出現(xiàn)可能導(dǎo)致另一個(gè)不出現(xiàn);如果計(jì)課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http//ccgccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院http//ccgccn課工場(chǎng)創(chuàng)意學(xué)院課工場(chǎng)創(chuàng)意學(xué)院//算出的值大于1,則A和B是正相關(guān),意味著一個(gè)出現(xiàn)另一個(gè)也會(huì)出現(xiàn);如果計(jì)算出的值等于1,則A和B是獨(dú)立的,它們之間沒(méi)有相關(guān)性。X2X2相關(guān)分析X2=Z(觀測(cè)值-期望值)2

期望值全置信度all_conf(A,B)=sup(全置信度all_conf(A,B)=sup(AuB)max{sup(A),sup(B)}=min{P(AIB),P(BIA)}最大置信度max_conf(A,B)=max{P(AIB),P(BIA)}余弦度量consin余弦度量consine(A,B)=sup(AuB)"P(A)*P(B)=jSup(A)義sup(B)零事務(wù)是不包含任何考察項(xiàng)集的事務(wù)第七章高級(jí)模式挖掘1.挖掘模式大部分研究都主要關(guān)注模式挖掘的三個(gè)方面所挖掘的模式類(lèi)型、挖掘方法和應(yīng)用?;谀J降亩鄻有?,模式挖掘可以使用如下標(biāo)準(zhǔn)進(jìn)行分類(lèi):基本模式:頻繁模式是滿(mǎn)足最小支持度閾值的模式。如果不存在與P具有相同支持度的超模式P',模式P是一個(gè)閉模式。如果不存在P的頻繁超模式,模式P是一個(gè)極大模式?;谀J剿婕暗某橄髮樱耗J交蜿P(guān)聯(lián)規(guī)則可能具有處于高、低或多個(gè)抽象層的項(xiàng),則挖掘的規(guī)則集由多層關(guān)聯(lián)規(guī)則組成,反之,如果在給定的規(guī)則集中,規(guī)則不涉及不同抽象層的項(xiàng)或?qū)傩?,則該集合包含單層關(guān)聯(lián)規(guī)則?;谝?guī)則或模式所涉及的維數(shù):如果關(guān)聯(lián)規(guī)則或模式中的項(xiàng)或?qū)傩灾簧婕耙粋€(gè)維,則它是單維關(guān)聯(lián)規(guī)則/模式。如果規(guī)則/模式涉及兩個(gè)或多個(gè)維,則它是多為關(guān)聯(lián)規(guī)則基于規(guī)則或模式中所處理的值類(lèi)型:如果規(guī)則考慮的關(guān)聯(lián)是項(xiàng)是否出現(xiàn),則為布爾關(guān)聯(lián)規(guī)則;如果規(guī)則描述的是量化的項(xiàng)或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則。基于挖掘選擇性模式的約束或標(biāo)準(zhǔn):被發(fā)現(xiàn)的模式或規(guī)則可以是基于約束的、近似的、壓縮的、近似匹配的。根據(jù)數(shù)據(jù)類(lèi)型和所涉及的應(yīng)用分類(lèi):基于所挖掘的數(shù)據(jù)類(lèi)型和特征,在這種情況下,頻繁模式的挖掘本質(zhì)上是頻繁項(xiàng)集挖掘,也可以挖掘結(jié)構(gòu)模式,即結(jié)構(gòu)數(shù)據(jù)集中的頻繁子結(jié)構(gòu)。

基于應(yīng)用領(lǐng)域的特定語(yǔ)義:多樣性的應(yīng)用數(shù)據(jù)導(dǎo)致大量不同的模式挖掘方法基于數(shù)據(jù)分析的使用方法:頻繁模式挖掘充當(dāng)中間步驟,作為分類(lèi)的特征提取步驟使用為基于模式的分類(lèi),基于模式的聚類(lèi)顯示了在聚類(lèi)高維數(shù)據(jù)方面的優(yōu)勢(shì)模式和規(guī)則的類(lèi)型基本模式-頻繁模式關(guān)聯(lián)規(guī)則閉/極大模式

生成元挖掘方法'模式挖掘研究擴(kuò)充的模式一.多層和多.

維模式多層(一致、變化或基于項(xiàng)集的支持度)

多維模式(包括高維模式)連續(xù)數(shù)據(jù)(基于離散化或基于統(tǒng)計(jì))<」近似模式.不確定模式■壓縮模式稀有模或負(fù)模式模式和規(guī)則的類(lèi)型基本模式-頻繁模式關(guān)聯(lián)規(guī)則閉/極大模式

生成元挖掘方法'模式挖掘研究擴(kuò)充的模式一.多層和多.

維模式多層(一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論