數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 2 章 認識數(shù)據(jù)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 2 章 認識數(shù)據(jù)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 2 章 認識數(shù)據(jù)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 2 章 認識數(shù)據(jù)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 2 章 認識數(shù)據(jù)_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章認識數(shù)據(jù)本章內容屬性及其類型數(shù)據(jù)的基本統(tǒng)計描述數(shù)據(jù)可視化數(shù)據(jù)對象的相似性度量30五月202421.屬性及其類型屬性:(Attribute)是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征。在文獻中,屬性、維(Dimension)、特征(Feature)和變量(Variable)表示相同的含義,可以在不同場合互換使用。屬性類型:屬性的取值范圍決定了屬性的類型。30五月202431.屬性及其類型1.標稱屬性標稱屬性(NominalAttribute)的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態(tài),因此標稱屬性又可稱為是分類的(Categorical)。標稱屬性的值是枚舉的,可以用數(shù)字表示這些符號或名稱。常見的標稱屬性如姓名、籍貫、郵政編碼或婚姻狀態(tài)等。標稱屬性的值不僅僅是不同的名字,它提供了足夠的信息用于區(qū)分對象。標稱屬性不具有有意義的序,其中心趨勢度量一般是眾數(shù)。30五月202441.屬性及其類型2.二元屬性二元屬性(BinaryAttribute)是標稱屬性的特例,也是一種布爾屬性,對應0和1兩個狀態(tài)。二元屬性分為對稱的和非對稱的。如果屬性的狀態(tài)結果是同等重要的,如拋硬幣的結果狀態(tài),則該屬性是對稱的二元屬性。一個非對稱的二元屬性其狀態(tài)的結果不是同樣重要的,如病毒檢測的陽性和陰性結果。為了方便,用1對重要結果(通常是稀有的)編碼,另一個用0編碼。30五月202451.屬性及其類型3.序數(shù)屬性序數(shù)屬性(OrdinalAttribute)的可能值之間存在有意義的序或秩評定,但是相繼值之間的差是未知的。常見的序數(shù)屬性如上衣的尺寸有S、M、L、XL,可以用數(shù)字如1、2、3、4分別對應屬性的取值。由于序數(shù)屬性是有序的,它的中位數(shù)是有意義的,因此序數(shù)屬性的中心趨勢度量可以是眾數(shù)和中位數(shù)。30五月202461.屬性及其類型4.數(shù)值屬性數(shù)值屬性(NumericAttribute)是可以度量的量,用整數(shù)或實數(shù)值表示,常見的數(shù)值屬性如年齡。數(shù)值屬性可以是區(qū)間標度的或比率標度的。區(qū)分區(qū)間標度和比率標度的原則是該屬性是否有固有的零點,如攝氏溫度沒有固定的零點,其比值沒有意義。所以是區(qū)間標度屬性,而開式溫度有固有的零點,比值有意義,是比率標度屬性。數(shù)值屬性可以是聯(lián)系的或離散的。30五月202472.數(shù)據(jù)的基本統(tǒng)計描述把握數(shù)據(jù)的分布對于成功的數(shù)據(jù)預處理是至關重要的?;镜臄?shù)據(jù)統(tǒng)計描述可以識別數(shù)據(jù)的性質,并凸顯哪些數(shù)據(jù)應被視為噪聲或離群點。數(shù)據(jù)的描述性統(tǒng)計主要包括數(shù)據(jù)的集中趨勢、離中趨勢、相對離散程度和分布的形狀四個方面。30五月202482.數(shù)據(jù)的基本統(tǒng)計描述中心趨勢度量:在統(tǒng)計學中是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在。中心趨勢度量就是尋找數(shù)據(jù)水平的代表值或中心值。中心趨勢度量包括均值、中位數(shù)、眾數(shù)和中列數(shù)。1.均值:數(shù)據(jù)集“中心”的最常用的數(shù)值度量是(算術)均值。均值是描述數(shù)據(jù)集的最常用統(tǒng)計量,但它并非度量數(shù)據(jù)中心的最佳方法,主要原因是均值對噪聲數(shù)據(jù)很敏感---截尾均值。30五月202492.數(shù)據(jù)的基本統(tǒng)計描述2.中位數(shù):中位數(shù)(Median)又稱中點數(shù)或中值。在概率論與統(tǒng)計學中,中位數(shù)一般用于數(shù)值型數(shù)據(jù)。當數(shù)據(jù)量很大時,中位數(shù)的計算開銷會很大,此時可以采用近似估計的方法。假定數(shù)據(jù)可以根據(jù)數(shù)值劃分為區(qū)間,并且知道每個區(qū)間的數(shù)據(jù)個數(shù),可以使用如下公式計算中位數(shù):30五月2024102.數(shù)據(jù)的基本統(tǒng)計描述例:某企業(yè)50名工人加工零件的數(shù)據(jù)如表3-1所示,計算加工零件數(shù)值的中位數(shù)。11由表中數(shù)據(jù)可知,中位數(shù)的位置為50/2=25,即中位數(shù)在120-125這一組,由此可以得到則近似計算的中位數(shù)median為123.31。2.數(shù)據(jù)的基本統(tǒng)計描述3.眾數(shù):眾數(shù)(Mode)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。具有一個、兩個或三個眾數(shù)的數(shù)據(jù)集分別稱為單峰(Unimodal)、雙峰(Bimodal)和三峰(Trimodal)。一般具有兩個或以上眾數(shù)的數(shù)據(jù)集是多峰的(Multimodal)。在極端情況下,如果每個數(shù)值只出現(xiàn)一次則它沒有眾數(shù)。對于非對稱的單峰型數(shù)據(jù)集,一般有下面的經(jīng)驗關系:30五月2024122.數(shù)據(jù)的基本統(tǒng)計描述4.中列數(shù):中列數(shù)(Midrange)是數(shù)據(jù)集中的最大值和最小值的平均值,也可以度量數(shù)值數(shù)據(jù)的中心趨勢。利用pandas統(tǒng)計中位數(shù)、均值和眾數(shù)。30五月2024132.數(shù)據(jù)的基本統(tǒng)計描述數(shù)據(jù)散布度量用于評估數(shù)值數(shù)據(jù)散布或發(fā)散的程度。散布度量的測定是對統(tǒng)計資料分散狀況的測定,即找出各個變量值與集中趨勢的偏離程度通過度量散布趨勢。數(shù)據(jù)散布度量包括極差、分位數(shù)、四分位數(shù)、百分位數(shù)和四分位數(shù)極差。方差和標準差也可以描述數(shù)據(jù)分布的散布。30五月2024142.數(shù)據(jù)的基本統(tǒng)計描述極差、四分位數(shù)和四分位數(shù)極差極差(Range)又稱范圍誤差或全距,是一組觀測值的最大值與最小值之間的差距。極差是標志值變動的最大范圍,它是測定標志變動的最簡單的指標。四分位數(shù)是將一組數(shù)據(jù)由小到大(或由大到?。┡判蚝?,用3個點將全部數(shù)據(jù)分為4等份,與這3個點位置上相對應的數(shù)值稱為四分位數(shù),分別記為Q1(第一四分位數(shù)),說明數(shù)據(jù)中有25%的數(shù)據(jù)小于或等于Q1,Q2(第二四分位數(shù),即中位數(shù))說明數(shù)據(jù)中有50%的數(shù)據(jù)小于或等于Q2、Q3(第三四分位數(shù))說明數(shù)據(jù)中有75%的數(shù)據(jù)小于或等于Q3。其中,Q3到Q1之間的距離的差的一半又稱為分半四分位差,記為(Q3-Q1)/2。第1個和第3個分位數(shù)之間的距離為四分位數(shù)極差。30五月2024152.數(shù)據(jù)的基本統(tǒng)計描述統(tǒng)計數(shù)據(jù)的分位數(shù)等統(tǒng)計量。30五月2024162.數(shù)據(jù)的基本統(tǒng)計描述五數(shù)概括、盒圖與離群點五數(shù)概括法即用下面的五個數(shù)來概括數(shù)據(jù),分別是最小值、第1四分位數(shù)(Q1)、中位數(shù)(Q2)、第3四分位數(shù)(Q3)和最大值。30五月2024172.數(shù)據(jù)的基本統(tǒng)計描述五數(shù)概括、盒圖與離群點盒圖的邊界分別為第一四分位數(shù)和第三四分位數(shù)在箱體上中位數(shù)即第二四分數(shù)處畫垂線虛線被稱為觸須線,觸須線的端點為最小值和最大值利用四分位數(shù)間距IQR=Q3-Q1,找到界限,超出即為異常值。IQR左=Q1-1.5×IQRIQR右=Q3+1.5×IQR30五月2024183.數(shù)據(jù)可視化數(shù)據(jù)可視化(DataVisualization)通過圖形清晰有效地表達數(shù)據(jù)。它將數(shù)據(jù)所包含的信息的綜合體,包括屬性和變量,抽象化為一些圖表形式。數(shù)據(jù)可視化方法包括:基于像素的技術幾何投影技術基于圖符的技術和基于圖形的技術幾何投影技術幫助發(fā)現(xiàn)多維數(shù)據(jù)集的有趣投影。

難點:在二維顯示上可視化高維空間30五月20241920m維的數(shù)據(jù)集,創(chuàng)建m個窗口一條記錄m維的值對應m個像素在相應的窗口中像素顏色反映了數(shù)據(jù)值Income(b)CreditLimit(c)transactionvolume(d)age3.數(shù)據(jù)可視化3.數(shù)據(jù)可視化幾何投影可視化技術幾何投影技術可以幫助用戶發(fā)現(xiàn)多維數(shù)據(jù)集的有趣投影。幾何投影技術的難點在于在二維顯示上可視化高維空間。散點圖使用笛卡爾坐標顯示二維數(shù)據(jù)點。使用不同顏色或形狀表示不同的數(shù)據(jù)點,可以增加第三維。30五月2024213.數(shù)據(jù)可視化基于圖符的可視化技術基于圖符的(Icon-based)可視化技術使用少量圖符表示多維數(shù)據(jù)值。有兩種流行的基于圖符的技術,即切爾諾夫臉和人物線條圖。30五月202422把多達18個變量(維)的多維數(shù)據(jù)以卡通人臉顯示把多維數(shù)據(jù)映射到5-段任務線條圖,其中每個都畫有四肢和一個軀體,兩個維被映射到x和y,其余的映射到四肢角度或長度。3.數(shù)據(jù)可視化層次可視化技術對于大型高維數(shù)據(jù)集很難實現(xiàn)可視化技術。層次可視化把大型的高維數(shù)據(jù)的所有維劃分成子集(子空間),這些子空間按層次可視化。30五月2024233.數(shù)據(jù)可視化可視化復雜對象和關系早期的可視化技術主要用于分析數(shù)值數(shù)據(jù),然而現(xiàn)在出現(xiàn)了越來越多的非數(shù)值數(shù)據(jù),比如文本和社會網(wǎng)絡數(shù)據(jù),因此可視化這些非數(shù)值數(shù)據(jù)引起了更多廣泛的關注。標簽云是一種用戶產(chǎn)生的標簽統(tǒng)計量的可視化。在標簽云中,標簽通常按字母次序或用戶指定的次序列舉。30五月2024243.數(shù)據(jù)可視化高維數(shù)據(jù)可視化主要分為降維方法和非降維方法。1.降維方法降維方法將高維數(shù)據(jù)投影到低維空間,盡量保留高維空間中原有的特性和聚類關系。常見的降維方法有主成分分析、多維度分析(Multi-DimensionalScaling,MDS)和自組織圖(Self-OrganizationMap,SOM)等。30五月2024255/30/20243.數(shù)據(jù)可視化常用的數(shù)據(jù)降維方法如下:3.數(shù)據(jù)可視化高維數(shù)據(jù)可視化主要分為降維方法和非降維方法。2.非降維方法非降維方法保留了高維數(shù)據(jù)在每個維度上的信息,可以展示所有的維度。各種非降維方法的主要區(qū)別在于如何對不同的維度進行數(shù)據(jù)到圖像屬性的映射。30五月2024273.數(shù)據(jù)可視化Python可視化在Python中,使用最多的數(shù)據(jù)可視化工具是Matplotlib,除此之外還有很多其他可選的可視化工具包,主要包括以下幾類。(1)Matplotlib以及基于Matplotlib開發(fā)的工具包:Pandas中的封裝MatplotlibAPI的畫圖功能,Seaborn和networkx等;(2)基于JavaScript和d3.js開發(fā)的可視化工具,如plotly等,這類工具可以顯示動態(tài)圖且具有一定的交互性;(3)其他提供了Python調用接口的可視化工具,如OpenGL,GraphViz等,這一類工具各有特點且在特定領域應用廣泛。例3-8詞云繪制30五月2024283.數(shù)據(jù)可視化例:詞云繪制例:使用regplot函數(shù)繪制回歸圖5/30/20244.數(shù)據(jù)對象的相似性度量現(xiàn)實中,我們需要處理的數(shù)據(jù)具有著不同的形式和特征。而對數(shù)據(jù)相似性的度量又是數(shù)據(jù)挖掘分析中非常重要的環(huán)節(jié)。數(shù)據(jù)矩陣與相異性矩陣30五月202430數(shù)據(jù)矩陣(DataMatrix)又稱對象-屬性結構,這種數(shù)據(jù)結構用關系表的形式:4.數(shù)據(jù)對象的相似性度量標稱屬性的相似性度量其中,m是匹配的數(shù)目,即對象i和j狀態(tài)相同的屬性數(shù),p是對象的屬性總數(shù)。30五月202431兩個對象i和j之間的相異性根據(jù)不匹配率進行計算:4.數(shù)據(jù)對象的相似性度量30五月202432二元屬性的相似性度量對于對稱的二元屬性,兩個狀態(tài)是同等重要的。如果對象i和j都用對稱的二元屬性刻畫,則i和j的相異性定義為:4.數(shù)據(jù)對象的相似性度量30五月202433二元屬性的相似性度量對于對稱的二元屬性,兩個狀態(tài)是同等重要的。如果對象i和j都用對稱的二元屬性刻畫,則i和j的相異性定義為:對于非對稱二元屬性,只關心“正匹配”的情況,也就是只關心兩個對象屬性中,都是1的情況,因此負匹配數(shù)t被認為是不重要的,可以忽略,如式3.9所示。4.數(shù)據(jù)對象的相似性度量30五月202434請計算:d(Zhang,Wang)=?例:表3-2給出了居民家庭情況調查,包括屬性姓名、婚姻狀況、是否有房、是否有車四個屬性。計算三名對象間的相異性。姓名婚姻狀況是否有房是否有車ZhangYNYLiNYYWangYYN4.數(shù)據(jù)對象的相似性度量數(shù)值屬性的相似性度量30五月202435(1)歐氏距離(2)曼哈頓距離歐式距離(EulideanDistance)又稱直線距離。i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)表示兩個數(shù)值屬性描述的對象。對象i和j之間的歐式距離為4.數(shù)據(jù)對象的相似性度量數(shù)值屬性的相似性度量30五月202436(3)切比雪夫距離切比雪夫距離(ChebyshevDistance)是向量空間中的一種度量,兩個數(shù)據(jù)對象i和j之間的切比雪夫距離定義為4.數(shù)據(jù)對象的相似性度量數(shù)值屬性的相似性度量30五月202437(4)閔可夫斯基距離(5)漢明距離(HammingDistance)兩個等長字符串s1與s2之間的漢明距離定義為將其中一個變?yōu)榱硗庖粋€所需要做的最小替換次數(shù)。曼哈頓距離與歐氏距離是閔可夫斯基距離的2種特殊情形。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論