Python數(shù)據(jù)挖掘算法與應用課件第4章數(shù)據(jù)的描述與可視化

上傳人：y*** IP屬地：山東上傳時間：2024-03-08 格式：PPTX 頁數(shù)：51 大?。?.42MB 積分：15 舉報 版權(quán)申訴

Python數(shù)據(jù)挖掘算法與應用課件第4章數(shù)據(jù)的描述與可視化_第2頁

Python數(shù)據(jù)挖掘算法與應用課件第4章數(shù)據(jù)的描述與可視化_第3頁

Python數(shù)據(jù)挖掘算法與應用課件第4章數(shù)據(jù)的描述與可視化_第4頁

Python數(shù)據(jù)挖掘算法與應用課件第4章數(shù)據(jù)的描述與可視化_第5頁

已閱讀5頁，還剩46頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

DescriptionandVisualizationofData第4章數(shù)據(jù)的描述與可視化概述4.2學習目標4.14.34.44.5數(shù)據(jù)對象與屬性類型數(shù)據(jù)的基本統(tǒng)計描述數(shù)據(jù)對象的相似性度量數(shù)據(jù)可視化1概述Summarize4.1數(shù)據(jù)描述從提取信息的角度來看，當我們采集到一堆雜亂無章的數(shù)據(jù)后，首先需要科學合理地描述這些信息。例如，對于連續(xù)變量數(shù)據(jù)進行分析時，可以用百分位值、集中趨勢、離散趨勢和數(shù)據(jù)分布的統(tǒng)計量來描述；對于分析數(shù)據(jù)向其中心值聚集的程度這類問題時，可以通過平均值、中位數(shù)和眾數(shù)等數(shù)據(jù)來描述；對于討論數(shù)據(jù)遠離中心值程度的這些問題時，可以通過范圍、標準差和方差等數(shù)據(jù)來描述；對于樣本量較大情況下連續(xù)變量的研究，有時在數(shù)據(jù)描述時會提前提出假設，認為數(shù)據(jù)應當服從某種分布，可以采用一系列的指標來描述數(shù)據(jù)離散分布的程度。在數(shù)據(jù)描述方面，中學講得比較多的是統(tǒng)計圖表，有時我們還需要用列表，畫圖來描述，這就是數(shù)據(jù)的可視化問題，因此利用可視化反應信息是一種非常重要的數(shù)據(jù)描述方法。同時也要注意到不同的數(shù)據(jù)圖和表反應的信息是不一樣的。比如對數(shù)據(jù)分類時，如果需要了解數(shù)據(jù)分布，則可以選擇條形圖；如果需要了解數(shù)據(jù)結(jié)構(gòu)，則選擇餅圖；而對于連續(xù)數(shù)據(jù)，也可以選擇直方圖。數(shù)據(jù)可視化數(shù)據(jù)可視化數(shù)據(jù)可視化（DataVisualization）是借助于圖形化手段，清晰有效地表達數(shù)據(jù)信息。數(shù)據(jù)可視化的客體是數(shù)據(jù)，它是以數(shù)據(jù)為工具，可視化為手段，目的是描述真實的世界和探索世界。常用數(shù)據(jù)可視化工具：Tableau可以幫助用戶快速分析、可視化并分享信息。QlikView是一個完整的商業(yè)分析軟件，使開發(fā)者和分析者能夠構(gòu)建和部署強大的分析應用。DataFocus是一款新型的商業(yè)智能產(chǎn)品，主要用于智能的大數(shù)據(jù)分析領(lǐng)域。FineBI支持多種視圖對數(shù)據(jù)表進行可視化管理?，F(xiàn)代數(shù)據(jù)可視化技術(shù)指的是運用計算機圖形學和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來，并進行交互處理的理論、方法和技術(shù)。它涉及到計算機圖形學、圖像處理、計算機輔助設計、計算機視覺和人機交互技術(shù)等多個領(lǐng)域。在數(shù)據(jù)分析的初始階段，通常都要進行可視化處理。Python數(shù)據(jù)可視化是利用matplotlib，它是建立在Numpy之上的一個Python圖庫，包括了很多繪圖函數(shù)，類似Matlab的繪圖框架。2數(shù)據(jù)對象與屬性類型DataObjectandAttributeTypes4.2數(shù)據(jù)對象（DataObject）是指客觀存在并且可以相互區(qū)別事物的數(shù)據(jù)描述。又稱為樣本或?qū)嵗?。?shù)據(jù)對象可以是外部實體(如產(chǎn)生或使用信息的任何事物)、事物(如報表)、行為(如打電話)、事件(如響警報)、角色(如教師、學生)、單位(如會計科)、地點(如倉庫)或結(jié)構(gòu)(如文件)的數(shù)據(jù)描述等?？傊?，可以由一組屬性值來確定的實體都可以被認為是數(shù)據(jù)對象。數(shù)據(jù)對象例如，一個班級只有一個班長，而每個班長只在一個班級任職，則班級對象與班長對象的聯(lián)系是一對一的。(1)一對一聯(lián)系(1∶1)例如，一個班級有多名學生，而每名學生只屬于一個班級，則班級對象與學生對象的聯(lián)系是一對多的。(2)一對多聯(lián)系(1∶N)例如，一名學生可以學習多門課程，而每一門課程又可以有多名學生來學，則學生對象和課程對象之間的聯(lián)系是多對多的。(3)多對多聯(lián)系(M∶N)數(shù)據(jù)對象彼此之間相互連接的方式稱為聯(lián)系，也稱為關(guān)系。聯(lián)系可分為以下3種類型：屬性與屬性類型屬性（Attribute）是一個數(shù)據(jù)字段，表示數(shù)據(jù)對象的一個特征。數(shù)據(jù)對象可以由若干個屬性來描述，但屬性具有原子性，不可再分解。例如，學生是一個數(shù)據(jù)對象，可以由屬性（字段）學號、姓名、性別、出生日期、專業(yè)等來描述。一個屬性的類型由該屬性可能具有的值集合決定，一般分為兩大類，一類是定性描述的屬性，即用文字語言進行相關(guān)描述的屬性，如標稱屬性、二元屬性和序數(shù)屬性等；另一類是定量描述的屬性，即用數(shù)學語言進行描述的屬性，可以是整數(shù)值或連續(xù)值。標準屬性標稱屬性（NominalAttribute）的值是一些符號或事物名稱。每個值代表某種類別、編碼或狀態(tài)，因此標稱屬性又被看做是分類的（Categorical）。標稱屬性的值是枚舉的，可以用數(shù)字表示這些符號或名稱。如姓名、性別、籍貫、郵政編碼或婚姻狀態(tài)等。標稱屬性的值不僅僅是不同的名字，它提供了足夠的信息用于區(qū)分對象。鑒于標稱屬性值并不具有有意義的序，因此統(tǒng)計它的中位數(shù)和均值是沒有意義的，但是可以找出某個出現(xiàn)次數(shù)最多的值。比如，出現(xiàn)次數(shù)最多的姓名等，這個就可以用眾數(shù)（Mode）來表示。因此，標稱屬性的中心趨勢度量一般是眾數(shù)。屬性與屬性類型二元屬性分為對稱的和非對稱的：(1)對稱的二元屬性：如果兩種狀態(tài)具有同等價值，并且攜帶相同權(quán)重。如拋硬幣的結(jié)果狀態(tài)，出生嬰兒的性別屬性等，分別用0和1表示。(2)非對稱的二元屬性：兩種狀態(tài)的結(jié)果不是同等重要的。如新冠肺炎核酸檢測的陽性和陰性結(jié)果。為了方便研究，通常將重要結(jié)果（通常是稀有的）的編碼置為1，非重要結(jié)果的編碼置為0。二元屬性二元屬性（BinaryAttribute）是標稱屬性的特例，只有兩個狀態(tài)：0或1，其中0通常表示該屬性不出現(xiàn)，1表示該屬性出現(xiàn)。常見的二元屬性如拋一枚硬幣是正面朝上還是反面朝上，新冠肺炎的核酸檢測結(jié)果為陰性還是陽性等。二元屬性又稱布爾屬性，兩種狀態(tài)分別對應False和True。屬性與屬性類型序數(shù)屬性序數(shù)屬性（OrdinalAttribute）的可能值之間存在有意義的序或秩評定，但是相繼值之間的差是未知的，也就是說對應的值有先后次序。如五級評分標準：優(yōu)秀（90≤X≤100）、良好(80≤X<90)、中等(70≤X<80)、及格(60≤X<70)和不及格(X<60)等，這些值都具有有意義的先后次序，因此也可以用數(shù)字如1、2、3、4、5分別對應屬性的取值。序數(shù)屬性可以通過把數(shù)值量的值域劃分成有限個有序類別，如客戶滿意度評價：0-很不滿意、1-不滿意、2-中性、3-滿意、4-很滿意等，即可以把數(shù)值屬性離散化。由于序數(shù)屬性是有序的，它的中位數(shù)是有意義的，因此序數(shù)屬性的中心趨勢度量可以是眾數(shù)和中位數(shù)。標稱數(shù)屬、二元數(shù)屬和序數(shù)屬性都是定性的，所以它們只能描述對象的特征，而不能給出實際大小或數(shù)值。屬性與屬性類型數(shù)值屬性離散屬性與連續(xù)屬性數(shù)值屬性（NumericAttribute）是可以度量的量，用整數(shù)或?qū)崝?shù)值表示，如成績、年齡、體重等。數(shù)值屬性分為區(qū)間標度和比率標度兩類，區(qū)分的原則主要是該屬性是否有固有的零點。區(qū)間標度屬性（Interval-scaledAttribute）：用相等的單位尺度度量，區(qū)間屬性的值有序，取值可以為正、0、負。如溫度屬性表示為：-7℃~+3℃。比率標度屬性(Ratiao-scaledAttribute)：具有固定零點的數(shù)值屬性，比值有意義。如重量、高度、速度和貨幣量等屬性。由于比率標度數(shù)據(jù)屬性值是有序的，因此可以計算均值、方差、中位數(shù)、眾數(shù)等。機器學習中的分類算法通常把屬性分為離散的和連續(xù)的。離散屬性（DiscreteAttribute）是指具有有限個或無限個可數(shù)個數(shù)的屬性。如年齡（有限個值）、顧客編號（無限可數(shù)）等屬性。連續(xù)屬性（ContinuousAttribute）是指非離散屬性的那些屬性。如人的身高屬性取值是連續(xù)的。連續(xù)值是有范圍的。在實踐中，實數(shù)值用有限位數(shù)字表示，連續(xù)屬性一般用浮點變量表示。3數(shù)據(jù)的基本統(tǒng)計描述BasicStatisticalDescriptionofTheData4.3中心趨勢度量均值數(shù)據(jù)集“中心”的最常用的數(shù)值度量是（算術(shù)）均值（MeanValue）。設某屬性X的N個觀測值為x1,x2,…,xN，則該集合的均值（Mean）為：中心趨勢在統(tǒng)計學中是指一組數(shù)據(jù)向某一中心值靠攏的程度，它反映了一組數(shù)據(jù)中心點的位置所在。中心趨勢度量就是尋找數(shù)據(jù)水平的代表值或中心值。中心趨勢度量包括均值、中位數(shù)、眾數(shù)和中列數(shù)。在實際問題中，對于X的每個xi可以與一個權(quán)重

關(guān)聯(lián)。權(quán)重反映它們所依附對應值的重要性或出現(xiàn)的頻率。當各項權(quán)重不相等時，計算平均數(shù)時就要采用加權(quán)平均數(shù)（WeighedMean）。式（4-2）說明了加權(quán)平均值的大小不僅取決于總體中各單位數(shù)值的大小，而且取決于各數(shù)值出現(xiàn)的次數(shù)（頻數(shù)）。（4-1）（4-2）中心趨勢度量中位數(shù)中位數(shù)（Median）又稱中點數(shù)或中值，它是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。即在這組數(shù)據(jù)中，有一半的數(shù)據(jù)比它大，另一半的數(shù)據(jù)比它小。在概率論與統(tǒng)計學中，中位數(shù)一般用于數(shù)值型數(shù)據(jù)，在數(shù)據(jù)挖掘中可以把中位數(shù)推廣到序數(shù)型數(shù)據(jù)中。假定有某屬性X的N個值按遞增順序排列，如果N是奇數(shù)，則中位數(shù)是該有序數(shù)列的中間值；如果N是偶數(shù)，則中位數(shù)是中間兩個值的任意一個。對數(shù)值型區(qū)間，一般約定中位數(shù)取中間兩個數(shù)的平均值，中間數(shù)位置如式（4-3）所示。

（4-3）中心趨勢度量眾數(shù)眾數(shù)（Mode）是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值，可以對定性和定量型屬性確定眾數(shù)。眾數(shù)是一種位置平均數(shù)，是總體中出現(xiàn)次數(shù)最多的變量值。從分布的角度看，眾數(shù)是具有明顯集中趨勢點的數(shù)值，一組數(shù)據(jù)分布最高峰點所對應的數(shù)值即為眾數(shù)。有時眾數(shù)在一組數(shù)中有好幾個。具有一個、兩個或三個眾數(shù)的數(shù)據(jù)集分別稱為單峰（Unimodal）、雙峰（Bimodal）和三峰（Trimodal）。一般具有兩個或兩個以上眾數(shù)的數(shù)據(jù)集稱為多峰的（Multimodal）。在極端情況下，如果每個數(shù)值只出現(xiàn)一次則它沒有眾數(shù)。其中L表示眾數(shù)所在的下限；Δ1表示眾數(shù)所在組次數(shù)與其下限的鄰組次數(shù)之差；Δ2表示眾數(shù)所在組次數(shù)與其上限的鄰組次數(shù)之差；d表示所在組組距。對于非對稱的單峰型數(shù)據(jù)集，一般有下面的經(jīng)驗關(guān)系：mean-mode≈3×(mean-median)。中列數(shù)中列數(shù)（Midrange）在統(tǒng)計中指的是數(shù)據(jù)集里最大值和最小值的算術(shù)平均值，也可以度量數(shù)值數(shù)據(jù)的中心趨勢。（4-4）例4.1某企業(yè)50名工人日加工零件的數(shù)據(jù)如表4.1所示，分別計算加工零件數(shù)值的均值、中位數(shù)和眾數(shù)。表4.1加工零件數(shù)統(tǒng)計表按零件數(shù)分組（個）頻數(shù)（人）105~1103110~1155115~1208120~12514125~13010130~1356135~1404

例4.2利用Python求均值、中位數(shù)和眾數(shù)。importpandasaspdimportnumpyasnpss=pd.Series(np.random.randint(8,size=18))

#生成0~7的18個整數(shù)print(ss)print('均值：\n',ss.mean())print('中位數(shù)：\n',ss.median())print('眾數(shù)：\n',ss.mode())數(shù)據(jù)散布的度量數(shù)據(jù)散布的度量用于評估數(shù)值數(shù)據(jù)散布或發(fā)散的程度。散布度量的測定是對統(tǒng)計資料分散狀況的測定，即找出各個變量值與集中趨勢的偏離程度。通過度量散布趨勢，可以清楚地了解一組變量值的分布情況。數(shù)據(jù)散布的度量包括極差、分位數(shù)、四分位數(shù)、百分位數(shù)和四分位數(shù)極差。五數(shù)概括可以用盒圖顯示，它對于識別離群點是有用的；方差和標準差也可以反映數(shù)據(jù)分布的散布狀況。極差（Range）又稱范圍誤差或全距，是一組觀測值的最大值與最小值之間的差距。它是標志值變動的最大范圍，是測定標志變動的最簡單指標。極差沒有充分利用數(shù)據(jù)的信息，但計算十分簡單，僅適用樣本容量較小(n<10)情況。分位數(shù)又稱分位點，是指將一個隨機變量的概率分布范圍分為幾個等份的數(shù)值點，常用的有中位數(shù)（即二分位數(shù)）、四分位數(shù)和百分位數(shù)等。四分位數(shù)是將全部數(shù)據(jù)由小到大（或由大到?。┡判蚝?，用3個點將全部數(shù)據(jù)分為4等份，與這3個點位置上相對應的數(shù)值稱為四分位數(shù)，分別記為Q1（下四分位數(shù)，25%）、Q2（中位數(shù)，50%）、Q3（上四分位數(shù)，75%）。其中，Q3到Q1之間距離差的一半又稱為半四分位差，半四分位差越小，說明中間部分的數(shù)據(jù)越集中；半四分位差越大，則意味著中間部分的數(shù)據(jù)越分散。Q1和Q3之間的距離是散布的一種簡單度量，它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為四分位數(shù)極差(IQR)，定義為：IQR=Q3-Q1極差、四分位數(shù)和四分位數(shù)極差數(shù)據(jù)散布的度量例4.3在一個班級中隨機抽取10名學生，得到每名學生的英語考試分數(shù)（單位：分）如下：91，69，83，75，78，81，96，92，88，86。求IQR。解：第一步，9名學生考試分數(shù)進行排序：69，75，78，81，83，86，88，91，92，96第二步，計算機Q1、Q3：Q1位置=(10+1)/4=2.75，即Q1在第2個數(shù)值（75）和第3個數(shù)值（78）之間0.75的位置上，因此，Q1=75+(78-75)×0.75=77.25（分）；Q3位置=3(10+1)/4=8.25，即Q3在第8個數(shù)值（91）和第9個數(shù)值（92）之間0.25的位置上，因此Q3=91+(92-91)×0.25=91.25（分）第三步，計算四分位數(shù)極差I(lǐng)QR：IQR=Q3-Q1=91.25-77.25=14(分)數(shù)據(jù)散布的度量在對稱分布中，中位數(shù)（和其它中心度量）把數(shù)據(jù)劃分成相同大小的兩半。對于偏斜分布，除中位數(shù)之外，還提供兩個四分位數(shù)Q1和Q3更加有益。識別可疑離群點的通常規(guī)則是，挑選落在上四分位數(shù)之上或下四分位數(shù)之下至少1.5×IQR處的值。

五數(shù)概括法（Five-numberSummary）即用下面的五個數(shù)來概括數(shù)據(jù)集，分別是最小值、下四分位數(shù)(Q1)、中位數(shù)(Q2)、上四分位數(shù)(Q3)和最大值。箱線圖（BoxPlot）又稱為盒圖或盒式圖，是一種用作顯示一組數(shù)據(jù)分散情況的統(tǒng)計圖，因形狀像箱子而得名，箱線圖體現(xiàn)了五數(shù)概括，在各種領(lǐng)域也經(jīng)常用到，常見于品質(zhì)管理，快速識別異常值等。一般異常對象被稱為離群點。箱線圖示意圖如圖4.1所示。離群點上限中位數(shù)上四分位數(shù)Q3下四分位數(shù)Q1下限圖4.1箱線圖示意圖圖4.1中的參數(shù)下限、下四分位數(shù)、中位數(shù)、上四分位數(shù)和上限統(tǒng)稱為箱線圖的五大參數(shù)。其中上限是非異常范圍內(nèi)的最大值，且上限=Q3+1.5×IQR，下限是非異常范圍內(nèi)的最小值，且下限=Q1-1.5×IQR。

圖4.2例4.5程序運行結(jié)果4數(shù)據(jù)對象的相似性度量SimilarityMeasuresforDataObjects4.4數(shù)據(jù)矩陣與相似矩陣假設有n個對象（如人），被p個屬性（又稱維或特征，如年齡、身高、體重或性別）刻畫，這些對象記作x1=（x11,x12,…,x1p)，x2=（x21,x22,…,x2p)，……，其中xij是對象xi的第j個屬性的值，對象xi也稱作對象的特征向量。把xi的集合叫做數(shù)據(jù)矩陣，各個對象之間的距離構(gòu)成的矩陣，叫做相異性矩陣，通常情況下，常用的聚類算法都需要在這兩種數(shù)據(jù)結(jié)構(gòu)上運行。數(shù)據(jù)矩陣或稱為對象-屬性結(jié)構(gòu)，這種數(shù)據(jù)結(jié)構(gòu)用關(guān)系表的形式或n×p（n個對象×p個屬性）矩陣存放n個對象，每行對應于一個對象。相異矩陣或稱對象-對象結(jié)構(gòu)：存放n個對象兩兩之間的相異度，通常用一個n×n矩陣表示。其中d(i,j)是對象i和對象j之間的相異性或“差別”的度量，一般而言，d(i,j)是一個非負的數(shù)值，對象i和j彼此高度相似或“接近”時，d(i,j)值接近于0；對象i和j越不同，d(i,j)值就越大。注意，d(i,i)=0，即一個對象與自己的相異性為0。此外，如果d(i,j）=d(j,i)時，則矩陣是對稱的。標準屬性的相異性兩個標稱屬性對象i和j之間的相異性d可以根據(jù)不匹配率來計算：其中，m表示匹配的數(shù)目，即i和j取值相同狀態(tài)的屬性數(shù)；p表示對象的屬性總數(shù)。有時可以通過賦予m較大的權(quán)重，或者賦給有較多狀態(tài)屬性的匹配具有更大權(quán)重來增加m的影響。對象i和j之間的相似性為：sim(i,j)=1-d(i,j)。例4.6標稱屬性之間相異性矩陣示例，數(shù)據(jù)如表4.2所示。表4.2例4.6數(shù)據(jù)表對象（標識）籍貫（標稱屬性）1北京2湖南3江蘇4北京由于我們只有一個標稱屬性籍貫，即p=1，當對象i和j相匹配時，d(i,j）=0；當對象不匹配時，d(i,j）=1。于是，我們得到相異性矩陣：二元屬性的相異性二元屬性（DoubleAttributes）只有兩種狀態(tài)：0或1，其中0表示該屬性不出現(xiàn)，1表示它出現(xiàn)。例如，給出一個描述患者的屬性是吸煙，1表示患者吸煙，而0表示患者不吸煙。不能像數(shù)值一樣來處理二元屬性，需要采用特定的方法來計算二元數(shù)據(jù)的相異性。如果所有的二元數(shù)據(jù)都被看作具有相同的權(quán)重，則我們得到一個兩行兩列的列聯(lián)表，如表4.3示，其中q是對象i和j都取1的屬性數(shù)，r是在對象i中取1、在對象j中取0的屬性數(shù)，s是在對象i中取0、在對象j中取1的屬性數(shù)，而t是對象i和j都取0的屬性數(shù)。屬性的總數(shù)是p，其中p=q+r+s+t。對于對稱的二元屬性，每個狀態(tài)都同樣重要?；趯ΨQ二元屬性的相異性稱為對稱二元相異性。如果對象i和對象j都用對稱的二元屬性刻畫，則i和j的相異性為：（4-7）表4.3二元屬性的列聯(lián)表對象i對象j

10sum1qrq+r0sts+tsumq+sr+tp二元屬性的相異性對于非對稱的二元屬性，兩個狀態(tài)不是同等重要的，如核酸檢測的陽性（1）和陰性（0）結(jié)果。給定兩個非對稱的二元屬性，兩個都取值1的情況（正匹配）被認為比兩個都取0的情況（負匹配）更有意義。因此，這樣的二元屬性經(jīng)常被認為是“一元的”（只有一種狀態(tài)），基于這種屬性的相異性稱為非對稱的二元相異性，其中負匹配t被認為是不重要的，因此在計算時常常被忽略，如式（4-8）所示。（4-8）互補地，也可以基于相似性而不是基于相異性來度量兩個二元屬性的差別，則對于i和j之間非對稱的二元相似性可以用下式計算：（4-9）式（4-9）的系數(shù)sim(i,j)被稱為Jaccard系數(shù)，它在文獻中被廣泛使用。二元屬性的相異性例4.7二元屬性之間相異性矩陣示例。假設一個患者記錄表（見表4.4）包含屬性：姓名、性別、發(fā)燒、咳嗽、因素1、因素2、因素3和因素4，其中姓名是對象標識符，性別是對稱屬性，其余都是非對稱二元的屬性。表4.4患者記錄的數(shù)據(jù)表姓名性別發(fā)燒咳嗽因素1因素2因素3因素4劉世元MYNPNNN李吉友MYYNNNN于金鳳FYNPNPN……………………對于非對稱屬性，值Y和P被設置為1，值N被設置為0。假設患者（對象）之間的距離只基于非對稱屬性來計算。根據(jù)（4-7）式，三個患者劉世元、李吉友和于金鳳兩兩之間的相異性如下：這些度量值顯示了劉世元和李吉友、李吉友和于金鳳都不大可能患類似的疾病，因為他們的相異性較高。在這三個患者中，劉世元和于金鳳最有可能患類似的疾病。數(shù)值屬性的相似性度量

在數(shù)據(jù)分析過程中，常常需要把數(shù)據(jù)對象區(qū)分為不同的類別，判斷不同對象是否歸于同一個類別的依據(jù)是對象之間的相似性較高，而對象相似性一般由對象之間的距離來度量。距離是指把一個對象看做N維空間中的一個點，并在空間中定義距離。基于距離的相似性是指當兩個對象距離較近時其相似性就大，否則相似性就小。假設n維空間兩個點Xi(xi1,xi2,…,xin)，Xj(xj1,xj2,…,xjn)，定義Xi與Xj的距離如下：歐幾里得距離（EuclideanDistance）是數(shù)據(jù)分析算法中最常用的距離度量，表示空間中兩點之間的直線距離。公式如下：歐幾里得距離歐幾里得距離（EuclideanDistance）是數(shù)據(jù)分析算法中最常用的距離度量，表示空間中兩點之間的直線距離。公式如下：切比雪夫距離（4-10）（4-11）

數(shù)值屬性的相似性度量曼哈頓距離（ManhattanDistance）表示城市中兩個點之間的街區(qū)距離，也稱為城市街區(qū)距離。公式如下：曼哈頓距離將曼哈頓距離與歐氏距離推廣，可以得到閔可夫斯基距離（MinkowskiDistance），也叫范數(shù)。公式如下：閔可夫斯基距離（4-12）（4-13）其中p是一個可變參數(shù)，根據(jù)可變參數(shù)的不同，閔氏距離可以表示不同類型的距離：當p=1時，就是曼哈頓距離；當p=2時，就是歐氏距離；當p→∞時，就是切比雪夫距離。數(shù)值屬性的相似性度量例4.8

Python計算各類距離。importnumpyasnpXi=np.array([1,2,3])Xj=np.array([4,5,6])d_Eu=np.sqrt(np.sum(np.square(Xi-Xj)))#歐氏距離d_Ch=np.abs(Xi-Xj).max()#切比雪夫距離d_Ma=np.sum(np.abs(Xi-Xj))#曼哈頓距離print('Xi與Xj的歐氏距離為：',d_Eu)print('Xi與Xj的切比雪夫距離為：',d_Ch)print('Xi與Xj的曼哈頓距離為：',d_Ma)序數(shù)屬性的相似性度量在計算對象之間的相異性時，序數(shù)屬性的處理與數(shù)值屬性非常類似。假設f是用于描述n個對象的一組序數(shù)屬性之一。關(guān)于f的相異性計算涉及如下步驟：第i個對象的f值為xif，屬性f有Mf有序的狀態(tài)，表示排位1,…,Mf。用對應的排位rif∈{1,…,Mf}取代xif。由于每個序數(shù)屬性都可以有不同的狀態(tài)值，所以通常需要將每個屬性的值域映射到［0.0，1.0］上，以便每個屬性都有相同的權(quán)重。用zif代替第i個對象的rif來實現(xiàn)數(shù)據(jù)規(guī)格化，其中(3)相異性可以用4.4.4節(jié)介紹的任意一種數(shù)值屬性的距離度量計算，使用zif作為第i個對象的f值。

(4-14)例4.9序數(shù)型屬性間的相異性示例。假定在表4.4中的樣本數(shù)據(jù)中，某患病因素為高血壓，共有三種狀態(tài)，一級高血壓、二級高血壓、三級高血壓。也就是Mf

=3。第一步，如果把血壓的每個值替換為它的排位數(shù)1、2、3，假如4名患者血壓屬性分別被賦值為3、1、2、3。第二步，通過將排位數(shù)1映射為0.0、排位2映射為0.5、排位3映射為1.0來實現(xiàn)對排位的規(guī)格化。第三步，我們可以使用比如說歐幾里得距離（4-10）式得到如下的相異性矩陣：由相異性矩陣可以看出，對象1與對象2不相似，對象2與對象4也不相似，即d(2，1)=1.0，d(4，2）=1.0。這符合直觀，因為對象1和對象4都是三級高血壓，對象2是一級高血壓。序數(shù)屬性的相似性值也可以由相異性值得到，如：sim(i,j)=1-d(i,j)?；旌项愋蛯傩缘南嗨菩运^混合類型屬性是指一組數(shù)據(jù)擁有多種類型的屬性。計算混合屬性類型對象之間的相異性方法有兩種：一種方法是將每種類型的屬性分成一組，對每種類型分別進行數(shù)據(jù)挖掘分析（例如聚類分析）。如果這些分析得到兼容的結(jié)果，則這種方法是可行的。然而，在實際應用中，每種屬性類型分別分析不大可能產(chǎn)生兼容的結(jié)果。另一種更為可取的方法是將所有屬性類型一起處理，只做一次分析。這樣就需要將不同的屬性組合在單個相異性矩陣中，把有意義的屬性都轉(zhuǎn)換到共同的區(qū)間［0.0，1.0］上。假設數(shù)據(jù)集包含p個混合類型的屬性，對象i和對象j之間的相異性d(i,j)定義為：（4-15）

混合類型屬性的相似性例4.10混合類型屬性間的相異性。我們來計算表4.5中對象的相異性矩陣。表4.5包含混合類型屬性的樣本數(shù)據(jù)集對象標識符屬性1（標稱的）屬性2（序數(shù)的）屬性3（數(shù)值的）1北京優(yōu)秀452天津中等223上海良好644北京優(yōu)秀28利用上面公式（與4.4.2和4.4.5方法相同）分別計算出屬性1、屬性2的相異性矩陣M1和M2：

由表4.5可以看出，對象1和對象4在屬性1和屬性2上的值相同，因此能夠直觀地猜測出它們兩個最相似。這一猜測通過相異性矩陣得到了印證，因為d(4,1)是任何兩個不同對象的最小值。余弦相似性余弦相似性是用向量空間中兩個向量夾角的余弦值作為衡量兩個對象間差異的大小，它的取值范圍在-1到1之間。余弦值越接近1，也就是兩個向量越相似，完全相同時數(shù)值為1；相反方向時為-1；正交或不相關(guān)為0。二維向量余弦相似性如圖4.3所示。最常見的應用是計算文本相似度，具體做法是分別抽取兩個文檔的所有特征詞，建立兩個文本向量，計算這兩個向量的余弦值，就可以知道兩個文檔在統(tǒng)計學方法中的相似情況。實踐證明，這是一個非常有效的方法。θX1=(x11,x12)X2=(x21,x22)x1x2圖4.3平面向量余弦相似性示意圖假設n維向量Xi=(xi1,xi2,…,xin)，Xj=(xj1,xj2,…,xjn)，θ是Xi和Xj的夾角，余弦相似性公式如下：其中Xi·Xj為向量的內(nèi)積（數(shù)量積），||Xi||為向量的模。例4.11用上述理論計算文本相似性。為了簡單起見，這里只計算句子的相似度。句子A：這只皮靴號碼大了，那只號碼合適。句子B：這只皮靴號碼不小，那只更合適。計算上面兩個句子相似程度的基本思路是：如果這兩個句子所用特征詞相同的越多，則它們的內(nèi)容就應該越相似。因此，可以從詞頻入手，計算它們的相似程度。第一步，分詞：句子A：這只/皮靴/號碼/大了，那只/號碼/合適。句子B：這只/皮靴/號碼/不/小，那只/更/合適。第二步，列出所有的詞：這只，皮靴，號碼，大了，那只，合適，不，小，更第三步，計算詞頻：句子A：這只1，皮靴1，號碼2，大了1，那只1，合適1，不0，小0，更0句子B：這只1，皮靴1，號碼1，大了0。那只1，合適1，不1，小1，更1第四步，寫出詞頻向量：句子A：(1，1，2，1，1，1，0，0，0)句子B：(1，1，1，0，1，1，1，1，1)利用式（4-16）余弦相似性計算過程如下：例4.12利用Python求例4.11中文本向量的余弦相似性。求余弦相似性需要用到np.linalg.norm來求向量的范式，等同于求向量的歐式距離。

importnumpyasnpX1=np.array([1,1,2,1,1,1,0,0,0])X2=np.array([1,1,1,0,1,1,1,1,1])X1_norm=np.linalg.norm(X1)X2_norm=np.linalg.norm(X2)cos=np.dot(X1,X2)/(X1_norm*X2_norm)#引用計算內(nèi)積函數(shù)np.dot()print('X1和X2余弦相似性：',cos)5數(shù)據(jù)可視化DataVisualization4.5基于像素的可視化技術(shù)基于像素的可視化技術(shù)（Pixel-orientedTechnique）在屏幕上創(chuàng)建m個窗口，每維一個，記錄著m個維值映射到這些窗口中對應位置上的m個像素，像素的顏色反映對應的值。在窗口內(nèi)，數(shù)據(jù)值按所有窗口共用的某種全局序安排，全局序可以用一種對研究問題有一定意義的方法，通過對所有記錄排序得到。近些年來，基于像素的可視化技術(shù)在很多具體場景中得到了廣泛的應用并且充分驗證了該方法的有效性。例4.13基于像素的可視化示例。假設某電商的顧客信息表，包含4個維（屬性）：收入、信貸額度、成交量和年齡。通過可視化技術(shù)分析收入屬性與其它屬性之間的相關(guān)性。對所有顧客按收入遞增序排序，并使用這個序，在四個可視化窗口安排顧客數(shù)據(jù)，如圖4.4所示。像素顏色這樣選擇：值越小，顏色越淡。使用基于像素的可視化，可以很容易地得到如下觀察：信貸額度隨收入增加而增加；收入處于中部區(qū)間的顧客更可能從該電商處購物；收入與年齡之間沒有明顯的相關(guān)性?；谙袼乜梢暬夹g(shù)的一個缺點是，它們對于理解多維空間的數(shù)據(jù)分布幫助不大，例如它們并不能顯示在多維子空間是否存在稠密區(qū)域。幾何投影可視化技術(shù)二維數(shù)據(jù)的散點圖二維數(shù)據(jù)的散點圖是在笛卡爾坐標系兩個坐標軸下繪制的二維數(shù)據(jù)的散點圖。也可以使用不同顏色或形狀表示不同的數(shù)據(jù)點以增加到第三維。例4.14Python繪制二維散點圖并用不同顏色顯示。importmatplotlib.pyplotaspltimportnumpyasnpn=50x=np.random.rand(n)*2#隨機產(chǎn)生50個0~2之間的x,y坐標值y=np.random.rand(n)*2colors=np.random.rand(50)#隨產(chǎn)生50個0~1之間的顏色值area=np.pi*(10*np.random.rand(n))**2#點的半徑范圍:0~10plt.scatter(x,y,s=area,c=colors,alpha=0.5,marker=(9,3,30))plt.show()程序運行結(jié)果如圖4.5所示。圖4.5例4.14程序運行結(jié)果幾何投影可視化技術(shù)三維數(shù)據(jù)的散點圖三維數(shù)據(jù)散點圖是在笛卡爾坐標系的三個坐標軸下繪制的散點圖。如果使用顏色信息，也可以顯示4維數(shù)據(jù)點。對于超過4維的數(shù)據(jù)集，散點圖一般不太有效。例4.15利用鳶尾花數(shù)據(jù)集前三個特征，繪制三維散點圖并用不同顏色顯示。importpandasaspdimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3D#繪制3D坐標的函數(shù)fromsklearn.datasetsimportload_irisiris=load_iris()#導入鳶尾花df=pd.DataFrame(iris.data[:],columns=iris.feature_names[:])x=df['sepallength(cm)']#設置x、y、z軸y=df['sepalwidth(cm)']z=df['petallength(cm)']fig=plt.figure()#繪圖ax=Axes3D(fig)ax.scatter(x,y,z)ax.set_xlabel('sepallength(cm)',fontdict={'size':10,'color':'black'})ax.set_xlabel('sepalwidth(cm)',fontdict={'size':10,'color':'black'})ax.set_xlabel('petallength(cm)',fontdict={'size':10,'color':'black'})plt.show()程序運行結(jié)果如圖4.6所示。圖4.6例4.15程序運行結(jié)果幾何投影可視化技術(shù)散點圖矩陣散點圖矩陣（ScatterMatrix）是散點圖的一種擴充，提供每個維與其它維的可視化。Python通過函數(shù)scatter_matrix()繪制散點圖矩陣。例4.16繪制散點圖矩陣示例。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltv1=np.random.normal(0,1,100)#生成數(shù)據(jù)v2=np.random.randint(0,23,100)v3=v1*v2df=pd.DataFrame([v1,v2,v3]).T#3*100的數(shù)據(jù)集pd.plotting.scatter_matrix(df,diagonal='kde',color='b')#繪制散點圖矩陣plt.show()程序運行結(jié)果如圖4.7所示。圖4.7例4.16程序運行結(jié)果幾何投影可視化技術(shù)平行坐標圖隨著維度的增加，散點圖矩陣變得不太有效。平行坐標圖（ParallelCoordinatesPlot）是對具有多個屬性問題的一種可視化方法。在平行坐標圖中，數(shù)據(jù)集的一行數(shù)據(jù)在平行坐標圖中用一條折線表示，縱向是屬性值，橫向是屬性類別（用索引表示）。例4.17Pandas包繪制平行坐標圖示例。importpandasaspdimportmatplotlib.pyplotaspltfrompandas.plottingimportparallel_coordinatesimportseabornasseadata=sea.load_dataset('iris')fig,axes=plt.subplots()parallel_coordinates(data,'species',ax=axes)plt.legend(loc='uppercenter',bbox_to_anchor=(0.5,-0.1),ncol=3,fancybox=True,shadow=True)plt.show()程序運行結(jié)果如圖4.8所示。圖4.8例4.17程序運行結(jié)果基于圖符的可視化技術(shù)切爾諾夫臉切爾諾夫臉（ChernoffFaces）是統(tǒng)計學家赫爾曼·切爾諾夫于1973年引進的。切爾諾夫臉把多達18個變量的多維數(shù)據(jù)以卡通人物的臉顯示出來，有助于揭示數(shù)據(jù)中的趨勢。臉的要素有眼、耳、口和鼻等，用其形狀、大小、位置和方向表示維度的值。切爾諾夫臉利用人的思維能力，識別面部特征的微小差異并且立即消化、理解許多面部特征。觀察大型數(shù)據(jù)表可能是令人乏味的，切爾諾夫臉可以濃縮數(shù)據(jù)，從而更容易被人們消化理解，有助于數(shù)據(jù)的可視化。切爾諾夫臉有對稱的切爾諾夫臉（18維）和非對稱的切爾諾夫臉（36維）兩種類型。如圖4.9所示。圖4.9切爾諾夫臉（每張臉表示一個n維數(shù)據(jù)）由于人類非常善于識別臉部特征，臉譜化使得多維度數(shù)據(jù)容易被分析人員消化理解，有助于數(shù)據(jù)的規(guī)律和不規(guī)律性的可視化。而切爾諾夫臉的局限性在于，它無法表示數(shù)據(jù)的多重聯(lián)系，以及未能顯示具體的數(shù)據(jù)值。這種方法已被應用于多地域經(jīng)濟戰(zhàn)略指標數(shù)據(jù)分析，空間數(shù)據(jù)可視化等領(lǐng)域?；趫D符的可視化技術(shù)人物線條畫人物線條畫（StickFigure）可視化技術(shù)是把多維數(shù)據(jù)映射到5-段人物線條畫中，其中每幅畫都有一個四肢和一個軀體。兩個維度被映射到顯示軸（X軸和Y軸），而其余的被映射到四肢角度和長度。下圖顯示的是人口普查數(shù)據(jù)，其中年齡和收入被映射到顯示軸，而其他維被映射到人物線條畫。如果數(shù)據(jù)項關(guān)于兩個顯示維相對稠密，則結(jié)果可視化顯示紋理模式，從而反應數(shù)據(jù)趨勢，如圖4.10所示。圖4.10人物線條畫層次可視化技術(shù)對于大型高維數(shù)據(jù)集,很難同時對所有維可視化。層次可視化（HierarchicalVisualization）技術(shù)是把所有維劃分成子集（即子空間），然后對這些子空間可視化。一種常用的方法就是給定某些變量固定值時的子空間的可視化，常常通過3D圖形展現(xiàn)。為了繪制3D圖形，需要調(diào)用Axes3D對象的plot_surface()方法來完成。Matplotlib的3D繪圖函數(shù)plot_surface()功能非常強大，繪圖質(zhì)量很好。

程序運行結(jié)果如圖4.11所示。圖4.11u=[sin(x)+2]×cos(z)函數(shù)圖像2

程序運行結(jié)果如圖4.12所示。

層次可視化技術(shù)高維數(shù)據(jù)的可視化一般很難直觀地理解高維（維數(shù)大于3）的數(shù)據(jù)，如果將這些數(shù)據(jù)轉(zhuǎn)化為可視化的形式，就可以幫助理解和分析高維空間中的數(shù)據(jù)特性。高維數(shù)據(jù)可視化旨在用相關(guān)的低維數(shù)據(jù)圖形表現(xiàn)高維度的數(shù)據(jù)，并輔之以交互手段，幫助人們分析和理解高維數(shù)據(jù)。降維方法降維方法是將高維數(shù)據(jù)投影到低維空間，盡量保留高維空間中原有的特性和聚類關(guān)系。常見的降維方法有主成分分析（PrincipleComponentAnalysis，PCA）、多維度分析（Multi-dimensionalScaling，MDS）和自組織圖（Self-organizationMap，SOM）等。這些方法通過數(shù)學模型將高維數(shù)據(jù)降維，進而在低維空間中顯示。通常，數(shù)據(jù)在高維空間中的距離越近，在投影圖中兩點的距離也越近。高維投影圖可以很好地展示高維數(shù)據(jù)間的相似度以及聚類情況等，但并不能表示數(shù)據(jù)在每個維度上的信息，也不能表現(xiàn)維度間的關(guān)系。高維投影圖損失了數(shù)據(jù)在原始維度上的細節(jié)信息，但直觀地提供了數(shù)據(jù)之間宏觀的結(jié)構(gòu)。高維數(shù)據(jù)降維常用方法如圖4.13所示。圖4.13高維數(shù)據(jù)降維常用方法高維數(shù)據(jù)的可視化非降維方法非降維方法保留了高維數(shù)據(jù)在每個維度上的信息，可以展示所有的維度。各種非降維方法的主要區(qū)別在于如何對不同的維度進行數(shù)據(jù)到圖像屬性的映射。當維度較少時，可以直接通過與位置、顏色、形狀等多種視覺屬性相結(jié)合的方式對高維數(shù)據(jù)進行編碼。當維度數(shù)量增多，數(shù)據(jù)量變大，或?qū)?shù)據(jù)呈現(xiàn)精度的需要提高時，這些方法難以滿足需要。文本詞云圖繪制文本詞云圖需要用到wordcloud模塊，該模塊依賴numpy庫和PIL庫。Wordcloud模塊中的WordCloud()函數(shù)用于生成或者繪制詞云的對象。WordCloud()函數(shù)常用形式為：wordcloud.WordCloud(font_path=None,width=400,height=200,mask=None,scale=1,max_words=200,min_font_size=4,max_font_size=None,background_color='black',color_func=None,mode='RGB',prefer_horizontal=0.9,random_state=None,relative_scaling=0.5,font_step=1,regexp=None,collocations=True,colormap=’viridis’,contour_width=0,contour_color='black',repeat=False)文本詞云圖(1)font_path：系統(tǒng)中的中文字體文件一般都在C:\Windows\Fonts目錄下（默認為wordcloud模塊下的DroidSansMo

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python數(shù)據(jù)挖掘算法與應用課件第4章數(shù)據(jù)的描述與可視化

文檔簡介

溫馨提示

最新文檔

評論

Python數(shù)據(jù)挖掘算法與應用 課件 第4章 數(shù)據(jù)的描述與可視化

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Python數(shù)據(jù)挖掘算法與應用課件第4章數(shù)據(jù)的描述與可視化