《Python 數(shù)據(jù)挖掘實踐》課件-第4章數(shù)據(jù)探索與數(shù)據(jù)預處理

上傳人：1*** IP屬地：廣東上傳時間：2025-02-18 格式：PPTX 頁數(shù)：94 大?。?.39MB 積分：15 舉報 版權申訴

《Python 數(shù)據(jù)挖掘實踐》課件-第4章數(shù)據(jù)探索與數(shù)據(jù)預處理_第2頁

《Python 數(shù)據(jù)挖掘實踐》課件-第4章數(shù)據(jù)探索與數(shù)據(jù)預處理_第3頁

《Python 數(shù)據(jù)挖掘實踐》課件-第4章數(shù)據(jù)探索與數(shù)據(jù)預處理_第4頁

《Python 數(shù)據(jù)挖掘實踐》課件-第4章數(shù)據(jù)探索與數(shù)據(jù)預處理_第5頁

已閱讀5頁，還剩89頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

Python主要數(shù)據(jù)探索函數(shù)31數(shù)據(jù)質量分析數(shù)據(jù)特征分析2目錄4統(tǒng)計作圖函數(shù)數(shù)據(jù)質量分析數(shù)據(jù)質量分析是數(shù)據(jù)預處理的前提，是數(shù)據(jù)挖掘分析結論有效性和準確性的基礎，其主要任務是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)，臟數(shù)據(jù)一般是指不符合要求，以及不能直接進行相應分析的數(shù)據(jù)，在常見的數(shù)據(jù)挖掘工作中，臟數(shù)據(jù)包括：

缺失值

異常值

不一致的值

重復數(shù)據(jù)及含有特殊符號（如#、￥、*）的數(shù)據(jù)本小節(jié)將主要對數(shù)據(jù)中的缺失值、異常值和一致性進行分析。數(shù)據(jù)質量分析——缺失值產(chǎn)生的原因有些信息暫時無法獲取，或者獲取信息的代價太大。有些信息是被遺漏的。可能是因為輸入時認為不重要、忘記填寫或對數(shù)據(jù)理解錯誤等一些人為因素而遺漏，也可能是由于數(shù)據(jù)采集設備的故障、存儲介質的故障、傳輸媒體的故障等機械原因而丟失。屬性值不存在。在某些情況下，缺失值并不意味著數(shù)據(jù)有錯誤，對一些對象來說屬性值是不存在的，如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。數(shù)據(jù)質量分析——缺失值的影響數(shù)據(jù)挖掘建模將丟失大量的有用信息數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著，模型中蘊涵的確定性成分更難把握包含空值的數(shù)據(jù)會使挖掘建模過程陷入混亂，導致不可靠的輸出數(shù)據(jù)質量分析——缺失值分析對缺失值做簡單統(tǒng)計分析統(tǒng)計缺失值的變量個數(shù)統(tǒng)計每個變量的未缺失數(shù)統(tǒng)計變量的缺失數(shù)及缺失率數(shù)據(jù)質量分析——異常值分析異常值分析是檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險的，不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中，對結果會帶來不良影響；重視異常值的出現(xiàn)，分析其產(chǎn)生的原因，常常成為發(fā)現(xiàn)問題進而改進決策的契機。異常值是指樣本中的個別值，其數(shù)值明顯偏離其余的觀測值。異常值也稱為離群點，異常值的分析也稱為離群點的分析。異常值分析方法主要有：簡單統(tǒng)計量分析、3原則、箱型圖分析。異常值分析——簡單統(tǒng)計分析可以先做一個描述性統(tǒng)計，進而查看哪些數(shù)據(jù)是不合理的。需要的統(tǒng)計量主要是最大值和最小值，判斷這個變量中的數(shù)據(jù)是不是超出了合理的范圍，如身高的最大值為5米，則該變量的數(shù)據(jù)存在異常。異常值分析——3原則如果數(shù)據(jù)服從正態(tài)分布，在3原則下，異常值被定義為一組測定值中與平均值的偏差超過三倍標準差的值。在正態(tài)分布的假設下，距離平均值3之外的值出現(xiàn)的概率為

，屬于極個別的小概率事件。異常值分析——箱型圖分析箱形圖依據(jù)實際數(shù)據(jù)繪制，不需要事先假定數(shù)據(jù)服從特定的分布形式，沒有對數(shù)據(jù)作任何限制性要求，它只是真實直觀地表現(xiàn)數(shù)據(jù)分布的本來面貌；另一方面，箱形圖判斷異常值的標準以四分位數(shù)和四分位距為基礎，四分位數(shù)具有一定的魯棒性：多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù)，所以異常值不能對這個標準施加影響，箱形圖識別異常值的結果比較客觀。由此可見，箱形圖在識別異常值方面有一定的優(yōu)越性。一致性分析數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。直接對不一致的數(shù)據(jù)進行挖掘，可能會產(chǎn)生與實際相違背的挖掘結果。在數(shù)據(jù)挖掘過程中，不一致數(shù)據(jù)的產(chǎn)生主要發(fā)生在數(shù)據(jù)集成的過程中，可能是由于被挖掘數(shù)據(jù)是來自于從不同的數(shù)據(jù)源、重復存放的數(shù)據(jù)未能進行一致性地更新造成的，比如兩張表中都存儲了用戶的地址，在用戶的地址發(fā)生改變時，如果只更新了一張表中的數(shù)據(jù)，那么這兩張表中就有了不一致的數(shù)據(jù)。Python主要數(shù)據(jù)探索函數(shù)31數(shù)據(jù)質量分析數(shù)據(jù)特征分析2目錄4統(tǒng)計作圖函數(shù)數(shù)據(jù)特征分析對數(shù)據(jù)進行質量分析以后，接下來就是對數(shù)據(jù)做特征分析。一般可通過繪制圖表、計算某些特征量等手段進行數(shù)據(jù)的特征分析。這里主要介紹的特征方法有：

分布分析

對比分析

統(tǒng)計量分析

周期性分析

貢獻度分析

相關性分析

數(shù)據(jù)特征分析——分布分析分布分析能揭示數(shù)據(jù)的分布特征和分布類型，便于發(fā)現(xiàn)某些特大或特小的可疑值。對于定量數(shù)據(jù)，欲了解其分布形式，是對稱的、還是非對稱的，可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進行直觀地分析；對于定性分類數(shù)據(jù)，可用餅圖和條形圖直觀地顯示分布情況。定量數(shù)據(jù)的分布分析對于定量變量而言，做頻率分布分析時選擇“組數(shù)”和“組寬”是主要的問題，一般按照以下步驟：求極差決定組距與組數(shù)決定分點列出頻率分布表繪制頻率分布直方圖定量數(shù)據(jù)的分布分析遵循的主要原則有：各組之間必須是相互排斥的各組必須將所有的數(shù)據(jù)包含在內各組的組寬最好相等定量數(shù)據(jù)分布分析——具體事例下表是描述菜品撈起生魚片在2014年第二個季度的銷售數(shù)據(jù)，繪制銷售量的頻率分布表、頻率分布圖，對該定量數(shù)據(jù)做出相應的分析。定量數(shù)據(jù)分布分析——具體事例第一步：求極差極差=最大值-最小值=3960-45=3915第二步：分組這里根據(jù)業(yè)務數(shù)據(jù)的含義，可取組距為500。組數(shù)=極差/組距=3915/500=7.83=8第三步：決定分點，如下表：定量數(shù)據(jù)分布分析——具體事例第四步：繪制頻率分布直方圖根據(jù)分組區(qū)間得到如下表的頻率分布表，見下表。其中，第1列把數(shù)據(jù)所在的范圍分成的若干組段，第1個組段要包括最小值，最后一個組段要包括最大值，習慣上將各組段設為左閉右開的半開區(qū)間，如第一個分組為[0，500）。第2列組中值是各組段的代表值，由本組段的上、下限相加除以2得到。第3列和第4列分別為頻數(shù)和頻率。第5列是累計頻率，是否需要該列，視情況而定。定量數(shù)據(jù)分布分析——具體事例定量數(shù)據(jù)分布分析——具體事例第五步：繪制頻率分布直方圖若以2014年第二季度撈起生魚片每天的銷售額為橫軸，以各組段的頻率密度（頻率與組距之比）為縱軸，表3?3的數(shù)據(jù)可繪制成頻率分布直方圖，見圖：定性數(shù)據(jù)的分布分析對于定性變量，常常根據(jù)變量的分類類型來分組，可以采用餅圖和條形圖來描述定性變量的分布。餅圖的每一個扇形部分代表每一類型的百分比或頻數(shù)，根據(jù)定性變量的類型數(shù)目將餅圖分成幾個部分，每一部分的大小與每一類型的頻數(shù)成正比；條形圖的高度代表每一類型的百分比或頻數(shù)，條形圖的寬度沒有意義。定性數(shù)據(jù)的分布分析下面左右兩圖分別是菜品A、B、C在某段時間的餅形和條形銷售量分布圖：對比分析對比分析是指把兩個相互聯(lián)系的指標數(shù)據(jù)進行比較，從數(shù)量上展示和說明研究對象規(guī)模的大小，水平的高低，速度的快慢，以及各種關系是否協(xié)調。特別適用于指標間的橫縱向比較、時間序列的比較分析。在對比分析中，選擇合適的對比標準是十分關鍵的步驟，選擇得合適，才能做出客觀的評價，選擇不合適，評價可能得出錯誤的結論。對比分析對比分析主要有以下兩種形式：第一種:絕對數(shù)比較

它是利用絕對數(shù)進行對比，從而尋找差異的一種方法。第二種:相對數(shù)比較

它是由兩個有聯(lián)系的指標對比計算的，用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標，其數(shù)值表現(xiàn)為相對數(shù)。由于研究目的和對比基礎不同，相對數(shù)可以分為以下幾種：

1)結構相對數(shù)4)強度相對數(shù)

2)比例相對數(shù)5)計劃完成程度相對數(shù)

3)比較相對數(shù)6)動態(tài)相對數(shù)對比分析——相對數(shù)比較1）結構相對數(shù)：將同一總體內的部分數(shù)值與全部數(shù)值對比求得比重，用以說明事物的性質、結構或質量。如居民食品支出額占消費支出總額比重、產(chǎn)品合格率等。2）比例相對數(shù)：將同一總體內不同部分的數(shù)值對比，表明總體內各部分的比例關系，如人口性別比例、投資與消費比例等。3）比較相對數(shù)：將同一時期兩個性質相同的指標數(shù)值對比，說明同類現(xiàn)象在不同空間條件下的數(shù)量對比關系。如不同地區(qū)商品價格對比，不同行業(yè)、不同企業(yè)間某項指標對比等。

對比分析——相對數(shù)比較4）強度相對數(shù)：將兩個性質不同但有一定聯(lián)系的總量指標對比，用以說明現(xiàn)象的強度、密度和普遍程度。如人均國內生產(chǎn)總值用“元/人”表示，人口密度用“人/平方公里”表示，也有用百分數(shù)或千分數(shù)表示的，如人口出生率用‰表示。5）計劃完成程度相對數(shù)：是某一時期實際完成數(shù)與計劃數(shù)對比，用以說明計劃完成程度。

6）動態(tài)相對數(shù)：將同一現(xiàn)象在不同時期的指標數(shù)值對比，用以說明發(fā)展方向和變化的速度。如發(fā)展速度、增長速度等。對比分析——具體事例拿各菜品的銷售數(shù)據(jù)來看，從時間的維度上分析，可以看到甜品部A、海鮮部B、素菜部C三個部門之間的銷售金額隨時間的變化趨勢，了解在此期間哪個部門的銷售金額較高，趨勢比較平穩(wěn)，如圖3?5；也可以從單一部門（如海鮮部）做分析，了解各月份的銷售對比情況，如下圖：定性數(shù)據(jù)的分布分析從總體來看，三個部門的銷售金額呈遞減趨勢；A部門和C部門的遞減趨勢比較平穩(wěn)；B部門的銷售金額在2月份驟降，可以進一步分析造成這種現(xiàn)象的業(yè)務原因，可能是原材料不足造成的。統(tǒng)計量分析用統(tǒng)計指標對定量數(shù)據(jù)進行統(tǒng)計描述，常從集中趨勢和離中趨勢兩個方面進行分析。平均水平的指標是對個體集中趨勢的度量，使用最廣泛的是均值和中位數(shù)；反映變異程度的指標則是對個體離開平均水平的度量，使用較廣泛的是標準差（方差）、四分位間距。集中趨勢度量主要有：均值、中位數(shù)、眾數(shù)離中趨勢度量主要有：極差、標準差、變異系數(shù)周期性分析周期性分析是探索某個變量是否隨著時間變化而呈現(xiàn)出某種周期變化趨勢。周期性趨勢相對較長的有年度周期性趨勢、季節(jié)性周期趨勢，相對較短的一般有月度周期性趨勢、周度周期性趨勢，甚至更短的天、小時周期性趨勢。如在做某用電單位用電量趨勢預測過程中，可以先分析該用電單位日用電量的時序圖，來直觀地估計其用電量變化趨勢。周期性分析下面兩圖分別是某用電單位A在2014年9月份和2013年9月份日用電量的時序圖：周期性分析周期性分析從總體來看用電單位A的2014年9月份日用電量呈現(xiàn)出周期性，以周為周期，因為周六周日不上班，所以周末用電量較低。工作日和非工作日的用電量比較平穩(wěn)，沒有太大的波動。而2013年9月份日用電量總體呈現(xiàn)出遞減的趨勢，同樣周末的用電量是最低的。貢獻度分析貢獻度分析又稱帕累托分析，帕累托法則又稱20/80定律。同樣的投入放在不同的地方會產(chǎn)生不同的效益。比如對一個公司來講，80%的利潤常常來自于20%最暢銷的產(chǎn)品；而其他80%的產(chǎn)品只產(chǎn)生了20%的利潤。貢獻度分析要求我們抓住問題的重點，找到那最有效的20%的熱銷產(chǎn)品、渠道或者銷售人員，在最有效的20%上投入更多資源，盡量減少浪費在80%低效的地方。貢獻度分析就餐飲企業(yè)來講，可以重點改善盈利最高的80%的菜品，或者重點發(fā)展綜合影響最高的80%的部門。這種結果可以通過帕累托分析直觀的呈現(xiàn)出來，如下圖：相關性分析分析連續(xù)變量之間線性的相關程度的強弱，并用適當?shù)慕y(tǒng)計指標表示出來的過程稱為相關分析。相關性分析方法主要有：直接繪制散點圖繪制散點圖矩陣計算相關系數(shù)相關性分析——直接繪制散點圖判斷兩個變量是否具有線性相關關系的最直觀的方法是直接繪制散點圖，見下圖：相關性分析——繪制散點圖矩陣需要同時考察多個變量間的相關關系時，若一一繪制它們間的簡單散點圖，十分麻煩。此時可利用散點圖矩陣來同時繪制各自變量間的散點圖，這樣可以快速發(fā)現(xiàn)多個變量間的主要相關性，這一點在進行多元線性回歸時顯得尤為重要。散點圖矩陣如下圖所示：相關性分析——計算相關系數(shù)為了更加準確的描述變量之間的線性相關程度，可以通過計算相關系數(shù)來進行相關分析。在二元變量的相關分析過程中比較常用的如Pearson相關系數(shù)、Spearman秩相關系數(shù)和判定系數(shù)。相關性分析——計算相關系數(shù)Pearson相關系數(shù)一般用于對定距變量的數(shù)據(jù)進行計算，即分析兩個連續(xù)性變量之間的關系，其計算公式如下：Spearman秩相關系數(shù)用于描述分類或等級變量之間、分類或等級變量與連續(xù)變量之間的關系。其計算公式如下：相關性分析——計算相關系數(shù)其中

代表

中的秩，所謂秩指

在

中按照一定準則的排列順序。

代表

在

中的秩。上述兩種相關系數(shù)在實際應用計算中都要對其進行假設檢驗，使用t檢驗方法檢驗其顯著性水平以確定其相關程度。研究表明，在正態(tài)分布假定下，Spearman秩相關系數(shù)與Pearson相關系數(shù)在效率上是等價的，而對于連續(xù)測量數(shù)據(jù)，更適合用Pearson相關系數(shù)來進行分析。相關性分析——計算相關系數(shù)餐飲銷量數(shù)據(jù)和節(jié)假日、天氣等因素都可能有關系，使用相關性分析可以得到餐飲銷量數(shù)據(jù)和其他因素的相關性，其Python代碼如下所示：數(shù)據(jù)特征分析21數(shù)據(jù)質量分析Python主要數(shù)據(jù)探索函數(shù)3目錄4統(tǒng)計作圖函數(shù)統(tǒng)計特征函數(shù)統(tǒng)計特征函數(shù)用于計算數(shù)據(jù)的均值、方差、標準差、分位數(shù)、相關系數(shù)、協(xié)方差等，這些統(tǒng)計特征能反映出數(shù)據(jù)的整體趨勢。本小節(jié)所介紹的統(tǒng)計特征函數(shù)如下表所示。統(tǒng)計特征函數(shù)sum功能：計算數(shù)據(jù)樣本的總和（按列計算）使用格式：D.sum()按列計算樣本D的總和，樣本D可為DataFrame或者Series。mean功能：計算數(shù)據(jù)樣本的算術平均數(shù)使用格式：D.mean()按列計算樣本D的均值，樣本D可為DataFrame或者Series。var功能：計算數(shù)據(jù)樣本的方差使用格式：D.var()按列計算樣本D的均值，樣本D可為DataFrame或者Series。std功能：計算數(shù)據(jù)樣本的標準差使用格式：D.std()按列計算樣本D的均值，樣本D可為DataFrame或者Series。統(tǒng)計特征函數(shù)corr功能：計算數(shù)據(jù)樣本的Spearman（Pearson）相關系數(shù)矩陣使用格式：D.corr(method='pearson')樣本D可為DataFrame，返回相關系數(shù)矩陣，method參數(shù)為計算方法，支持ppearson（皮爾森相關系數(shù)，默認選項）、kendall（肯德爾系數(shù)）、spearman（斯皮爾曼系數(shù)）；S1.corr(S2,method='pearson')S1、S2均為Series，這種格式指定計算兩個Series之間的相關系數(shù)。cov功能：計算數(shù)據(jù)樣本的協(xié)方差矩陣使用格式：D.cov()樣本D可為DataFrame，返回協(xié)方差矩陣；S1.cov(S2)S1、S2均為Series，這種格式指定計算兩個Series之間的協(xié)方差。統(tǒng)計特征函數(shù)skew/kurt功能：計算數(shù)據(jù)樣本的偏度（三階矩）/峰度（四階矩）使用格式：D.skew()/D.kurt()計算樣本D的偏度（三階矩）/峰度（四階矩）。樣本D可為DataFrame或Series。Describe功能：直接給出樣本數(shù)據(jù)的一些基本的統(tǒng)計量，包括均值、標準差、最大值、最小值、分位數(shù)等。使用格式：D.describe()括號里可以帶一些參數(shù)，比如percentiles=[0.2,0.4,0.6,0.8]就是指定只計算0.2、0.4、0.6、0.8分位數(shù)，而不是默認的1/4、1/2、3/4分位數(shù)。統(tǒng)計特征函數(shù)——實例計算兩個列向量的相關系數(shù)，采用Spearman方法統(tǒng)計特征函數(shù)——實例計算6×5隨機矩陣的協(xié)方差矩陣。統(tǒng)計特征函數(shù)除了上述基本的統(tǒng)計特征外，Pandas還提供了另外一些非常方便實用的計算統(tǒng)計特征的函數(shù)，主要用累積計算（cum）和滾動計算（pd.rolling_）。統(tǒng)計特征函數(shù)cum系列函數(shù)是作為DataFrame或Series對象的方法而出現(xiàn)的，命令格式為D.cumsum()。rolling_系列是pandas的函數(shù)，不是DataFrame或Series對象的方法，使用格式為pd.rolling_mean(D,k)，意思是每k列計算一次均值，滾動計算。數(shù)據(jù)特征分析21數(shù)據(jù)質量分析目錄3Python主要數(shù)據(jù)探索函數(shù)統(tǒng)計作圖函數(shù)4統(tǒng)計作圖函數(shù)通過統(tǒng)計作圖函數(shù)繪制的圖表可以直觀地反映出數(shù)據(jù)及統(tǒng)計量的性質及其內在規(guī)律，如盒圖可以表示多個樣本的均值，誤差條形圖能同時顯示下限誤差和上限誤差，最小二乘擬合曲線圖能分析兩變量間的關系。如在做某用電單位用電量趨勢預測過程中，可以先分析該用電單位日用電量的時序圖，來直觀地估計其用電量變化趨勢。Python的主要作圖庫是Matplotlib，而Pandas基于Matplotlib并對某些命令作了簡化，因此作圖通常是Matplotlib和Pandas相互結合著使用。統(tǒng)計作圖函數(shù)Python中的常用作圖函數(shù)。統(tǒng)計作圖函數(shù)在使用Python作圖之前，我們通常要加載以下代碼：統(tǒng)計作圖函數(shù)plot功能：繪制線性二維圖，折線圖。使用格式：plt.plot(x,y,S)這是Matplotlib通用的繪圖方式，繪制y對于x（即以x為橫軸的二維圖形），字符串參量S指定繪制時圖形的類型、樣式和顏色，常用的選項有：’b’為藍色、’r’為紅色、’g’為綠色、’o’為圓圈、’+’為加號標記、’-’為實線、’--’為虛線。當x、y均為實數(shù)同維向量時，則描出點，然后用直線依次相連。D.plot(kind='box')這里使用的是DataFrame或Series對象內置的方法作圖，默認以Index為橫坐標，每列數(shù)據(jù)為縱坐標自動作圖，通過kind參數(shù)指定作圖類型，支持line（線）、bar（條形）、barh、hist（直方圖）、box（箱線圖）、kde（密度圖）、area、pie（餅圖）等，同時也能夠接受plt.plot()中接受的參數(shù)。因此，如果數(shù)據(jù)已經(jīng)被加載為Pandas中的對象，那么以這種方式作圖是比較簡潔的。統(tǒng)計作圖函數(shù)pie功能：繪制餅型圖。使用格式：plt.pie(size)使用Matplotlib繪制餅圖，其中size是一個列表，記錄各個扇形的比例。統(tǒng)計作圖函數(shù)hist功能：繪制二維條形直方圖，可顯示數(shù)據(jù)的分布情形。使用格式：Plt.hist(x,y)其中x是待繪制直方圖的一維數(shù)組，y可以是整數(shù)，表示均勻分為n組；也可以是列表，列表各個數(shù)字為分組的邊界點（即手動指定分界點）。統(tǒng)計作圖函數(shù)boxplot功能：繪制樣本數(shù)據(jù)的箱型圖。使用格式：D.boxplot()/D.plot(kind='box')有兩種比較簡單的方式繪制D的箱型圖，其中一種是直接調用DataFrame的boxplot()方法，另外一種是調用Series或者DataFrame的plot()方法，并用kind參數(shù)指定箱型圖（box）。其中，盒子的上、下四分位數(shù)和中值處有一條線段。箱形末端延伸出去的直線稱為須，表示盒外數(shù)據(jù)的長度。如果在須外沒有數(shù)據(jù)，則在須的底部有一點，點的顏色與須的顏色相同。統(tǒng)計作圖函數(shù)plot(logx=True)/plot(logy=True)功能：繪制x或y軸的對數(shù)圖形。使用格式：D.plot(logx=True)/D.plot(logy=True)對x軸（y軸）使用對數(shù)刻度（以10為底），y軸（x軸）使用線性刻度，進行plot函數(shù)繪圖，D為Pandas的DataFrame或者Series。統(tǒng)計作圖函數(shù)plot(yerr=error)功能：繪制誤差條形圖。使用格式：D.plot(yerr=error)繪制誤差條形圖。D為Pandas的DataFrame或Series，代表著均值數(shù)據(jù)列，而error則是誤差列，此命令在y軸方向畫出誤差棒圖；類似地，如果設置參數(shù)xerr=error，則在x軸方向畫出誤差棒圖。第4章-2數(shù)據(jù)預處理2025/2/17

數(shù)據(jù)變換31數(shù)據(jù)清洗4數(shù)據(jù)集成2數(shù)據(jù)規(guī)約目錄5Python主要數(shù)據(jù)預處理函數(shù)在數(shù)據(jù)挖掘的過程中，數(shù)據(jù)預處理占到了整個過程的60%。數(shù)據(jù)預處理的主要任務包括數(shù)據(jù)清洗，數(shù)據(jù)集成，數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。處理過程如圖所示：數(shù)據(jù)預處理數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關數(shù)據(jù)、重復數(shù)據(jù)，平滑噪聲數(shù)據(jù)，處理缺失值、異常值等。缺失值處理處理缺失值的方法可分為三類：刪除記錄、數(shù)據(jù)插補和不處理。其中常用的數(shù)據(jù)插補方法見下表。缺失值處理插值方法有Hermite插值、分段插值、樣條插值法，而最主要的有拉格朗日插值法和牛頓插值法。以下便對這兩種進行介紹。拉格朗日插值法

第一步：

求已知的n個點對

的基函數(shù)

第二步：

求已知的n個點對

的插值多項式

第三步：

將缺失的函數(shù)值對應的點

代入插值多項式得到缺失值的近似值

缺失值處理牛頓插值法

第一步:

求已知的n個點對

的所有階差商公式

；

第二步：

聯(lián)立以上差商公式建立如下插值多項式

第三步：將缺失的函數(shù)值對應的點

代入插值多項式得到缺失值的近似

值

缺失值處理——實例餐飲系統(tǒng)中的銷量數(shù)據(jù)可能出現(xiàn)缺失值，下表為某餐廳一段時間的銷量表，其中有一天的數(shù)據(jù)缺失，用拉格朗日插值與牛頓插值法對缺失值補缺。異常值處理在數(shù)據(jù)預處理時，異常值是否剔除，需視具體情況而定，因為有些異常值可能蘊含著有用的信息。異常值處理常用方法見下表：

數(shù)據(jù)變換31數(shù)據(jù)清洗4數(shù)據(jù)集成2數(shù)據(jù)規(guī)約目錄5Python主要數(shù)據(jù)預處理函數(shù)數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中，數(shù)據(jù)集成就是將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲（如數(shù)據(jù)倉庫）中的過程。在數(shù)據(jù)集成時，來自多個數(shù)據(jù)源的現(xiàn)實世界實體的表達形式是不一樣的，不一定是匹配的，要考慮實體識別問題和屬性冗余問題，從而把源數(shù)據(jù)在最低層上加以轉換、提煉和集成。數(shù)據(jù)集成——實體識別實體識別的任務是檢測和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如：同名異義：數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號和訂單編號，即描述的是不同的實體。異名同義：數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的，即A.sales_dt=B.sales_date。單位不統(tǒng)一：描述同一個實體分別用的是國際單位和中國傳統(tǒng)的計量單位。數(shù)據(jù)集成——冗余屬性識別數(shù)據(jù)集成往往導致數(shù)據(jù)冗余，如：同一屬性多次出現(xiàn)同一屬性命名不一致導致重復不同源數(shù)據(jù)的仔細整合能減少甚至避免數(shù)據(jù)冗余與不一致，以提高數(shù)據(jù)挖掘的速度和質量。對于冗余屬性要先分析檢測到后再將其刪除。有些冗余屬性可以用相關分析檢測到。給定兩個數(shù)值型的屬性A和B，根據(jù)其屬性值，可以用相關系數(shù)度量一個屬性在多大程度上蘊含另一個屬性。

數(shù)據(jù)變換31數(shù)據(jù)清洗4數(shù)據(jù)集成2數(shù)據(jù)規(guī)約目錄5Python主要數(shù)據(jù)預處理函數(shù)數(shù)據(jù)變換主要是對數(shù)據(jù)進行規(guī)范化的操作，將數(shù)據(jù)轉換成“適當?shù)摹备袷?，以適用于挖掘任務及算法的需要。數(shù)據(jù)變換——簡單函數(shù)變換簡單函數(shù)變換就是對原始數(shù)據(jù)進行某些數(shù)學函數(shù)變換，常用的函數(shù)變換包括平方、開方、對數(shù)、差分運算等，即:數(shù)據(jù)變換——規(guī)范化數(shù)據(jù)標準化（歸一化）處理是數(shù)據(jù)挖掘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，數(shù)值間的差別可能很大，不進行處理可能會影響到數(shù)據(jù)分析的結果，為了消除指標之間的量綱和大小不一的影響，需要進行數(shù)據(jù)標準化處理，將數(shù)據(jù)按照比例進行縮放，使之落入一個特定的區(qū)域，從而進行綜合分析。如將工資收入屬性值映射到[-1，1]或者[0，1]之間。下面介紹三種規(guī)范化方法：最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標規(guī)范化數(shù)據(jù)變換——規(guī)范化最小-最大規(guī)范化：也稱為離差標準化，是對原始數(shù)據(jù)的線性變換，使結果值映射到[0,1]之間。

轉換函數(shù)如：

其中

為樣本數(shù)據(jù)的最大值，

為樣本數(shù)據(jù)的最小值。

為極差。零-均值規(guī)范化:也叫標準差標準化，經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0，標準差為1。轉化函數(shù)為：

其中

為原始數(shù)據(jù)的均值，

為原始數(shù)據(jù)的標準差。小數(shù)定標規(guī)范化:通過移動屬性值的小數(shù)位數(shù)，將屬性值映射到[-1，1]之間，移動的小數(shù)位數(shù)取決于屬性值絕對值的最大值。轉化函數(shù)為：數(shù)據(jù)變換——連續(xù)屬性離散化一些數(shù)據(jù)挖掘算法，特別是某些分類算法，要求數(shù)據(jù)是分類屬性形式，如ID3算法、Apriori算法等。這樣，常常需要將連續(xù)屬性變換成分類屬性，即連續(xù)屬性離散化。離散化的過程

連續(xù)屬性變換成分類屬性涉及兩個子任務：決定需要多少個分類變量，以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法

常用的無監(jiān)督離散化方法有：等寬法、等頻法、基于聚類分析的方法數(shù)據(jù)變換31數(shù)據(jù)清洗4數(shù)據(jù)集成2數(shù)據(jù)規(guī)約目錄5Python主要數(shù)據(jù)預處理函數(shù)數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進行規(guī)約，規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性，但數(shù)據(jù)量小得多。通過數(shù)據(jù)規(guī)約，可以達到：降低無效、錯誤數(shù)據(jù)對建模的影響，提高建模的準確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時間降低儲存數(shù)據(jù)的成本數(shù)據(jù)規(guī)約——屬性規(guī)約屬性規(guī)約常用方法有：合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集：

規(guī)約后屬性集：逐步向前選擇

初始屬性集：

規(guī)約后屬性集：

數(shù)據(jù)規(guī)約——屬性規(guī)約逐步向后刪除

初始屬性集：

規(guī)約后屬性集：決策樹規(guī)約

初始屬性集：

規(guī)約后屬性集：

數(shù)據(jù)規(guī)約——屬性規(guī)約下面詳細介紹主成分分析計算步驟：1）設原始變量

的觀測n次數(shù)據(jù)矩陣為：2）將數(shù)據(jù)矩陣中心標準化。為了方便，將標準化后的數(shù)據(jù)矩陣仍然記為

。3）求相關系數(shù)矩陣

的定義為：

其中

4）求

的特征方程

的特征根

。5）確定主成分個數(shù)m：

，根據(jù)實際問題確定，一般取80%。數(shù)據(jù)規(guī)約——屬性規(guī)約6）計算m個相應的單位特征向量：7）計算主成分：數(shù)據(jù)規(guī)約——數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的，也可以是無參的。有參方法是使用一個模型來評估數(shù)據(jù)，只需存放參數(shù)，而不需要存放實際數(shù)據(jù)。有參的數(shù)值規(guī)約技術主要有兩種：回歸（線性回歸和多元回歸）和對數(shù)線性模型（近似離散屬性集中的多維概率分布）。數(shù)值規(guī)約常用方法有直方圖

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《Python 數(shù)據(jù)挖掘實踐》課件-第4章數(shù)據(jù)探索與數(shù)據(jù)預處理

文檔簡介

溫馨提示

最新文檔

評論

《Python 數(shù)據(jù)挖掘實踐》課件-第4章 數(shù)據(jù)探索與數(shù)據(jù)預處理

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

《Python 數(shù)據(jù)挖掘實踐》課件-第4章數(shù)據(jù)探索與數(shù)據(jù)預處理