財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch03-數(shù)據(jù)清洗_第1頁(yè)
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch03-數(shù)據(jù)清洗_第2頁(yè)
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch03-數(shù)據(jù)清洗_第3頁(yè)
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch03-數(shù)據(jù)清洗_第4頁(yè)
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch03-數(shù)據(jù)清洗_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python與財(cái)經(jīng)大數(shù)據(jù)分析基礎(chǔ)第3章——數(shù)據(jù)清洗

CONTENTS目錄3.1數(shù)據(jù)標(biāo)簽重命名3.2缺失值處理3.3異常值處理3.4數(shù)據(jù)去重3.5數(shù)據(jù)替換3.6數(shù)據(jù)標(biāo)準(zhǔn)化3.7實(shí)操練習(xí)題

數(shù)據(jù)處理過(guò)程中,原始數(shù)據(jù)可能存在著各種不利于分析及后續(xù)處理的因素,如數(shù)據(jù)缺失、異常值等。這些因素不僅會(huì)影響數(shù)據(jù)建模,更會(huì)影響數(shù)據(jù)分析的結(jié)果,故數(shù)據(jù)清洗尤為重要。

數(shù)據(jù)清洗的目的包括兩點(diǎn):第一,通過(guò)清洗使數(shù)據(jù)可用;第二,讓數(shù)據(jù)變得更適合后續(xù)的分析過(guò)程。換句話(huà)說(shuō),“臟”的數(shù)據(jù)要洗,干凈的數(shù)據(jù)也要洗。3.1數(shù)據(jù)標(biāo)簽重命名3.1數(shù)據(jù)標(biāo)簽重命名批處理。DateFrame數(shù)據(jù)結(jié)構(gòu)支持批量地重命名行列標(biāo)簽,幫助我們將數(shù)據(jù)行列標(biāo)簽修改為符合自己習(xí)慣的或依照慣例使用的標(biāo)簽名稱(chēng),方便后續(xù)調(diào)用、代碼閱讀和理解。3.1缺失值處理3.2缺失值處理3.2

缺失值處理

(1)缺失值查看在pandas包中,可以使用isnull()與notnull()函數(shù)找到數(shù)據(jù)中的缺失值。其通過(guò)返回布爾值的方式幫助我們識(shí)別數(shù)據(jù)中的缺失值:若isnull()返回值為T(mén)rue,或notnull()返回值為False,則數(shù)據(jù)中存在缺失值。數(shù)據(jù)集大小不同時(shí)可使用不同的方法查看缺失值:對(duì)于容量較小的數(shù)據(jù)集,可以使用isnull()語(yǔ)句;對(duì)于容量較大的數(shù)據(jù)集,一般采取以下兩種方式:一是可以使用info函數(shù)查看,通過(guò)info函數(shù)可以查看字段的數(shù)據(jù)類(lèi)型以及各字段下非空值的數(shù)量;二是使用對(duì)insull()輸出的布爾值求和來(lái)查看。3.2

缺失值處理

(2)缺失值刪除當(dāng)數(shù)據(jù)量較大或數(shù)據(jù)冗余時(shí),需要對(duì)存在缺失值的數(shù)據(jù)進(jìn)行過(guò)濾,可以使用dropna()函數(shù)刪除缺失值數(shù)據(jù),也可以選擇刪除整行或整列。該函數(shù)的具體語(yǔ)法如下所示:3.2

缺失值處理

(3)缺失值填充在處理缺失值的過(guò)程中,直接刪除缺失值是一種簡(jiǎn)單直接的辦法,但也有可能因此使得原數(shù)據(jù)中的重要信息丟失,本部分將介紹另一種處理缺失值的方法——缺失值填充,使用fillna()函數(shù)可以填充數(shù)據(jù)集中的空值。該函數(shù)的具體語(yǔ)法如下所示:3.2

缺失值處理3.3異常值處理3.3異常值處理異常值,是遠(yuǎn)離絕大多數(shù)樣本點(diǎn)的特殊群體,也稱(chēng)為離群點(diǎn),這些異常值,在某些建模場(chǎng)景下會(huì)導(dǎo)致結(jié)論的錯(cuò)誤。其中一種典型的異常值即為極端值。極端值是指樣本中其數(shù)值明顯偏離其余值的個(gè)別樣本。在數(shù)據(jù)分析過(guò)程中,對(duì)數(shù)據(jù)集進(jìn)行異常值的識(shí)別與修正,是必不可少的一環(huán)。異常值檢測(cè)的方法包括常用法與建模法兩種。其中常用法包括:3σ方法、IQR方法與縮尾法;建模法包括:KNN算法(基于近鄰度異常點(diǎn)檢測(cè))、K-means(基于聚類(lèi)方法的異常點(diǎn)檢測(cè))等。極端值的處理方式與異常值類(lèi)似,進(jìn)行極端值檢測(cè)時(shí)常用到上述方法中的3σ方法、IQR方法與縮尾法。3.3異常值處理

3σ方法3σ方法是處理數(shù)據(jù)極端值最常用的方法。它是指按一定概率確定一個(gè)置信區(qū)間,將超過(guò)該置信區(qū)間的數(shù)據(jù)進(jìn)行剔除。3σ方法也存在一定局限性,在對(duì)正態(tài)或近似正態(tài)分布的數(shù)據(jù)進(jìn)行處理時(shí),它是一種以數(shù)據(jù)量充分大為前提(n>10)的方法,數(shù)據(jù)量過(guò)小時(shí)使用該方法剔除異常值是不夠可靠的。3σ方法的原則如下:μ為平均值,σ為標(biāo)準(zhǔn)差,數(shù)值分布在(μ-σ,μ+σ)的概率為0.6827;數(shù)值分布在(μ-2σ,μ+2σ)的概率為0.9545;數(shù)值分布在(μ-3σ,μ+3σ)的概率為0.9973。當(dāng)數(shù)據(jù)值集中在(μ-2σ,μ+2σ)區(qū)間時(shí),超過(guò)此范圍的概率不足5%,屬于小概率事件,可以認(rèn)為處于該區(qū)間外的數(shù)據(jù)為異常值;當(dāng)數(shù)據(jù)值集中在(μ-3σ,μ+3σ)區(qū)間時(shí),超過(guò)此范圍的概率不足0.3%,即超出該范圍的數(shù)據(jù)可以認(rèn)為是極端異常值。3.3異常值處理IQR方法四分位距(interquartilerange),是衡量一組數(shù)據(jù)離散程度的統(tǒng)計(jì)量,用IQR表示。其值等于第一四分位數(shù)(25%)和第三四分位數(shù)(75%)的差距,計(jì)算公式為:IQR=Q_3-Q_1定義異常值與極端異常值,表達(dá)式如下所示:3.3異常值處理縮尾法縮尾法(Winsorize)是一種處理極端值的方法。通常,縮尾處理將超出變量特定百分位范圍的數(shù)值替換為其特定百分位數(shù)值。進(jìn)行縮尾法處理異常值或極端值時(shí),將用到winsorize()函數(shù),在處理大樣本數(shù)據(jù)時(shí),縮尾處理比3σ方法高效。winsorize函數(shù)的具體語(yǔ)法如下所示:3.3異常值處理3.3異常值處理KNN算法(基于近鄰度的異常點(diǎn)檢測(cè))在進(jìn)行異常值判斷與處理時(shí),確定數(shù)據(jù)鄰近性度量比確定其統(tǒng)計(jì)分布更有意義,此時(shí),數(shù)據(jù)集的異常點(diǎn)是由其K-最近鄰(KNN)測(cè)定的。異常點(diǎn)測(cè)定對(duì)K值高度敏感。K值過(guò)小時(shí),少量的鄰近異常點(diǎn)可能導(dǎo)致較低的異常點(diǎn)得分;K值過(guò)大時(shí),點(diǎn)數(shù)少于K的簇中所有的對(duì)象都可能成為異常點(diǎn)。因此,為使K值的選取更具穩(wěn)健性,可以使用K個(gè)最近鄰的平均距離。該方法的優(yōu)勢(shì)在于簡(jiǎn)單、易操作,缺點(diǎn)在于對(duì)于參數(shù)的選取具有敏感性。在第十四章機(jī)器學(xué)習(xí)中,詳細(xì)講解KNN算法的原理與實(shí)戰(zhàn)。3.3異常值處理K-means算法(基于聚類(lèi)方法的異常點(diǎn)檢測(cè))當(dāng)一個(gè)對(duì)象是基于聚類(lèi)的離群點(diǎn)時(shí),如果該對(duì)象不強(qiáng)屬于任何簇,那么該對(duì)象屬于離群點(diǎn)。K-means算法是基于聚類(lèi)的異常點(diǎn)檢測(cè)方法,其對(duì)異常點(diǎn)非常敏感,通過(guò)聚類(lèi)檢測(cè)異常點(diǎn)時(shí),常會(huì)因?yàn)楫惓|c(diǎn)而影響聚類(lèi),從而導(dǎo)致結(jié)構(gòu)缺失有效性。因此,可以使用如下方法解決該問(wèn)題:對(duì)象聚類(lèi)、刪除異常點(diǎn)、對(duì)象再次聚類(lèi)?;诰€(xiàn)性與接近線(xiàn)性復(fù)雜度的聚類(lèi)技術(shù)檢測(cè)異常點(diǎn)可能是高度有效的,但聚類(lèi)算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的異常點(diǎn)的質(zhì)量影響非常大。在十四章機(jī)器學(xué)習(xí)中,詳細(xì)講解K-means算法的原理與實(shí)戰(zhàn)。3.4數(shù)據(jù)去重3.4

數(shù)據(jù)去重?cái)?shù)據(jù)去重是指在數(shù)據(jù)集中,找出重復(fù)的數(shù)據(jù)并將其刪除,只保存唯一的數(shù)據(jù)單元的過(guò)程。在數(shù)據(jù)預(yù)處理過(guò)程中,這是一項(xiàng)經(jīng)常性操作,數(shù)據(jù)去重會(huì)帶來(lái)很多好處,如節(jié)省存儲(chǔ)空間、提升寫(xiě)入性能和提高模型精度等。數(shù)據(jù)去重一般可以通過(guò)duplicated()和drop_duplicates()兩個(gè)函數(shù)實(shí)現(xiàn),下面進(jìn)行詳細(xì)介紹。3.4

數(shù)據(jù)去重(1)duplicated()函數(shù)使用duplicated()函數(shù)可以判斷數(shù)據(jù)中是否存在重復(fù)值,函數(shù)輸出結(jié)果將返回一個(gè)布爾序列來(lái)顯示各行是否有重復(fù)行,沒(méi)有重復(fù)行顯示為False,有重復(fù)行顯示為T(mén)rue。具體語(yǔ)法如下所示:3.4

數(shù)據(jù)去重(2)drop_duplicates()函數(shù)使用drop_duplicates()函數(shù)可以在找出重復(fù)值的同時(shí)將其刪除,只保存唯一的數(shù)據(jù)單元。具體語(yǔ)法如下所示:3.5數(shù)據(jù)替換3.5數(shù)據(jù)替換在進(jìn)行數(shù)據(jù)清洗時(shí),時(shí)常需要批量地替換或插入數(shù)據(jù),但單個(gè)修改一方面效率過(guò)低,另一方面也增加了出錯(cuò)的概率。Pandas提供了replace()函數(shù)和insert()函數(shù),能幫助我們高效地完成批量的數(shù)據(jù)替換和插入。(1)replace()函數(shù)replace()函數(shù)常用于數(shù)據(jù)的批量替換,如把字符串中的old(舊字符串)替換為new(新字符串)。具體語(yǔ)法如下所示:3.5數(shù)據(jù)替換3.5數(shù)據(jù)替換(2)insert()函數(shù)insert()函數(shù)用于將指定對(duì)象插入列表的指定位置。具體語(yǔ)法如下所示:3.6數(shù)據(jù)標(biāo)準(zhǔn)化3.6

數(shù)據(jù)標(biāo)準(zhǔn)化在數(shù)據(jù)分析之前,有時(shí)需要將各類(lèi)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,便于利用標(biāo)準(zhǔn)值進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化在統(tǒng)計(jì)中表現(xiàn)為統(tǒng)計(jì)數(shù)據(jù)的指數(shù)化,數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無(wú)量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問(wèn)題,使所有指標(biāo)對(duì)測(cè)評(píng)方案的作用趨同;數(shù)據(jù)無(wú)量綱化處理主要解決數(shù)據(jù)的可比性。3.6

數(shù)據(jù)標(biāo)準(zhǔn)化(1)Z-Score方法Z-Score方法基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差實(shí)現(xiàn)標(biāo)準(zhǔn)化,公式為:Z-Score適合大多數(shù)類(lèi)型數(shù)據(jù),也是很多工具的默認(rèn)標(biāo)準(zhǔn)化方法。然而,這是一種中心化方法,會(huì)改變?cè)袛?shù)據(jù)的分布結(jié)構(gòu),不適合用于對(duì)稀疏數(shù)據(jù)處理。3.6

數(shù)據(jù)標(biāo)準(zhǔn)化(2)min-max標(biāo)準(zhǔn)化Min-Max標(biāo)準(zhǔn)化是指對(duì)原始數(shù)據(jù)進(jìn)行線(xiàn)性變換,將值映射到[0,1]之間,公式為:min-max標(biāo)準(zhǔn)化方法保留了原始數(shù)據(jù)之間的相互關(guān)系,但是如果標(biāo)準(zhǔn)化后,新輸入的數(shù)據(jù)超過(guò)了原始數(shù)據(jù)的取值范圍,即不在原始區(qū)間中,則會(huì)產(chǎn)生越界錯(cuò)誤。因此這種方法適用于原始數(shù)據(jù)的取值范圍已

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論