R語(yǔ)言數(shù)據(jù)分析與挖掘-數(shù)據(jù)預(yù)處理_第1頁(yè)
R語(yǔ)言數(shù)據(jù)分析與挖掘-數(shù)據(jù)預(yù)處理_第2頁(yè)
R語(yǔ)言數(shù)據(jù)分析與挖掘-數(shù)據(jù)預(yù)處理_第3頁(yè)
R語(yǔ)言數(shù)據(jù)分析與挖掘-數(shù)據(jù)預(yù)處理_第4頁(yè)
R語(yǔ)言數(shù)據(jù)分析與挖掘-數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)抽樣01102數(shù)據(jù)清洗03數(shù)據(jù)變換04數(shù)據(jù)啞變量處理01數(shù)據(jù)抽樣201PAGE3數(shù)據(jù)抽樣的必要性“抽樣”對(duì)于數(shù)據(jù)分析和挖掘來(lái)說(shuō)是一種常見(jiàn)的前期數(shù)據(jù)處理技術(shù)。對(duì)于小概率事件、稀有事件的類失衡情況,即在數(shù)據(jù)中可能會(huì)存在某個(gè)或某些類別下的樣本數(shù)遠(yuǎn)大于另一些類別下的樣本數(shù)目。如果不對(duì)數(shù)據(jù)進(jìn)行處理就建模,此時(shí)建立的分類器會(huì)傾向于預(yù)測(cè)數(shù)量較多的一類,顯然該分類器是無(wú)效的,并且這種無(wú)效是由于訓(xùn)練集中類別不均衡而導(dǎo)致的。克服類失衡問(wèn)題常用的技術(shù)有以下兩種:偏置學(xué)習(xí)過(guò)程的方法,它應(yīng)用特定的對(duì)少數(shù)類更敏感的評(píng)價(jià)指標(biāo)。用抽樣方法來(lái)操作訓(xùn)練數(shù)據(jù),從而改變類的分布。有多種抽樣方法用于改變數(shù)據(jù)集中的類失衡,常用的有以下兩種:欠采樣法,它從多數(shù)類中選擇小部分案例,并把它們和少數(shù)類樣本一起組成一個(gè)相對(duì)平衡的數(shù)據(jù)集。過(guò)采樣法,它采用另外的工作模式,使用某些進(jìn)程來(lái)復(fù)制少數(shù)類樣本。3PAGE4類失衡處理方法:SMOTE有一種系統(tǒng)構(gòu)造人工數(shù)據(jù)樣本的方法SMOTE(SyntheticMinorityOver-samplingTechnique)。在R語(yǔ)言中,DMwR擴(kuò)展包中的SMOTE()函數(shù)可以實(shí)現(xiàn)SMOTE方法。該函數(shù)可以實(shí)現(xiàn)過(guò)采樣或欠采樣的SMOTE方法。該函數(shù)常用參數(shù)有三個(gè):perc.over:過(guò)采樣時(shí),生成少數(shù)類的新樣本個(gè)數(shù);;k:過(guò)采樣中使用K近鄰算法生成少數(shù)類樣本時(shí)的K值,默認(rèn)是5;perc.under:欠采樣時(shí),對(duì)應(yīng)每個(gè)生成的少數(shù)類樣本,選擇原始數(shù)據(jù)多數(shù)類樣本的個(gè)數(shù)。例如,當(dāng)perc.over=500表示對(duì)原始數(shù)據(jù)集中的每個(gè)少數(shù)樣本,都將生成5個(gè)新的少數(shù)樣本;perc.under=80表示從原始數(shù)據(jù)集中選擇的多數(shù)類的樣本數(shù)據(jù)集中新生成少數(shù)樣本的80%。4PAGE5數(shù)據(jù)隨機(jī)抽樣:sample()函數(shù)sample()函數(shù)基本表達(dá)形式為:sample(x,size,replace=FALSE,prob=NULL)其中x是數(shù)值型向量,size是抽樣個(gè)數(shù),replace表示是否有放回抽樣,默認(rèn)FALSE是無(wú)放回抽樣,TURE是有放回抽樣。5>set.seed(1234)>(x<-seq(1,10))[1]12345678910>(a<-sample(x,8,replace=FALSE))#無(wú)放回抽樣[1]106541827>(b<-sample(x,8,replace=TRUE))#有放回抽樣[1]761064844>#當(dāng)size大于x的長(zhǎng)度>sample(x,15,replace=FALSE)Errorin(length(x),size,replace,prob):cannottakeasamplelargerthanthepopulationwhen'replace=FALSE'>sample(x,15,replace=TRUE)[1]5848341052843793PAGE6數(shù)據(jù)等比抽樣:createDataPartition函數(shù)通過(guò)sample()函數(shù)雖然能實(shí)現(xiàn)對(duì)數(shù)據(jù)集按照某個(gè)變量的類別進(jìn)行等比例抽樣,但是當(dāng)類別多的時(shí)候代碼就比較繁瑣?,F(xiàn)在給大家介紹caret擴(kuò)展包中的createDataPartition()函數(shù),可以快速實(shí)現(xiàn)數(shù)據(jù)按照因子變量的類別進(jìn)行快速等比例抽樣。其函數(shù)基本表達(dá)形式為:

createDataPartition(y,times=1,p=0.5,list=TRUE,groups=min(5,length(y)))其中y是一個(gè)向量,times表示需要進(jìn)行抽樣的次數(shù),p表示需要從數(shù)據(jù)中抽取的樣本比例,list表示結(jié)果是否為列表形式,默認(rèn)為TRUE,groups表示如果輸出變量為數(shù)值型數(shù)據(jù),則默認(rèn)按分位數(shù)分組進(jìn)行取樣。6PAGE7用于交叉驗(yàn)證的樣本抽樣caret擴(kuò)展包中的createFolds()函數(shù)和createMultiFolds()函數(shù)。createFolds()函數(shù)的基本形式為:

createFolds(y,k=10,list=TRUE,returnTrain=FALSE)其中y是我們要依據(jù)分類的變量;k指定k折交叉驗(yàn)證的樣本,默認(rèn)為10,每份的樣本量為總量/k;list是否以列表或矩陣的形式存儲(chǔ)隨機(jī)抽取的索引號(hào),默認(rèn)為TRUE;returnTrain是否返回抽樣的真實(shí)值,默認(rèn)返回樣本的索引值。createMultiFolds函數(shù)的基本表達(dá)式為:

createMultiFolds(y,k=10,times=5)其中k指定k折交叉驗(yàn)證的樣本,默認(rèn)為10,每份的樣本量為總量/k;times指定抽樣組數(shù),默認(rèn)為5組(每組中都有10折抽樣)。7數(shù)據(jù)清洗802PAGE9缺失值處理及判斷:識(shí)別缺失值R語(yǔ)言中缺失值以NA(NotAvailable)表示,判斷數(shù)據(jù)中是否存在缺失值最基本的函數(shù)是is.na(),它可以應(yīng)用于向量、數(shù)據(jù)框等多種對(duì)象,返回結(jié)果為邏輯值。當(dāng)元素為缺失值時(shí),返回TRUE,當(dāng)元素有真實(shí)值時(shí),返回FALSE。例如,令y<-c(1,2,3,NA),則is.na(y)返回向量c(FALSE,FALSE,FALSE,TRUE)。mice擴(kuò)展包中的md.pattern()函數(shù)可生成一個(gè)以矩陣或數(shù)據(jù)框形式展示缺失值模式的表格,該函數(shù)只有一個(gè)參數(shù),就是要判斷的矩陣或者數(shù)據(jù)框。R語(yǔ)言有多種對(duì)數(shù)據(jù)缺失值模式進(jìn)行可視化的方法,此處介紹常用的一種方法。可以利用VIM擴(kuò)展包中的aggr()函數(shù)以圖形方式描述數(shù)據(jù)的缺失情況。其表達(dá)形式為:

aggr(x,delimiter=NULL,plot=TRUE,...)x表示一個(gè)向量、矩陣或數(shù)據(jù)框,delimiter用于區(qū)分插補(bǔ)變量,如果給出對(duì)應(yīng)的值說(shuō)明變量的值已被插補(bǔ),但在判斷缺失模式時(shí),這一參數(shù)默認(rèn)是忽略的;plot是邏輯值,指明是否繪制圖形,默認(rèn)為TRUE。9PAGE10缺失值處理及判斷:處理缺失值刪除缺失樣本:直接過(guò)濾缺失樣本是最簡(jiǎn)單的方式,前提是缺失數(shù)據(jù)的比例較少,而且缺失數(shù)據(jù)是隨機(jī)出現(xiàn)的,這樣刪除缺失樣本后對(duì)分析結(jié)果影響不大。R語(yǔ)言中使用na.omit()函數(shù)可以刪除帶有缺失值的記錄,只留下完整的記錄。對(duì)缺失值進(jìn)行替換:在數(shù)據(jù)挖掘中,通常面對(duì)的是大型數(shù)據(jù)庫(kù),它的變量有幾十上百個(gè),因?yàn)橐粋€(gè)變量值的缺失而放棄大量的其他變量值,這種刪除是對(duì)信息的極大浪費(fèi),最常見(jiàn)的就是通過(guò)給缺失元素賦值的方式來(lái)解決。常用的賦值方式是利用變量均值或中位數(shù)來(lái)代替缺失值,這樣做的優(yōu)點(diǎn)在于不會(huì)減少樣本信息,處理起來(lái)簡(jiǎn)單,但缺點(diǎn)在于當(dāng)缺失數(shù)據(jù)不是隨機(jī)出現(xiàn)時(shí)會(huì)產(chǎn)生偏差。對(duì)缺失值進(jìn)行賦值:使用均值、中位數(shù)對(duì)缺失元素進(jìn)行替換的方法僅僅使用變量自身數(shù)據(jù)進(jìn)行處理。實(shí)際工作中,很多數(shù)據(jù)集各變量間是相互影響的,我們可以使用建模方式對(duì)變量缺失元素進(jìn)行預(yù)測(cè)。此方法將通過(guò)諸如線性回歸、邏輯回歸、決策樹(shù)、組合、貝葉斯定理、K近鄰算法、隨機(jī)森林等算法去預(yù)測(cè)缺失值,也就是把缺失數(shù)據(jù)所對(duì)應(yīng)的變量當(dāng)作因變量,其他變量作為自變量,為每個(gè)需要進(jìn)行缺失值賦值的字段分別建立預(yù)測(cè)模型。10PAGE11異常值判斷處理數(shù)據(jù)樣本中的異常值(Outlier)通常是指一個(gè)離散類別型變量(Category)里某個(gè)類別值出現(xiàn)的次數(shù)太少,或者指一個(gè)數(shù)值區(qū)間型變量(Interval)里某些取值太大或太小。忽視異常值的存在是十分危險(xiǎn)的,不加剔除地把異常值加入數(shù)據(jù)的計(jì)算分析過(guò)程中,很可能會(huì)干擾模型系數(shù)的計(jì)算和評(píng)估,從而嚴(yán)重降低模型的穩(wěn)定性。數(shù)值區(qū)間型變量的異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離其余樣本的觀測(cè)值。異常值也稱為離群點(diǎn),因此異常值分析也稱為離群點(diǎn)分析。對(duì)異常值的分析方法主要有:簡(jiǎn)單統(tǒng)計(jì)量分析、3σ準(zhǔn)則、箱線圖分析、聚類分析。簡(jiǎn)單統(tǒng)計(jì)量分析:拿到一份數(shù)據(jù),可以先對(duì)數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)量分析,進(jìn)而查看哪些數(shù)據(jù)不符合實(shí)際業(yè)務(wù)情況。常用的統(tǒng)計(jì)量主要是最大值和最小值,可用于判斷這個(gè)變量中的數(shù)據(jù)是否超出了合理的范圍。3σ準(zhǔn)則:又稱為拉依達(dá)準(zhǔn)則如果數(shù)據(jù)服從正態(tài)分布,在3σ準(zhǔn)則下,異常值被定義為一組測(cè)定值與平均值的偏差超過(guò)三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布中σ代表標(biāo)準(zhǔn)差,,μ代表均值。3σ準(zhǔn)則為:數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6826;數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544;數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9973。距離平均值3σ之外的值出現(xiàn)的概率小于0.003,屬于極個(gè)別的小概率事件,故稱為異常值。箱線圖分析:箱線圖是常用來(lái)識(shí)別異常值的手段之一,具有數(shù)據(jù)不要求服從正態(tài)性、魯棒性強(qiáng)等特性。但在箱線圖中,我們只能看到該變量有無(wú)異常點(diǎn),對(duì)異常點(diǎn)的樣本號(hào)及異常值不能在圖中立即識(shí)別,此時(shí)我們可以借助boxplot.stats()函數(shù)輔助進(jìn)行單變量的異常檢測(cè)。聚類分析:如果需要利用多個(gè)數(shù)值型變量來(lái)決定樣本是否屬于異常值的話,我們可以使用聚類算法來(lái)檢測(cè)異常。最常用的是使用K-means算法,數(shù)據(jù)被分成k組,通過(guò)把它們分配到最近的聚類中心(簇中心)。然后,我們能夠計(jì)算每個(gè)對(duì)象到簇中心的距離(或相似性),并且選擇最大的距離作為異常值。11數(shù)據(jù)變換1203PAGE13數(shù)據(jù)變換對(duì)于數(shù)據(jù)分析建模來(lái)說(shuō),數(shù)據(jù)變換是最常用、也是最有效的一種數(shù)據(jù)處理技術(shù)。經(jīng)過(guò)適當(dāng)?shù)臄?shù)據(jù)轉(zhuǎn)換后,我們才能將原始數(shù)據(jù)轉(zhuǎn)換成適合建模的數(shù)據(jù),模型的效果常常有明顯的提升。正因如此,數(shù)據(jù)變換成了很多數(shù)據(jù)分析師在建模過(guò)程中常使用的數(shù)據(jù)處理手段之一。按照采用的變換方法和目的的不同,數(shù)據(jù)變換常用的有以下幾類:產(chǎn)生衍生變量:前文已經(jīng)有介紹,不再贅述。數(shù)據(jù)分箱:所謂“分箱”,實(shí)際上就是按照變量值劃分的子區(qū)間,如果一個(gè)變量值處于某個(gè)子區(qū)間范圍內(nèi),就稱把該變量值放進(jìn)這個(gè)子區(qū)間所代表的“箱子”內(nèi)。R語(yǔ)言中可以用cut()函數(shù)實(shí)現(xiàn)cut(x,breaks,labels=NULL,include.lowest=FALSE,right=TRUE,dig.lab=3,ordered_result=FALSE,...)

其中,參數(shù)x是數(shù)據(jù)向量,參數(shù)breaks是劃分區(qū)間,參數(shù)labels是否給不同區(qū)間指定標(biāo)簽,參數(shù)include.lowest是否包含最小值,參數(shù)right指定閉區(qū)間方向。數(shù)據(jù)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換也是數(shù)據(jù)分析中常見(jiàn)的數(shù)據(jù)轉(zhuǎn)換手段之一,數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換的主要目的是為了消除變量之間的量剛(各變量的數(shù)據(jù)范圍差異)影響,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)相同范圍之內(nèi),讓不同的變量經(jīng)過(guò)標(biāo)準(zhǔn)化處理后可以有平等分析和比較的基礎(chǔ)。如K均值聚類、層次聚類、主成分分析,一般基于距離的算法或模型都需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。常用的數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換是Min-Max標(biāo)準(zhǔn)化和零-均值標(biāo)準(zhǔn)化。13PAGE14數(shù)據(jù)標(biāo)準(zhǔn)化14數(shù)據(jù)啞變量處理1504PAGE16數(shù)據(jù)啞變量處理啞變量(DummyVariable)也叫虛擬變量,引入啞變量的目的是將不能夠定量處理的變量量化,如性別、年齡、職業(yè)等。這種“量化”通常是通過(guò)引入“啞變量”來(lái)完成的。根據(jù)這些變量的因子水平,構(gòu)建只取0或1的人工變量,通常稱為啞變量。舉一個(gè)例子,假如變量“性別”的取值為:男性、女性。我們可以增加2個(gè)啞變量來(lái)代替“性別”這個(gè)變量,分別為性別.男性(1=男性/0=女性)、性別.女性(1=女性/0=男性)。在研究變量間關(guān)系或者建模時(shí)可能都需要引入啞變量,例如在線性回歸分析中引入啞變量的目的是為了考察定性因素對(duì)因變量的影響。16PAGE17數(shù)據(jù)啞變量處理:caret包中的dummyVars()函數(shù)caret擴(kuò)展包中的dummyVars()函數(shù)專門用于處理啞變量,其基本表達(dá)形式為:dummyVars(formula,data,sep=".",levelsOnly=FALSE,fullRank=FALSE,...)其中,formula

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論