版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)抽樣01102數(shù)據(jù)清洗03數(shù)據(jù)變換04數(shù)據(jù)啞變量處理01數(shù)據(jù)抽樣201PAGE3數(shù)據(jù)抽樣的必要性“抽樣”對于數(shù)據(jù)分析和挖掘來說是一種常見的前期數(shù)據(jù)處理技術(shù)。對于小概率事件、稀有事件的類失衡情況,即在數(shù)據(jù)中可能會存在某個或某些類別下的樣本數(shù)遠(yuǎn)大于另一些類別下的樣本數(shù)目。如果不對數(shù)據(jù)進(jìn)行處理就建模,此時建立的分類器會傾向于預(yù)測數(shù)量較多的一類,顯然該分類器是無效的,并且這種無效是由于訓(xùn)練集中類別不均衡而導(dǎo)致的??朔愂Ш鈫栴}常用的技術(shù)有以下兩種:偏置學(xué)習(xí)過程的方法,它應(yīng)用特定的對少數(shù)類更敏感的評價指標(biāo)。用抽樣方法來操作訓(xùn)練數(shù)據(jù),從而改變類的分布。有多種抽樣方法用于改變數(shù)據(jù)集中的類失衡,常用的有以下兩種:欠采樣法,它從多數(shù)類中選擇小部分案例,并把它們和少數(shù)類樣本一起組成一個相對平衡的數(shù)據(jù)集。過采樣法,它采用另外的工作模式,使用某些進(jìn)程來復(fù)制少數(shù)類樣本。3PAGE4類失衡處理方法:SMOTE有一種系統(tǒng)構(gòu)造人工數(shù)據(jù)樣本的方法SMOTE(SyntheticMinorityOver-samplingTechnique)。在R語言中,DMwR擴(kuò)展包中的SMOTE()函數(shù)可以實現(xiàn)SMOTE方法。該函數(shù)可以實現(xiàn)過采樣或欠采樣的SMOTE方法。該函數(shù)常用參數(shù)有三個:perc.over:過采樣時,生成少數(shù)類的新樣本個數(shù);;k:過采樣中使用K近鄰算法生成少數(shù)類樣本時的K值,默認(rèn)是5;perc.under:欠采樣時,對應(yīng)每個生成的少數(shù)類樣本,選擇原始數(shù)據(jù)多數(shù)類樣本的個數(shù)。例如,當(dāng)perc.over=500表示對原始數(shù)據(jù)集中的每個少數(shù)樣本,都將生成5個新的少數(shù)樣本;perc.under=80表示從原始數(shù)據(jù)集中選擇的多數(shù)類的樣本數(shù)據(jù)集中新生成少數(shù)樣本的80%。4PAGE5數(shù)據(jù)隨機(jī)抽樣:sample()函數(shù)sample()函數(shù)基本表達(dá)形式為:sample(x,size,replace=FALSE,prob=NULL)其中x是數(shù)值型向量,size是抽樣個數(shù),replace表示是否有放回抽樣,默認(rèn)FALSE是無放回抽樣,TURE是有放回抽樣。5>set.seed(1234)>(x<-seq(1,10))[1]12345678910>(a<-sample(x,8,replace=FALSE))#無放回抽樣[1]106541827>(b<-sample(x,8,replace=TRUE))#有放回抽樣[1]761064844>#當(dāng)size大于x的長度>sample(x,15,replace=FALSE)Errorin(length(x),size,replace,prob):cannottakeasamplelargerthanthepopulationwhen'replace=FALSE'>sample(x,15,replace=TRUE)[1]5848341052843793PAGE6數(shù)據(jù)等比抽樣:createDataPartition函數(shù)通過sample()函數(shù)雖然能實現(xiàn)對數(shù)據(jù)集按照某個變量的類別進(jìn)行等比例抽樣,但是當(dāng)類別多的時候代碼就比較繁瑣?,F(xiàn)在給大家介紹caret擴(kuò)展包中的createDataPartition()函數(shù),可以快速實現(xiàn)數(shù)據(jù)按照因子變量的類別進(jìn)行快速等比例抽樣。其函數(shù)基本表達(dá)形式為:
createDataPartition(y,times=1,p=0.5,list=TRUE,groups=min(5,length(y)))其中y是一個向量,times表示需要進(jìn)行抽樣的次數(shù),p表示需要從數(shù)據(jù)中抽取的樣本比例,list表示結(jié)果是否為列表形式,默認(rèn)為TRUE,groups表示如果輸出變量為數(shù)值型數(shù)據(jù),則默認(rèn)按分位數(shù)分組進(jìn)行取樣。6PAGE7用于交叉驗證的樣本抽樣caret擴(kuò)展包中的createFolds()函數(shù)和createMultiFolds()函數(shù)。createFolds()函數(shù)的基本形式為:
createFolds(y,k=10,list=TRUE,returnTrain=FALSE)其中y是我們要依據(jù)分類的變量;k指定k折交叉驗證的樣本,默認(rèn)為10,每份的樣本量為總量/k;list是否以列表或矩陣的形式存儲隨機(jī)抽取的索引號,默認(rèn)為TRUE;returnTrain是否返回抽樣的真實值,默認(rèn)返回樣本的索引值。createMultiFolds函數(shù)的基本表達(dá)式為:
createMultiFolds(y,k=10,times=5)其中k指定k折交叉驗證的樣本,默認(rèn)為10,每份的樣本量為總量/k;times指定抽樣組數(shù),默認(rèn)為5組(每組中都有10折抽樣)。7數(shù)據(jù)清洗802PAGE9缺失值處理及判斷:識別缺失值R語言中缺失值以NA(NotAvailable)表示,判斷數(shù)據(jù)中是否存在缺失值最基本的函數(shù)是is.na(),它可以應(yīng)用于向量、數(shù)據(jù)框等多種對象,返回結(jié)果為邏輯值。當(dāng)元素為缺失值時,返回TRUE,當(dāng)元素有真實值時,返回FALSE。例如,令y<-c(1,2,3,NA),則is.na(y)返回向量c(FALSE,FALSE,FALSE,TRUE)。mice擴(kuò)展包中的md.pattern()函數(shù)可生成一個以矩陣或數(shù)據(jù)框形式展示缺失值模式的表格,該函數(shù)只有一個參數(shù),就是要判斷的矩陣或者數(shù)據(jù)框。R語言有多種對數(shù)據(jù)缺失值模式進(jìn)行可視化的方法,此處介紹常用的一種方法??梢岳肰IM擴(kuò)展包中的aggr()函數(shù)以圖形方式描述數(shù)據(jù)的缺失情況。其表達(dá)形式為:
aggr(x,delimiter=NULL,plot=TRUE,...)x表示一個向量、矩陣或數(shù)據(jù)框,delimiter用于區(qū)分插補變量,如果給出對應(yīng)的值說明變量的值已被插補,但在判斷缺失模式時,這一參數(shù)默認(rèn)是忽略的;plot是邏輯值,指明是否繪制圖形,默認(rèn)為TRUE。9PAGE10缺失值處理及判斷:處理缺失值刪除缺失樣本:直接過濾缺失樣本是最簡單的方式,前提是缺失數(shù)據(jù)的比例較少,而且缺失數(shù)據(jù)是隨機(jī)出現(xiàn)的,這樣刪除缺失樣本后對分析結(jié)果影響不大。R語言中使用na.omit()函數(shù)可以刪除帶有缺失值的記錄,只留下完整的記錄。對缺失值進(jìn)行替換:在數(shù)據(jù)挖掘中,通常面對的是大型數(shù)據(jù)庫,它的變量有幾十上百個,因為一個變量值的缺失而放棄大量的其他變量值,這種刪除是對信息的極大浪費,最常見的就是通過給缺失元素賦值的方式來解決。常用的賦值方式是利用變量均值或中位數(shù)來代替缺失值,這樣做的優(yōu)點在于不會減少樣本信息,處理起來簡單,但缺點在于當(dāng)缺失數(shù)據(jù)不是隨機(jī)出現(xiàn)時會產(chǎn)生偏差。對缺失值進(jìn)行賦值:使用均值、中位數(shù)對缺失元素進(jìn)行替換的方法僅僅使用變量自身數(shù)據(jù)進(jìn)行處理。實際工作中,很多數(shù)據(jù)集各變量間是相互影響的,我們可以使用建模方式對變量缺失元素進(jìn)行預(yù)測。此方法將通過諸如線性回歸、邏輯回歸、決策樹、組合、貝葉斯定理、K近鄰算法、隨機(jī)森林等算法去預(yù)測缺失值,也就是把缺失數(shù)據(jù)所對應(yīng)的變量當(dāng)作因變量,其他變量作為自變量,為每個需要進(jìn)行缺失值賦值的字段分別建立預(yù)測模型。10PAGE11異常值判斷處理數(shù)據(jù)樣本中的異常值(Outlier)通常是指一個離散類別型變量(Category)里某個類別值出現(xiàn)的次數(shù)太少,或者指一個數(shù)值區(qū)間型變量(Interval)里某些取值太大或太小。忽視異常值的存在是十分危險的,不加剔除地把異常值加入數(shù)據(jù)的計算分析過程中,很可能會干擾模型系數(shù)的計算和評估,從而嚴(yán)重降低模型的穩(wěn)定性。數(shù)值區(qū)間型變量的異常值是指樣本中的個別值,其數(shù)值明顯偏離其余樣本的觀測值。異常值也稱為離群點,因此異常值分析也稱為離群點分析。對異常值的分析方法主要有:簡單統(tǒng)計量分析、3σ準(zhǔn)則、箱線圖分析、聚類分析。簡單統(tǒng)計量分析:拿到一份數(shù)據(jù),可以先對數(shù)據(jù)進(jìn)行描述統(tǒng)計量分析,進(jìn)而查看哪些數(shù)據(jù)不符合實際業(yè)務(wù)情況。常用的統(tǒng)計量主要是最大值和最小值,可用于判斷這個變量中的數(shù)據(jù)是否超出了合理的范圍。3σ準(zhǔn)則:又稱為拉依達(dá)準(zhǔn)則如果數(shù)據(jù)服從正態(tài)分布,在3σ準(zhǔn)則下,異常值被定義為一組測定值與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布中σ代表標(biāo)準(zhǔn)差,,μ代表均值。3σ準(zhǔn)則為:數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6826;數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544;數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9973。距離平均值3σ之外的值出現(xiàn)的概率小于0.003,屬于極個別的小概率事件,故稱為異常值。箱線圖分析:箱線圖是常用來識別異常值的手段之一,具有數(shù)據(jù)不要求服從正態(tài)性、魯棒性強等特性。但在箱線圖中,我們只能看到該變量有無異常點,對異常點的樣本號及異常值不能在圖中立即識別,此時我們可以借助boxplot.stats()函數(shù)輔助進(jìn)行單變量的異常檢測。聚類分析:如果需要利用多個數(shù)值型變量來決定樣本是否屬于異常值的話,我們可以使用聚類算法來檢測異常。最常用的是使用K-means算法,數(shù)據(jù)被分成k組,通過把它們分配到最近的聚類中心(簇中心)。然后,我們能夠計算每個對象到簇中心的距離(或相似性),并且選擇最大的距離作為異常值。11數(shù)據(jù)變換1203PAGE13數(shù)據(jù)變換對于數(shù)據(jù)分析建模來說,數(shù)據(jù)變換是最常用、也是最有效的一種數(shù)據(jù)處理技術(shù)。經(jīng)過適當(dāng)?shù)臄?shù)據(jù)轉(zhuǎn)換后,我們才能將原始數(shù)據(jù)轉(zhuǎn)換成適合建模的數(shù)據(jù),模型的效果常常有明顯的提升。正因如此,數(shù)據(jù)變換成了很多數(shù)據(jù)分析師在建模過程中常使用的數(shù)據(jù)處理手段之一。按照采用的變換方法和目的的不同,數(shù)據(jù)變換常用的有以下幾類:產(chǎn)生衍生變量:前文已經(jīng)有介紹,不再贅述。數(shù)據(jù)分箱:所謂“分箱”,實際上就是按照變量值劃分的子區(qū)間,如果一個變量值處于某個子區(qū)間范圍內(nèi),就稱把該變量值放進(jìn)這個子區(qū)間所代表的“箱子”內(nèi)。R語言中可以用cut()函數(shù)實現(xiàn)cut(x,breaks,labels=NULL,include.lowest=FALSE,right=TRUE,dig.lab=3,ordered_result=FALSE,...)
其中,參數(shù)x是數(shù)據(jù)向量,參數(shù)breaks是劃分區(qū)間,參數(shù)labels是否給不同區(qū)間指定標(biāo)簽,參數(shù)include.lowest是否包含最小值,參數(shù)right指定閉區(qū)間方向。數(shù)據(jù)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換也是數(shù)據(jù)分析中常見的數(shù)據(jù)轉(zhuǎn)換手段之一,數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換的主要目的是為了消除變量之間的量剛(各變量的數(shù)據(jù)范圍差異)影響,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個相同范圍之內(nèi),讓不同的變量經(jīng)過標(biāo)準(zhǔn)化處理后可以有平等分析和比較的基礎(chǔ)。如K均值聚類、層次聚類、主成分分析,一般基于距離的算法或模型都需要對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。常用的數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換是Min-Max標(biāo)準(zhǔn)化和零-均值標(biāo)準(zhǔn)化。13PAGE14數(shù)據(jù)標(biāo)準(zhǔn)化14數(shù)據(jù)啞變量處理1504PAGE16數(shù)據(jù)啞變量處理啞變量(DummyVariable)也叫虛擬變量,引入啞變量的目的是將不能夠定量處理的變量量化,如性別、年齡、職業(yè)等。這種“量化”通常是通過引入“啞變量”來完成的。根據(jù)這些變量的因子水平,構(gòu)建只取0或1的人工變量,通常稱為啞變量。舉一個例子,假如變量“性別”的取值為:男性、女性。我們可以增加2個啞變量來代替“性別”這個變量,分別為性別.男性(1=男性/0=女性)、性別.女性(1=女性/0=男性)。在研究變量間關(guān)系或者建模時可能都需要引入啞變量,例如在線性回歸分析中引入啞變量的目的是為了考察定性因素對因變量的影響。16PAGE17數(shù)據(jù)啞變量處理:caret包中的dummyVars()函數(shù)caret擴(kuò)展包中的dummyVars()函數(shù)專門用于處理啞變量,其基本表達(dá)形式為:dummyVars(formula,data,sep=".",levelsOnly=FALSE,fullRank=FALSE,...)其中,formula
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年新版承攬加工合同書范文
- 2025法人向公司借款合同
- 2025年度溫室大棚租賃與現(xiàn)代農(nóng)業(yè)技術(shù)合作合同3篇
- 2025年度農(nóng)村出租房租賃與農(nóng)村環(huán)保產(chǎn)業(yè)合作合同
- 二零二五年度電影宣傳推廣與營銷合同2篇
- 二零二五年度股權(quán)代持服務(wù)協(xié)議:涉及企業(yè)并購的綜合性協(xié)議3篇
- 二零二五年度農(nóng)村宅基地房屋租賃與農(nóng)村文化傳承合同
- 二零二五年度展臺搭建與展覽展示合同3篇
- 二零二五年度法人代表變更與股權(quán)收購協(xié)議3篇
- 2025年度液壓設(shè)備維修保養(yǎng)及安全檢測合同3篇
- 水利水電工程安全管理制度例文(三篇)
- 2025四川宜賓市南溪區(qū)屬國企業(yè)招聘融資人員6人管理單位筆試遴選500模擬題附帶答案詳解
- DB45T 2048-2019 微型消防站建設(shè)管理規(guī)范
- SCTP大云云計算PT2題庫【深信服】認(rèn)證考試題庫及答案
- 外研版(2024新版)七年級上冊英語期末質(zhì)量監(jiān)測試卷 3套(含答案)
- 《測土配方施肥》課件
- 病例報告表(CRF)模板
- 國家開放大學(xué)畢業(yè)生登記表
- CCC例行檢驗和確認(rèn)檢驗程序
- 初中物理競賽教程(基礎(chǔ)篇)第16講比熱容
- 親子鑒定書(共3頁)
評論
0/150
提交評論