版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、單一插補(bǔ)方法與多重插補(bǔ)方法的對比及分析0. 缺失數(shù)據(jù)說明Little和Rubin根據(jù)缺失機(jī)制的不同,缺失數(shù)據(jù)可分為三大類:完全隨機(jī)缺失數(shù)據(jù)(MCAR),隨機(jī)缺失數(shù)據(jù)(MAR)以及非隨機(jī)缺失數(shù)據(jù)(NMAR)。MCAR表示某些變量數(shù)據(jù)的缺失完全不依賴于變量或者回答者的真實情況,是嚴(yán)格意義上的隨機(jī)缺失;MAR表示某些變量數(shù)據(jù)的缺失與回答者的真實情況是獨立的;NMAR則表示變量數(shù)據(jù)的缺失與回答者的真實情況之間有相關(guān)的聯(lián)系,并不是隨機(jī)缺失的。實際情況中,缺失數(shù)據(jù)對數(shù)據(jù)分析造成較大的影響,主要表現(xiàn)在兩個方面:數(shù)據(jù)統(tǒng)計的功效以及會帶來有偏估計。Kim和Curry(1997)發(fā)現(xiàn)當(dāng)有2%的數(shù)據(jù)缺失時,若采用列
2、表刪除的方法,將會帶來18.3%全部信息的丟失。Quinten和Raaijmakers(1999)的研究表明10%35%的數(shù)據(jù)缺失會帶來35%98%的信息丟失??梢姡瑢θ笔У臄?shù)據(jù)不進(jìn)行處理會給整個數(shù)據(jù)結(jié)構(gòu)帶來巨大的影響。故而,在數(shù)據(jù)分析中,對缺失數(shù)據(jù)的處理至關(guān)重要,同時該部分也是目前新興學(xué)科數(shù)據(jù)挖掘技術(shù)的重要組成部分。在處理缺失數(shù)據(jù)時,為了方便處理,一般假定缺失機(jī)制為MAR或者M(jìn)CAR,這樣可利用數(shù)理統(tǒng)計方法進(jìn)行處理。缺失數(shù)據(jù)的處理方法可分為三大類:直接刪除法、插補(bǔ)法、基于模型的預(yù)測方法。其中直接刪除法最為便捷,同時也是最為粗糙的方法,該方法易造成真實信息的大量丟失,僅僅適用于極少量的數(shù)據(jù)缺失
3、情況。相比而言,插補(bǔ)法和基于統(tǒng)計模型的預(yù)測方法比較常用,也較為有效。根據(jù)每個缺失值的替代值個數(shù),可將插補(bǔ)方法分為單一插補(bǔ)和多重插補(bǔ)。1. 單一插補(bǔ)與多重插補(bǔ)概念單一插補(bǔ)是指采用一定方式,對每個由于無回答造成的缺失值只構(gòu)造一個合理的替代值,并將其插補(bǔ)到原缺失數(shù)據(jù)的位置上,替代后構(gòu)造出一個完整的數(shù)據(jù)集。多重插補(bǔ)是由哈佛大學(xué)的Rubin教授在1977年首先提出的,該方法是從單一插補(bǔ)的基礎(chǔ)上衍生而來的。指給每個缺失值都構(gòu)造m個替代值(m>1),從而產(chǎn)生了m個完全數(shù)據(jù)集,然后對每個完全數(shù)據(jù)集采用相同的數(shù)據(jù)分析方法進(jìn)行處理,得到m個處理結(jié)果,然后綜合這些處理結(jié)果,基于某種原則,得到最終的目標(biāo)變量的估
4、計。多重插補(bǔ)可分為三個階段:(1)對目標(biāo)變量的估計,(2)創(chuàng)建完全數(shù)據(jù)集,(3)目標(biāo)變量的確定。其中最關(guān)鍵的階段為目標(biāo)變量的估計,該階段需要確定估計缺失值的方法,即缺失值是以何種方法或者模型被估計出來,該階段直接影響統(tǒng)計推斷的有效性。理想的多重插補(bǔ)一般都按照以下方案進(jìn)行:每個插補(bǔ)模型,對無回答Y,m的m次插補(bǔ),實際就是從Y,m的后驗預(yù)測分布中進(jìn)行m次獨立重復(fù)抽取,即從與數(shù)據(jù)和無回答機(jī)制相對應(yīng)的貝葉斯模型中獨立抽取參數(shù)和無回答數(shù)值。實踐中在選擇模型時應(yīng)考慮三個重要問題:模型是2 / 6顯性的還是隱性的,是可忽略的還是不可忽略的,以及插補(bǔ)模型是否適當(dāng)?顯性模型在數(shù)理統(tǒng)計中經(jīng)常使用的方法,比如正態(tài)線
5、性回歸、多元正態(tài)模型等。隱性模型被認(rèn)為是潛在的隱含的“修補(bǔ)”特定數(shù)據(jù)結(jié)構(gòu)的方法,比如非參數(shù)方法、最近距離法等。盡管在理論上顯性模型被認(rèn)為是理想的多重插補(bǔ)技術(shù),但實踐中經(jīng)常采用的卻是隱性模型,或是顯性模型和隱性模型的結(jié)合。例如,Herzog和Rubin曾在美國普查局的熱卡法的基礎(chǔ)上,改進(jìn)生成一種結(jié)合顯性回歸模型和隱性配對模型反復(fù)插補(bǔ)的方法。插補(bǔ)模型,無論是顯性還是隱性,都可按照無回答機(jī)制分為可忽略的模型和不可忽略的模型。例如,X是數(shù)據(jù)中所有單元都回答的變量,Y有回答也有無回答??珊雎缘?Ignorable)模型假設(shè)具有相同X值的回答者和無回答者的差異都是隨機(jī)的。不可忽略的(Non-ignorab
6、le)模型則假設(shè)即使具有相同的X值,回答者和無回答者之間的Y值具有系統(tǒng)差異。在實際數(shù)據(jù)中,如果沒有直接證據(jù)能驗證無回答機(jī)制的假設(shè),可以利用多個模型來研究其敏感性。插補(bǔ)模型,無論是顯性還是隱性,可忽略或是不可忽略,必須是適當(dāng)?shù)哪P?,才可能得出有效推斷。使用適當(dāng)插補(bǔ)模型的本質(zhì)在于,在利用模型進(jìn)行重復(fù)插補(bǔ)時可以正確反映抽樣的變異性,從而才能得出有效推論。例如在可忽略的無回答假設(shè)下,具有相同X值的回答者和無回答者的Y值差異都是隨機(jī)的,但是從相同X值的Y回答值中隨機(jī)抽取插補(bǔ)值,忽略了抽樣變異性,即被抽取的相同X值的Y回答值與相同X值的總體Y值的隨機(jī)差異性。要正確反映這種變異性,才能在既定無回答機(jī)制下得出
7、多重插補(bǔ)的有效推斷。利用近似貝葉斯靴環(huán)法(ABB)可以滿足這一要求。在可忽略的無回答機(jī)制下,假設(shè)收集相同X值的n個單位的資料,其中有n,r個回答者,n,m=n-n,r個無回答者。ABB首先從n,r個回答值中有放回隨機(jī)抽取n,r個值,作為Y的n,r個可能值,再從該n,r個可能值中有放回隨機(jī)抽取n,m個無回答插補(bǔ)數(shù)據(jù)。這里從n,r個可能值而不是n,r個回答值中抽取插補(bǔ)值,至少在簡單隨機(jī)大樣本條件下可以反映不同插補(bǔ)之間的變異性。ABB還可用于不可忽略機(jī)制的無回答的插補(bǔ),比如在第一步不是簡單隨機(jī)抽取,而是按照Y的某函數(shù)(比如Y2)獨立抽取n,r個值。這樣就可以生成偏態(tài)分布的無回答,比如無回答者的Y值大
8、于相同X值的回答者的Y值。2. 單一插補(bǔ)方法分類均值插補(bǔ):分為無條件均值插補(bǔ)和有條件均值插補(bǔ)。無條件均值插補(bǔ)指用所有有回答單元的均值來代替缺失值,若在MCAR條件下,該方法為無偏估計。然而,由于插補(bǔ)值是所有有回答的均值,該數(shù)值過于集中,扭曲了變量的經(jīng)驗分布,總體方差和協(xié)方差被低估。為了得到更精確的數(shù)值,學(xué)者提出了有條件均值插補(bǔ),分為分層均值插補(bǔ)、回歸均值插補(bǔ)和BUCK方法。其中,分層均值插補(bǔ):在插補(bǔ)之前,對變量按照某種規(guī)律進(jìn)行分層,然后用每一層中的均值來代替本層中的缺失值?;貧w均值插補(bǔ):在單調(diào)缺失數(shù)據(jù)模式下,利用回歸的預(yù)測值來代替缺失值。BUCK方法:將回歸插補(bǔ)推廣到更一般的無回答數(shù)據(jù)模式,首
9、先基于回答單元獲得樣本均值和協(xié)方差陣,然后使用這些估計,對每一種無回答數(shù)據(jù)模式計算含有無回答的變量關(guān)于回答變量的最小二乘線性回歸,在此基礎(chǔ)上,用回歸預(yù)測值代替無回答值。隨機(jī)插補(bǔ)與條件均值插補(bǔ)方法類似,只不過在均值插補(bǔ)的基礎(chǔ)上加上隨機(jī)項,該方法通過增加缺失值的隨機(jī)性,改善缺失值分布過于集中的缺陷。同樣可分為兩類:分層隨機(jī)插補(bǔ)和隨機(jī)回歸插補(bǔ)。其中隨機(jī)回歸插補(bǔ)可表示為:yik=k0,1,2k-1+kj12k-1yij+eik熱卡插補(bǔ)該方法指從每一個缺失數(shù)據(jù)的估計分布中抽取插補(bǔ)值替代缺失值,使用回答單元的抽樣分布作為未回答單元的抽取分布。從回答單元中產(chǎn)生插補(bǔ)值所采用的抽樣方式?jīng)Q定了在熱卡插補(bǔ)下有關(guān)總體
10、參數(shù)估計量的性質(zhì),根據(jù)獲得插補(bǔ)值的不同,熱卡插補(bǔ)又可分為:隨機(jī)抽樣熱卡插補(bǔ)、分層熱卡插補(bǔ)、最近距離熱卡插補(bǔ)和序貫熱卡插補(bǔ)。冷卡插補(bǔ)冷卡插補(bǔ)表示從以前的調(diào)查數(shù)據(jù)中獲取信息,如歷史數(shù)據(jù)。同樣該方法不能消除估計偏差。演繹插補(bǔ)該方法是一種輔助變量的插補(bǔ)方法,主要通過演繹輔助資料,查找插補(bǔ)值。插補(bǔ)的有效性很大程度上取決于輔助資料的充分與否以及演繹過程是否合理。3. 多重插補(bǔ)方法分類單調(diào)缺失模式:當(dāng)一個個體觀測值的變量缺失則意味著后面的所有變量也缺失時,則變量的缺失可認(rèn)為為單調(diào)缺失模式。回歸預(yù)測法:傾向得分法:蒙特卡羅的馬氏鏈法:4. 兩種方法的優(yōu)缺點5. 總結(jié)單一插補(bǔ)名詞解釋:后驗概率:源于貝葉斯模型中的概念。后驗概率是指在得到"結(jié)果"的信息后重新修正的概率,如貝葉斯公式中的,是"執(zhí)果尋因"問題中的"果".先驗概率與后驗概率有不可分割的聯(lián)系,后驗概率的計算要以先驗概率為基礎(chǔ)。它的本質(zhì)是條件概率。P(A|B)=P(B|A)*P(A)/P(B)Pr(A)是A的先驗概率或邊緣概
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024八年級數(shù)學(xué)上冊第五章平行四邊形2平行四邊形的判定第3課時由對角線的關(guān)系判定平行四邊形習(xí)題課件魯教版五四制
- 2024年大興安嶺客運(yùn)從業(yè)資格證理論考試題
- 珍惜時間演講稿
- 青春夢想演講稿(35篇)
- 組織校運(yùn)會經(jīng)驗總結(jié)范文
- 簡單的設(shè)備租賃協(xié)議書(3篇)
- 昌平區(qū)未來科技城南區(qū)混凝土試塊強(qiáng)度事宜
- 項目管理人員安全培訓(xùn)試題(原創(chuàng)題)
- 企業(yè)負(fù)責(zé)人安全培訓(xùn)試題及答案原創(chuàng)題
- 滬科版初中七年級下冊數(shù)學(xué):8.4因式分解(第1課時)
- 北京市道德與法治初一上學(xué)期期中試卷及答案指導(dǎo)(2024年)
- 四川省綿陽市高中2025屆高三一診考試物理試卷含解析
- DL∕T 1919-2018 發(fā)電企業(yè)應(yīng)急能力建設(shè)評估規(guī)范
- 《中國糖尿病地圖》要點解讀
- 小學(xué)作文稿紙語文作文作業(yè)格子模板(可打印編輯)
- 氫氧化鈉(CAS:1310-73-2)安全技術(shù)說明書
- 中醫(yī)治療痔瘡醫(yī)案62例
- 農(nóng)村義務(wù)教育經(jīng)費(fèi)保障機(jī)制改革中省專項資金支付管理暫行辦法
- 定義新運(yùn)算知識梳理
- 用友銀企聯(lián)云服務(wù)ppt課件
- 中藥材項目財務(wù)分析表
評論
0/150
提交評論