版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、 傾向匹配分析深度(Propsensity matching analysis) 有很多現(xiàn)象和關(guān)聯(lián)似乎顯而易見,然而證明這些“簡單”的現(xiàn)象和關(guān)聯(lián)的過程,可能極其消耗人力和物力。在20世紀(jì)30年代之前,匹配法(也稱控制法)在因果研究中占據(jù)了壓倒性的地位,科學(xué)家認(rèn)為只有將實驗組和對照組的所有情況都盡可能接近,才能兩組間的差異是否歸于處理因素。但是,在要讓實驗組和對照組之前的特征(混雜)盡可能匹配,不僅難以操作,而且會消耗大量資源,尤其在很多情況下,很多因素是試驗者難以去控制的。隨機化概念的起源 在伊利諾伊大學(xué)的莫柔地塊(University of Illinois , Morrow Plots),
2、Fisher通過“分割地塊實驗”(( Split-Plot Experiment ),成功證明了一個在今天看來可能極其簡單,但卻耗費了幾代科學(xué)家上百年努力的結(jié)論:土壤的質(zhì)量是農(nóng)業(yè)生產(chǎn)率最關(guān)鍵的決定因素(Soil quality is a vital component of agricultural productivity)。并開拓了如今廣為人知的方差分析(ANOVA),將隨機實驗法納入了因果分析的殿堂,成為因果分析的金標(biāo)準(zhǔn)。為什么要做傾向值分析 在衛(wèi)生領(lǐng)域,隨機臨床試驗(RCT)是應(yīng)用隨機實驗法最典型的例子。為了證明某種處理(或因素)的作用,將研究對象隨機分組并進行前瞻性的研究,可以最大程
3、度上確保已知和未知的混雜因素對各組的影響均衡,闡明處理因素的真實效應(yīng)。但RCT對研究對象嚴(yán)格的納入和排除標(biāo)準(zhǔn),無疑會影響研究結(jié)果的外推,同時費用和組織困難問題很多時候都是讓人難以承受的。此外,很多研究問題無法做到隨機,甚至有些情況下的隨機是違反倫理道德的。 而非隨機對照研究(如觀察性研究和非隨機干預(yù)研究)能夠較好地耐受RCT中存在的問題,在實際應(yīng)用中更為廣泛。如何利用非隨機化研究的資料探究因果,一直是流行病學(xué)和統(tǒng)計學(xué)研究中非常關(guān)注的問題。傳統(tǒng)的控制混雜的方法如分層、匹配等控制的混雜因素有限,多因素分析的方法在概念上“控制了其他因素,探究某一因素的影響”,依然無法控制混雜因素所導(dǎo)致的偏性。在這種
4、情況下,傾向值分析(Propensity score analysis)的理論和實踐不斷豐富,并在流行病學(xué)、經(jīng)濟學(xué)、社會科學(xué)等領(lǐng)域得到廣泛應(yīng)用。 舉一個簡單的例子。我們常認(rèn)為重點學(xué)校的對于學(xué)生學(xué)習(xí)能力的提升是優(yōu)于一般學(xué)校的。如果把學(xué)校類型視為處理因素,而結(jié)局指標(biāo)為入學(xué)后成績的改變量。那么不同學(xué)校間學(xué)生成績改變量的差異,究竟是因為學(xué)校不同(處理因素,簡單理解為師資、設(shè)施等條件的綜合),還是因為考入重點學(xué)校的學(xué)生,本身就比一般學(xué)校的學(xué)生更聰明,更勤奮,家長的受教育水平更高,對教育的投資更大(混雜因素)?如果控制這些混雜因素以后,學(xué)校對成績的影響,是否就會發(fā)生很大變化?學(xué)生進入何種學(xué)校學(xué)習(xí)(接受不同
5、處理)的概率是不同的,受到了很多因素的影響,而這些因素同時可能也會影響結(jié)局,導(dǎo)致分析處理效應(yīng)時的偏性。 傾向值就是研究的個體在一定可觀測到的協(xié)變量(混雜)存在的情況下,接受某種干預(yù)的可能性。而傾向評分析,就是利用傾向值從對照組中為處理組中的每個個體尋找一個或多個背景特征一樣或相似的個體作為對照,使兩組的混雜因素的分布也趨于均衡,實現(xiàn)類似于隨機化設(shè)計中的隨機分配干預(yù)的目的。傾向值分析的步驟經(jīng)典的傾向值分析主要包括以下3步(上圖來自推薦書目1,P85)1. 尋找最佳的協(xié)變量,構(gòu)建估計傾向值的模型。 模型的因變量為是否接受處理,自變量通常是同時影響處理因素和結(jié)局的變量(混雜),或是在干預(yù)組和對照組之
6、間分布不均衡的變量。傾向值的模型以logistic回歸模型最為常見,構(gòu)建理想的傾向值模型和以是否接受處理為因變量,找到最恰當(dāng)?shù)淖宰兞拷M合的logistic回歸其實在原理上幾乎是完全一致的。模型系數(shù)的假設(shè)檢驗、擬合度、逐步法篩選變量等,此外,一種較新的自動選擇的算法一般加速建模(GBM)法也可用于選擇變量和構(gòu)建模型。 通過構(gòu)建的模型,可以計算出每個研究對象的傾向值評分,它代表了研究對象接受處理的可能性。因此,具有一樣傾向值的研究對象,在模型中的協(xié)變量是均衡可比的(而并非取值上完全一致)。2. 匹配 根據(jù)傾向值的結(jié)果,從對照組中選擇1:M個傾向值接近的個體與處理組匹配。如果處理組和對照組在協(xié)變量的
7、分布上差別較大,則傾向值的分布也會差別較大,所以有了共同支持域(common support)的概念(下圖,推薦書目1,P97)。共同支持域可以理解為處理組和對照組傾向值得分一樣的圍,在共同支持域的進行匹配,可能兩組間協(xié)變量的分布更均衡(涉與到算法的選擇和設(shè)置等問題)。匹配的算法有有Nearest Neighbor Matching(最鄰近匹配)、Full matching(完全匹配)、精確匹配(Exact Match)、Optimal matching(最優(yōu)匹配)等。其中Nearest Neighbor Matching 和Optimal matching較為常用。不同算法各有優(yōu)劣,實際應(yīng)用
8、中一般選擇可以使匹配后的處理組和對照組協(xié)變量均衡,且研究對象丟失不多的算法。3. 匹配后分析 包括分層分析和多元分析等,不同研究采用的方法差別較大,可參照和自己方向類似的文獻。傾向得分匹配的命令研究某項治療、政策、或者其他事件的影響因素上很常見。對于經(jīng)濟、金融學(xué)領(lǐng)域來說,比如需要研究某個勞動者接受某種高等教育對其收入的影響,或者比如研究某個企業(yè)運用了某項管理層激勵措施以后對企業(yè)業(yè)績的影響。如果我們簡單地將是否執(zhí)行了某項時間作為虛擬變量,而對總體進行回歸的話,參數(shù)估計就會產(chǎn)生偏誤,因為在這樣的情況下,我們只觀察到了某一個對象他因為發(fā)生了某一事件后產(chǎn)生的表現(xiàn),并且拿這種表現(xiàn)去和另一些沒有發(fā)生這件事
9、情的其他對象去做比較。這樣的比較顯然是不科學(xué)的,因為比較的基礎(chǔ)并不同。通俗地說,我們真正要做的是考慮,如果拿小明來說,小明讀了研究生和小明沒有讀研究生,他的收入會差多少?可是小明已經(jīng)讀了研究生,我怎么才能估計出他要是不讀研究生,他的收入會是多少呢?于是,我們引入“傾向得分匹配”這樣一種研究方法。英文叫Propensity Score Matching。這種方法能讓我們從一大堆沒有參加培訓(xùn)的人群中(也就是我們的總體樣本的一個子集),對每個人讀研究生的概率進行估計,然后選出和小明具有非常相似的去讀研究生的概率,可是沒有去讀的同學(xué)小剛作為小明的對照,然后再來看他們的區(qū)別。當(dāng)樣本中的每個研究生”小明“
10、都找到了匹配的非研究生”小剛“,我們便能對這兩組樣本進行比較研究了。1. 所以第一步,我們要對總體樣本執(zhí)行probit或者logit模型,然后估計出每一個觀測對象讀研究生的概率是多少。以probit模型為例,在stata中,執(zhí)行以下命令:probit dependent var independent var其中,dependent var是一個0或1的二進制變量,1代表該對象讀了研究生,否則是0。2. 對每一個觀測值,我們根據(jù)估計出來的probit模型,算出他讀研究生的概率是多少。Stata中,執(zhí)行如下命令:predict pscore, p其中,pscore是定義的記錄每個觀測對象概率的變
11、量名稱。3. 使用psmatch2命令,讓Stata幫你對于每個讀了研究生的觀測對象,找出一個與之具有最接近的概率值的,可是沒有讀研究生的觀測對象:psmatch2 dependent var, pscore(pscore) noreplacement其中,(pscore)是在第二步中生成的那個記錄對象概率的變量,noreplacement是一個選項,使得任何讀了研究生的觀察對象的對照對象都具有唯一性,換言之,只能1對1匹配。4. Stata會在你的數(shù)據(jù)中自動添加幾個變量,其中_id是自動生成的每一個觀測對象唯一的ID;_treated表示某個對象是否讀了研究生,如果讀了,_n表示的是他被匹配
12、到的對照對象的_id;_pdif表示一組匹配了的觀察對象他們概率值的差。做好了這些,你就完成了一個最簡單的1對1的傾向得分匹配。psmatch2還提供多種匹配方法,比如在一定的半徑圍的臨近匹配、在一定概率閥值的全部匹配等等。具體的可以在Stata中輸入help psmatch2查看所有可用的選項。傾向得分匹配的理論傾向得分匹配的理論框架是“反事實推斷模型”?!胺词聦嵧茢嗄P汀奔俣ㄈ魏我蚬治龅难芯繉ο蠖加袃煞N條件下的結(jié)果:觀測到的和未被觀測到的結(jié)果。如果我們說“A是導(dǎo)致B的原因”,用的就是一種“事實述法”。而“反事實”的推斷法則是:如果沒有A,那么B的結(jié)果將怎樣(此時,其實A已經(jīng)發(fā)生了)?因此
13、,對于處在干預(yù)狀態(tài)(treatment condition)的成員而言,反事實就是處在控制狀態(tài)(condition of control)下的潛在結(jié)果(potential outcome);相反,對于處在控制狀態(tài)的成員而言,反事實就是處在干預(yù)狀態(tài)下的潛在結(jié)果。顯然,這些潛在結(jié)果是我們無法觀測到的,也就是說,它們是缺失的。PSM介紹傾向得分匹配的理論框架是“反事實推斷模型”?!胺词聦嵧茢嗄P汀奔俣ㄈ魏我蚬治龅难芯繉ο蠖加袃煞N條件下的結(jié)果:觀測到的和未被觀測到的結(jié)果。如果我們說“A是導(dǎo)致B的原因”,用的就是一種“事實述法”。而“反事實”的推斷法則是:如果沒有A,那么B的結(jié)果將怎樣(此時,其實A已
14、經(jīng)發(fā)生了)?因此,對于處在干預(yù)狀態(tài)(treatment condition)的成員而言,反事實就是處在控制狀態(tài)(condition of control)下的潛在結(jié)果(potential outcome);相反,對于處在控制狀態(tài)的成員而言,反事實就是處在干預(yù)狀態(tài)下的潛在結(jié)果。顯然,這些潛在結(jié)果是我們無法觀測到的,也就是說,它們是缺失的。我們假定有N個個體,每一個處在干預(yù)中的個體i(i=1,2, ,N)都將有兩種潛在結(jié)果( ),分別對應(yīng)著未被干預(yù)狀態(tài)和干預(yù)狀態(tài)中的潛在結(jié)果。那么對一個個體進行干預(yù)的效應(yīng)標(biāo)記為 ,表示干預(yù)狀態(tài)的潛在結(jié)果與未干預(yù)狀態(tài)的潛在結(jié)果之間的差,即: 令 表示接受干預(yù), 表示未
15、接受干預(yù),同時 表示所測試的結(jié)果變量。那么反事實框架可以表示為以下模型: 該模型也可以表示為: 這個模型表明,兩種結(jié)果中的哪一種將在現(xiàn)實中被觀測到,取決于干預(yù)狀態(tài),即D的狀態(tài)。用ATT(Average treatmenteffect for the treated)來測度個體在干預(yù)狀態(tài)下的平均干預(yù)效應(yīng),即表示個體i在干預(yù)狀態(tài)下的觀測結(jié)果與其反事實的差,稱為平均干預(yù)效應(yīng)的標(biāo)準(zhǔn)估計量, 很明顯,反事實 是我們觀測不到的,所以我們只有使用個體i在未干預(yù)狀態(tài)下的觀測結(jié)果 作為替代來估計個體在干預(yù)狀態(tài)下的潛在結(jié)果反事實。所以,給公式可以進一步表示為: 顯然,這里需要到數(shù)據(jù)的隨機性了。在實驗數(shù)據(jù)中,個體是
16、隨機分配(random assignment)的,所以個體的所有特征在干預(yù)組和控制組之間是相等,也就無需考慮用 作為替代對反事實 進行估計時存在的偏差了,這里稱為選擇偏倚,換句話說,實驗數(shù)據(jù)能夠確保數(shù)據(jù)的選擇偏倚為0,所以實驗設(shè)計中,隨機性能保證干預(yù)組和控制組之間的數(shù)據(jù)平衡。而對于觀測數(shù)據(jù),往往由于缺乏隨機性,而導(dǎo)致干預(yù)組和控制組不僅僅在干預(yù)統(tǒng)計量上存在不同,還在第三方變量X(這個變量是可觀測的)上存在區(qū)別。這時,我們必須要考慮到這些區(qū)別以防止出現(xiàn)潛在偏倚。這時就要采用匹配的方式進行干預(yù)效應(yīng)分析。匹配的目的在于確保干預(yù)效應(yīng)估計是建立在可比個體之間的不同結(jié)果的基礎(chǔ)上。最簡單的匹配方式是將干預(yù)組和
17、控制組中第三方變量X的值一樣的兩個個體進行配對分析。但是,如果X并不是某一個變量,而是一組變量時,最終簡單的匹配方式也就不再適用,而是采用傾向得分匹配方式進行匹配。最簡單匹配方法的幾個假設(shè):條件獨立假設(shè)(conditionalindependence assumption or CIA):給定X后干預(yù)狀態(tài)的潛在結(jié)果是獨立的,換句話說,控制住X之后,干預(yù)分配就相當(dāng)于隨機分配。共同支撐條件(common support condition):對于X的每一個值,存在于干預(yù)組或控制組的可能性均為正,即。同時,第二個要求稱為覆蓋條件,即匹配組變量X需要在干預(yù)組和控制組上有足夠的覆蓋,即處理組每一個個體在
18、控制組中都能找到與之匹配的X。若X只有一個變量,則對于給定的X=x,ATT(x)的表達(dá)式為: 顯然,X只有一個變量時,干預(yù)組和控制組針對X的匹配標(biāo)準(zhǔn)是清晰的:對于干預(yù)組個體和控制組個體,他們的X變量的值越近,這兩個個體的特征也就越相似。但,如果X不再只是一個變量,而是一組變量時,所謂“近”的判斷標(biāo)準(zhǔn)也就變得模糊起來。針對這個問題,Rosenbaum and Rubin (1983)解決了維度問題,并證明了如果基于X相關(guān)變量的匹配是有效的,那么基于X變量組的傾向得分的匹配也將同樣有效,從而奠定了PSM的理論基礎(chǔ)。這里,傾向得分是通過logist回歸獲得的,從而將X由多維降到了一維的水平。所以傾向
19、得分中包含了X中所有變量的信息,綜合反映了每個個體X變量組的水平。顯然,傾向得分匹配的優(yōu)勢很明顯降維,它由單個變量(傾向得分)對個體進行匹配來代替了X所有變量為基礎(chǔ)對個體進行匹配。同樣的,PSM的主要定理總結(jié)為以下幾點:定理一,傾向得分p(X)是一個平衡得分。有著一樣傾向得分的兩組個體之間的特征顯然是平衡的。定理二,如果條件獨立假設(shè)依舊成立,那么潛在結(jié)果在傾向得分的條件下也將獨立于干預(yù)狀態(tài)。也就是說,只要向量X包含滿足CIA的所有相關(guān)信息,那么傾向得分的條件作用也就等價于向量X中所有變量的條件作用。所以,PSM的ATT(x)的表達(dá)式為: 為了估計ATT,需對p(X)在干預(yù)上的條件作用的分布取平
20、均: PSM的步驟計算傾向值(采用logistic回歸)進行得分匹配得分匹配的幾種方法:(1)最鄰近匹配(Nearest neighbor matching, NNM)(是否使用卡尺 with or without caliper)以傾向得分為依據(jù),在控制組樣本中向前或向后尋找最接近干預(yù)組樣本得分的對象,并形成配對。(2)半徑匹配(Radius matching)設(shè)定一個常數(shù)r(可理解為區(qū)間或圍,一般設(shè)定為小于傾向得分標(biāo)準(zhǔn)差的四分之一),將實驗組中得分值與控制組得分值的差異在r的進行配對。(3)核匹配(Kernel Matching)將干預(yù)組樣本與由控制組所有樣本計算出的一個估計效果進行配對,其中估計效果由實驗組個體得分值與控制組所有樣本得分值加權(quán)平均獲得,而權(quán)數(shù)則由核函數(shù)計算得出。評定匹配后的平衡性計算平均干預(yù)效果(ATT)進行敏感性分析推薦書籍與文獻 傾向值分析方法相對較新,近年來很多方法也發(fā)展迅速,本文只對起源和主要步驟進行介紹。在模型和算法選擇,匹配后處理等方面有諸多細(xì)節(jié),有需要的可以參照下列書目。 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版宿舍樓智能監(jiān)控設(shè)施承包合同3篇
- 2025年度木材貿(mào)易與木工加工合作合同4篇
- 夏令營2025非傳統(tǒng)教育項目合作合同3篇
- 2025年度木材加工廠設(shè)備租賃合同范本7篇
- 《漢服唯美古詩句》課件
- 2025版實習(xí)員工實習(xí)期間住宿安排合同3篇
- 養(yǎng)生保健與中醫(yī)養(yǎng)生藥物考核試卷
- 合成革表面處理與涂飾技術(shù)考核試卷
- 2025版智能電網(wǎng)信息安全防護合同4篇
- 創(chuàng)業(yè)空間科技創(chuàng)新平臺考核試卷
- 《天潤乳業(yè)營運能力及風(fēng)險管理問題及完善對策(7900字論文)》
- 醫(yī)院醫(yī)學(xué)倫理委員會章程
- xx單位政務(wù)云商用密碼應(yīng)用方案V2.0
- 農(nóng)民專業(yè)合作社財務(wù)報表(三張報表)
- 動土作業(yè)專項安全培訓(xùn)考試試題(帶答案)
- 大學(xué)生就業(yè)指導(dǎo)(高職就業(yè)指導(dǎo)課程 )全套教學(xué)課件
- 死亡病例討論總結(jié)分析
- 第二章 會展的產(chǎn)生與發(fā)展
- 空域規(guī)劃與管理V2.0
- JGT266-2011 泡沫混凝土標(biāo)準(zhǔn)規(guī)范
- 商戶用電申請表
評論
0/150
提交評論