版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
非參數(shù)統(tǒng)計(jì)推斷非參數(shù)統(tǒng)計(jì)又稱(chēng)為非參數(shù)檢驗(yàn),是指在不考慮原總體分布或者不做關(guān)于參數(shù)假定的前提下,盡量從數(shù)據(jù)或樣本本身獲得所需要的信息,通過(guò)估計(jì)而獲得分布的結(jié)構(gòu),并逐步建立對(duì)事物的數(shù)學(xué)描述和統(tǒng)計(jì)模型的方法,更為穩(wěn)健。5/9/20241經(jīng)驗(yàn)似然介紹及研究狀況講解非參數(shù)統(tǒng)計(jì)方法通常稱(chēng)為“分布自由”的方法,即非參數(shù)數(shù)據(jù)分析方法對(duì)產(chǎn)生數(shù)據(jù)的總體的分布不做假設(shè),或者僅給出很一般的假設(shè),例如連續(xù)型分布、對(duì)稱(chēng)分布等一些簡(jiǎn)單的假設(shè),結(jié)果一般有較好的穩(wěn)定性。所以適用范圍非常寬泛。
在經(jīng)典的統(tǒng)計(jì)框架下,正態(tài)分布一直是最引人注目的,但是對(duì)總體的分布不是隨便做出來(lái)的,盲目地做出正態(tài)分布的假設(shè)有時(shí)候是起反作用的。
當(dāng)數(shù)據(jù)的分布不是很明確,特別當(dāng)樣本容量不大,幾乎無(wú)法對(duì)分布作推斷的時(shí)候,此時(shí)使用參數(shù)方法就有一定的風(fēng)險(xiǎn),我們就可以考慮用非參數(shù)的方法。
但要注意,非參數(shù)方法是與總體分布無(wú)關(guān),而不是與所有分布無(wú)關(guān)!5/9/20242經(jīng)驗(yàn)似然介紹及研究狀況講解非參數(shù)統(tǒng)計(jì)可以處理所有類(lèi)型的數(shù)據(jù)。我們知道,統(tǒng)計(jì)數(shù)據(jù)按照數(shù)據(jù)類(lèi)型可以分為兩大類(lèi):定性數(shù)據(jù)和定量數(shù)據(jù)。李金昌老師2014在《統(tǒng)計(jì)研究》上發(fā)表2篇有關(guān)數(shù)據(jù)及大數(shù)據(jù)等有詳細(xì)的說(shuō)明一般地,參數(shù)統(tǒng)計(jì)是處理定量數(shù)據(jù),如果所收集到的數(shù)據(jù)不符合參數(shù)模型的假定,比如:數(shù)據(jù)只有順序,沒(méi)有大小,則很多參數(shù)模型無(wú)能為力,此時(shí)只能?chē)L試非參數(shù)方法。例如:研究急性白血病患兒血液中血小板數(shù)與出血癥狀之間的關(guān)系。血小板數(shù)可用數(shù)據(jù)衡量,但出血癥狀則只能分為:明顯、較明顯、有出血點(diǎn)和無(wú)這4類(lèi)。類(lèi)似于這樣的“等級(jí)資料”,參數(shù)方法沒(méi)轍,可用非參數(shù)方法中的Spearman等級(jí)相關(guān)方法來(lái)做。5/9/20243經(jīng)驗(yàn)似然介紹及研究狀況講解經(jīng)驗(yàn)似然是Owen(1988)在完全樣本下提出的一種非參數(shù)統(tǒng)計(jì)推斷方法,它有類(lèi)似于bootstrap的抽樣特性.這一方法與經(jīng)典的或現(xiàn)代的統(tǒng)計(jì)方法比較有很多突出的優(yōu)點(diǎn),如:用經(jīng)驗(yàn)似然方法構(gòu)造置性區(qū)間除有域保持性、變換不變性及置信域的形狀由數(shù)據(jù)自行決定等諸多優(yōu)點(diǎn)外,還有Bartlett糾偏性及無(wú)需構(gòu)造軸統(tǒng)計(jì)量等優(yōu)點(diǎn)。5/9/20244經(jīng)驗(yàn)似然介紹及研究狀況講解什么是經(jīng)驗(yàn)似然(EmpiricalLikelihood)不包含未知參數(shù)如何使用它對(duì)參數(shù)作統(tǒng)計(jì)推斷5/9/20245經(jīng)驗(yàn)似然介紹及研究狀況講解Owen-經(jīng)驗(yàn)似然比檢驗(yàn)統(tǒng)計(jì)量關(guān)于求極大值—Lagrange法參數(shù)似然比的對(duì)數(shù)是漸近卡方的,那經(jīng)驗(yàn)似然比?5/9/20246經(jīng)驗(yàn)似然介紹及研究狀況講解如Owen(1988,1990,1991)由對(duì)總體均值的推斷提出經(jīng)驗(yàn)似然并隨后將其應(yīng)用到線性回歸模型的統(tǒng)計(jì)推斷5/9/20247經(jīng)驗(yàn)似然介紹及研究狀況講解例總體均值的經(jīng)驗(yàn)似然5/9/20248經(jīng)驗(yàn)似然介紹及研究狀況講解均值的經(jīng)驗(yàn)對(duì)數(shù)似然5/9/20249經(jīng)驗(yàn)似然介紹及研究狀況講解5/9/202410經(jīng)驗(yàn)似然介紹及研究狀況講解5/9/202411經(jīng)驗(yàn)似然介紹及研究狀況講解經(jīng)驗(yàn)似然---線性回歸模型5/9/202412經(jīng)驗(yàn)似然介紹及研究狀況講解5/9/202413經(jīng)驗(yàn)似然介紹及研究狀況講解經(jīng)驗(yàn)似然---部分線性模型5/9/202414經(jīng)驗(yàn)似然介紹及研究狀況講解經(jīng)驗(yàn)似然—半?yún)?shù)變系數(shù)模型5/9/202415經(jīng)驗(yàn)似然介紹及研究狀況講解經(jīng)驗(yàn)似然---非參數(shù)模型5/9/202416經(jīng)驗(yàn)似然介紹及研究狀況講解Kolaczyk(1994)應(yīng)用經(jīng)驗(yàn)似然于廣義線性模型;Wang&Jing(1999)發(fā)展了部分線性模型的經(jīng)驗(yàn)似然;Chen與Qin(2000)發(fā)展了非參數(shù)回歸的經(jīng)驗(yàn)似然;Qin(1993)應(yīng)用經(jīng)驗(yàn)似然于偏度抽樣模型的統(tǒng)計(jì)推斷;Owen(1992)應(yīng)用經(jīng)驗(yàn)似然到投影尋綜回歸的研究;Zhang(1997a,b)應(yīng)用經(jīng)驗(yàn)似然于分位回歸及M一泛函的統(tǒng)計(jì)推斷;Chuang&Chan(2002)發(fā)展了自回歸模型的經(jīng)驗(yàn)似然方法;Chen&Qin(1993)及Zhong&Rao(2000)應(yīng)用經(jīng)驗(yàn)似然于抽樣調(diào)查問(wèn)題的研究;Kitamura(2001,2002)等應(yīng)用經(jīng)驗(yàn)似然到經(jīng)濟(jì)模型的研究5/9/202417經(jīng)驗(yàn)似然介紹及研究狀況講解近年來(lái)一些統(tǒng)計(jì)學(xué)家又將經(jīng)驗(yàn)似然方法應(yīng)用到不完全數(shù)據(jù)的統(tǒng)計(jì)分析,發(fā)展了所謂的被估計(jì)的經(jīng)驗(yàn)似然、調(diào)整經(jīng)驗(yàn)似然及bootstrap經(jīng)驗(yàn)似然。數(shù)據(jù)被隨機(jī)刪失數(shù)據(jù)測(cè)量有誤差數(shù)據(jù)missing一些被抽樣的個(gè)體不愿提供所需要的信息;一些不可控制的因素產(chǎn)生數(shù)據(jù)丟失;還有一些是調(diào)研人員本身的原因不能收集完全的信息等等,總之,數(shù)據(jù)缺失普遍發(fā)生在民意調(diào)查、市場(chǎng)調(diào)研、郵寄問(wèn)卷調(diào)查、社會(huì)經(jīng)濟(jì)研究、醫(yī)藥研究及生物遺傳等其他科學(xué)實(shí)驗(yàn)中.在此情況下,通?;貧w統(tǒng)計(jì)分析的方法不能直接應(yīng)用,一個(gè)普遍使用的方法是給每一個(gè)缺失數(shù)據(jù)一個(gè)替代值,如此得到一“完全數(shù)據(jù)集”后,再發(fā)展或使用完全數(shù)據(jù)統(tǒng)計(jì)分析方法分析數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)推斷5/9/202418經(jīng)驗(yàn)似然介紹及研究狀況講解如何將經(jīng)驗(yàn)似然方法推廣應(yīng)用到上面三種重要類(lèi)型數(shù)據(jù)的統(tǒng)計(jì)分析是一項(xiàng)重要而困難的任務(wù),正如Hall與LaScala(1990)所指出:盡管經(jīng)驗(yàn)似然有很多突出的優(yōu)點(diǎn),但它很難應(yīng)用到一些比較復(fù)雜數(shù)據(jù)的統(tǒng)計(jì)分析。這一方法的本質(zhì)是在約束條件下極大化非參數(shù)似然比,感興趣的參數(shù)由約束條件帶入這一極大化似然比中.Owen(1988)將這一思想方法應(yīng)用到完全獨(dú)立同分布樣本下總休均值這一簡(jiǎn)單而重要情形的統(tǒng)計(jì)推斷,由于Owen(1988)使用線性約束條件,從而表明了這方法有非常一般的應(yīng)用,這是因?yàn)榻y(tǒng)計(jì)中許多估計(jì)方程關(guān)于感興趣的參數(shù)或參數(shù)的某已知函數(shù)是線性的或許多統(tǒng)計(jì)模型的參數(shù)可由關(guān)于該參數(shù)或它的某已知函數(shù)的線性方程決定。5/9/202419經(jīng)驗(yàn)似然介紹及研究狀況講解Wang與Jing(2001),Wang與`Vang(2001),Wang與Li(2002),Wang與Rao(2001),Wang與Rao(2002a,b,c)推廣Owen在完全樣本下的經(jīng)驗(yàn)似然方法到上面所提到的三種不完全數(shù)據(jù)類(lèi)型的統(tǒng)計(jì)推斷Wang與Jing(2001),Qin與Jing(2001),Wang與Li(2002)及Li與Wang(2002)在隨機(jī)刪失下發(fā)展了生存分布一類(lèi)泛函、處理差異、隨機(jī)刪失線性及部分線性模型的統(tǒng)計(jì)推斷.5/9/202420經(jīng)驗(yàn)似然介紹及研究狀況講解至于經(jīng)驗(yàn)似然在測(cè)量誤差模型中的應(yīng)用,Wang、Rao(2002)不假設(shè)任何誤差模型結(jié)構(gòu)而是在核實(shí)數(shù)據(jù)幫助下,推廣經(jīng)驗(yàn)似然方法到協(xié)變量有測(cè)量誤差的線性模型,定義了一種漸近分布是加權(quán)卡方的被估計(jì)的經(jīng)驗(yàn)對(duì)數(shù)似然,由于權(quán)未知因而該結(jié)果不能直接應(yīng)用到統(tǒng)計(jì)推斷,為了克服這一困難,Wang與Rao使用下面三種方法:第一種方法是通過(guò)給出未知權(quán)的相合估計(jì)使得被估計(jì)的加權(quán)卡方能通過(guò)MonteCarlo模擬計(jì)算獲得,然后應(yīng)用這一加權(quán)分布的近似分布構(gòu)造被估計(jì)的經(jīng)驗(yàn)似然置信區(qū)間;第二種方法是通過(guò)調(diào)整使得調(diào)整后的經(jīng)驗(yàn)對(duì)數(shù)似然漸近標(biāo)準(zhǔn)卡方并應(yīng)用這一結(jié)果構(gòu)造調(diào)整的經(jīng)驗(yàn)似然置信區(qū)間;第三種方法是定義一種部分光滑的bootstrap經(jīng)驗(yàn)似然及部分光滑bootstrap經(jīng)驗(yàn)似然置信區(qū)間5/9/202421經(jīng)驗(yàn)似然介紹及研究狀況講解關(guān)于數(shù)據(jù)missing時(shí)的經(jīng)驗(yàn)似然推斷,這方面王啟華與合作者J.N.K.Rao的做了很多工作.Wang與Rao(2001),Wang與Rao(2002a,b,c)分別在線性imputation和非參數(shù)核回歸imputation下發(fā)展了反映數(shù)據(jù)misssing時(shí)的經(jīng)驗(yàn)似然推斷.近年祝麗萍(2011)討論了缺失數(shù)據(jù)下的經(jīng)驗(yàn)似然的冗余性問(wèn)題。謝錦瀚(2015)研究帶有不可忽略缺失數(shù)據(jù)的廣義線性模型的經(jīng)驗(yàn)似然推斷。5/9/202422經(jīng)驗(yàn)似然介紹及研究狀況講解楊志煌(2015)研究不可忽略缺失數(shù)據(jù)下非線性模型的經(jīng)驗(yàn)似然推斷。他將經(jīng)驗(yàn)似然方法應(yīng)用到帶有不可忽略響應(yīng)變量缺失的非線性模型。所有的目標(biāo)參數(shù)的經(jīng)驗(yàn)似然估計(jì)量或者經(jīng)驗(yàn)似然函數(shù)將通過(guò)兩步獲得。第一步,假設(shè)缺失機(jī)制是一個(gè)參數(shù)Logistic回歸模型后,應(yīng)用極大似然估計(jì)方法可以得到缺失概率(傾向得分函數(shù))的一個(gè)相合估計(jì)。一旦獲得缺失概率的相合估計(jì),基于指數(shù)傾斜模型,可獲得三個(gè)漸進(jìn)無(wú)偏的估計(jì)方程,5/9/202423經(jīng)驗(yàn)似然介紹及研究狀況講解近來(lái)的研究情況1.Empiricallikelihoodforhigh-dimensionallinearregressionmodels2.Highdimensionalgeneralizedempiricallikelihoodformomentrestrictionswithdependentdata
3.Empiricallikelihoodinferenceinlinearregressionwithnonignorablemissingresponse5/9/202424經(jīng)驗(yàn)似然介紹及研究狀況講解什么是高維數(shù)據(jù)高維數(shù)據(jù)的概念其實(shí)不難,簡(jiǎn)單的說(shuō)就是多維數(shù)據(jù)的意思。平時(shí)我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫(xiě)成表形式的二維數(shù)據(jù),高維數(shù)據(jù)也可以類(lèi)推,不過(guò)維數(shù)較高的時(shí)候,直觀表示很難。
目前高維數(shù)據(jù)挖掘是研究重點(diǎn),這是它的特點(diǎn):
高維數(shù)據(jù)挖掘是基于高維度的一種數(shù)據(jù)挖掘,它和傳統(tǒng)的數(shù)據(jù)挖掘最主要的區(qū)別在于它的高維度。目前高維數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘的重點(diǎn)和難點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來(lái)越容易,導(dǎo)致數(shù)據(jù)庫(kù)規(guī)模越來(lái)越大、復(fù)雜性越來(lái)越高,如各種類(lèi)型的貿(mào)易交易數(shù)據(jù)、Web文檔、基因表達(dá)數(shù)據(jù)、文檔詞頻數(shù)據(jù)、用戶評(píng)分?jǐn)?shù)據(jù)、WEB使用數(shù)據(jù)及多媒體數(shù)據(jù)等,它們的維度(屬性)通常可以達(dá)到成百上千維,甚至更高。
5/9/202425經(jīng)驗(yàn)似然介紹及研究狀況講解什么是高維數(shù)據(jù)由于高維數(shù)據(jù)存在的普遍性,使得對(duì)高維數(shù)據(jù)挖掘的研究有著非常重要的意義。但由于“維災(zāi)”的影響,也使得高維數(shù)據(jù)挖掘變得異常地困難,必須采用一些特殊的手段進(jìn)行處理。隨著數(shù)據(jù)維數(shù)的升高,高維索引結(jié)構(gòu)的性能迅速下降,在低維空間中,我們經(jīng)常采用歐式距離作為數(shù)據(jù)之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復(fù)存在,這就給高維數(shù)據(jù)挖掘帶來(lái)了很?chē)?yán)峻的考驗(yàn),一方面引起基于索引結(jié)構(gòu)的數(shù)據(jù)挖掘算法的性能下降,另一方面很多基于全空間距離函數(shù)的挖掘方法也會(huì)失效。解決的方法可以有以下幾種:可以通過(guò)降維將數(shù)據(jù)從高維降到低維,然后用低維數(shù)據(jù)的處理辦法進(jìn)行處理;對(duì)算法效率下降問(wèn)題可以通過(guò)設(shè)計(jì)更為有效的索引結(jié)構(gòu)、采用增量算法及并行算法等來(lái)提高算法的性能;對(duì)失效的問(wèn)題通過(guò)重新定義使其獲得新生。5/9/202426經(jīng)驗(yàn)似然介紹及研究狀況講解李吉妮(2014)研究單指標(biāo)模型的高維懲罰經(jīng)驗(yàn)似然,單指標(biāo)模型是廣義回歸中一種特殊的半?yún)?shù)模型,是處理多元非參數(shù)回歸問(wèn)題的有效工具,應(yīng)用非常廣泛.近二十年,高維數(shù)據(jù)的變量選擇問(wèn)題已成為統(tǒng)計(jì)及其相關(guān)領(lǐng)域中研究的熱點(diǎn)之一.在處理高維數(shù)據(jù)時(shí),單指標(biāo)模型的降維特性不僅有效地避免了“維數(shù)災(zāi)難(curseofdimensionality)”問(wèn)題,還抓住了高維數(shù)據(jù)的稀疏特性.有關(guān)運(yùn)用單指標(biāo)模型討論變量選擇方法的文章層出不窮,但大部分都是針對(duì)參數(shù)維數(shù)p是固定時(shí)的情況.然而在很多高維的變量選擇問(wèn)題中,參數(shù)維數(shù)p一般都會(huì)隨著樣本容量n的增大而同時(shí)增大.因此,在本文中,我們對(duì)單指標(biāo)模型提出了一種穩(wěn)健的變量選擇方法:基于SCAD(SmoothlyClippedAbsoluteDeviation)懲罰函數(shù)及經(jīng)驗(yàn)似然的懲罰經(jīng)驗(yàn)似然.在一定正則條件下,發(fā)現(xiàn)參數(shù)維數(shù)p隨樣本量n同時(shí)增大的懲罰經(jīng)驗(yàn)似然估計(jì)仍具有Oracle性質(zhì)。5/9/202427經(jīng)驗(yàn)似然介紹及研究狀況講解Agoodpenaltyfunctionshouldresultinanestimatorwiththreeproperties:1.Unbiasedness:Theresultingestimatorisnearlyunbiasedwhenthetrueunknownparameterislargetoavoidunnecessarymodelingbias.2.Sparsity:Theresultingestimatorisathresholdingrule,whichautomaticallysetssmallestimatedcoeffcientstozerotoreducemodelcomplexity.3.Continuity:Theresultingestimatoriscontinuousindataztoavoidinstabilityinmodelprediction.5/9/202428
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 馬場(chǎng)租賃合同范本
- 2025年廣西貨運(yùn)從業(yè)資格證考試題技巧
- 商業(yè)廠房租賃協(xié)議模板
- 租車(chē)合同樣本
- 2024液化氣運(yùn)輸合同緊急情況應(yīng)對(duì)與救援服務(wù)范本3篇
- 環(huán)保設(shè)施運(yùn)營(yíng)渠道施工合同
- 2025裝修工程承包合同書(shū)
- 二零二五年度醫(yī)院藥品供應(yīng)合同15篇
- 2024版分包意向協(xié)議書(shū)模板2篇
- 交通運(yùn)輸企業(yè)財(cái)務(wù)總監(jiān)合同
- 《雪地尋蹤》選擇題及答案
- 中醫(yī)科工作總結(jié)及計(jì)劃
- 窗簾采購(gòu)?fù)稑?biāo)方案(技術(shù)標(biāo))
- 供貨商合同協(xié)議書(shū)簡(jiǎn)單版正規(guī)范本(通用版)
- 職業(yè)學(xué)校消防安全課件
- 2023迎春幫困活動(dòng)總結(jié)
- 基于多元回歸的計(jì)量經(jīng)濟(jì)學(xué)論文
- 工程全過(guò)程造價(jià)咨詢服務(wù)方案(技術(shù)方案)
- 數(shù)字媒體專(zhuān)業(yè)發(fā)展規(guī)劃
- 項(xiàng)目風(fēng)險(xiǎn)預(yù)測(cè)與防范事故應(yīng)急預(yù)案
- 15D502等電位連接安裝圖集
評(píng)論
0/150
提交評(píng)論