數(shù)據(jù)挖掘方法應(yīng)用于調(diào)查數(shù)據(jù)的抽樣權(quán)重問(wèn)題_第1頁(yè)
數(shù)據(jù)挖掘方法應(yīng)用于調(diào)查數(shù)據(jù)的抽樣權(quán)重問(wèn)題_第2頁(yè)
數(shù)據(jù)挖掘方法應(yīng)用于調(diào)查數(shù)據(jù)的抽樣權(quán)重問(wèn)題_第3頁(yè)
數(shù)據(jù)挖掘方法應(yīng)用于調(diào)查數(shù)據(jù)的抽樣權(quán)重問(wèn)題_第4頁(yè)
數(shù)據(jù)挖掘方法應(yīng)用于調(diào)查數(shù)據(jù)的抽樣權(quán)重問(wèn)題_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘方法應(yīng)用于調(diào)查數(shù)據(jù)的抽樣權(quán)重問(wèn)題一于放回比例抽樣的再抽樣方法金勇進(jìn)謝佳斌謝邦昌內(nèi)容提要:在將數(shù)據(jù)挖掘方法應(yīng)用于抽樣調(diào)查數(shù)據(jù)時(shí),會(huì)遇到抽樣權(quán)重的處理問(wèn)題。本 文提出采用放回的、與樣本單元權(quán)數(shù)大小成比例的再抽樣方法,簡(jiǎn)稱PPWWR再抽樣,來(lái) 實(shí)現(xiàn)“事后”自加權(quán)設(shè)計(jì)。實(shí)現(xiàn)“事后”自加權(quán)設(shè)計(jì)后的子樣本可忽略掉樣本權(quán)數(shù),直接采用常 規(guī)的圖示方法和數(shù)據(jù)挖掘算法進(jìn)行分析。隨后,基于2007中國(guó)公民科學(xué)素質(zhì)調(diào)查貴州省數(shù) 據(jù),通過(guò)模擬分析討論了 PPWWR再抽樣子樣本的樣本量問(wèn)題,發(fā)現(xiàn)max(n,5%N)是一 個(gè)比較合適的樣本量。這一結(jié)論可能為其它大型復(fù)雜抽樣調(diào)查數(shù)據(jù)的數(shù)據(jù)挖掘?qū)嵤﹩?wèn)題提供 借鑒。關(guān)鍵詞

2、:調(diào)查數(shù)據(jù);抽樣權(quán)重;數(shù)據(jù)挖掘;PPWWR再抽樣中圖分類號(hào):C811文獻(xiàn)標(biāo)識(shí)碼:AThe study on handling sampling weights associated with thesurvey data when applying data mining methodsBased on the method of re-sampling with PPWWRJin Yongjin Xie Jia bin Xie BangchangAbstract: The problem of how to deal with sampling weights appears when ap

3、plying data mining methods to survey data. We suggest the method of re-sampling with probability proportional to the weights with replacement (PPWWR) to achieve post self-weighting design. Then, some ordinary statistical graphics and data mining algorithms can be used directly, ignoringthe sample we

4、ights. Next, based on the survey data of GuiZhou Province from the survey ofpublic understanding of science 2007, we discussed the sample size problem of the PPWWRre-sampling method by simulation and findmax (n,5% N )is an appropriate sample size. Thisconclusion might be useful for the implementatio

5、n of data mining on other large and complex survey data.Key words: Survey data; Sampling weights; Data mining; PPWWR re-sampling一、對(duì)調(diào)查數(shù)據(jù)實(shí)施數(shù)據(jù)挖掘的樣本權(quán)重問(wèn)題數(shù)據(jù)挖掘本質(zhì)上作為一類數(shù)據(jù)分析方法,和統(tǒng)計(jì)學(xué)有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu) 1。因而,基于數(shù)據(jù)挖掘的視角,對(duì)抽樣調(diào)查數(shù)據(jù)采用一些數(shù)據(jù)挖掘的方法進(jìn)行分析,是可 行的,文獻(xiàn)就提供了一個(gè)范例。然而,將數(shù)據(jù)挖掘方法應(yīng)用于抽樣調(diào)查數(shù)據(jù),有一個(gè)問(wèn)題 通常無(wú)法回避,那就是樣本數(shù)據(jù)所對(duì)應(yīng)的權(quán)數(shù)如何處理。一般而言,數(shù)據(jù)

6、挖掘問(wèn)題常常針對(duì)總體數(shù)據(jù),例如關(guān)于一個(gè)公司的所有職工數(shù)據(jù),銀行 信用卡中心數(shù)據(jù)庫(kù)的所有客戶數(shù)據(jù),一家大型超市一個(gè)季度以來(lái)的所有顧客購(gòu)買(mǎi)記錄等。在 這種情形下,每一條記錄都是總體數(shù)據(jù)中的一個(gè)單元,得到的觀察值可以直接計(jì)算總體參數(shù), 無(wú)需進(jìn)行統(tǒng)計(jì)推斷。但數(shù)據(jù)挖掘方法也越來(lái)越多地應(yīng)用于抽樣調(diào)查數(shù)據(jù)。與總體數(shù)據(jù)不同的是,抽樣調(diào)查當(dāng) 中,每個(gè)樣本單元的觀測(cè)值都是有權(quán)數(shù)的,權(quán)數(shù)表示的是每個(gè)樣本單元代表了總體中一定數(shù) 目的單元,所以整個(gè)樣本就“代表”了整個(gè)總體。樣本單元的權(quán)數(shù)取決于抽樣設(shè)計(jì)。例如, 對(duì)于分層抽樣,有tstr尤七七.h=1 jeSh其中抽樣權(quán)重% = Njnh可以看作樣本觀測(cè)值所代表的總體中觀

7、測(cè)值的數(shù)目,其值為 該樣本單元入樣概率的倒數(shù)。倘若調(diào)查采用的是自加權(quán)設(shè)計(jì),則各樣本單元的抽樣權(quán)重是相等的。在不考慮非抽樣誤 差的情況下,可以認(rèn)為自加權(quán)樣本完全代表了總體,因?yàn)槊總€(gè)樣本單元都代表了總體中相同 數(shù)目的單元。此時(shí),可以忽略掉抽樣權(quán)重,直接采用一些簡(jiǎn)單的圖形實(shí)現(xiàn)對(duì)數(shù)據(jù)的探索性分 析,進(jìn)而在對(duì)數(shù)據(jù)進(jìn)行了充分理解和準(zhǔn)備的基礎(chǔ)上,直接調(diào)用相關(guān)算法進(jìn)行挖掘。然而,基于一些原因,部分大規(guī)模抽樣調(diào)查并不采用自加權(quán)設(shè)計(jì),這使得各樣本單元對(duì) 應(yīng)的抽樣權(quán)重大小不一。并且,在大型復(fù)雜抽樣調(diào)查中,為使得調(diào)查得到的樣本結(jié)構(gòu)盡可能 地與總體結(jié)構(gòu)相一致,在處理樣本數(shù)據(jù)時(shí),還通常采用基于多變量輔助信息等的校準(zhǔn)加權(quán)方

8、 法對(duì)樣本結(jié)構(gòu)進(jìn)行加權(quán)調(diào)整,以減少樣本結(jié)構(gòu)與總體結(jié)構(gòu)的差異性。也就是說(shuō),根據(jù)入樣概 率求得樣本單元的初始權(quán)數(shù)”,再利用輔助信息進(jìn)行加權(quán)調(diào)整便得到每個(gè)樣本單元的最終 權(quán)數(shù)W*。從而,即便調(diào)查采用的是自加權(quán)設(shè)計(jì),加權(quán)調(diào)整后各樣本對(duì)應(yīng)的最終權(quán)數(shù)也大都是不相同的。在這種情況下,一方面,通常用于描述簡(jiǎn)單隨機(jī)樣本的統(tǒng)計(jì)圖形在描述權(quán)數(shù)不 一的樣本數(shù)據(jù)時(shí),往往會(huì)產(chǎn)生錯(cuò)誤,因?yàn)闆](méi)有考慮不等的權(quán)數(shù)問(wèn)題;另一方面,如果忽視權(quán) 數(shù)問(wèn)題,直接調(diào)用相關(guān)算法對(duì)收集上來(lái)的樣本數(shù)據(jù)實(shí)施挖掘,所得到的結(jié)果可能是誤導(dǎo)性的, 或者很難解釋。二、解決思路部分文獻(xiàn)78提出用氣泡圖(bubble plots)來(lái)展示復(fù)雜調(diào)查數(shù)據(jù)的信息,圖1

9、展示了美 國(guó)1988年全國(guó)母親和嬰兒健康調(diào)查中30-39歲母親的出生體重和女兒的生出體重之間的關(guān) 系。圖中,每個(gè)圓圈對(duì)應(yīng)一條樣本數(shù)據(jù),每個(gè)圓圈的面積與樣本的權(quán)重成正比。出食重C克*圖1母親和女兒出生體重關(guān)系的泡泡圖相比普通散點(diǎn)圖,此類氣泡圖的優(yōu)點(diǎn)是將樣本數(shù)據(jù)對(duì)應(yīng)的權(quán)重信息也展現(xiàn)出來(lái),避免了 普通散點(diǎn)圖誤導(dǎo)性的視覺(jué)效果。但當(dāng)樣本數(shù)據(jù)較多,或者個(gè)別樣本權(quán)重差異過(guò)大時(shí),氣泡圖 會(huì)顯得非?;靵y。另外,氣泡圖只是對(duì)普通散點(diǎn)圖的改進(jìn),我們需要尋找一種方法,既能夠 適用于大部分圖形,同時(shí)又考慮了樣本的權(quán)重信息??紤]到如前所述自加權(quán)樣本的優(yōu)越性,借鑒文獻(xiàn)和文獻(xiàn)修的思想,本文提出放回的、 與樣本權(quán)數(shù)大小成比例的

10、再抽樣方法(re-sampling with probability proportional to the weights with replacement),簡(jiǎn)稱PPWWR再抽樣,來(lái)實(shí)現(xiàn)“事后”自加權(quán)設(shè)計(jì)。具體如下:假設(shè)樣本量大小為,對(duì)于樣本, =1,2,,n,其對(duì)應(yīng)的抽樣權(quán)重為w,經(jīng)加 權(quán)調(diào)整后的最終權(quán)數(shù)為w*。其中,才w*= N,N為總體單元個(gè)數(shù)。在原樣本內(nèi),按權(quán)數(shù)w*的大小采用有放回比例抽樣的方法抽取一個(gè)大小為n的子樣本??梢宰C明,實(shí)施這樣的 重抽樣后,對(duì)于子樣本n,每個(gè)樣本單元的權(quán)數(shù)都相同。證明如下:w*由于為放回的與樣本權(quán)數(shù)大小成比例的概率抽樣,因此,原樣本中,樣本單元每次W*被

11、抽中的概率Z =一1 寸 工 w*iw*=n iNi =1原樣本中第i個(gè)樣本單元被重復(fù)抽中的期望次數(shù)m = nZii從大小為n的原樣本中抽取大小為n的子樣本的過(guò)程,可看作是將第i個(gè)單元的權(quán)數(shù) w*平均分解到子樣本中對(duì)應(yīng)的mi個(gè)樣本單元的過(guò)程。因而,子樣本n中,每個(gè)樣本單元對(duì)w*w*N應(yīng)的新權(quán)數(shù)w.=m=nw=n。iiN由此,可以把子樣本n看作是一個(gè)自加權(quán)樣本。于是可以忽略掉樣本權(quán)數(shù),直接采用 常規(guī)的圖示方法對(duì)數(shù)據(jù)進(jìn)行初步的探索分析,并調(diào)用算法對(duì)該子樣本n實(shí)施挖掘。當(dāng)然,從樣本n到樣本n,這個(gè)過(guò)程存在信息丟失。Murthy (1965)證明了將子樣本nn的總和乘上一個(gè)常數(shù)后,便得到男w*y的一個(gè)

12、無(wú)偏估計(jì)量。并且,在這一重抽樣階段所增i i加的方差為T(mén)I i=1w*人i=i其中,Ef代表初始樣本n范圍內(nèi)的期望值。接下來(lái)的問(wèn)題是,子樣本n的數(shù)量需要多大,才能保證后面的推斷有比較好的效果。 在n大小的確定上,以子樣本n不遺漏原有樣本n為度,原則上可以是n,N中的任何一 個(gè)值。當(dāng)n取n時(shí),由于n中的部分樣本在重抽樣后不再出現(xiàn),因而可能有相對(duì)的信息丟 失;而當(dāng)n取n時(shí),如果n的數(shù)值過(guò)大,則可能造成重抽樣及后續(xù)分析過(guò)程計(jì)算量過(guò)于龐 大,面臨不經(jīng)濟(jì)的問(wèn)題。因而,n應(yīng)該有一個(gè)在n,N之間的最優(yōu)取值,該取值將在信息 丟失和計(jì)算量之間達(dá)到一個(gè)平衡。本文將通過(guò)模擬的方法來(lái)嘗試確定n的合適水平。三、關(guān)于,的

13、模擬分析由于從理論上難以直接論證n的最優(yōu)水平,我們采用模擬的方法進(jìn)行討論。本模擬的 分析數(shù)據(jù)取自于2007中國(guó)公民科學(xué)素質(zhì)調(diào)查,為貴州省的數(shù)據(jù)。中國(guó)公民科學(xué)素質(zhì)調(diào)查是 通過(guò)全國(guó)性的抽樣調(diào)查,來(lái)了解分析我國(guó)18-69周歲的公民對(duì)科學(xué)的理解及對(duì)科學(xué)技術(shù)的態(tài) 度等與公民科學(xué)素質(zhì)相關(guān)問(wèn)題的狀況。調(diào)查內(nèi)容包括三個(gè)主要方面,即:公民對(duì)基本科學(xué)知 識(shí)的了解程度;公民獲取科技知識(shí)和科學(xué)技術(shù)發(fā)展信息的渠道與方法;公民對(duì)科學(xué)技術(shù)的態(tài) 度。調(diào)查的指標(biāo)體系由背景變量和各分級(jí)指標(biāo)組成。背景變量包括:地區(qū)、城鄉(xiāng)、性別、年 齡、文化程度、職業(yè)、民族、重點(diǎn)人群等。調(diào)查采用分層三階不等概抽樣方法,以全國(guó)為總體,兼顧樣本在各省級(jí)

14、區(qū)域的分配。在進(jìn)行抽樣設(shè)計(jì)時(shí),為滿足對(duì)本地區(qū)公民科學(xué)素質(zhì)狀況進(jìn)行推斷的需求,部分省份在全 國(guó)樣本的基礎(chǔ)上,進(jìn)行了追加樣本設(shè)計(jì)。以貴州省為例,落在貴州省的全國(guó)樣本量為310, 對(duì)該地區(qū)追加的樣本量為1660,總樣本量為1970。在對(duì)貴州省的調(diào)查數(shù)據(jù)進(jìn)行整理時(shí),首先通過(guò)計(jì)算每個(gè)樣本單元的入樣概率,確定了各 樣本單元的初始權(quán)數(shù);其次,通過(guò)校準(zhǔn)加權(quán)調(diào)整,得到各個(gè)樣本單元的最終權(quán)數(shù)。最終數(shù)據(jù) 由1970名受訪者的八個(gè)背景信息變量、公民獲取科技信息的渠道變量、公民科學(xué)素質(zhì)四個(gè) 方面的測(cè)試變量、公民對(duì)科技及其發(fā)展的態(tài)度和看法變量以及每條樣本數(shù)據(jù)對(duì)應(yīng)的最終權(quán)數(shù) 構(gòu)成。在嘗試對(duì)貴州省07年公民科學(xué)素質(zhì)調(diào)查數(shù)據(jù)實(shí)

15、施數(shù)據(jù)挖掘時(shí),便遇到無(wú)從選擇現(xiàn)有統(tǒng) 計(jì)圖形對(duì)數(shù)據(jù)進(jìn)行描述和樣本單元的最終權(quán)數(shù)與數(shù)據(jù)挖掘算法的銜接問(wèn)題。而如果采用本文 提出的PPWWR再抽樣方法,則能較好地解決上述兩個(gè)問(wèn)題,而不用考慮更改現(xiàn)有統(tǒng)計(jì)圖形 或調(diào)整已有挖掘算法。為了確定實(shí)施ppwwr再抽樣方法時(shí)子樣本n的最合適大小,這里通過(guò)模擬的方法比 較n取不同值時(shí)子樣本n的各輔助變量取值狀況與貴州省真實(shí)數(shù)據(jù)之間的差距,進(jìn)而確定 n的最佳取值。對(duì)大小n=1970的原始樣本按PPWWR再抽樣的方法分別抽取大小為n、 0.01%N、0.10%N、1%N、5%N、10%N的子樣本,其中N為貴州省的適齡總?cè)丝跀?shù)。并對(duì)于 每種樣本量,重復(fù)抽取10次,比較這

16、10次抽取結(jié)果中各輔導(dǎo)變量取值的波動(dòng)性。模擬結(jié)果見(jiàn)表1:表1再抽樣子樣本n分別取n、0.01%N、0.10%N、1%N、5%N、10%N時(shí)的情形(%)貴州省n0.01%N0.10%N1%N5%N10%N真實(shí)值均值方差均值方差均值方差均值方差均值方差均值方差性男性51.451.30.4951.30.3951.40.0751.40.0151.40.0051.40.00別女性48.648.70.4948.70.3948.60.0748.60.0148.60.0048.60.00城鄉(xiāng)63.863.71.8563.71.5163.80.0263.70.0163.80.0063.80.00鄉(xiāng)城36.236

17、.31.8536.31.5136.20.0236.30.0136.20.0036.20.0018-2923.724.40.4423.81.4323.70.0523.70.0123.70.0023.70.0030-3930.429.81.3130.01.2430.50.1230.50.0130.40.0030.40.00年40-4921.021.00.1521.20.621.00.0821.00.0021.00.0021.00.00齡50-5918.118.10.4618.10.8718.10.0618.10.0118.10.0018.10.0060-696.86.70.546.90.066.8

18、0.016.80.016.80.006.80.00文盲16.916.80.9317.40.2316.90.0616.90.0116.90.0016.90.00教小學(xué)44.544.50.9344.30.5644.60.0644.40.0244.50.0044.50.00育初中26.626.70.8426.40.9826.50.0526.70.0026.60.0026.60.00.高中或7.57.60.387.30.287.50.027.60.007.50.007.50.00中專2.92.80.162.90.062.90.022.90.002.90.002.90.00大專大學(xué)及1.61.50.04

19、1.70.061.60.011.60.001.60.001.60.00以上由模擬結(jié)果可知,當(dāng)按PPWWR再抽樣,子樣本n的大小定為5%N時(shí),10次重復(fù)抽樣 中子樣本nr的各輔助變量取值的均值與貴州省的真實(shí)情況基本一致,并且10次重復(fù)抽取樣 本中各輔助變量取值的方差在精確到小數(shù)點(diǎn)第二位的情況下為0。由此,n不用取值到N, 當(dāng)n35%N時(shí),事后自加權(quán)子樣本的性別、城鄉(xiāng)、年齡和教育程度結(jié)構(gòu)與貴州省的真實(shí)情 況幾乎沒(méi)有差別。因此,對(duì)于此例子,nf的最合適大小應(yīng)為max(n,5%N)。四、小結(jié)在數(shù)據(jù)挖掘問(wèn)題中,數(shù)據(jù)的收集方法和分析方法應(yīng)該是兩個(gè)不可分割的部分,是一個(gè)整 體,分析方法必須和數(shù)據(jù)收集時(shí)的抽樣

20、設(shè)計(jì)相匹配。為解決將數(shù)據(jù)挖掘方法應(yīng)用于抽樣調(diào)查數(shù)據(jù)時(shí)的抽樣權(quán)重問(wèn)題,本文提出采用放回的、 與樣本權(quán)數(shù)大小成比例的再抽樣方法,簡(jiǎn)稱PPWWR再抽樣,來(lái)實(shí)現(xiàn)“事后”自加權(quán)設(shè)計(jì)。 實(shí)現(xiàn)“事后”自加權(quán)設(shè)計(jì)后的子樣本可忽略掉樣本權(quán)數(shù),直接采用常規(guī)的圖示方法和數(shù)據(jù)挖 掘算法進(jìn)行分析。隨后,基于2007中國(guó)公民科學(xué)素質(zhì)調(diào)查貴州省數(shù)據(jù),本文通過(guò)模擬分析 討論了 PPWWR再抽樣子樣本的樣本量問(wèn)題,發(fā)現(xiàn)max(n,5%N)是一個(gè)比較合適的樣本量。 這一結(jié)論可能為其它大型復(fù)雜抽樣調(diào)查數(shù)據(jù)的數(shù)據(jù)挖掘?qū)嵤﹩?wèn)題提供借鑒。參考文獻(xiàn)David J. Hand. Statistics and Data Mining: Int

21、ersecting DisciplinesJ. SIGKDD Explorations, 1999(1): 16-19.何海鷹、朱建平、謝邦昌.證券投資意識(shí)調(diào)查分析基于數(shù)據(jù)挖掘的視角J.統(tǒng)計(jì)研究,2008(9):49-53.M.N.Murthy and V.K.Sethi. Randomized Rounded-Off Multipliers in Sampling TheoryJ. Journal of the American StatisticalAssociation, 1961(5): 328-334.M.N.Murthy and V.K.Sethi. Self-Weighting Design at Tabulation StageJ. SANKHYA, 1965(2): 201-210.Susan Hinkins, H. Lock Oh and Frit

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論