定性數(shù)據(jù)分析實(shí)驗(yàn)_第1頁(yè)
定性數(shù)據(jù)分析實(shí)驗(yàn)_第2頁(yè)
定性數(shù)據(jù)分析實(shí)驗(yàn)_第3頁(yè)
定性數(shù)據(jù)分析實(shí)驗(yàn)_第4頁(yè)
定性數(shù)據(jù)分析實(shí)驗(yàn)_第5頁(yè)
已閱讀5頁(yè),還剩218頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

定性數(shù)據(jù)分析實(shí)驗(yàn)2/4/20231案例據(jù)記載,1912年4月15日,泰坦尼克號(hào)船上有1316名乘客和892名船員共2208人。事故發(fā)生后幸存718人,約2/3的人在海難中喪生。2208人中,按性別劃分,男性1738人,女性470人;按年齡劃分,成人2099人,兒童109人;按所在艙位劃分,一等艙325人,二等艙285人,三等艙706人,船員艙892人。在幸存的718人中,按性別劃分,男性374人,女性344人;按年齡劃分,成人661人,兒童57人;按所在艙位劃分,一等艙203人,二等艙118人,三等艙178人,船員艙219人。2/4/20232以上都是分類(lèi)數(shù)據(jù)。數(shù)據(jù)是枯燥的,但講述的問(wèn)題卻是鮮活的。死亡與性別、年齡、所在倉(cāng)位是否有關(guān)?如何解釋這些關(guān)系,與當(dāng)時(shí)人們的價(jià)值觀念和對(duì)待死亡的態(tài)度又有什么聯(lián)系?2/4/20233定性數(shù)據(jù)分析(內(nèi)容)探索性分析,目的是描述樣本特征列聯(lián)表分析關(guān)聯(lián)性分析推斷分析,目的是對(duì)總體的認(rèn)識(shí)多項(xiàng)分布檢驗(yàn)列聯(lián)表分析獨(dú)立性檢驗(yàn)一致性檢驗(yàn)擬合優(yōu)度檢驗(yàn)關(guān)聯(lián)性檢驗(yàn)建模分析,目的是解釋總體中變量之間變化的一般規(guī)律2/4/20234定性數(shù)據(jù)分析(方法)描述性方法參數(shù)檢驗(yàn)方法非參數(shù)檢驗(yàn)方法模型分析方法2/4/20235定性數(shù)據(jù)的探索性分析2/4/20236例子問(wèn)卷調(diào)查中常常設(shè)計(jì)對(duì)某問(wèn)題兩個(gè)或多個(gè)不同的特征的分類(lèi)。例如房地產(chǎn)商考慮顧客選擇房子設(shè)計(jì)的類(lèi)型與職業(yè)的關(guān)系,所調(diào)查的每個(gè)顧客都有兩個(gè)特性,一個(gè)是選擇的房子類(lèi)型,另一個(gè)是職業(yè);廣告公司為了調(diào)查城市和鄉(xiāng)村的觀眾對(duì)電視廣告的關(guān)注情況,每位被調(diào)查者都有兩個(gè)特性,一個(gè)是來(lái)自城市還是鄉(xiāng)村,另一個(gè)是對(duì)廣告的態(tài)度。在這些例子中我們通常關(guān)心的是按照兩個(gè)特性進(jìn)行的分類(lèi)的方法之間是否相互依賴(lài),或者說(shuō)是否相互獨(dú)立。如房地產(chǎn)商關(guān)心的是顧客選擇房子的類(lèi)型是否與職業(yè)無(wú)關(guān),或者說(shuō)選擇何種房子與職業(yè)獨(dú)立。在觀眾對(duì)電視廣告的關(guān)注情況的調(diào)查中,感興趣的是每個(gè)觀眾對(duì)電視廣告的關(guān)注情況是否與他來(lái)自城市還是農(nóng)村獨(dú)立。本單元的教學(xué)目的是提高定性數(shù)據(jù)的分析水平。2/4/20237一、列聯(lián)表及其結(jié)構(gòu)由兩個(gè)以上的變量交叉分類(lèi)形成的頻數(shù)分布表行變量放表的主詞欄,列變量放表的賓詞欄行變量的類(lèi)別用r表示,ri表示第i個(gè)類(lèi)別列變量的類(lèi)別用c表示,cj表示第j個(gè)類(lèi)別每種組合的觀察頻數(shù)用fij

表示表中列出了行變量和列變量的所有可能的組合,所以稱(chēng)為列聯(lián)表一個(gè)r行c列的列聯(lián)表稱(chēng)為r

c列聯(lián)表2/4/20238列聯(lián)表實(shí)例

一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32453331141合計(jì)10012090110420一個(gè)集團(tuán)公司在四個(gè)不同的地區(qū)設(shè)有分公司,現(xiàn)該集團(tuán)公司欲進(jìn)行一項(xiàng)改革,此項(xiàng)改革可能涉及到各分公司的利益,故采用抽樣調(diào)查方式,從四個(gè)分公司共抽取420個(gè)樣本單位(人),了解職工對(duì)此項(xiàng)改革的看法,調(diào)查結(jié)果如下表2/4/20239列聯(lián)表的結(jié)構(gòu)

(22列聯(lián)表)列(cj)合計(jì)j=1j=2i=1f11f12f11+f12i=2f21f22f21+f22合計(jì)f11+f21f12+f22n列(cj)行(ri)2/4/202310列聯(lián)表的結(jié)構(gòu)

(r

c列聯(lián)表的一般表示)列(cj)合計(jì)j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合計(jì)c1c2…n列(cj)行(ri)fij表示第i行第j列的觀察頻數(shù)2/4/2023112/4/202312二、列聯(lián)表的分布觀測(cè)值分布觀察值的期望值分布2/4/202313觀察值的分布邊緣分布行邊緣分布行觀察值的合計(jì)數(shù)的分布例如,贊成改革方案的共有279人,反對(duì)改革方案的141人列邊緣分布列觀察值的合計(jì)數(shù)的分布例如,四個(gè)分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人條件分布與條件頻數(shù)變量X條件下變量Y

的分布,或在變量Y

條件下變量X

的分布每個(gè)具體的觀察值稱(chēng)為條件頻數(shù)2/4/202314觀察值的分布(圖示)

一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32453331141合計(jì)10012090110420行邊緣分布列邊緣分布條件頻數(shù)2/4/202315百分比分布(概念要點(diǎn))

條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對(duì)比為在相同的基數(shù)上進(jìn)行比較,可以計(jì)算相應(yīng)的百分比,稱(chēng)為百分比分布(概率分布)行百分比:行的每一個(gè)觀察頻數(shù)除以相應(yīng)的行合計(jì)數(shù)(fij

/ri)列百分比:列的每一個(gè)觀察頻數(shù)除以相應(yīng)的列合計(jì)數(shù)(fij

/cj)總百分比:每一個(gè)觀察值除以觀察值的總個(gè)數(shù)(fij

/n

)2/4/202316一分公司二分公司三分公司四分公司合計(jì)贊成該方案(人)68755779279row%68/279=24.426.920.428.3279/420=66.4col%68/100=68.062.563.371.8total%68/420=16.217.813.618.8反對(duì)該方案(人)32453331141row%22.731.923.422.033.6col%32.037.536.728.2total%7.610.77.97.4合計(jì)10012090110420%100/420=23.828.621.426.21002/4/202317百分比分布(圖示)

一分公司二分公司三分公司四分公司合計(jì)贊成該方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反對(duì)該方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合計(jì)23.8%28.6%21.4%26.2%100%總百分比列百分比行百分比2/4/2023182/4/2023192/4/202320觀察值的期望值分布假定行變量和列變量是獨(dú)立的一個(gè)實(shí)際頻數(shù)fij

的期望頻數(shù)eij

,是總頻數(shù)的個(gè)數(shù)n乘以該實(shí)際頻數(shù)fij

落入第i

行和第j列的概率,即2/4/202321由于觀察頻數(shù)的總數(shù)為n,所以f11

的期望頻數(shù)e11應(yīng)為例如,第1行和第1列的實(shí)際頻數(shù)為f11

,它落在第1行的概率估計(jì)值為該行的頻數(shù)之和r1除以總頻數(shù)的個(gè)數(shù)n,即:r1/n;它落在第1列的概率的估計(jì)值為該列的頻數(shù)之和c1除以總頻數(shù)的個(gè)數(shù)n,即:c1/n。根據(jù)概率的乘法公式,該頻數(shù)落在第1行和第1列的概率應(yīng)為一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)100120901104202/4/202322期望值的分布一分公司二分公司三分公司四分公司贊成該方案期望值0.664*100=660.664*120=800.664*90=600.664*110=73反對(duì)該方案期望值0.336*100=340.336*120=400.336*90=300.336*110=372/4/202323觀測(cè)值與期望值頻數(shù)對(duì)比分布表一分公司二分公司三分公司四分公司贊成該方案觀測(cè)值68755779期望值66806073反對(duì)該方案觀測(cè)值32453331期望值344030372/4/202324三、卡方統(tǒng)計(jì)量單變量情形下,卡方統(tǒng)計(jì)量表達(dá)式卡方統(tǒng)計(jì)量的特征值大于0密度函數(shù)與自由度有關(guān)與橫軸圍成的面積等于12/4/202325統(tǒng)計(jì)量(例題分析)

實(shí)際頻數(shù)(fij)期望頻數(shù)(eij)fij-eij(fij-eij)2(fij-eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合計(jì):3.03192/4/202326三、卡方統(tǒng)計(jì)量的分布(K.P定理)單變量情形設(shè)總體中的每一個(gè)個(gè)體屬于且只屬于A1,A2,A3,???,AK,k各類(lèi)之一??傮w中屬于k各類(lèi)的比重分別為p1,p2,p3,???,pk。現(xiàn)從總體中隨機(jī)抽查n個(gè),其中屬于Ai類(lèi)有ni個(gè)(i=1,2,…,k)。定義統(tǒng)計(jì)量則當(dāng)n充分大時(shí),該統(tǒng)計(jì)量服從自由度為k-1的卡方分布。2/4/202327多變量情形(列聯(lián)表)

則當(dāng)n充分大時(shí),該統(tǒng)計(jì)量近似服從自由度為(R-1)(C-1)的卡方分布。列聯(lián)表的自由度:(R-1)(C-1)2/4/202328關(guān)聯(lián)性的探索性分析(1)X與Y均為定類(lèi)變量相關(guān)系數(shù)列聯(lián)相關(guān)系數(shù)CCramer的V系數(shù)Lambda相關(guān)系數(shù)(Gutman預(yù)測(cè)系數(shù))Tau-Y系數(shù)2/4/2023292X2列聯(lián)表因素Y因素X

行合計(jì)x1x2y1aba+by2cdc+d列合計(jì)a+cb+dn2/4/202330相關(guān)系數(shù)專(zhuān)用于2X2列聯(lián)表定類(lèi)數(shù)據(jù)相關(guān)程度的測(cè)量計(jì)算公式取值范圍:局限在RXC列聯(lián)表上,相關(guān)系數(shù)值無(wú)上限,因?yàn)樗闹惦SR或C的變大而增大2/4/202331

相關(guān)系數(shù)(原理分析)

列聯(lián)表中每個(gè)單元格的期望頻數(shù)分別為將各期望頻數(shù)代入的計(jì)算公式得2/4/202332將入

相關(guān)系數(shù)的計(jì)算公式得ad等于bc

,=0,表明變量X與Y

之間獨(dú)立若b=0

,c=0,或a=0

,d=0,意味著各觀察頻數(shù)全部落在對(duì)角線(xiàn)上,此時(shí)||=1,表明變量X與Y

之間完全相關(guān)列聯(lián)表中變量的位置可以互換,的符號(hào)沒(méi)有實(shí)際意義,故取絕對(duì)值即可2/4/202333例1在某校隨機(jī)抽取200名大學(xué)生,其中,男生150人,女生50人,調(diào)查他們對(duì)實(shí)行一年三學(xué)期這一新學(xué)制的態(tài)度,調(diào)查結(jié)果整理為如下2×2交互列表,要求計(jì)算Ф相關(guān)系數(shù)

性別態(tài)度男生女生行合計(jì)贊成12015135反對(duì)303565列合計(jì)150502002/4/202334解:將上表中的數(shù)據(jù)代入系數(shù)的計(jì)算公式中得結(jié)果表明,學(xué)生的性別與學(xué)生對(duì)實(shí)行新學(xué)制的態(tài)度之間存在著較弱的相關(guān)關(guān)系。2/4/202335列聯(lián)相關(guān)系數(shù)C用于測(cè)度大于22列聯(lián)表中數(shù)據(jù)的相關(guān)程度計(jì)算公式為C的取值范圍是0C<1C=0表明列聯(lián)表中的兩個(gè)變量獨(dú)立C的數(shù)值大小取決于列聯(lián)表的行數(shù)和列數(shù),并隨行數(shù)和列數(shù)的增大而增大根據(jù)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較2/4/202336例2下表顯示了兩個(gè)地區(qū)400個(gè)受訪(fǎng)者對(duì)互聯(lián)網(wǎng)的使用情況,請(qǐng)分析互聯(lián)網(wǎng)的使用情況是否和這兩個(gè)地區(qū)有關(guān)系。城市使用情況北京上海行合計(jì)從來(lái)不用45(19%)18(11%)63(16%)偶爾使用72(38%)49(31%)121(30%)經(jīng)常使用90(30%)58(36%)148(37%)天天使用33(14%)35(22%)68(17%)列合計(jì)240(100%)160(100%)400(100%)相對(duì)頻率0.60.41.002/4/202337觀測(cè)值期望[E(nij)]城市使用情況北京(60%)上海(40%)合計(jì)從來(lái)不用37.825.263偶爾使用72.648.4121經(jīng)常使用88.859.2148天天使用40.827.2682/4/202338解:結(jié)果表明,互聯(lián)網(wǎng)的使用情況與受訪(fǎng)者所在地區(qū)存在著較弱的相關(guān)關(guān)系。2/4/202339Cramer的V系數(shù)用于RXC列聯(lián)表定類(lèi)數(shù)據(jù)相關(guān)程度的測(cè)量計(jì)算公式V的取值范圍是0V1

V=0表明列聯(lián)表中的兩個(gè)變量獨(dú)立

V=1表明列聯(lián)表中的兩個(gè)變量完全相關(guān)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較當(dāng)列聯(lián)表中有一維為2,min[(r-1),(c-1)]=1,此時(shí)V=2/4/202340例3使用例2的數(shù)據(jù)計(jì)算V相關(guān)系數(shù)結(jié)果表明,互聯(lián)網(wǎng)的使用情況與受訪(fǎng)者所在地區(qū)存在著較弱的相關(guān)關(guān)系。2/4/202341、C、V的比較同一個(gè)列聯(lián)表,、C、V的結(jié)果會(huì)不同不同的列聯(lián)表,、C、V的結(jié)果也不同在對(duì)不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時(shí),不同列聯(lián)表中的行與行、列與列的個(gè)數(shù)要相同,并且采用同一種系數(shù)2/4/202342列聯(lián)表中的相關(guān)測(cè)量(例題分析)

【例4】一種原料來(lái)自三個(gè)不同地區(qū),原料質(zhì)量被分成三個(gè)不同等級(jí)。從這批原料中隨機(jī)抽取500件進(jìn)行檢驗(yàn),結(jié)果如下表。分別計(jì)算系數(shù)、C系數(shù)和V系數(shù),并分析相關(guān)程度地區(qū)一級(jí)二級(jí)三級(jí)合計(jì)甲地區(qū)526424140乙地區(qū)605952171丙地區(qū)506574189合計(jì)1621881505002/4/202343解:已知n=500,=19.82,列聯(lián)表為33結(jié)論:三個(gè)系數(shù)均不高,表明產(chǎn)地和原料等級(jí)之間的相關(guān)程度不高2/4/202344Lambda相關(guān)系數(shù)(Gutman預(yù)測(cè)系數(shù))如果X與Y是對(duì)稱(chēng)的關(guān)系其中,My是Y變量的最大頻數(shù)Mx是X變量的最大頻數(shù)mx是X固定在某個(gè)值時(shí)Y變量的最大頻數(shù)my是X固定在某個(gè)值時(shí)Y變量的最大頻數(shù)n是樣本量如果X與Y是不對(duì)稱(chēng)的關(guān)系(X為自變量,Y為因變量)局限:它只利用了最大頻數(shù),故較粗糙,若最大頻數(shù)都集中在某一行,相關(guān)系數(shù)值將等于0。2/4/202345例5下表是一次內(nèi)容分析中,就抽取的樣本中3種媒體的內(nèi)容列表的一部分,要求計(jì)算X與Y之間的λ相關(guān)系數(shù)。內(nèi)容Y媒體種類(lèi)X報(bào)紙廣播電視行合計(jì)新聞?lì)?8121105324經(jīng)濟(jì)類(lèi)546777198法律類(lèi)26183074服務(wù)類(lèi)7698102276娛樂(lè)類(lèi)3510379217體育類(lèi)696756192廣告8577118280其它1291637列合計(jì)45556058315982/4/202346解:X與Y不是對(duì)稱(chēng)變量,因此計(jì)算已知My=324這么小的系數(shù)說(shuō)明媒體種類(lèi)和內(nèi)容之間的相關(guān)關(guān)系是很微弱的。2/4/202347Tau-Y系數(shù)如果X與Y是不對(duì)稱(chēng)的關(guān)系,X為自變量,Y為因變量計(jì)算公式其中fij為RXC列聯(lián)表中的條件頻數(shù)fxj為RXC列聯(lián)表中X變量第j列的條件頻數(shù)之和fyi為RXC列聯(lián)表中Y變量第i行的條件頻數(shù)之和2/4/202348例6解:計(jì)算結(jié)果得到的結(jié)論與前相同2/4/202349關(guān)聯(lián)性的探索性分析(2)X與Y均為定序變量Spearman等級(jí)(秩)相關(guān)系數(shù)rsKendall的Tau相關(guān)系數(shù)Gamma相關(guān)系數(shù)GSomens相關(guān)系數(shù)D2/4/202350秩統(tǒng)計(jì)量

(樣本點(diǎn)大小的“座次”)2/4/202351無(wú)結(jié)點(diǎn)秩的定義例題:某學(xué)院本科三年級(jí)有9個(gè)專(zhuān)業(yè)組成,統(tǒng)計(jì)每個(gè)專(zhuān)業(yè)學(xué)生每月消費(fèi)數(shù)據(jù)如下,300230208580690200263215520

2/4/202352有結(jié)數(shù)據(jù)的秩設(shè)樣本取自總體X的簡(jiǎn)單隨機(jī)抽樣,將數(shù)據(jù)排序后,相同的數(shù)據(jù)點(diǎn)組成一個(gè)“結(jié)”,稱(chēng)重復(fù)數(shù)據(jù)的個(gè)數(shù)為結(jié)長(zhǎng)。例:3.83.21.21.23.43.23.2數(shù)據(jù)3.2為一個(gè)結(jié),其結(jié)長(zhǎng)為3。2/4/2023532/4/202354Spearman等級(jí)(秩)相關(guān)系數(shù)rsrs用于X與Y均為定序變量且為對(duì)稱(chēng)關(guān)系時(shí)的相關(guān)關(guān)系測(cè)度當(dāng)不存在結(jié)點(diǎn)或較少結(jié)點(diǎn)時(shí),計(jì)算公式為當(dāng)存在較多結(jié)點(diǎn)時(shí),計(jì)算公式為D=X的秩與對(duì)應(yīng)的Y的秩之差(ΣD=0),是對(duì)X的所有等值結(jié)求和,di表示第i個(gè)等值結(jié)的結(jié)長(zhǎng),是對(duì)Y的所有等值結(jié)求和,ei表示第i個(gè)等值結(jié)的結(jié)長(zhǎng)2/4/202355Spearman秩相關(guān)系數(shù)的來(lái)源Spearman秩相關(guān)系數(shù)(Spearmanrankcorrelationcoefficient或Spearman’sr)它是仿Pearson相關(guān)系數(shù)的定義而生成的,只不過(guò)在定義中把點(diǎn)的坐標(biāo)換成各自樣本點(diǎn)的秩。Spearman相關(guān)系數(shù)的取值也在-1和1之間,也有類(lèi)似的解釋。通過(guò)Spearman相關(guān)系數(shù)也可以進(jìn)行不依賴(lài)于總體分布的非參數(shù)檢驗(yàn)。2/4/202356設(shè)是在中的秩,是在中的秩。Spearman秩相關(guān)系數(shù)定義為:

rs秩相關(guān)系數(shù)可簡(jiǎn)化為:2/4/202357例7關(guān)于新聞的時(shí)效性與生動(dòng)性是否有關(guān)聯(lián)的問(wèn)題,研究人員對(duì)18則新聞作了內(nèi)容分析,就時(shí)效性和生動(dòng)性讓專(zhuān)家分別用5級(jí)量表進(jìn)行了評(píng)分,結(jié)果如右表所示新聞編號(hào)時(shí)效性X生動(dòng)性Y13.54.123.54.134.03.144.84.053.14.264.62.974.23.783.34.594.73.9104.03.6113.84.2122.94.3134.84.9143.64.1153.93.7164.33.5174.54.1184.64.22/4/202358解:由于X和Y中存在較多的等值項(xiàng),需采用第二個(gè)公式計(jì)算如果根據(jù)換算成秩后的數(shù)據(jù)計(jì)算皮爾遜相關(guān)系數(shù)r,結(jié)果就是秩相關(guān)系數(shù)rs2/4/202359協(xié)同的概念Kendall(1938)提出兩變量協(xié)同的概念:若,則稱(chēng)數(shù)對(duì)和協(xié)同。若,則稱(chēng)數(shù)對(duì)和不協(xié)同。這樣樣本共有個(gè)數(shù)對(duì),用Ns表示協(xié)同的數(shù)對(duì)的數(shù)目,Nd表示不協(xié)同的數(shù)對(duì)數(shù)目。2/4/202360Kendall的Tau相關(guān)系數(shù)Kendall提出一種類(lèi)似于Spearman秩相關(guān)的測(cè)度方法,從兩變量是否協(xié)同(concordant)來(lái)檢驗(yàn)變量之間的相關(guān)性。如果樣本中協(xié)同的點(diǎn)數(shù)目多,兩個(gè)變量就更加相關(guān)一些;如果樣本中不協(xié)同(discordant)的點(diǎn)數(shù)目多,兩個(gè)變量就不很相關(guān)。Kendall的Tau相關(guān)系數(shù)適用于測(cè)度兩個(gè)對(duì)稱(chēng)關(guān)系的定序變量X和Y的相關(guān)。Kendall的Tau相關(guān)系數(shù)有三種形式:Tau-a,Tau-b,Tau-c。一般情況下,Tau-a是在所有結(jié)的結(jié)長(zhǎng)不大于2時(shí)使用。如果有結(jié)長(zhǎng)不小于2的數(shù)對(duì)時(shí)常用Tau-b和Tau-c;如果將數(shù)據(jù)結(jié)果做成X和Y的RXR列聯(lián)表時(shí),則可用Tau-b,否則用Tau-c。2/4/202361Kendall的Tau相關(guān)系數(shù)計(jì)算公式TX、Ty分別表示X、Y中結(jié)長(zhǎng)不小于2的數(shù)對(duì)的數(shù)目2/4/202362例8依例7數(shù)據(jù)計(jì)算Kendall-Tau相關(guān)系數(shù)解:如果做成X和Y的列聯(lián)表,X值或Y值相同的那些樣本點(diǎn)是合并在一起的,所以列聯(lián)表中,R=18-4=14,C=18-3=15,則min[(R-1),(C-1)]=142/4/202363Gamma相關(guān)系數(shù)G

和Somens相關(guān)系數(shù)D這兩種相關(guān)系數(shù)都適用于求定序變量和定序變量的相關(guān),前者適用于X和Y對(duì)稱(chēng)的情況,后者適用于X和Y不對(duì)稱(chēng)的情況,X是自變量,Y是因變量。計(jì)算公式其中,Ns=X和Y協(xié)同的數(shù)對(duì)數(shù)目Nd=X和Y不協(xié)同的數(shù)對(duì)數(shù)目Ty=Y中結(jié)長(zhǎng)不小于2的數(shù)對(duì)的數(shù)目2/4/202364例9依例7數(shù)據(jù)計(jì)算G相關(guān)系數(shù)和D相關(guān)系數(shù)解:首先將Y的秩升序排列(目的是好計(jì)算Y的結(jié)長(zhǎng)不小于2的數(shù)對(duì)的數(shù)目Ty),然后看X的秩,計(jì)算出X和Y協(xié)同的數(shù)對(duì)數(shù)目Ns,以及X和Y不協(xié)同的數(shù)對(duì)數(shù)目Nd。N=18,n(n-1)/2=153Ns=50,Nd=89,Tx=4,Ty=10注意:Ns+Nd+Tx+Ty=1532/4/202365關(guān)聯(lián)性的探索性分析(3)X為定類(lèi)變量,Y為數(shù)值型變量相關(guān)比率E2(eta平方系數(shù))X為定類(lèi)變量(僅分兩類(lèi)),Y為數(shù)值型變量點(diǎn)雙列相關(guān)系數(shù)rb2/4/202366相關(guān)比率E2(eta平方系數(shù))相關(guān)比率E2適用于自變量X為定類(lèi)變量,因變量Y為數(shù)值型變量時(shí),兩變量間相關(guān)性的測(cè)度計(jì)算公式其中,=自變量X等于Xi時(shí)因變量Y的平均值=因變量Y對(duì)全樣本的平均值2/4/202367例10在例5中,對(duì)同一新聞事件從4種不同媒體獲得信息的人,他們對(duì)事件的了解程度可以被測(cè)量,如下表所示。求所使用的媒體與對(duì)事件了解程度的E2相關(guān)系數(shù)報(bào)紙廣播電視互聯(lián)網(wǎng)6532818147456362605442454335765455486973325151784736517243n1=8n2=5n3=9n4=7Y1均值=53.88Y2均值=40.8Y3均值=60.44Y4均值=57.432/4/202368解:媒體X為定類(lèi)數(shù)據(jù),對(duì)事件的了解程度Y為數(shù)值型數(shù)據(jù)2/4/202369點(diǎn)雙列相關(guān)系數(shù)rb點(diǎn)雙列相關(guān)系數(shù)rb適用于自變量X為定類(lèi)變量且僅分兩類(lèi),因變量Y為數(shù)值型變量時(shí),兩變量間相關(guān)性的測(cè)度計(jì)算公式其中,Y1均值是當(dāng)X=X1時(shí)Y的均值Y2均值是當(dāng)X=X2時(shí)Y的均值P是當(dāng)X=X1時(shí)的樣本量占總樣本量的比重(n1/n)q是當(dāng)X=X2時(shí)的樣本量占總樣本量的比重(n2/n)Sy是Y的標(biāo)準(zhǔn)差2/4/202370定性數(shù)據(jù)的推斷分析2/4/202371定性數(shù)據(jù)推斷分析的內(nèi)容卡方檢驗(yàn)多項(xiàng)分布獨(dú)立性一致性擬合優(yōu)度相關(guān)檢驗(yàn)Spearman秩相關(guān)檢驗(yàn)Kendall-Tau秩相關(guān)檢驗(yàn)多變量Kendall協(xié)同系數(shù)檢驗(yàn)2/4/202372一、問(wèn)題的提出統(tǒng)計(jì)學(xué)中通常要分析的數(shù)據(jù)大多是針對(duì)具有某一計(jì)量單位的計(jì)量數(shù)據(jù),諸如重量、時(shí)間、長(zhǎng)度、強(qiáng)度、錢(qián)數(shù)等。但問(wèn)卷調(diào)查中,需要分析的數(shù)據(jù)往往不是由計(jì)量值構(gòu)成,而是由頻數(shù)構(gòu)成的。例如,某市場(chǎng)研究部門(mén)為了研究顧客對(duì)目前市場(chǎng)上五種空調(diào)器的購(gòu)買(mǎi)選擇傾向,隨機(jī)調(diào)查200個(gè)購(gòu)買(mǎi)者,記錄下各自購(gòu)買(mǎi)的品牌,得到購(gòu)買(mǎi)五種空調(diào)器的人數(shù),根據(jù)調(diào)查結(jié)果來(lái)研究顧客購(gòu)買(mǎi)是否有某種偏向;又例如,社會(huì)學(xué)家研究各階層的收入狀況,將人們按收入分為五個(gè)等級(jí)就產(chǎn)生與每個(gè)收入等級(jí)相對(duì)應(yīng)的頻數(shù);再例如,證券公司希望調(diào)查顧客的投資傾向與職業(yè)之間的關(guān)系,從其顧客中隨機(jī)選取300人進(jìn)行調(diào)查,并記下他們的職業(yè)和投資的項(xiàng)目(股票,債券,國(guó)庫(kù)券),從而可以得到一個(gè)二向分類(lèi)的頻數(shù)分布;等等。以上這些都是我們獲取的定性變量的頻數(shù)數(shù)據(jù)。對(duì)這種頻數(shù)數(shù)據(jù)規(guī)律的深入研究就是我們將要學(xué)的定性數(shù)據(jù)的推斷分析。2/4/202373二、多項(xiàng)分布與卡方檢驗(yàn)

收集分類(lèi)數(shù)據(jù)的目的:是為了分析次數(shù)在各個(gè)類(lèi)中數(shù)據(jù)的分布。例如,我們?yōu)榱斯烙?jì)消費(fèi)者中喜歡三種牙膏中每一種的比例,則統(tǒng)計(jì)購(gòu)買(mǎi)這三種品牌牙膏的顧客購(gòu)買(mǎi)每一種的人數(shù)。在這里僅僅是根據(jù)牙膏的種類(lèi)來(lái)分類(lèi),我們稱(chēng)之為一維分類(lèi)或一向分類(lèi)。而顧客的投資傾向與職業(yè)的關(guān)系中,分類(lèi)是按投資傾向和職業(yè)兩個(gè)方向進(jìn)行分類(lèi),我們稱(chēng)之為二向分類(lèi)或列聯(lián)表。下面我們通過(guò)例子來(lái)介紹一向分類(lèi)數(shù)據(jù)的分析。2/4/202374例11:某超市為了研究顧客對(duì)三種牌子的礦泉水的喜好比例,以便為下一次進(jìn)貨提供決策,隨機(jī)觀察了150名購(gòu)買(mǎi)者,并記錄下他們所買(mǎi)的品牌,統(tǒng)計(jì)出購(gòu)買(mǎi)三種品牌的人數(shù)如表3-1。這些數(shù)據(jù)是否說(shuō)明顧客對(duì)這三種礦泉水的喜好確實(shí)存在差異?解:為了解決這個(gè)問(wèn)題,我們需要知道這些分類(lèi)次數(shù)的分布。由于該問(wèn)題有甲、乙、丙三類(lèi),所以,這個(gè)分布稱(chēng)為多項(xiàng)概率分布,簡(jiǎn)稱(chēng)多項(xiàng)分布。2/4/202375多項(xiàng)概率分布多項(xiàng)分布是二項(xiàng)分布的推廣,可以看成是多項(xiàng)試驗(yàn)得到的次數(shù)分布。多項(xiàng)試驗(yàn)有如下一些性質(zhì):1.多項(xiàng)試驗(yàn)由n個(gè)相同的試驗(yàn)所組成。2.每個(gè)試驗(yàn)的結(jié)果落在k組的某一組中。3.某個(gè)試驗(yàn)的結(jié)果落在某一特定組,比如第i組的概率為Pi(i=1,2,…,k)且在試驗(yàn)之間保持不變,且有ΣPi=1 4.試驗(yàn)是獨(dú)立的。5.試驗(yàn)者關(guān)心的是n1,n2,…,nk的分布情況,這里ni等于試驗(yàn)結(jié)果落在第i組中的次數(shù),且有Σni=n。在多項(xiàng)試驗(yàn)中,當(dāng)k=2時(shí),就得到二項(xiàng)試驗(yàn)。在大多數(shù)情況下,k個(gè)可能結(jié)果的概率p1,p2,…,pk通常是未知的,我們調(diào)查的目的就是要對(duì)他們進(jìn)行推斷分析。2/4/2023762/4/2023對(duì)例11來(lái)說(shuō),我們希望去檢驗(yàn)顧客對(duì)這三種品牌的礦泉水的喜好是否確實(shí)存在差異,可以考慮檢驗(yàn)零假設(shè)為對(duì)三種品牌的喜好沒(méi)有差異,對(duì)立假設(shè)為對(duì)三種品牌的喜好確有差異。如果令:p1=所有顧客中喜歡品牌甲的比例p2=所有顧客中喜歡品牌乙的比例p3=所有顧客中喜歡品牌丙的比例則我們所要檢驗(yàn)的假設(shè)為:H0:p1=p2=p3=1/3H1:至少一個(gè)比例超過(guò)1/32/4/202377假設(shè)三類(lèi)中的觀察次數(shù)分別為n1,n2,和n3,Σni=n。如果原假設(shè)H0成立,則我們希望在樣本中喜歡每一種品牌的顧客差不多1/3的比例?;蛘哒f(shuō)對(duì)n個(gè)顧客而言,喜歡第一種品牌的顧客人數(shù)的期望值應(yīng)為E(n1)=np1=150*1/3=50同理,有E(n2)=E(n3)=502/4/202378于是對(duì)某一次抽樣來(lái)說(shuō),n1與E(n1)的差別在H0成立時(shí)應(yīng)比較??;反之,若n1與E(n1)的差別比較大,則有理由拒絕H0。卡方統(tǒng)計(jì)量當(dāng)n充分大時(shí),統(tǒng)計(jì)量服從自由度為k-1的分布注意:Pearson定理要求n應(yīng)較大且每一類(lèi)中ni的期望值不少于5。2/4/202379對(duì)例11來(lái)說(shuō),k=3,當(dāng)α=0.05時(shí),由于,因此拒絕原假設(shè),即認(rèn)為顧客對(duì)三種品牌的礦泉水的喜好確實(shí)存在差別。2/4/202380利用統(tǒng)計(jì)分析軟件可以大大簡(jiǎn)化計(jì)算過(guò)程,提高分析效率,在此我們利用SPSS16.0版本對(duì)本例進(jìn)行分析。首先將表3-1中的數(shù)據(jù)按要求錄入,如表3-2所示。變量brand表示品牌,1、2和3分別表示品牌甲、乙和丙;變量freq表示購(gòu)買(mǎi)人數(shù)。然后,選擇“Data”→“WeightCase”,打開(kāi)WeightCase對(duì)話(huà)框。把“人數(shù)[freq]”放入Frequency欄中,單擊“OK”。從“Analyze”→“NonparametricTests”→“Chi-Square”,打開(kāi)Chi-Squaretest對(duì)話(huà)框,把“人數(shù)[freq]”選入TestVariableList欄中,單擊“OK”,得出分析結(jié)果如下:2/4/2023812/4/202382例12:某企業(yè)為了研究新上市的一種純牛奶在包裝設(shè)計(jì)上顧客的偏好,用三種不同的包裝設(shè)計(jì)包裝該產(chǎn)品,并陳列在若干個(gè)超市內(nèi),希望檢驗(yàn)“購(gòu)買(mǎi)者在包裝設(shè)計(jì)的選擇上沒(méi)有偏好”的假設(shè),即希望檢驗(yàn)H0:p1=p2=p3=1/3H1:至少有一個(gè)pi不等于1/3數(shù)據(jù):在一天時(shí)間內(nèi)觀察到120位顧客購(gòu)買(mǎi)了這種純牛奶。其中,n1=32人購(gòu)買(mǎi)了第一種包裝設(shè)計(jì)的純牛奶,n2=45人購(gòu)買(mǎi)了第二種包裝設(shè)計(jì)的純牛奶,n3=43人購(gòu)買(mǎi)了第三種包裝設(shè)計(jì)的純牛奶。結(jié)論:檢驗(yàn)結(jié)果不顯著。2/4/202383列聯(lián)表檢驗(yàn)分析問(wèn)卷調(diào)查中,常常設(shè)計(jì)對(duì)某問(wèn)題兩個(gè)或多個(gè)不同的特征的分類(lèi)。例如房地產(chǎn)商考慮顧客選擇房子設(shè)計(jì)的類(lèi)型與職業(yè)的關(guān)系,所調(diào)查的每個(gè)顧客都有兩個(gè)特性,一個(gè)是選擇的房子類(lèi)型,另一個(gè)是職業(yè);再例如,廣告公司為了調(diào)查城市和鄉(xiāng)村的觀眾對(duì)電視廣告的關(guān)注情況,每位被調(diào)查者都有兩個(gè)特性,一個(gè)是來(lái)自城市還是鄉(xiāng)村,另一個(gè)是對(duì)廣告的態(tài)度。在這些例子中我們通常關(guān)心的是按照兩個(gè)特性進(jìn)行的分類(lèi)的方法之間是否相互依賴(lài),或者說(shuō)是否相互獨(dú)立。換個(gè)說(shuō)法:就是要求判斷兩個(gè)分類(lèi)變量是否存在聯(lián)系的問(wèn)題。如房地產(chǎn)商關(guān)心的是顧客選擇房子的類(lèi)型是否與職業(yè)無(wú)關(guān),或者說(shuō)選擇何種房子與職業(yè)獨(dú)立。在觀眾對(duì)電視廣告的關(guān)注情況的調(diào)查中,感興趣的是每個(gè)觀眾對(duì)電視廣告的關(guān)注情況是否與他來(lái)自城市還是農(nóng)村獨(dú)立。如果兩分類(lèi)變量不相互關(guān)聯(lián),我們就稱(chēng)他們?yōu)楠?dú)立。2/4/202384例13:海波家裝公司對(duì)武漢三鎮(zhèn)的喬遷居民喜好木地板的比例感興趣,目的是為了決定對(duì)三鎮(zhèn)應(yīng)采取何種營(yíng)銷(xiāo)策略。這個(gè)公司的調(diào)研部進(jìn)行了一項(xiàng)調(diào)查,數(shù)據(jù)整理如表3-5。這些數(shù)據(jù)是否提供證據(jù)說(shuō)明武漢三鎮(zhèn)的居民對(duì)木地板喜好的比例確有不同?2/4/202385在社會(huì)經(jīng)濟(jì)和管理問(wèn)題的研究中,人們經(jīng)常對(duì)探討這樣的命題感興趣:若干個(gè)總體就某種特征的看法是否是一致的。比如說(shuō),若干組不同年齡的人對(duì)某種社會(huì)保障政策是否具有同樣的態(tài)度;不同社會(huì)經(jīng)濟(jì)背景的顧客購(gòu)買(mǎi)時(shí)裝的理由是否不同;若干組不同年齡的人是否具有同樣的看電視的嗜好。等等。用假設(shè)檢驗(yàn)來(lái)表述上述問(wèn)題,即我們感興趣的原假設(shè)H0:就受試對(duì)象落入某種分類(lèi)準(zhǔn)則的若干類(lèi)目或水平之中的比例而言,若總體是一致的,可以利用一致性的卡方檢驗(yàn)來(lái)對(duì)H0做判斷。具體做法是,從我們感興趣的若干個(gè)總體中各抽一個(gè)隨機(jī)樣本,并確定每個(gè)樣本中落在每一個(gè)感興趣的類(lèi)目中的受試對(duì)象數(shù)。這一樣本數(shù)據(jù)可列成一個(gè)RXC列聯(lián)表。在表中,各個(gè)總體扮演一種分類(lèi)準(zhǔn)則的角色,而我們感興趣的那種特征則扮演另一種分類(lèi)準(zhǔn)則的角色。在按這種方式收集的樣本數(shù)據(jù)所構(gòu)成的列聯(lián)表中,我們借以指示不同總體的行或列都是固定的,因?yàn)闃颖救萘渴俏覀兪孪却_定的。2/4/202386例14:一個(gè)廣告公司想知道n組年齡不同的人所喜歡的電視節(jié)目是否不同。他們?cè)诓煌挲g的三組人中各抽選了一個(gè)隨機(jī)樣本,并請(qǐng)求樣本中的每一個(gè)人回答在三類(lèi)電視節(jié)目中他或她喜歡哪一類(lèi)。調(diào)查結(jié)果在表3-12中,括號(hào)內(nèi)是期望頻數(shù)。2/4/202387用卡方檢驗(yàn)進(jìn)行列聯(lián)表分析是一個(gè)有力的工具。實(shí)際上,卡方檢驗(yàn)還可以用于總體的分布檢驗(yàn)。用卡方檢驗(yàn)進(jìn)行總體的分布檢驗(yàn),關(guān)鍵是將總體的取值進(jìn)行分類(lèi)。如果總體只取有限個(gè)離散值,則就取每一個(gè)值作為一類(lèi);如果總體取無(wú)限個(gè)離散值,則通過(guò)適當(dāng)合并,變成只取有限個(gè)值的類(lèi)。合并的原則是使合并類(lèi)中的每一類(lèi)的期望次數(shù)等于或超過(guò)5。如果總體是一連續(xù)總體,則將總體的取值范圍分成有限個(gè)類(lèi),分類(lèi)原則仍是使每一類(lèi)中的期望次數(shù)等于或超過(guò)5。通過(guò)分類(lèi),將總體分布檢驗(yàn)問(wèn)題轉(zhuǎn)化為分類(lèi)次數(shù)的檢驗(yàn)問(wèn)題。2/4/202388例15:東風(fēng)賓館為了研究每日注銷(xiāo)的客房間數(shù)的變化規(guī)律,管理人員觀察在為期300天的時(shí)間內(nèi)預(yù)訂和注銷(xiāo)房間的格局,他們將所觀察到的注銷(xiāo)結(jié)果列于表3-13中。這些數(shù)據(jù)是否同“每日注銷(xiāo)的房間數(shù)服從泊松分布”這一假定相容?2/4/202389三、列聯(lián)表與卡方檢驗(yàn)獨(dú)立性檢驗(yàn)(例13)一致性檢驗(yàn)(例14)擬合優(yōu)度檢驗(yàn)(例15)2/4/2023902/4/202391對(duì)例13,為了回答三鎮(zhèn)居民對(duì)木地板喜好的比例是否相同,我們考慮檢驗(yàn)下面的假設(shè)H0:居民對(duì)木地板的喜好與地區(qū)無(wú)關(guān)H1:居民對(duì)木地板的喜好與地區(qū)有關(guān)如果H0成立,說(shuō)明居民對(duì)木地板喜好的比例不因地區(qū)的不同而有異,即居民對(duì)木地板是否喜好與地區(qū)獨(dú)立。獨(dú)立性檢驗(yàn)2/4/202392記:A={居民來(lái)自地區(qū)1},B={居民喜好木地板},則P(AB)=p11。如果H0成立,則A與B獨(dú)立,于是P(AB)=P(A)P(B),而P(A)=p.1,P(B)=p1.,從而H0成立,必須有p11=p1.p.1;同理有p21=p2.p.1;p12=p1.p.2等等,故H0可表達(dá)為H0:pij=pi.p.j,i=1,2,j=1,2,3H1:上述等式至少有一個(gè)不成立為了檢驗(yàn)上述假設(shè),我們必須借助于一維多向分布檢驗(yàn)類(lèi)似的方法。2/4/202393首先計(jì)算在H0成立時(shí)每一類(lèi)中條件頻數(shù)的期望頻數(shù)。例如:E(n11)=np11,H0成立時(shí),p11=p1.p.1,從而E(n11)=np1.p.1。由于p1.和p.1未知,故分別用樣本比例n1./n,n.1/n來(lái)估計(jì)。于是有2/4/2023942/4/2023952/4/202396條件是只要n足夠大,使每一類(lèi)的期望頻數(shù)等于或超過(guò)5即可。

2/4/202397利用SPSS16.0進(jìn)行分析,將表3-6數(shù)據(jù)按要求錄入,如表3-8所示。變量material表示地面材料,1代表地板,2代表其他;變量place表示地區(qū),相應(yīng)由1、2、3表示;變量freq表示喜好人數(shù)。2/4/202398然后,選擇“Data”→“WeightCase”,打開(kāi)WeightCase對(duì)話(huà)框,把“喜好人數(shù)[freq]”放入Frequency欄中,單擊“OK”。從“Analyze”→“DescriptiveStatistics”→“Crosstabs”,打開(kāi)Crosstabs主對(duì)話(huà)框,將“地面材料[material]”選入Row(s)欄;將“地區(qū)[place]”選入Column(s)欄。單擊“Statistics”按鈕,選擇Chi-Square選項(xiàng),按“Continue”返回主對(duì)話(huà)框。單擊“Cell”按鈕,選擇Observed、Expected,按“Continue”返回主對(duì)話(huà)框,并單擊“OK”按鈕,得到輸出結(jié)果如下:2/4/2023992/4/20231002/4/2023101再舉兩例某市商業(yè)系統(tǒng)為提高商業(yè)企業(yè)的服務(wù)質(zhì)量,對(duì)本市的四個(gè)大商場(chǎng)進(jìn)行調(diào)查,征求顧客意見(jiàn),共收回有效問(wèn)卷443張,每張問(wèn)卷對(duì)某一商場(chǎng)按三種服務(wù)質(zhì)量(優(yōu)、中、差)評(píng)價(jià),其結(jié)果用列聯(lián)表表示出來(lái),見(jiàn)表3-9。試分析四個(gè)商場(chǎng)的服務(wù)質(zhì)量評(píng)價(jià)是否一樣。2/4/20231022/4/20231032/4/2023104將本例表3-9的數(shù)據(jù)按照與例3.3同樣的要求錄入SPSS,并按相同步驟操作,得到輸出結(jié)果如下:2/4/20231052/4/20231062/4/20231072/4/20231082/4/2023109將本例表3-11的數(shù)據(jù)按照與例3.3同樣的要求錄入SPSS,并按相同步驟操作,得到輸出結(jié)果如下:2/4/20231102/4/20231112/4/2023112一致性檢驗(yàn)對(duì)例14,表3-12中的期望頻數(shù)是運(yùn)用一致性檢驗(yàn)中的推理根據(jù)算出來(lái)的。如果就對(duì)節(jié)目的喜歡來(lái)說(shuō)三個(gè)被抽樣總體是一致的。則在每一個(gè)年齡小組中,喜歡A類(lèi)節(jié)目者的真正比例的最佳估計(jì)值應(yīng)為140/400=0.35。對(duì)每一個(gè)樣本合計(jì)數(shù)乘以0.35,便得出每一年齡小組中喜歡A類(lèi)節(jié)目者的預(yù)期頻數(shù)。于是有(200)(0.35)=70,(100)(0.35)=35,(100)(0.35)=35。表3-12中另外兩列的預(yù)期頻數(shù)可用類(lèi)似的方法得出。2/4/20231132/4/2023114將本例表3-12的數(shù)據(jù)按照與例3.3同樣的要求錄入SPSS,并按相同步驟操作,得到輸出結(jié)果如下:2/4/20231152/4/2023116再舉一例為了提高市場(chǎng)占有率,A公司和B公司同時(shí)開(kāi)展了廣告宣傳。在廣告宣傳戰(zhàn)之前,A公司的市場(chǎng)占有率為45%,B公司的市場(chǎng)占有率為40%,其他公司的市場(chǎng)占有率為15%。為了了解廣告戰(zhàn)之后A、B和其他公司的市場(chǎng)占有率是否發(fā)生變化,從各公司中分別隨機(jī)抽取了200名消費(fèi)者,其中102人表示準(zhǔn)備購(gòu)買(mǎi)A公司產(chǎn)品,82人表示準(zhǔn)備購(gòu)買(mǎi)B公司產(chǎn)品,另外16人表示準(zhǔn)備購(gòu)買(mǎi)其他公司產(chǎn)品。檢驗(yàn)廣告戰(zhàn)前后各公司的市場(chǎng)占有率是否發(fā)生了變化?(0.05)2/4/2023117H0:1=0.452=0.43=0.15

H1:原假設(shè)中至少有一個(gè)不成立

=0.1df=(2-1)(3-1)=2臨界值(s):統(tǒng)計(jì)量:

在=0.05的水平上拒絕H0可以認(rèn)為廣告后各公司產(chǎn)品市場(chǎng)占有率發(fā)生顯著變化決策:結(jié)論:208.185.99=0.052/4/2023118一致性檢驗(yàn)----P值檢驗(yàn)法第1步:將觀察值輸入一列,將期望值輸入一列第2步:選擇“函數(shù)”選項(xiàng)第3步:在函數(shù)分類(lèi)中選“統(tǒng)計(jì)”,在函數(shù)名中選“CHITEST”,點(diǎn)擊“確定”第4步:在對(duì)話(huà)框“Actual_range”輸入觀察數(shù)據(jù)區(qū)域在對(duì)話(huà)框“Expected_range”輸入期望數(shù)據(jù)區(qū)域,從而得到P值為0.016711,所以拒絕原假設(shè)。2/4/2023119雖然完成一致性卡方檢驗(yàn)與獨(dú)立性卡方檢驗(yàn)時(shí)的分析步驟相同,列聯(lián)表的形式和卡方檢驗(yàn)量的計(jì)算表達(dá)式也相同,但兩者還是有區(qū)別的。他們所用的抽樣程序不同、推算期望頻數(shù)時(shí)的依據(jù)不同、假設(shè)的內(nèi)容不同、以及對(duì)結(jié)果的解釋也不同。2/4/2023120一致性卡方檢驗(yàn)與獨(dú)立性卡方檢驗(yàn)的區(qū)別在做獨(dú)立性卡方檢驗(yàn)時(shí),典型的抽樣程序是從一個(gè)總體中隨機(jī)抽出一個(gè)樣本(事先未分類(lèi)),然后根據(jù)兩種分類(lèi)準(zhǔn)則對(duì)樣本實(shí)體進(jìn)行交叉分類(lèi)。而在進(jìn)行一致性卡方檢驗(yàn)時(shí),我們先將兩個(gè)或多個(gè)感興趣的總體等同起來(lái),并從每一個(gè)總體中各抽取一個(gè)樣本,然后將這些樣本的實(shí)體放到一個(gè)感興趣變量的各種不同的類(lèi)目中去。在獨(dú)立性檢驗(yàn)分析中,推算期望頻數(shù)的根據(jù)是n個(gè)獨(dú)立事件協(xié)同出現(xiàn)的概率,即假定若兩個(gè)變量是獨(dú)立的,則他們各自的分類(lèi)也是獨(dú)立的,特征是期望頻數(shù)事先未知。對(duì)于一致性檢驗(yàn),推算期望頻數(shù)的根據(jù)是建立在這樣一個(gè)假定的基礎(chǔ)上的:如果n個(gè)被抽樣總體是一致的,我們就能通過(guò)將n個(gè)適當(dāng)?shù)臉颖韭?lián)合起來(lái)的方法,來(lái)求得某一給定總體的某個(gè)個(gè)體落在感興趣變量的某一給定類(lèi)目中的概率的最佳估計(jì)值,既是利用原假設(shè)H0中的期望概率,說(shuō)明期望頻數(shù)事先已知。2/4/2023121一致性卡方檢驗(yàn)與獨(dú)立性卡方檢驗(yàn)的區(qū)別在獨(dú)立性檢驗(yàn)分析中,原假設(shè)H0假設(shè)的是兩變量相互獨(dú)立。而在一致性檢驗(yàn)分析中,原假設(shè)通常是假設(shè)各類(lèi)別總體比例等于某個(gè)期望概率。2/4/2023122擬合優(yōu)度檢驗(yàn)對(duì)例15,東風(fēng)賓館為了研究每日注銷(xiāo)的客房間數(shù)的變化規(guī)律,管理人員觀察在為期300天的時(shí)間內(nèi)預(yù)訂和注銷(xiāo)房間的格局,他們將所觀察到的注銷(xiāo)結(jié)果列于表3-13中。這些數(shù)據(jù)是否同“每日注銷(xiāo)的房間數(shù)服從泊松分布”這一假定相容?2/4/20231232/4/20231242/4/20231252/4/20231262/4/2023127然后,選擇“Data”→“WeightCase”,打開(kāi)WeightCase對(duì)話(huà)框。把“天數(shù)[days]”放入Frequency欄中,單擊“OK”。從“Analyze”→“NonparametricTests”→“Chi-Square”,打開(kāi)Chi-Squaretest對(duì)話(huà)框,把“注銷(xiāo)房間數(shù)[cancel]”選入TestVariableList欄中,在ExpectedValues欄中選擇Values選項(xiàng),并把表3-14中合并后的理論頻數(shù)逐個(gè)輸入它右邊的輸入框中,每輸入一個(gè)值后按“Add”按鈕,直到輸完所有的理論頻數(shù)為止,最后單擊“OK”,得出分析結(jié)果如下:2/4/20231282/4/20231292/4/2023130再舉一例某超級(jí)市場(chǎng)的庫(kù)存管理人員需掌握商品的庫(kù)存規(guī)律,制定某商品的庫(kù)存計(jì)劃,為此該管理者統(tǒng)計(jì)了1年中每周需求量如下:試問(wèn)每周需求量是否服從正態(tài)分布?2/4/2023131對(duì)于所要檢驗(yàn)的假設(shè)為連續(xù)型分布時(shí),首先將隨機(jī)變量的取值范圍分成若干個(gè)類(lèi)區(qū)間,再統(tǒng)計(jì)出各類(lèi)區(qū)間的觀察頻數(shù)。對(duì)本例來(lái)說(shuō),類(lèi)區(qū)間已分好。2/4/20231322/4/20231332/4/2023134將上表中合并后的需求量和周數(shù)數(shù)據(jù)按照與例3.7同樣的要求錄入SPSS,并按相同步驟操作,得到輸出結(jié)果如下:2/4/20231352/4/2023136四、定性數(shù)據(jù)的關(guān)聯(lián)性檢驗(yàn)Spearman秩相關(guān)檢驗(yàn)Kendall-Tau秩相關(guān)檢驗(yàn)多變量Kendall協(xié)同系數(shù)檢驗(yàn)2/4/2023137Spearman秩相關(guān)檢驗(yàn)檢驗(yàn)問(wèn)題設(shè)樣本來(lái)自總體:

設(shè)是在中的秩,是在中的秩。秩的簡(jiǎn)單相關(guān)系數(shù):

秩相關(guān)系數(shù)可簡(jiǎn)化為:2/4/2023138在零假設(shè)H0成立時(shí),服從自由度為的t分布。時(shí)表示正相關(guān)。在存在重復(fù)數(shù)據(jù)的時(shí)候,可以采用平均秩,節(jié)不多的時(shí)候,T仍然可以采用。在大樣本情況下,可以采用正態(tài)近似進(jìn)行檢驗(yàn):在出現(xiàn)打結(jié)的時(shí)候,需要使用修正公式計(jì)算。當(dāng)2/4/2023139當(dāng)存在較多結(jié)點(diǎn)時(shí),秩相關(guān)系數(shù)修正公式為D=X的秩與對(duì)應(yīng)的Y的秩之差(ΣD=0),是對(duì)X的所有等值結(jié)求和,di表示X的第i個(gè)等值結(jié)的結(jié)長(zhǎng),是對(duì)Y的所有等值結(jié)求和,ei表示Y的第i個(gè)等值結(jié)的結(jié)長(zhǎng)2/4/2023140例子2/4/2023141例子解答結(jié)論:實(shí)測(cè),說(shuō)明檢驗(yàn)結(jié)果顯著。2/4/2023142Kendall-Tau秩相關(guān)檢驗(yàn)同樣考慮檢驗(yàn)問(wèn)題:用表示協(xié)同的數(shù)對(duì)的數(shù)目,表示不協(xié)同的數(shù)對(duì)數(shù)目。則統(tǒng)計(jì)量定義為:其中,易知在取大值的時(shí)候應(yīng)拒絕,具體檢驗(yàn)時(shí)可以查Kendall-Tau秩相關(guān)檢驗(yàn)表,大樣本時(shí)可以采用正態(tài)近似。打結(jié)情況下用修正公式。

2/4/2023143當(dāng)存在較多結(jié)點(diǎn)時(shí),Kendall-Tau秩相關(guān)系數(shù)修正公式為公式中,TX、Ty分別表示X、Y中結(jié)長(zhǎng)不小于2的數(shù)對(duì)的數(shù)目當(dāng)n→∞時(shí),有2/4/2023144例子2/4/2023145例子解答2/4/2023146查kendall檢驗(yàn)表,檢驗(yàn)結(jié)果顯著。2/4/2023147多變量Kendall協(xié)同系數(shù)檢驗(yàn)Kendall協(xié)同相關(guān)系數(shù)用于考察多個(gè)變量之間的相關(guān)性。例如,歌手大賽中,評(píng)委對(duì)歌手的評(píng)分是否一致?變量之間的協(xié)同系數(shù)檢驗(yàn)也是以多變量的秩檢驗(yàn)為基礎(chǔ)的。假設(shè)k個(gè)變量,每個(gè)變量對(duì)應(yīng)n個(gè)觀測(cè)值,即。為在中的秩。假設(shè)檢驗(yàn)問(wèn)題:2/4/2023148多變量秩和表X1X2…XK和

秩R11R12…R1KR1.R21R22…R2KR2.……………Rn1Rn2…RnKRn.2/4/2023149記協(xié)同系數(shù)檢驗(yàn)的原理如下,在零假設(shè)成立的情況下,那么每一行的秩和應(yīng)該相差不大;而備選假設(shè)成立的時(shí)候,各行的秩和應(yīng)該有很大差別。故原假設(shè)H0的檢驗(yàn)量為從而Kendall協(xié)同相關(guān)系數(shù)W可以表示為:2/4/2023150實(shí)際檢驗(yàn)時(shí),可以查零分布表;在n固定,時(shí):可以利用漸進(jìn)性進(jìn)行檢驗(yàn)。當(dāng)樣本中有打結(jié)情況時(shí),用平均秩方法定秩,且需要用調(diào)整公式協(xié)同系數(shù)Wc。2/4/2023151例子2/4/20231522/4/2023153定性數(shù)據(jù)的建模分析2/4/2023154定性數(shù)據(jù)建模分析內(nèi)容對(duì)數(shù)線(xiàn)性模型基本理論和方法對(duì)數(shù)線(xiàn)性模型分析的上機(jī)實(shí)驗(yàn)線(xiàn)性概率模型(LPM)基本理論和方法Logistic/Probit回歸模型基本理論和方法Logistic/Probit回歸的方法與步驟2/4/2023155前面我們?cè)懻撨^(guò)定性數(shù)據(jù)的列聯(lián)表分析,這里將介紹的對(duì)數(shù)線(xiàn)性模型是進(jìn)一步用于離散型數(shù)據(jù)或整理成列聯(lián)表格式的數(shù)據(jù)的統(tǒng)計(jì)分析工具。它可以把方差分析和線(xiàn)性模型的一些方法應(yīng)用到對(duì)交叉列聯(lián)表的分析中,從而對(duì)定性變量間的關(guān)系作更進(jìn)一步的描述和分析。列聯(lián)表分析無(wú)法系統(tǒng)地評(píng)價(jià)變量間的聯(lián)系,也無(wú)法估計(jì)變量間交互作用的大小,而對(duì)數(shù)線(xiàn)性模型是處理這些問(wèn)題的最佳方法。即對(duì)數(shù)線(xiàn)性模型強(qiáng)調(diào)了模型擬合優(yōu)度,交互效應(yīng)和條件頻數(shù)估計(jì)。2/4/2023156當(dāng)被解釋變量是非度量變量時(shí),可以用判別分析。然而當(dāng)被解釋變量只有兩類(lèi)時(shí),也可以用線(xiàn)性概率模型來(lái)分析,但是Logistic/Probit回歸模型由于多種原因更受歡迎。首先,判別分析依賴(lài)于嚴(yán)格的多元正態(tài)性假定和解釋變量相等協(xié)差陣的假設(shè),這在很多情況下是達(dá)不到的。而LPM、Logistic/Probit回歸模型沒(méi)有類(lèi)似的假設(shè),而且這些假設(shè)不滿(mǎn)足時(shí),結(jié)果非常穩(wěn)定。其次,即使?jié)M足假定,許多研究者仍偏好Logistic回歸,因?yàn)樗?lèi)似于回歸分析。兩者都有直接的統(tǒng)計(jì)檢驗(yàn),都能包含非線(xiàn)性效果和大范圍的診斷。因?yàn)檫@些和更多技術(shù)原因,LPM、Logistic/Probit回歸模型等同于兩類(lèi)的判別分析,在很多情況下更加適用。再者,LPM、Logistic/Probit回歸模型對(duì)于自變量沒(méi)有要求,度量變量或者非度量變量都可以進(jìn)行回歸,2/4/2023157一、對(duì)數(shù)線(xiàn)性模型基本理論和方法

先利用2×2維的交叉列聯(lián)表來(lái)說(shuō)明對(duì)數(shù)線(xiàn)性模型的基本理論和方法,同時(shí)利用SPSS軟件對(duì)真實(shí)的經(jīng)濟(jì)定性數(shù)據(jù)作分析。從2×2維的交叉列聯(lián)表的概率表,介紹對(duì)數(shù)線(xiàn)性模型的基本理論和方法。2/4/20231582/4/2023159對(duì)上面三式各取其平均數(shù)為:

該式的結(jié)構(gòu)與有交互效應(yīng),且各水平均為二的雙因素方差分析模型的結(jié)構(gòu)相似,因此模仿方差分析,可以有如下關(guān)系式:?==21.jijihh?==21.iijjhh??===2121..ijijhh..41..hh=jj.21.hh=.21.iihh=2/4/2023160若記其中

移項(xiàng),可得與有交互效應(yīng)的雙因素方差分析數(shù)學(xué)模型極為相似的關(guān)系式:???íì+--=-=-=..........hhhhghhbhhajiijijjjii....hhhhg+--=jiijij........)()(hbahhhhhhh---=-----=jiijjiij2/4/2023161(8.2)

?????íì======+++=????====2,12,1021212121..jijjijiijjiiijjiijggbagbahh2/4/20231622/4/2023163模型估計(jì)檢驗(yàn)建立對(duì)數(shù)線(xiàn)性模型之后,對(duì)于模型需要進(jìn)行檢驗(yàn),常見(jiàn)的統(tǒng)計(jì)量有兩個(gè),Pearson和對(duì)數(shù)似然比統(tǒng)計(jì)量:在零假設(shè)下,兩者近似服從,k是模型獨(dú)立參數(shù)個(gè)數(shù)。2/4/2023164

在實(shí)際分析中,概率表中各項(xiàng)值,以交叉列聯(lián)表計(jì)算得的頻率表的對(duì)應(yīng)項(xiàng)為無(wú)偏估計(jì)值。公式表示為:nnnnjijjijjijiln)(ln21)(ln2121?212121.-===???===hh2/4/2023165將以上三式代入公式(8.3)即可得的估計(jì)值。實(shí)際分析中,二維數(shù)據(jù)表并不是每個(gè)因素都是雙水平的,在分析中,把公式的的取值上限調(diào)整即可。nnnniijiijiijjln)(ln21)(ln2121?212121.-===???===hhnnnnijijijijijijln)(ln41)(ln4141..?212121212121-===??????======hh????====+--=+--=21212121....)(ln41)(ln21)(ln21ln?????ijijiijjijijjiijijnnnnhhhhg2/4/2023166二、對(duì)數(shù)線(xiàn)性模型分析的上機(jī)實(shí)踐可以使用SPSS軟件來(lái)實(shí)現(xiàn)對(duì)數(shù)線(xiàn)性模型分析。這里舉一個(gè)例子是3×2維的交叉列聯(lián)表的分析。我們用SPSS軟件中的Loglinear模塊實(shí)現(xiàn)分析。【例19】某企業(yè)想了解顧客對(duì)其產(chǎn)品是否滿(mǎn)意,同時(shí)還想了解不同收入的人群對(duì)其產(chǎn)品的滿(mǎn)意程度是否相同。在隨機(jī)發(fā)放的1000份問(wèn)卷中收回有效問(wèn)卷792份,根據(jù)收入高低和滿(mǎn)意回答的交叉分組數(shù)據(jù)如表8-1:2/4/2023167

表8.1.

滿(mǎn)意不滿(mǎn)意合計(jì)高533891中434108542低11148159合計(jì)5981947922/4/2023168首先要準(zhǔn)備數(shù)據(jù),上面的交叉列連表的數(shù)據(jù)要輸入到spss的表格里去,具體格式如下:頻數(shù)收入情況滿(mǎn)意情況5311434211113138121082248322/4/20231692/4/2023170按上面的格式輸入數(shù)據(jù)后,還不能馬上進(jìn)行對(duì)數(shù)線(xiàn)性模型分析,必須先激活頻數(shù),即讓頻數(shù)有效。具體步驟是:使用SPSS軟件,從主菜單中,以Data→WeightCases...順序,打開(kāi)WeightCases對(duì)話(huà)框,選中Weightcasesby單選框,從變量列表中選出“頻數(shù)”變量,點(diǎn)擊鈕,使之進(jìn)入FrequencyVariable框,然后點(diǎn)擊OK鈕,回到數(shù)據(jù)表格,這時(shí)分析前的準(zhǔn)備工作就完成了。這一步很重要,如果頻數(shù)沒(méi)有被激活,對(duì)數(shù)線(xiàn)性模型的模塊仍會(huì)執(zhí)行命令,但是得出的結(jié)果是錯(cuò)誤的,所以使用時(shí)一定要小心。2/4/2023171數(shù)據(jù)準(zhǔn)備工作完成后,就可以進(jìn)行下一步的分析了。從主菜單中,按Analyze→Loglinear→ModelSelection...的流程可打開(kāi)ModelSelectionLoglinearAnalysis對(duì)話(huà)框,從左側(cè)變量欄里選中“收入情況”,點(diǎn)擊鈕使之進(jìn)入Factor(s)框,這時(shí)該框下面的DefineRange...鈕就會(huì)從灰色變?yōu)楹谏?,點(diǎn)擊彈出LoglinearAnalysis:DefineRange對(duì)話(huà)框,可以定義變量的范圍,即該變量的水平范圍,本例中“收入情況”共有三種類(lèi)型,代號(hào)分別是1、2、3,所以在Minimum處鍵入1,在Maximum處鍵入3,2/4/2023172點(diǎn)擊Continue鈕,返回ModelSelectionLoglinearAnalysis對(duì)話(huà)框;按同樣方法,把“滿(mǎn)意情況”變量選入,并定以其范圍為1、2;然后選中“頻數(shù)”變量,點(diǎn)擊鈕使之進(jìn)入CellWeight框;最后,點(diǎn)擊Options...鈕,進(jìn)入LoglinearAnalysis:Options對(duì)話(huà)框,選擇DisplayforSaturatedModel欄下的Parameterestimates項(xiàng),點(diǎn)擊Continue鈕返回ModelSelectionLoglinearAnalysis對(duì)話(huà)框,其他選項(xiàng)保持默認(rèn)值,最后點(diǎn)擊OK鈕即完成分析步驟。2/4/20231732/4/2023174

首先顯示系統(tǒng)對(duì)792例資料進(jìn)行分析,這792例資料可分為6類(lèi)(3×2)。模型中共有二個(gè)分類(lèi)變量:其中“收入情況”變量為3水平,“滿(mǎn)意情況”情況變量為2水平;分析的效應(yīng)除了兩個(gè)分類(lèi)變量,還有兩者的交互作用(收入情況*滿(mǎn)意情況)。系統(tǒng)經(jīng)1次疊代后,即達(dá)到相鄰二次估計(jì)之差不大于規(guī)定的0.001。2/4/20231752/4/20231762/4/2023177

這是對(duì)模型是否有交互效應(yīng)和高階效應(yīng)進(jìn)行檢驗(yàn),原假設(shè)是高階效應(yīng)為0,即沒(méi)有高階效應(yīng)。檢驗(yàn)結(jié)果認(rèn)為拒絕原假設(shè),存在交互效應(yīng)和高階效應(yīng)。在Note里,表示對(duì)飽和模型的觀測(cè)單元進(jìn)行了變換。2/4/20231782/4/2023179

為了唯一地估計(jì)參數(shù),系統(tǒng)強(qiáng)行限定同一分類(lèi)變量的各水平參數(shù)之和為0,故根據(jù)上表結(jié)果可推得各參數(shù)為:2/4/20231802/4/2023181參數(shù)值為正,表示正效應(yīng);反之為負(fù)效應(yīng);零為無(wú)效應(yīng)。分析提供的信息是:(1)為正值,說(shuō)明接受調(diào)查了的多數(shù)顧客對(duì)其產(chǎn)品還是滿(mǎn)意的;(2)<<,說(shuō)明各收入階層的顧客對(duì)其產(chǎn)品的滿(mǎn)意程度是不同的,其中,高收入的顧客滿(mǎn)意程度最低,而中層收入的顧客滿(mǎn)意程度最高;(3)通過(guò)對(duì)企業(yè)顧客的收入情況和滿(mǎn)意情況交互效應(yīng)的研究,為負(fù)值表示高收入與對(duì)產(chǎn)品的滿(mǎn)意程度是負(fù)效應(yīng)的,為正表示中等收入者與對(duì)其產(chǎn)品的滿(mǎn)意程度是正效應(yīng)的,同理,低收入人群對(duì)其產(chǎn)品的滿(mǎn)意程度也是負(fù)效應(yīng)的。該企業(yè)的產(chǎn)品主要的消費(fèi)階層是中等收入者,同時(shí)中等收入者對(duì)其產(chǎn)品的滿(mǎn)意程度也最好。滿(mǎn)意高收入.g滿(mǎn)意中收入.g2/4/2023182三、線(xiàn)性概率模型(LPM)

基本理論和方法

定性變量通過(guò)賦值的方式可轉(zhuǎn)化為定量變量。轉(zhuǎn)化后的變量常稱(chēng)為虛擬變量,它分兩類(lèi):虛擬解釋變量和虛擬被解釋變量。虛擬被解釋變量在日常經(jīng)濟(jì)生活中常表現(xiàn)在人們的決策行為上,即對(duì)某一問(wèn)題人們要作出“是”或“否”的回答。例如:是否購(gòu)買(mǎi)家用汽車(chē),是否購(gòu)買(mǎi)養(yǎng)老保險(xiǎn),是否戀愛(ài),某一商品在市場(chǎng)上是否暢銷(xiāo),等等。對(duì)此類(lèi)問(wèn)題,我們都可以用虛擬被解釋變量模型進(jìn)行決策。較常用的虛擬被解釋變量模型有:線(xiàn)性概率模型(LPM)和非線(xiàn)性概率模型(包括Logistic模型和Probit模型)2/4/2023183LPM的形式2/4/2023184LPM的估計(jì)與檢驗(yàn)估計(jì)與檢驗(yàn)遇到的問(wèn)題隨機(jī)誤差項(xiàng)不服從正態(tài)分布不影響估計(jì)影響檢驗(yàn)大樣本下任可在正態(tài)分布下進(jìn)行統(tǒng)計(jì)推斷隨機(jī)誤差項(xiàng)具有異方差性需采用加權(quán)最小二乘法條件不一定成立當(dāng)時(shí),應(yīng)認(rèn)為它等于1;當(dāng)時(shí),就認(rèn)為它等于0。2/4/2023185四、Logistic/Probit回歸模型基本理論和方法2/4/20231862/4/20231872/4/2023188Logistic回歸不同于一般回歸分析的地方在于它直接預(yù)測(cè)出了事件發(fā)生的概率。盡管這個(gè)概率值是個(gè)度量尺度,Logistic回歸與多元回歸還是有著很大的差異。概率值可以是0-1之間的任何值,但是預(yù)測(cè)值必須落入0-1的區(qū)間。這樣,Logistic回歸假定解釋變量與被解釋變量之間的關(guān)系類(lèi)似于S形曲線(xiàn)。而且,不能從普通回歸的角度來(lái)分析Logistic回歸,因?yàn)檫@樣做會(huì)違反幾個(gè)假定。首先,離散變量的誤差形式服從二項(xiàng)分布,而不是正態(tài)分布,這樣使得基于正態(tài)性假設(shè)的統(tǒng)計(jì)檢驗(yàn)無(wú)效。其次,二值變量的方差不是常數(shù),會(huì)造成異方差性。Logistic回歸是專(zhuān)門(mén)處理這些問(wèn)題的。它的解釋變量與被解釋變量之間獨(dú)特的關(guān)系使得在估計(jì)、評(píng)價(jià)擬合度和解釋系數(shù)方面有不同的方法。2/4/2023189估計(jì)Logistic回歸模型與估計(jì)多元回歸模型的方法是不同的。多元回歸采用最小二乘估計(jì),將解釋變量的真實(shí)值與預(yù)測(cè)值差異的平方和最小化。而Logistic變換的非線(xiàn)性特征使得在估計(jì)模型的時(shí)候采用極大似然估計(jì)的疊代方法,找到系數(shù)的“最可能”的估計(jì)。這樣在計(jì)算整個(gè)模型擬合度的時(shí)候,就采用似然值而不是離差平方和。

2/4/20231902/4/2023191前面已提到Logistic回歸在估計(jì)系數(shù)時(shí),是用的極大似然估計(jì)法。就象多元回歸中的殘差平方和,Logistic回歸對(duì)模型擬合好壞通過(guò)似然值來(lái)測(cè)量。(實(shí)際上是用-2乘以似然值的自然對(duì)數(shù)即-2Log似然值,簡(jiǎn)記為-2LL)。一個(gè)好的模型應(yīng)該有較小的-2LL。如果一個(gè)模型完全擬合,則似然值為1,這時(shí)-2LL達(dá)到最小,為0。Logistic回歸對(duì)于系數(shù)的檢驗(yàn)采用的是與多元回歸中t檢驗(yàn)不同的統(tǒng)計(jì)量,稱(chēng)為Wald統(tǒng)計(jì)量。有關(guān)Logistic回歸的參數(shù)估計(jì)和假設(shè)檢驗(yàn)詳見(jiàn)有關(guān)的參考文獻(xiàn)。2/4/2023192Logistic/Probit回歸特征參數(shù)估計(jì)采用極大擬然法回歸系數(shù)exp(bi)的意義為優(yōu)勢(shì)比的變化率回歸方程擬合效果的評(píng)價(jià)指標(biāo)一是偽R2=1-LL模型/LL原假設(shè)。二是似然函數(shù)值(表示原假設(shè)為真時(shí),即模型成立時(shí),觀測(cè)到這個(gè)特定樣本的概率)?;貧w系數(shù)顯著性檢驗(yàn)的統(tǒng)計(jì)量為沃德(Wald)統(tǒng)計(jì)量?;貧w方程的顯著性檢驗(yàn)是似然比檢驗(yàn)。,在一般統(tǒng)計(jì)軟件中檢驗(yàn)量為“-2log(likelihood)”,簡(jiǎn)記為-2LL=λ。2/4/2023193一、分組數(shù)據(jù)的Logistic回歸模型針對(duì)0-1型因變量產(chǎn)生的問(wèn)題,我們對(duì)回歸模型應(yīng)該做兩個(gè)方面的改進(jìn)。第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線(xiàn),而不能再沿用直線(xiàn)回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線(xiàn)有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為(8.4)

Logistic函數(shù)的中文名稱(chēng)是邏輯斯諦函數(shù),或簡(jiǎn)稱(chēng)邏輯函數(shù)。這里給出幾個(gè)Logistic函數(shù)的圖形。見(jiàn)圖8-1、圖8-2。2/4/2023194圖8-1

的圖形

2/4/2023195圖8-2

的圖形

00.10.20.30.40.50.60.70.80.91-4-3-2-1012342/4/20231962/4/20231972/4/2023198【例20】在一次住房展銷(xiāo)會(huì)上,與房地產(chǎn)商簽定初步購(gòu)房意向書(shū)的共有n=325名顧客中,在隨后的3個(gè)月的時(shí)間內(nèi),只有一部分顧客確實(shí)購(gòu)買(mǎi)了房屋。購(gòu)買(mǎi)了房屋的顧客記為1,沒(méi)有購(gòu)買(mǎi)房屋的顧客記為0。以顧客的年家庭收入(萬(wàn)元)為自變量x,對(duì)如下的數(shù)據(jù),建立Logistic回歸模型2/4/2023199表8.2序號(hào)年家庭收入

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論