2023年統(tǒng)計學(xué)知識點完整_第1頁
2023年統(tǒng)計學(xué)知識點完整_第2頁
2023年統(tǒng)計學(xué)知識點完整_第3頁
2023年統(tǒng)計學(xué)知識點完整_第4頁
2023年統(tǒng)計學(xué)知識點完整_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基本記錄方法第一章概論1.總體(Population):根據(jù)研究目的擬定的同質(zhì)對象的全體(集合);樣本(Sample):從總體中隨機抽取的部分具有代表性的研究對象。2.參數(shù)(Parameter):反映總體特性的記錄指標(biāo),如總體均數(shù)、標(biāo)準(zhǔn)差等,用希臘字母表達,是固定的常數(shù);記錄量(Statistic):反映樣本特性的記錄指標(biāo),如樣本均數(shù)、標(biāo)準(zhǔn)差等,采用拉丁字字母表達,是在參數(shù)附近波動的隨機變量。3.記錄資料分類:定量(計量)資料、定性(計數(shù))資料、等級資料。第二章計量資料記錄描述1.集中趨勢:均數(shù)(算術(shù)、幾何)、中位數(shù)、眾數(shù)2.離散趨勢:極差、四分位間距(QR=P75-P25)、標(biāo)準(zhǔn)差(或方差)、變異系數(shù)(CV)3.正態(tài)分布特性:①X軸上方關(guān)于X=對稱的鐘形曲線;②X=時,f(X)取得最大值;③有兩個參數(shù),位置參數(shù)和形態(tài)參數(shù);④曲線下面積為1,區(qū)間±的面積為68.27%,區(qū)間±1.96的面積為95.00%,區(qū)間±2.58的面積為99.00%。4.醫(yī)學(xué)參考值范圍的制定方法:正態(tài)近似法:;百分位數(shù)法:P2.5-P97.5。第三章總體均數(shù)估計和假設(shè)檢查1.抽樣誤差(SamplingError):由個體變異產(chǎn)生、隨機抽樣導(dǎo)致的樣本記錄量與總體參數(shù)的差異。抽樣誤差不可避免,產(chǎn)生的主線因素是生物個體的變異性。2.均數(shù)的標(biāo)準(zhǔn)誤(StandarderrorofMean,SEM):樣本均數(shù)的標(biāo)準(zhǔn)差,計算公式:。反映樣本均數(shù)間的離散限度,說明抽樣誤差的大小。3.減少抽樣誤差的途徑有:①通過增長樣本含量n;②通過設(shè)計減少S。4.t分布特性:①單峰分布,以0為中心,左右對稱;②形態(tài)取決于自由度,越小,t值越分散,t分布的峰部越矮而尾部翹得越高;③當(dāng)逼近∞,逼近,t分布逼近u分布,故標(biāo)準(zhǔn)正態(tài)分布是t分布的特例。5.置信區(qū)間(ConfidenceInterval,CI):按預(yù)先給定的概率(1-)擬定的包含總體參數(shù)的一個范圍,計算公式:或。95%CI含義:從固定樣本含量的已知總體中進行反復(fù)抽樣實驗,根據(jù)每個樣本可得到一個置信區(qū)間,則平均有95%的置信區(qū)間包含了總體參數(shù)。6.假設(shè)檢查的基本原理:小概率反證法的思想。①反證法:從問題的對立面(H0)出發(fā)間接判斷要解決的問題(H1)是否成立。②小概率事件:在H0成立的條件下計算檢查記錄量,根據(jù)概率分布擬定檢查水準(zhǔn)下P值大小,判斷是否為小概率事件(通常P≤視為小概率事件,通常?。?是則拒絕H0,接受H1;否則尚不能拒絕H0。7.假設(shè)檢查一般環(huán)節(jié):①建立假設(shè)(反證法,H0和H1),擬定檢查水準(zhǔn)();②計算記錄量:u,t,F;③擬定概率值P,做出推斷結(jié)論。8.t檢查需滿足的條件:比較的兩個樣本互相獨立、均服從正態(tài)分布。9.P的含義:是指從H0規(guī)定的總體隨機抽樣,抽得等于及大于(或/和等于及小于)現(xiàn)有樣本獲得的檢查記錄量(如t、u等)值的概率。10.Ⅰ型錯誤(TypeⅠerror):拒絕了事實上成立的H0,這類“棄真”的錯誤稱為Ⅰ型錯誤,Ⅰ型錯誤的大小為檢查水準(zhǔn)。Ⅱ型錯誤(TypeⅡerror):接受了事實上不成立的H0,這類“存?zhèn)巍钡腻e誤稱為Ⅱ型錯誤,Ⅱ型錯誤的大小用表達,1-表達檢查效能。越小,越大,增大樣本量可以同時減少和。11.置信區(qū)間和假設(shè)檢查的區(qū)別和聯(lián)系:①可以通過判斷置信區(qū)間是否包含零假設(shè),判斷單樣本均數(shù)是否來自已知的總體;②置信區(qū)間不僅能回答差別有無記錄學(xué)意義,還可提醒差別有無實際意義。③假設(shè)檢查可提供置信區(qū)間不能提供的信息,如P值和檢查效能等。第四章方差分析1.方差分析的基本思想:根據(jù)研究目的和設(shè)計類型,把所有測量值的總變異按照解決因素和水平等分解成兩部分(組內(nèi)變異和組間變異)或更多部分,同時把對自由度相應(yīng)進行分解,再進行比較,評價由解決因素引起的變異是否具有記錄學(xué)意義。2.方差分析的應(yīng)用條件:各樣本是互相獨立的隨機樣本,均來自正態(tài)分布的總體,各樣本的總體方差相等(具有方差齊性)。3.方差分析表:變異來源SSνMSFP組間變異ag-1a/(g-1)MS組間/MS組內(nèi)組內(nèi)變異bN-gb/(N-g)總變異a+bN-14.g=2時,隨機區(qū)組設(shè)計的方差分析與配對設(shè)計資料t檢查等價,。5.多個樣本均數(shù)間的多重比較:①LSD-t檢查,即最小顯著差異t檢查,合用于一對或幾對在專業(yè)上有特殊意義的樣本均數(shù)間的比較;②Dunnett-t檢查:合用于g-1個實驗組與一個對照組均數(shù)差別的多重比較;③SNK-q檢查:合用于多個樣本均數(shù)兩兩之間的全面比較。第五章計數(shù)資料的記錄描述1.相對數(shù)的類型:強度相對數(shù)(率,如死亡率、發(fā)病率等);結(jié)構(gòu)相對數(shù)(構(gòu)成比);相對比(如性別比等)2.應(yīng)用相對數(shù)的注意事項:①結(jié)構(gòu)相對數(shù)不能代替強度相對數(shù);②計算相對數(shù)應(yīng)有足夠的數(shù)量;③對的計算合計率;④注意資料的可比性;⑤對比不同時期資料應(yīng)注意客觀條件是否相同;⑥樣本率(或構(gòu)成比)的抽樣誤差。3.標(biāo)準(zhǔn)化率(Standardizationrate):采用標(biāo)準(zhǔn)化法進行計算,消除數(shù)據(jù)內(nèi)部構(gòu)成的差異,使標(biāo)化后的合計率具有可比性,這種通過標(biāo)化后的合計率稱為標(biāo)準(zhǔn)化率。4.標(biāo)準(zhǔn)化率的注意事項:①只合用于內(nèi)部構(gòu)成不同,影響總率的可比性的問題;②選擇的標(biāo)準(zhǔn)不同,計算得到的標(biāo)準(zhǔn)化率也不同,多個標(biāo)準(zhǔn)化率比較時,應(yīng)選同一標(biāo)準(zhǔn);③標(biāo)準(zhǔn)化率已經(jīng)不再反映本地的實際水平;④樣本標(biāo)準(zhǔn)化率是樣本值,存在抽樣誤差。比較兩樣本標(biāo)準(zhǔn)化率,當(dāng)樣本量較小時,需做假設(shè)檢查。第六章幾種離散型變量的分布及應(yīng)用1.二項分布X~B(n,)的合用條件:①每次實驗只發(fā)生兩種對立的也許結(jié)果之一;②每次實驗產(chǎn)生某結(jié)果的概率固定不變;③反復(fù)實驗是互相獨立的。2.二項分布的性質(zhì):①陽性次數(shù)X的總體均數(shù)()、標(biāo)準(zhǔn)差();②樣本率p的均數(shù)()、標(biāo)準(zhǔn)差(,即率的標(biāo)準(zhǔn)誤)。③二項分布的正態(tài)近似條件:np和n(1-p)均大于5。3.泊松分布X~P()的性質(zhì):①總體均數(shù)和總體方差2相等;②當(dāng)n很大,很小,且np=為常數(shù)時,二項分布近似泊松分布;③≥20時,泊松分布近似正態(tài)分布;④泊松分布具有可加性。第七章2檢查1.2檢查的基本思想:根據(jù)2分布特性,通過比較實際頻數(shù)與理論頻數(shù)的差異,擬定在成立的條件下該差異由抽樣誤差導(dǎo)致是否為小概率事件,進而判斷差異是否具有記錄學(xué)意義。2值反映了實際頻數(shù)與理論頻數(shù)的吻合限度。2.R×C列聯(lián)表中的各格子T≥1,并且1≤T<5的格子數(shù)不宜超過1/5格子總數(shù),否則也許產(chǎn)生偏差。解決方法有三種:①增長樣本量,使理論頻數(shù)增大;②根據(jù)專業(yè)知識,刪除或合并行列;③采用Fisher確切概率法分析。3.有序分組資料表線性趨勢檢查:①雙向無序的R×C列聯(lián)表:多個樣本率的比較采用R×C列聯(lián)表的2檢查;兩個分類變量的關(guān)聯(lián)性分析則采用R×C列聯(lián)表的2檢查和Pearson列聯(lián)系數(shù)進行分析。②單向有序的R×C列聯(lián)表:行有序而列無序:R×C列聯(lián)表的2檢查;行無序而列有序,采用Wilcoxon秩和檢查。③雙向有序?qū)傩韵嗤腞×C列聯(lián)表:配對四格表的擴展,采用一致性檢查(Kappa檢查)。④雙向有序?qū)傩圆煌腞×C列聯(lián)表:樣本率的比較采用Wilcoxon秩和檢查;相關(guān)性分析采用Spearman相關(guān)分析;線性變化趨勢分析采用有序分組資料的線性趨勢檢查或CMH2檢查等。第八章非參數(shù)檢查1.秩和檢查的合用范圍:①總體分布偏態(tài)的計量資料;②數(shù)據(jù)兩端有不擬定值;③等級資料;④各組離散限度相差懸殊,總體方差不齊的資料。2.非參數(shù)檢核對總體分布的形狀差別不敏感,只對總體分布位置差別敏感;非參數(shù)檢查沒有充足運用資料信息,較參數(shù)檢查的檢查效低。故能用參數(shù)檢查盡量采用參數(shù)檢查,不滿足參數(shù)檢查條件才使用非參數(shù)檢查。3.不同數(shù)據(jù)類型的記錄分析途徑:(1)樣本均數(shù)與總體均數(shù)的比較:正態(tài),樣本均數(shù)與總體均數(shù)的t檢查;非正態(tài),Wilcoxon符號秩檢查。(2)兩樣本均數(shù)比較:①獨立正態(tài):兩獨立樣本t檢查;②獨立非正態(tài):兩獨立樣本的Wilcoxon秩和檢查;③配對設(shè)計差值正態(tài),配對t檢查;④配對設(shè)計差值非正態(tài),Wilcoxon符號秩檢查。(3)多樣本均數(shù)比較:①獨立正態(tài)(方差齊),方差分析;②獨立非正態(tài)Kruskal-WailsH檢查;③非獨立正態(tài),反復(fù)測量資料的方差分析;④非獨立非正態(tài),F(xiàn)riedmanM檢查第九章雙變量回歸和相關(guān)1.直線回歸應(yīng)滿足的條件:自變量與因變量呈線性關(guān)系、觀測值之間互相獨立、因變量Y隨機正態(tài)、對任何X因變量Y的標(biāo)準(zhǔn)差相等。直線回歸方程的一般形式為:,為截距,為回歸系數(shù),回歸系數(shù)的估計采用最小二乘法原則(LeastSquaresMethod,使殘差平方和最小)進行估計。2.決定系數(shù)(coefficientofdeterminat(yī)ion):回歸平方和與總平方和的比值,R2=SS回/SS總。R2取值0~1之間無單位,其數(shù)值大小反映回歸奉獻的相對限度,即總變異中回歸模型可以解釋的比例。3.秩相關(guān)的應(yīng)用合用范圍:(1)不服從雙變量正態(tài)分布而不宜作Pearson相關(guān)分析;(2)總體分布型未知;(3)等級資料的相關(guān)分析。4.相關(guān)與回歸的區(qū)別與聯(lián)系區(qū)別(1)區(qū)別:①資料:回歸分析資料規(guī)定Y為正態(tài)隨機變量,X為選定變量;相關(guān)分析資料X、Y服從雙變量正態(tài)分布。②應(yīng)用:回歸分析是由一個變量值推算另一個變量值(依存關(guān)系);相關(guān)分析只反映兩個變量間的互相關(guān)系。③回歸系數(shù)b與原度量單位有關(guān),而相關(guān)系數(shù)r無關(guān)。b的絕對值越大,回歸直線越陡,即X變化1個單位時Y的平均變化越大;r的絕對值越大,所有點越趨近于一條直線,兩變量的關(guān)系越密切,相關(guān)度越高。(2)聯(lián)系:①r與b值可互相換算,;②r與b正負(fù)號一致;③r與b的假設(shè)檢查等價:對于同一資料,檢查完全等價;④回歸可解釋相關(guān)。相關(guān)系數(shù)的平方r2(決定系數(shù))是回歸平方和與總的離均差平方和之比(SS回/SS總)。5.應(yīng)用直線回歸時的注意事項(1)作回歸分析要有實際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作回歸分析,必須對兩種現(xiàn)象間的內(nèi)在聯(lián)系有所結(jié)識。(2)在進行直線回歸分析之前,應(yīng)繪制散點圖,當(dāng)觀測點的分布有直線趨勢時,才適宜作直線回歸分析,散點圖還能提醒資料有無異常點。異常點的存在往往對方程中的系數(shù)(a、b)的估計產(chǎn)生較大影響。因此,需對異常點進行復(fù)查。(3)建立直線回歸方程后,要對系數(shù)進行假設(shè)檢查,以擬定回歸方程有無意義。(4)直線回歸方程的合用范圍一般以自變量的取值范圍為限,避免外延。獲得自變量值的手段也應(yīng)與建立方程時相同。否則會產(chǎn)生較大偏差。第十章登記表和記錄圖1.登記表的基本規(guī)定(1)標(biāo)題:概括表的重要內(nèi)容(時間、地點、研究內(nèi)容等),放在表的上方。表編號與標(biāo)題間間隔一個漢字距離;如整個表指標(biāo)統(tǒng)一,還應(yīng)將指標(biāo)的單位標(biāo)在標(biāo)題后面。(2)標(biāo)目:分別用橫標(biāo)目和縱標(biāo)目說明每行和每列內(nèi)容或數(shù)字的意義,標(biāo)明指標(biāo)的單位。通常描述的對象為橫標(biāo)目,內(nèi)容(指標(biāo))為縱標(biāo)目,從左向右讀可以構(gòu)成完整的一句話。(3)線條:至少用3條線:頂線、底線和縱標(biāo)目線。頂線和底線將表格與文章其他部分分隔開,縱標(biāo)目線將標(biāo)目的文字區(qū)與表格的數(shù)字區(qū)隔開,還可用橫線將合計和兩重縱標(biāo)目隔開,其他豎線和斜線一概省去。頂線和底線線條粗細(xì)一般為1.5磅,其他線條一般為0.5磅。(4)數(shù)字:用阿拉伯?dāng)?shù)字表達。無數(shù)字用“—”表達,缺失數(shù)字用“…”表達,數(shù)值為0者記為“0”,不留空項。數(shù)字按小數(shù)點位數(shù)對齊,同一指標(biāo)最佳保存相同位數(shù)的小數(shù)位數(shù)。(5)備注:表中數(shù)字區(qū)不要插入文字。必須說明者表“*”,在表下方以備注的形式說明。高級記錄方法第十二章反復(fù)測量資料的方差分析1.反復(fù)測量設(shè)計與隨機區(qū)組設(shè)計的區(qū)別:(1)反復(fù)測量設(shè)計中“解決”是在區(qū)組(受試者)間隨機分派,區(qū)組內(nèi)的各時間點是固定的,不能隨機分派;(2)反復(fù)測量設(shè)計區(qū)組內(nèi)實驗單位彼此不獨立;2.球?qū)ΨQ(sphericity):所有兩兩時間點變量間差值相應(yīng)的方差相等,即反復(fù)測量的誤差的協(xié)方差經(jīng)正交對比變換后與單位矩陣成比例。3.反復(fù)測量資料方差分析的資料條件:(1)正態(tài)性:解決因素的各水平樣本個體間是互相獨立的隨機樣本,其總體均數(shù)服從正態(tài)分布(個體間獨立,個體內(nèi)不獨立);(2)方差齊性:互相比較的各解決水平的總體方差相等,即具有方差齊同;(3)各時間點組成的協(xié)方差陣具有球形性特性。第十五章多元線性回歸分析1.偏回歸系數(shù)(partialregressioncoefficient):多元線性回歸模型中自變量Xj的系數(shù)j,表達在其他自變量保持不變時,Xj增長或減少一個單位是Y的平均變化量。2.復(fù)相關(guān)系數(shù)(multiplecorrelationcoefficient):,表達因變量Y與多個自變量的線性相關(guān)限度,也是觀測值Y與估計值之間的相關(guān)限度。若只有一個自變量,。3.標(biāo)準(zhǔn)化回歸系數(shù):對數(shù)據(jù)標(biāo)準(zhǔn)化后得到的標(biāo)準(zhǔn)化回歸方程的回歸系數(shù)即為標(biāo)準(zhǔn)化回歸系數(shù),,用來比較各個自變量對Y的影響強度,在有記錄學(xué)意義的前提下,標(biāo)準(zhǔn)化回歸系數(shù)的絕對值越大說明相應(yīng)自變量對Y的作用越大。4.多元線性回歸模型()應(yīng)滿足的條件:①Y與X1,X2,…,Xm之間具有線性關(guān)系;②各例觀測值Yi互相獨立;③殘差e服從正態(tài)分布。5.啞變量(dummyvariable):在多元線性回歸模型中,當(dāng)自變量為多分類變量(g個水平)時,需要將本來的多分類變量轉(zhuǎn)化為(g-1)個啞變量并進行編碼,每個啞變量只代表兩個級別或多個級別間的差異。應(yīng)用啞變量時要注意:①啞變量同時存在,其記錄學(xué)意義是相對而言的,不能采用常規(guī)的逐步回歸進行變量選擇;②可采用加與不加入啞變量的偏回歸平方和F檢查擬定啞變量有無意義。6.多重共線性(collinearity):某些自變量間存在較強的線性關(guān)系,使得一個或幾個自變量可以由此外的自變量的線性關(guān)系表達,則該變量與此外的自變量間存在多重共線性。多重共線性也許導(dǎo)致回歸方程不穩(wěn)定、參數(shù)估計值標(biāo)準(zhǔn)誤變得很大、t檢查不準(zhǔn)確、估計值的正負(fù)符號與實際不符等。7.交互作用:當(dāng)某一自變量對因變量的作用大小與另一自變量的取值有關(guān),則這兩個自變量有交互作用。是否考慮交互作用重要靠專業(yè)知識判斷。為了檢查兩個自變量是否具有交互作用,普遍的做法是在模型中加入它們的乘積項(作為交互項)。8.線性回歸分析的SAS結(jié)果解釋:(1)線性回歸方程:;(2)該線性回歸模型的記錄學(xué)檢查結(jié)果:模型的方差分析記錄量F=6.91,P=0.0303<0.05,說明該線性回歸模型具有記錄學(xué)意義。(3)R-Square=0.46353的意義:該線性回歸模型可以解釋因變量Y的總變異的46.353%;(4)回歸系數(shù)估計值b=0.99733的意義:表達X對Y影響的大小,X每改變一個單位,Y改變0.99733個單位;其假設(shè)檢查結(jié)果合方差分析結(jié)果的聯(lián)系:方差分析結(jié)果說明X與Y之間存在的線性關(guān)系,t檢查結(jié)果說明計算得到的回歸系數(shù)b有記錄學(xué)意義,在此問題中,兩者是等價的,均說明該回歸模型具有記錄學(xué)意義。(5)相關(guān)系數(shù)及其檢查結(jié)果并解釋該結(jié)果:r=0.68073,對r進行t檢查得到P=0.0303<0.05,則該相關(guān)系數(shù)具有記錄學(xué)意義,說明X與Y之間具有中檔強度的正相關(guān)關(guān)系。第十六章Logistic回歸分析1.logistic回歸模型一般形式:。將某事件的陽性與陰性結(jié)果概率之比去自然對數(shù)稱為logit變換,記為logit(P)。2.回歸系數(shù)采用最大似然估計(maximumlikelihoodestimate,MLE,使在一次抽樣中獲得現(xiàn)有樣本的概率最大)得到表達自變量Xj改變一個單位時logitP的改變量。多變量調(diào)整后的優(yōu)勢比,表達扣除了其他自變量的影響后危險因素的作用。ORj=1,說明Xj對疾病發(fā)生不起作用ORj>1,說明Xj是一個危險因素;ORj<1,說明Xj是一個保護因素,ORj的可信區(qū)間為:。3.logistic回歸模型假設(shè)檢查的方法:似然比法(,適合單個和多個自變量的假設(shè)檢查)、Wald檢查(或,適合單個自變量的假設(shè)檢查)和計分檢查(適合樣本量較小的情況)。變量篩選的方法:前進法、后退法、逐步法。4.條件logistic回歸:合用于1:M配對設(shè)計資料,條件似然函數(shù)估計的是在M+1個觀測對象中恰好第一個觀測對象屬于病例組的條件概率,它只估計了表達危險因素作用的,表達匹配組效應(yīng)的常數(shù)項被消去。5.有序logistic回歸基于累積概率構(gòu)建回歸模型,g個類別的因變量Y的有序logistic回歸涉及g-1個方程,這些方程的回歸系數(shù)均相同,差別重要體現(xiàn)在各方程的常數(shù)項不同。在對因變量Y賦值時,應(yīng)將專業(yè)上最不利的等級賦最小值,最有利的等級賦最大值。6.多分類logistic回歸是二分類logistic回歸的擴展,即選擇一個參照類別,擬合剩余各類別相對于參照類別的logistic回歸模型。第十七章生存分析1.生存分析的數(shù)據(jù)特點:(1)同時考慮生存時間和生存結(jié)局;(2)通常具有刪失數(shù)據(jù)(censoring,也許的因素:①研究截止但終點事件仍未出現(xiàn);②失去聯(lián)系或其他因素導(dǎo)致失訪;③死于其他“事件”);(3)生存時間的分布通常不服從正態(tài)分布。2.記錄學(xué)分析方法:由于生存時間一般不呈正態(tài)分布,且需考慮是否為刪失值,所以生存分析有其獨特的記錄方法。(1)非參數(shù)法:①生存率的估計采用Kaplan-Meier法、壽命表法(頻數(shù)表資料);②兩組或多組生存率的比較,常用log-rank檢查(時序法,權(quán)重,對觀測后期差別敏感)和Breslow檢查(權(quán)重,為期初人數(shù),隨生存時間增大而逐漸減小,Breslow檢查給觀測初期差別更大權(quán)重,故對觀測初期差別敏感)。(2)半?yún)?shù)法:多因素生存分析常采用Cox比例風(fēng)險模型(前提條件:假定風(fēng)險比值h(t)/h0(t)為固定值,即協(xié)變量對生存率的影響不隨時間的改變而改變。檢查此前提的方法:①分類協(xié)變量每組的K-M生存曲線無交叉;②協(xié)變量與生存時間的交互項無記錄學(xué)意義等。其參數(shù)估計方法為最大似然法)。(3)參數(shù)法:指數(shù)分布法、Weibull分布法等回歸模型。3.多元線性回歸、logistic回歸和Cox回歸的相同點和不同點(1)相同點:①自變量可為連續(xù)變量和多分類變量,多分類變量需啞變量化,啞變量在模型中是一個整體,必須同時“進”同時“出”;②自變量間存在較強相關(guān)關(guān)系時也許導(dǎo)致多重共線性問題;③自變量間也許存在交互作用,模型中通常采用自變量的乘積作為交互項;④均可采用逐步回歸篩選變量;⑤均可進行影響因素分析、混雜因素校正、預(yù)測分析等。(2)不同點:第十八、十九章判別分析和聚類分析1.判別分析(discriminantanalysis):根據(jù)一批分類明確的樣本在若干指標(biāo)上的觀測值,建立一個關(guān)于指標(biāo)的判別函數(shù)和判別準(zhǔn)則,然后根據(jù)這個判別函數(shù)和判別準(zhǔn)則對新的樣本進行分類,并且根據(jù)回代判別的準(zhǔn)確率評估它的實用性。2.Fisher判別準(zhǔn)則:它使得類間點的距離最大,而類內(nèi)點的距離最小,適合于兩類的判別分析;Bayes判別準(zhǔn)則:它使得每一類中的每個樣本都以最大的概率進入該類,適合于多類的判別分析。3.評估判別函數(shù)的判別效能:原始數(shù)據(jù)的分類要可靠準(zhǔn)確;指標(biāo)變量對判別函數(shù)的作用要顯著;判別函數(shù)的回代錯判率和事后概率錯誤率要小。4.聚類分析(ClusterAnalysis):對于總體分類未知的一群事物依照“物以類聚”思想,把性質(zhì)相近的事物歸入同一類,而把性質(zhì)相差較大的事物歸入不同類的一種記錄分析方法。5.聚類分析和判別分析的區(qū)別和聯(lián)系(1)區(qū)別:①聚類分析可以對樣本進行分類,也可以對指標(biāo)進行分類;而判別分析只能對樣本進行分類;②聚類分析事先不知道事物的類別,也不知道應(yīng)分幾類;而判別分析必須事先知道事物的類別,也知道應(yīng)分幾類;③聚類分析不需要分類的歷史資料,能直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數(shù),然后才干對樣本進行分類。(2)聯(lián)系:先采用聚類分析獲得各個個體的類別(classification);然后采用判別分析建立判別函數(shù),對新個體進行類型辨認(rèn)((identificat(yī)ion)第二十章主成分分析和因子分析1.主成分的性質(zhì)(1)主成分互不相關(guān);(2)主成分的奉獻率和累積奉獻率:奉獻率越大,表白主成分綜合原始指標(biāo)信息的能力越強;累積奉獻率越高,說明前k個主成分綜合原始資料信息的比例越高;(3)主成分個數(shù)的選取:①以累計奉獻率擬定:累積奉獻率≥70%為宜;②以特性根值大小擬定:特性根值≥1。(4)因子荷載:因子荷載反映主成分與原始指標(biāo)間密切限度與作用方向;(5)樣品的主成分得分:根據(jù)主成分表達式計算樣品的主成分值,推斷和評價樣品的特性。2.因子模型的性質(zhì):(1)公共度:共性方差hi2反映全體原始指標(biāo)Xi對所有(2)因子奉獻及因子奉獻率:gj2的值越大,則F(3)因子荷載及因子荷載矩陣:因子荷載反映公因子與原始指標(biāo)間密切限度與作用方向;2.主成分分析和因子分析的區(qū)別和聯(lián)系(1)聯(lián)系:①都是根據(jù)變量之間內(nèi)部相關(guān)性來提取重要信息,獲得新的變量(公因子變量和主成分變量),達成減少變量個數(shù)(降維)的目的;②主成分分析模型兩端同時乘以,則有,即為無特殊因子的公因子模型;③因子分析的結(jié)果(主成分解)即為主成分分析的結(jié)果,因子分析的主因子解也經(jīng)常由主成分分析的結(jié)果作為hi2(2)區(qū)別:主成分分析是將m個原變量提取I(I≤m)個互不相關(guān)的主成分,準(zhǔn)確計算各主成分的得分,其分析重點在于通過主成分綜合原始變量的信息;因子分析是提取I(I≤m)個支配原變量的共性因子和1個特殊因子,各因子之間可以互不相關(guān)或相關(guān),根據(jù)共性因子得分系數(shù)估計因子得分,其分析重點是通過尋找共性因子解釋原始變量之間的關(guān)系。第二十一章典型相關(guān)分析1.典型相關(guān)(CanonicalCorre

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論