論文寫作中存在的數(shù)理統(tǒng)計(jì)問題_第1頁
論文寫作中存在的數(shù)理統(tǒng)計(jì)問題_第2頁
論文寫作中存在的數(shù)理統(tǒng)計(jì)問題_第3頁
論文寫作中存在的數(shù)理統(tǒng)計(jì)問題_第4頁
論文寫作中存在的數(shù)理統(tǒng)計(jì)問題_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析中數(shù)理統(tǒng)計(jì)方法的正確使用

報(bào)告人:張利田《環(huán)境科學(xué)學(xué)報(bào)》編委會執(zhí)行副主編、編輯部主任2006-11-262021/5/91重要假定作者所處理的數(shù)據(jù)屬于隨機(jī)變量的特定樣本。作者已經(jīng)掌握最基本的數(shù)理統(tǒng)計(jì)學(xué)常識,如概率、假設(shè)檢驗(yàn)、均值、方差、標(biāo)準(zhǔn)差、正態(tài)分布、相關(guān)分析、回歸分析、方差分析……。2021/5/92數(shù)理統(tǒng)計(jì)問題的重要性在科學(xué)研究中,經(jīng)常會涉及到對隨機(jī)變量大小、離散及分布特征的描述以及對2個(gè)或多個(gè)隨機(jī)變量之間的關(guān)系描述問題。地學(xué)、環(huán)境科學(xué)研究也不例外。對隨機(jī)變量及隨機(jī)變量之間的關(guān)系進(jìn)行定量描述的數(shù)學(xué)工具就是數(shù)理統(tǒng)計(jì)學(xué)。在科學(xué)研究中,能否正確使用各種數(shù)理統(tǒng)計(jì)方法關(guān)系到所得出結(jié)論的客觀性和可信性。所以,來稿中使用的數(shù)理統(tǒng)計(jì)方法是否正確應(yīng)是學(xué)術(shù)期刊編輯們極為重視的問題。目前,國內(nèi)環(huán)境科學(xué)與技術(shù)類學(xué)術(shù)期刊對稿件中數(shù)理統(tǒng)計(jì)方法問題的重視程度存在差異。2021/5/931統(tǒng)計(jì)軟件的選擇

統(tǒng)計(jì)分析通常涉及大量的數(shù)據(jù),需要較大的計(jì)算工作量。在進(jìn)行統(tǒng)計(jì)分析時(shí),盡管作者可以自行編寫計(jì)算程序,但在統(tǒng)計(jì)軟件很普及的今天,這樣做是毫無必要的。出于對工作效率以及對算法的通用性、可比性的考慮,一些學(xué)術(shù)期刊要求作者采用專門的數(shù)理統(tǒng)計(jì)軟件進(jìn)行統(tǒng)計(jì)分析。2021/5/941統(tǒng)計(jì)軟件的選擇《環(huán)境科學(xué)學(xué)報(bào)》的編輯們在處理稿件時(shí)經(jīng)常發(fā)現(xiàn)的問題是:作者未使用專門的數(shù)理統(tǒng)計(jì)軟件,而采用Excel這樣的電子表格軟件進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析。由于電子表格軟件提供的統(tǒng)計(jì)分析功能十分有限,只能借助它進(jìn)行較為簡單的統(tǒng)計(jì)分析,故我們不主張作者采用這樣的軟件進(jìn)行統(tǒng)計(jì)分析。2021/5/951統(tǒng)計(jì)軟件的選擇目前,國際上已開發(fā)出的專門用于統(tǒng)計(jì)分析的商業(yè)軟件很多,比較著名有SPSS(StatisticalPackageforSocialSciences)和SAS(StatisticalAnalysisSystem)。此外,還有BMDP和STATISTICA等……。SPSS是專門為社會科學(xué)領(lǐng)域的研究者設(shè)計(jì)的,但此軟件在自然科學(xué)領(lǐng)域也得到廣泛應(yīng)用。BMDP是專門為生物學(xué)和醫(yī)學(xué)領(lǐng)域研究者編制的統(tǒng)計(jì)軟件。2021/5/961統(tǒng)計(jì)軟件的選擇目前,國際學(xué)術(shù)界有一條不成文的約定:凡是用SPSS和SAS軟件進(jìn)行統(tǒng)計(jì)分析所獲得的結(jié)果,在國際學(xué)術(shù)交流中不必說明具體算法。由此可見,SPSS和SAS軟件已被各領(lǐng)域研究者普遍認(rèn)可。我們建議作者們在進(jìn)行統(tǒng)計(jì)分析時(shí)盡量使用這2個(gè)專門的統(tǒng)計(jì)軟件。目前,有關(guān)這2個(gè)軟件的使用教程在書店中可很容易地買到。

2021/5/972均值的計(jì)算

:理論問題均值(準(zhǔn)確的稱呼應(yīng)為“樣本均值”)的統(tǒng)計(jì)學(xué)意義:反映隨機(jī)變量樣本的大小特征。均值對應(yīng)于隨機(jī)變量總體的數(shù)學(xué)期望—總體的數(shù)學(xué)期望客觀上決定著樣本的均值,反過來,通過計(jì)算樣本的均值可以描述總體的數(shù)學(xué)期望。在處理實(shí)驗(yàn)數(shù)據(jù)或采樣數(shù)據(jù)時(shí),經(jīng)常會遇到對相同采樣或相同實(shí)驗(yàn)條件下同一隨機(jī)變量的多個(gè)不同取值進(jìn)行統(tǒng)計(jì)處理的問題。為找到代表這些觀測值總體大小特征的代表值(統(tǒng)計(jì)量,該統(tǒng)計(jì)量根據(jù)樣本數(shù)據(jù)算出),多數(shù)作者會不假思索地直接給出算術(shù)平均值和標(biāo)準(zhǔn)差。顯然,這種做法是不嚴(yán)謹(jǐn)?shù)摹灰欢偸钦_的。2021/5/982均值的計(jì)算:技術(shù)問題在數(shù)理統(tǒng)計(jì)學(xué)中,作為描述隨機(jī)變量樣本的總體大小特征的統(tǒng)計(jì)量有算術(shù)平均值、幾何平均值和中位數(shù)等多個(gè)。何時(shí)用算術(shù)平均值?何時(shí)用幾何平均值?以及何時(shí)用中位數(shù)?這不能由研究者根據(jù)主觀意愿隨意確定,而要根據(jù)隨機(jī)變量的分布特征確定。2021/5/992均值的計(jì)算:技術(shù)問題反映隨機(jī)變量總體大小特征的統(tǒng)計(jì)量是數(shù)學(xué)期望,而在隨機(jī)變量的分布服從正態(tài)分布時(shí),其數(shù)學(xué)期望就可以用樣本的算術(shù)平均值描述。此時(shí),可用樣本的算術(shù)平均值描述隨機(jī)變量的大小特征。如果所研究的隨機(jī)變量不服從正態(tài)分布,則算術(shù)平均值不能準(zhǔn)確反映該變量的大小特征。在這種情況下,可通過假設(shè)檢驗(yàn)來判斷隨機(jī)變量是否服從對數(shù)正態(tài)分布。如果服從對數(shù)正態(tài)分布,則幾何平均值就是數(shù)學(xué)期望的值。此時(shí),就可以計(jì)算變量的幾何平均值。如果隨機(jī)變量既不服從正態(tài)分布也不服從對數(shù)正態(tài)分布,則按現(xiàn)有的數(shù)理統(tǒng)計(jì)學(xué)知識,尚無合適的統(tǒng)計(jì)量描述該變量的大小特征。此時(shí),可用中位數(shù)來描述變量的大小特征。2021/5/9103相關(guān)分析:相關(guān)系數(shù)的選擇

在相關(guān)分析中,作者們常犯的錯(cuò)誤是:簡單地計(jì)算Pearson積矩相關(guān)系數(shù),而且既不給出正態(tài)分布檢驗(yàn)結(jié)果,也往往不明確指出所計(jì)算的相關(guān)系數(shù)就是Pearson積矩相關(guān)系數(shù)。在數(shù)理統(tǒng)計(jì)學(xué)中,除有針對數(shù)值變量設(shè)計(jì)的Pearson積矩相關(guān)系數(shù)(對應(yīng)于“參數(shù)方法”)外,還有針對順序變量(即“秩變量”)設(shè)計(jì)的Spearman秩相關(guān)系數(shù)和Kendall秩相關(guān)系數(shù)(對應(yīng)于“非參數(shù)方法”)等。Pearson積矩相關(guān)系數(shù)可用于描述2個(gè)隨機(jī)變量的線性相關(guān)程度,Spearman或Kendall秩相關(guān)系數(shù)用來判斷兩個(gè)隨機(jī)變量在二維和多維空間中是否具有某種共變趨勢。2021/5/9113相關(guān)分析:相關(guān)系數(shù)的選擇在相關(guān)分析中,計(jì)算各種相關(guān)系數(shù)是有前提條件的。在相關(guān)分析中,對于秩變量,一般別無選擇,只能計(jì)算Spearman或Kendall秩相關(guān)系數(shù)。對于數(shù)值變量,只要條件許可,應(yīng)盡量使用檢驗(yàn)功效最高的參數(shù)方法,即計(jì)算用Pearson積矩相關(guān)系數(shù)。只有計(jì)算Pearson積矩相關(guān)系數(shù)的前提不存在時(shí),才考慮退而求其次,計(jì)算專門為秩變量設(shè)計(jì)的Spearman或Kendall秩相關(guān)系數(shù)(盡管這樣做會導(dǎo)致檢驗(yàn)功效的降低)。2021/5/9123相關(guān)分析:相關(guān)系數(shù)的選擇對于數(shù)值變量,相關(guān)系數(shù)選擇的依據(jù)是變量是否服從正態(tài)分布,或變換后的數(shù)據(jù)是否服從正態(tài)分布。對于二元相關(guān)分析,如果2個(gè)隨機(jī)變量服從二元正態(tài)分布假設(shè),則應(yīng)該用Pearson積矩相關(guān)系數(shù)描述這2個(gè)隨機(jī)變量間的相關(guān)關(guān)系。如果樣本數(shù)據(jù)不服從二元正態(tài)分布,則可嘗試進(jìn)行數(shù)據(jù)變換,看變換后的數(shù)據(jù)是否符合正態(tài)分布?如果是,則可以針對變換后的數(shù)據(jù)計(jì)算Pearson積矩相關(guān)系數(shù);否則,就不能計(jì)算Pearson積矩相關(guān)系數(shù),而應(yīng)改用檢驗(yàn)功效較低的Spearman或Kendall秩相關(guān)系數(shù)(此時(shí),如果強(qiáng)行計(jì)算Pearson積矩相關(guān)系數(shù)有可能會得出完全錯(cuò)誤的結(jié)論)。2021/5/9134相關(guān)分析與回歸分析的區(qū)別

相關(guān)分析和回歸分析是極為常用的2種數(shù)理統(tǒng)計(jì)方法,在環(huán)境科學(xué)及其它科學(xué)研究領(lǐng)域有著廣泛的用途。然而,由于這2種數(shù)理統(tǒng)計(jì)方法在計(jì)算方面存在很多相似之處,且在一些數(shù)理統(tǒng)計(jì)教科書中沒有系統(tǒng)闡明這2種數(shù)理統(tǒng)計(jì)方法的內(nèi)在差別,從而使一些研究者不能嚴(yán)格區(qū)分相關(guān)分析與回歸分析。2021/5/9144相關(guān)分析與回歸分析的區(qū)別最常見的錯(cuò)誤是:用回歸分析的結(jié)果解釋相關(guān)性問題。例如,作者將“回歸直線(曲線)圖”稱為“相關(guān)性圖”或“相關(guān)關(guān)系圖”;將回歸直線的R2(擬合度,或稱“可決系數(shù)”)錯(cuò)誤地稱為“相關(guān)系數(shù)”或“相關(guān)系數(shù)的平方”;根據(jù)回歸分析的結(jié)果宣稱2個(gè)變量之間存在正的或負(fù)的相關(guān)關(guān)系。

2021/5/9154相關(guān)分析與回歸分析的區(qū)別相關(guān)分析與回歸分析均為研究2個(gè)或多個(gè)變量間關(guān)聯(lián)性的方法,但2種數(shù)理統(tǒng)計(jì)方法存在本質(zhì)的差別,即它們用于不同的研究目的。相關(guān)分析的目的在于檢驗(yàn)兩個(gè)隨機(jī)變量的共變趨勢(即共同變化的程度),回歸分析的目的則在于試圖用自變量來預(yù)測因變量的值。

2021/5/9164相關(guān)分析與回歸分析的區(qū)別在相關(guān)分析中,兩個(gè)變量必須同時(shí)都是隨機(jī)變量,如果其中的一個(gè)變量不是隨機(jī)變量,就不能進(jìn)行相關(guān)分析。這是相關(guān)分析方法本身所決定的。

2021/5/9174相關(guān)分析與回歸分析的區(qū)別對于回歸分析,其中的因變量肯定為隨機(jī)變量(這是回歸分析方法本身所決定的),而自變量則可以是普通變量(有確定的取值)也可以是隨機(jī)變量。

2021/5/9184相關(guān)分析與回歸分析的區(qū)別如果自變量是普通變量,即模型Ⅰ回歸分析,采用的回歸方法就是最為常用的最小二乘法。如果自變量是隨機(jī)變量,即模型Ⅱ回歸分析,所采用的回歸方法與計(jì)算者的目的有關(guān)。在以預(yù)測為目的的情況下,仍采用“最小二乘法”(但精度下降—最小二乘法是專為模型Ⅰ設(shè)計(jì)的,未考慮自變量的隨機(jī)誤差);在以估值為目的(如計(jì)算可決系數(shù)、回歸系數(shù)等)的情況下,應(yīng)使用相對嚴(yán)謹(jǐn)?shù)姆椒ǎㄈ纭爸鬏S法”、“約化主軸法”或“Bartlett法”)。2021/5/9194相關(guān)分析與回歸分析的區(qū)別顯然,對于回歸分析,如果是模型Ⅱ回歸分析,鑒于兩個(gè)隨機(jī)變量客觀上存在“相關(guān)性”問題,只是由于回歸分析方法本身不能提供針對自變量和因變量之間相關(guān)關(guān)系的準(zhǔn)確的檢驗(yàn)手段,因此,若以預(yù)測為目的,最好不提“相關(guān)性”問題;若以探索兩者的“共變趨勢”為目的,應(yīng)該改用相關(guān)分析。如果是模型Ⅰ回歸分析,就根本不可能回答變量的“相關(guān)性”問題,因?yàn)槠胀ㄗ兞颗c隨機(jī)變量之間不存在“相關(guān)性”這一概念(問題在于,大多數(shù)的回歸分析都是模型Ⅰ回歸分析!)。此時(shí),即使作者想描述2個(gè)變量間的“共變趨勢”而改用相關(guān)分析,也會因相關(guān)分析的前提不存在而使分析結(jié)果毫無意義。2021/5/9204相關(guān)分析與回歸分析的區(qū)別需要特別指出的是,回歸分析中的R2在數(shù)學(xué)上恰好是Pearson積矩相關(guān)系數(shù)r的平方。因此,這極易使作者們錯(cuò)誤地理解R2的含義,認(rèn)為R2就是“相關(guān)系數(shù)”或“相關(guān)系數(shù)的平方”。問題在于,對于自變量是普通變量(即其取值有確定性的變量)、因變量為隨機(jī)變量的模型Ⅰ回歸分析,2個(gè)變量之間的“相關(guān)性”概念根本不存在,又何談“相關(guān)系數(shù)”呢?更值得注意的是,一些早期的教科書作者不是用R2來描述回歸效果(擬合程度,擬合度)的,而是用Pearson積矩相關(guān)系數(shù)來描述。這就更容易誤導(dǎo)讀者。2021/5/9215重要的數(shù)理統(tǒng)計(jì)學(xué)常識1)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的基本思想統(tǒng)計(jì)推斷:是根據(jù)樣本數(shù)據(jù)推斷總體特征的一種方法。假設(shè)檢驗(yàn):是進(jìn)行統(tǒng)計(jì)推斷的途徑之一(另一種途徑是參數(shù)估計(jì),如點(diǎn)估計(jì)和區(qū)間估計(jì))。假設(shè)檢驗(yàn)的基本思路是:首先,對總體參數(shù)值提出假設(shè)(原假設(shè));然后,利用樣本數(shù)據(jù)提供的信息來驗(yàn)證所提出的假設(shè)是否成立(統(tǒng)計(jì)推斷)--如果樣本數(shù)據(jù)提供的信息不能證明上述假設(shè)成立,則應(yīng)拒絕該假設(shè);如果樣本數(shù)據(jù)提供的信息不能證明上述假設(shè)不成立,則不應(yīng)拒絕該假設(shè)。接受或拒絕原假設(shè)的依據(jù):小概率事件不可能發(fā)生。顯然,這樣做是有風(fēng)險(xiǎn)的(小概率事件真的發(fā)生了)。假設(shè)檢驗(yàn)中的關(guān)鍵問題:1)在原假設(shè)成立的情況下,如何計(jì)算樣本值或某一極端值發(fā)生的概率?2)如何界定小概率事件?2021/5/9225重要的數(shù)理統(tǒng)計(jì)學(xué)常識1)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的基本步驟1)提出原假設(shè)(或稱“零假設(shè)”,H0);2)選擇檢驗(yàn)統(tǒng)計(jì)量;3)根據(jù)樣本數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測值的發(fā)生概率(相伴概率,p);4)根據(jù)給定的小概率事件界定標(biāo)準(zhǔn)(顯著性水平,如0.05,0.01)做出統(tǒng)計(jì)推斷。2021/5/923假設(shè)檢驗(yàn)的基本步驟為什么要設(shè)計(jì)并計(jì)算檢驗(yàn)統(tǒng)計(jì)量?在假設(shè)檢驗(yàn)中,樣本值(或更極端的取值)發(fā)生的概率不能直接通過樣本數(shù)據(jù)計(jì)算,而是通過計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測值的發(fā)生概率而間接得到的。所設(shè)計(jì)的檢驗(yàn)統(tǒng)計(jì)量一般服從或近似服從某種已知的理論分布(如t-分布、F-分布、卡方分布),易于估算其取值概率。對于不同的假設(shè)檢驗(yàn)和不同的總體,會有不同的選擇檢驗(yàn)統(tǒng)計(jì)量的理論和方法。2021/5/924假設(shè)檢驗(yàn)的基本步驟計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測值的發(fā)生概率在假定原假設(shè)成立的前提下,利用樣本數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測值發(fā)生的概率(即p值,又稱“相伴概率”—指該檢驗(yàn)統(tǒng)計(jì)量在某個(gè)特定的極端區(qū)域在原假設(shè)成立時(shí)的概率)。該概率值間接地給出了在原假設(shè)成立的條件下樣本值(或更極端值)發(fā)生的概率。2021/5/925假設(shè)檢驗(yàn)的基本步驟進(jìn)行統(tǒng)計(jì)推斷依據(jù)預(yù)先確定的“顯著性水平”(即α值),如0.01或0.05,決定是否拒絕原假設(shè)。如果p值小于α值,即認(rèn)為原假設(shè)成立時(shí)檢驗(yàn)統(tǒng)計(jì)量觀測值的發(fā)生是小概率事件,則拒絕原假設(shè)。否則,就接受原假設(shè)。2021/5/926顯著性水平:概念與意義在假設(shè)檢驗(yàn)中,顯著性水平(Significantlevel,用α表示)的確定是假設(shè)檢驗(yàn)中至關(guān)重要的問題。顯著性水平是在原假設(shè)成立時(shí)檢驗(yàn)統(tǒng)計(jì)量的制落在某個(gè)極端區(qū)域的概率值。因此,如果取α=0.05,如果計(jì)算出的p值小于α

,則可認(rèn)為原假設(shè)是一個(gè)不可能發(fā)生的小概率事件。當(dāng)然,如果真的發(fā)生了,則犯錯(cuò)誤的可能性為5%。顯然,顯著性水平反映了拒絕某一原假設(shè)時(shí)所犯錯(cuò)誤的可能性,或者說,α是指拒絕了事實(shí)上正確的原假設(shè)的概率。2021/5/927顯著性水平:通常的取值α值一般在進(jìn)行假設(shè)檢驗(yàn)前由研究者根據(jù)實(shí)際的需要確定。常用的取值是0.05或0.01。對于前者,相當(dāng)于在原假設(shè)事實(shí)上正確的情況下,研究者接受這一假設(shè)的可能性為95%;對于后者,則研究者接受事實(shí)上正確的原假設(shè)的可能性為99%。顯然,降低α值可以減少拒絕原假設(shè)的可能性。因此,在報(bào)告統(tǒng)計(jì)分析結(jié)果時(shí),必須給出α值。

2021/5/928顯著性水平:進(jìn)行統(tǒng)計(jì)推斷在進(jìn)行假設(shè)檢驗(yàn)時(shí),各種統(tǒng)計(jì)軟件均會給出檢驗(yàn)統(tǒng)計(jì)量觀測值以及原假設(shè)成立時(shí)該檢驗(yàn)統(tǒng)計(jì)量取值的相伴概率(即檢驗(yàn)統(tǒng)計(jì)量某特定取值及更極端可能值出現(xiàn)的概率,用p表示)。p值是否小于事先確定的α值,是接受或拒絕原假設(shè)的依據(jù)。如果p值小于事先已確定的α值,就意味著檢驗(yàn)統(tǒng)計(jì)量取值的可能性很小,進(jìn)而可推斷原假設(shè)成立的可能性很小,因而可以拒絕原假設(shè)。相反,如果p值大于事先已確定的α值,就不能拒絕原假設(shè)。2021/5/929統(tǒng)計(jì)推斷:過去的回憶在計(jì)算機(jī)技術(shù)十分發(fā)達(dá),以及專業(yè)統(tǒng)計(jì)軟件功能十分強(qiáng)大的今天,計(jì)算檢驗(yàn)統(tǒng)計(jì)量及其相伴概率是一件十分容易的事情。然而,在20世紀(jì)90年代以前,只有服從標(biāo)準(zhǔn)正態(tài)分布的檢驗(yàn)統(tǒng)計(jì)量,人們可以直接查閱事先準(zhǔn)備好的標(biāo)準(zhǔn)正態(tài)分布函數(shù)表,從中獲得特定計(jì)算結(jié)果的相伴概率。而對于的服從t-分布、F-分布、卡方分布或其它特殊的理論分布的檢驗(yàn)統(tǒng)計(jì)量(大多數(shù)的假設(shè)檢驗(yàn)是這樣),人們無法直接計(jì)算相伴概率。人們通常查閱各類假設(shè)檢驗(yàn)的臨界值表進(jìn)行統(tǒng)計(jì)推斷。這些表格以自由度和很少的幾個(gè)相伴概率(通常為0.1、0.05和0.01)為自變量,以檢驗(yàn)統(tǒng)計(jì)量的臨界值為函數(shù)排列。在進(jìn)行統(tǒng)計(jì)推斷時(shí),人們使用上述臨界值表根據(jù)事先確定的顯著性水平,查閱對應(yīng)于某一自由度和特定相伴概率的檢驗(yàn)統(tǒng)計(jì)量的臨界值,然后將所計(jì)算出的檢驗(yàn)統(tǒng)計(jì)量與該臨界值相比較。如果檢驗(yàn)統(tǒng)計(jì)量的計(jì)算值大于臨界值,即實(shí)際的相伴概率小于事先規(guī)定的顯著性水平,便可拒絕原假設(shè)。否則,可接受原假設(shè)。2021/5/930顯著性水平:舉例在根據(jù)顯著性水平進(jìn)行統(tǒng)計(jì)推斷時(shí),應(yīng)注意原假設(shè)的性質(zhì)。以二元相關(guān)分析為例,相關(guān)分析中的原假設(shè)是“相關(guān)系數(shù)為零”(即2個(gè)隨機(jī)變量間不存在顯著的相關(guān)關(guān)系)。如果計(jì)算出的檢驗(yàn)統(tǒng)計(jì)量的相伴概率(p值)低于事先給定α值(如0.05),就可以認(rèn)為“相關(guān)系數(shù)為零”的可能性很低,既2個(gè)隨機(jī)變量之間存在顯著的相關(guān)關(guān)系。在正態(tài)分布檢驗(yàn)時(shí),原假設(shè)是“樣本數(shù)據(jù)來自服從正態(tài)分布的總體”。此時(shí),如果計(jì)算出的檢驗(yàn)統(tǒng)計(jì)量的相伴概率(p值)低于事先給定α值(如0.05),則表明數(shù)據(jù)不服從正態(tài)分布。只有p值高于α值時(shí),數(shù)據(jù)才服從正態(tài)分布。這與相關(guān)分析的假設(shè)檢驗(yàn)不同。2021/5/931顯著性水平作者在描述相關(guān)分析結(jié)果時(shí)常有的失誤是:僅給出相關(guān)系數(shù)的值,而不給出顯著性水平。這就無法判斷2個(gè)隨機(jī)變量間的相關(guān)性是否顯著。有時(shí)作者不是根據(jù)顯著性水平判斷相關(guān)關(guān)系是否顯著,而是根據(jù)相關(guān)系數(shù)的大小來推斷(相關(guān)系數(shù)越近1,則相關(guān)關(guān)系越顯著)。問題是,相關(guān)系數(shù)本身是一個(gè)基于樣本數(shù)據(jù)計(jì)算出的觀測值,其本身的可靠性尚需檢驗(yàn)。此外,作者在論文中常常用“顯著相關(guān)”和“極顯著相關(guān)”來描述相關(guān)分析結(jié)果,即認(rèn)為p值小于0.05就是顯著相關(guān)關(guān)系(或顯著相關(guān)),小于0.01就是極顯著相關(guān)關(guān)系(或極顯著相關(guān))。2021/5/932統(tǒng)計(jì)推斷的注意事項(xiàng)在假設(shè)檢驗(yàn)中,只有“顯著”和“不顯著”,沒有“極顯著”這樣的斷語。只要計(jì)算出的檢驗(yàn)統(tǒng)計(jì)量的相伴概率(p值)低于事先確定的α值,就可以認(rèn)為檢驗(yàn)結(jié)果“顯著”(相關(guān)分析的原假設(shè)是“相關(guān)系數(shù)為零”,故此處的“顯著”實(shí)際意味著“相關(guān)系數(shù)不為零”,或說“2個(gè)隨機(jī)變量間有顯著的相關(guān)關(guān)系”);同樣,只要計(jì)算出的檢驗(yàn)統(tǒng)計(jì)量的相伴概率(p值)高于事先確定的α值,就可以認(rèn)為檢驗(yàn)結(jié)果“不顯著”。

2021/5/933統(tǒng)計(jì)推斷的注意事項(xiàng)在進(jìn)行相關(guān)分析時(shí),不能同時(shí)使用0.05和0.01這2個(gè)顯著性水平來決定是否拒絕原假設(shè),只能使用其中的1個(gè)。

2021/5/934有關(guān)相關(guān)分析的斷語1)顯著和不顯著:描述相關(guān)關(guān)系是否存在。2)相關(guān)性強(qiáng)或不強(qiáng):在存在相關(guān)關(guān)系的前提下,這種相關(guān)關(guān)系的強(qiáng)或弱??梢哉J(rèn)為,相關(guān)系數(shù)越接近1,則相關(guān)性越強(qiáng)。聲明:第1)條是公認(rèn)的數(shù)理統(tǒng)計(jì)常識,但第2)條是個(gè)人理解,僅供參考。本文不對第2)條承擔(dān)責(zé)任。2021/5/9355重要的數(shù)理統(tǒng)計(jì)學(xué)常識1)假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷:單側(cè)檢驗(yàn)與雙側(cè)檢驗(yàn)對于假設(shè)檢驗(yàn),其檢驗(yàn)統(tǒng)計(jì)量的異常取值有2個(gè)方向,即概率分布曲線的左側(cè)(對應(yīng)于過小的值)和右側(cè)(對應(yīng)于過大的值)。2021/5/936檢驗(yàn)統(tǒng)計(jì)量的極端取值檢驗(yàn)統(tǒng)計(jì)量在左側(cè)和右側(cè)均有可能取值檢驗(yàn)統(tǒng)計(jì)量的取值空間2021/5/937單側(cè)檢驗(yàn)與雙側(cè)檢驗(yàn)一般情況下,概率分布函數(shù)曲線兩側(cè)尾端的小概率事件都要考慮(即雙側(cè)檢驗(yàn))。如果事先有把握確定其中的一側(cè)不可能取值,則僅需對另一側(cè)的小概率事件進(jìn)行檢驗(yàn)即可(單側(cè)檢驗(yàn))。在用“查表法”進(jìn)行統(tǒng)計(jì)推斷時(shí),基于單側(cè)小概率事件檢驗(yàn)的臨界值表稱“單尾表”,基于雙側(cè)小概率事件檢驗(yàn)的臨界值表稱“雙尾表”。除t-分布臨界值表是雙尾表外,大多數(shù)的檢驗(yàn)臨界值表均為單尾表。在顯著性水平一定的情況下(例如α=0.05),對于單尾表,單側(cè)檢驗(yàn)時(shí)仍使用α進(jìn)行統(tǒng)計(jì)推斷,雙側(cè)檢驗(yàn)則用α/2進(jìn)行統(tǒng)計(jì)推斷;對于雙尾表,單側(cè)檢驗(yàn)時(shí)改用2α進(jìn)行統(tǒng)計(jì)推斷,雙側(cè)檢驗(yàn)則用α

進(jìn)行統(tǒng)計(jì)推斷。在統(tǒng)計(jì)軟件(如SPSS或SAS統(tǒng)計(jì)軟件)給出的計(jì)算結(jié)果中,已標(biāo)注出所計(jì)算的相伴概率是單側(cè)還是雙側(cè),對應(yīng)于上述的單尾表和雙尾表。2021/5/938單側(cè)檢驗(yàn)與雙側(cè)檢驗(yàn)以下是SPSS中的單樣本t檢驗(yàn)輸出結(jié)果:One-SampleTest(原假設(shè):儲戶1次平均存取的現(xiàn)金與2000元無顯著差異)TestValue=2000(均值比較的參比值)t=1.240(檢驗(yàn)統(tǒng)計(jì)量的觀測值)df=312(自由度,樣本量N=313)Sig.(2-tailed)=0.216(雙側(cè)相伴概率p

)MeanDifference=473.78(均值的標(biāo)準(zhǔn)誤差)95%ConfidenceIntervaloftheDifference(總體均值與原假設(shè)值之差的95%的置信區(qū)間):-278.13~1225.69(有95%的把握可認(rèn)為:儲戶1次平均存取的金額為1721.87~3225.69元)上述檢驗(yàn)屬“均值比較”,是雙側(cè)檢驗(yàn)(大于或小于2000元都算拒絕原假設(shè)),計(jì)算的相伴概率也是雙側(cè)的。因此,可直接用p與α比較。取α=0.05,則因p大于α,故不能拒絕原假設(shè)(不是小概率事件)。統(tǒng)計(jì)推斷結(jié)果:根據(jù)313個(gè)儲戶調(diào)查數(shù)據(jù),每個(gè)儲戶一次平均存取金額大體為2000元。2021/5/939單側(cè)檢驗(yàn)與雙側(cè)檢驗(yàn)在統(tǒng)計(jì)軟件中,可通過選擇TestofSignificance選項(xiàng)來控制所輸出的相伴概率是單尾(1tailed)概率還是雙尾(2tailed)概率。2021/5/9405重要的數(shù)理統(tǒng)計(jì)學(xué)常識2)正態(tài)分布檢驗(yàn)?zāi)康模簷z驗(yàn)樣本是否來自正態(tài)分布的總體原假設(shè):樣本來自正態(tài)分布的總體分布檢驗(yàn)只能使用非參數(shù)方法(只有分布形式已知時(shí)才能使用參數(shù)方法)。不同的統(tǒng)計(jì)軟件給出了不同的檢驗(yàn)方法。2021/5/941正態(tài)分布檢驗(yàn)在SAS中,提供了Shapiro-Wilk(適用于樣本量小于50的情形)檢驗(yàn)法。此檢驗(yàn)無單尾、雙尾之分。在SPSS中提供了卡方檢驗(yàn)(Chi-SquareTest)和單樣本的Kolmogorov-Smirnov(柯爾莫哥洛夫-斯米爾諾夫,簡稱K-S)檢驗(yàn)。后者比前者精確一些,建議采用。2021/5/942正態(tài)分布檢驗(yàn)單樣本的Kolmogorov-Smirnov(柯爾莫哥洛夫-斯米爾諾夫,簡稱K-S)檢驗(yàn)屬于雙側(cè)檢驗(yàn),計(jì)算檢驗(yàn)統(tǒng)計(jì)量(Z)的雙尾概率。2021/5/9435重要的數(shù)理統(tǒng)計(jì)學(xué)常識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論