63數(shù)據(jù)分析理論基礎(chǔ)課程小結(jié)_第1頁
63數(shù)據(jù)分析理論基礎(chǔ)課程小結(jié)_第2頁
63數(shù)據(jù)分析理論基礎(chǔ)課程小結(jié)_第3頁
63數(shù)據(jù)分析理論基礎(chǔ)課程小結(jié)_第4頁
63數(shù)據(jù)分析理論基礎(chǔ)課程小結(jié)_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、CDA數(shù)據(jù)分析師-數(shù)據(jù)分析理論基礎(chǔ)數(shù)據(jù)分析理論基礎(chǔ)課程小結(jié)Join Learn關(guān)鍵知識(shí)點(diǎn)概率分布分布函數(shù)P值檢驗(yàn)自由度Join Learn概率分布-數(shù)據(jù)分析的依據(jù)要全面了解一個(gè)隨量(隨機(jī)試驗(yàn)),不但要知道它取哪些值,而且要知道它取這些值的規(guī)律,即要掌握它的概率分布。量值xi及這些值對(duì)應(yīng)概率P(X=xi)的表格、公式概率分布:描述隨或圖形。樣本點(diǎn)1隨量的值x1樣本點(diǎn)2P(X=x1)隨量的值x2P(X=x2)樣本點(diǎn)i隨量的值xiP(X=xi)Join Learn分布函數(shù)分布函數(shù)F(x)=P(X<x)表示隨量X的值小于x的概率,給定一個(gè)x0,則有一個(gè)F(x0)和其對(duì)應(yīng)。X< x0 即為隨

2、機(jī)X為隨x0為隨量量的值Join Learn概率密度概率密度f(x)是F(x)在x處的關(guān)于x的一階導(dǎo)數(shù),即變化率。它對(duì)應(yīng)直方圖中的密度尺度如果在某一x附近取非常小的一個(gè)鄰域x,那么,隨即P(量X落在(x, x+x)內(nèi)的概率約為f(x)x,+x)f(x)x。換句話說,概率密度f(x)是X落在x處“寬度”內(nèi)的概率。“密度”一詞可以由此理解。Join Learn分布函數(shù)與直方圖連續(xù)性隨量的隨機(jī)對(duì)應(yīng)一個(gè)區(qū)間a,b,只有區(qū)間才有意義,就如畫直方圖時(shí),需要先分區(qū)一樣。隨機(jī)的概率,就是陰影部分的面積,在數(shù)學(xué)上為,對(duì)應(yīng)直方圖中的面積Join Learn分布函數(shù)的作用個(gè)隨量的分布函數(shù),則它取任何值和它落入某個(gè)數(shù)

3、值區(qū)間內(nèi)的概率都可以求出。即任何一個(gè)(或多個(gè))隨機(jī)試驗(yàn)的結(jié)果的可能性都是確定的Join LearnP值檢驗(yàn)P值表示對(duì)原假設(shè)的支持程度,越小越有統(tǒng)計(jì)意義Join Learn自由度有兩種解釋統(tǒng)計(jì)推斷上的自由度是指當(dāng)以樣本的統(tǒng)計(jì)量來估計(jì)總體的參數(shù)時(shí), 樣本中或能自由變化的自由度。的個(gè)數(shù),稱為該統(tǒng)計(jì)量的數(shù)據(jù)挖掘模型中的自由度等于可自由取值的自變量的個(gè)數(shù)。如在回歸方程中,如果共有p個(gè)參數(shù)需要估計(jì),則其中包括了p-1個(gè)自變量(與截距對(duì)應(yīng)的自變量是常量1)。因此該回歸方程的自由度為p-1。Join Learn抽樣推斷中的自由度首先,在估計(jì)總體的平均數(shù)時(shí),由于樣本中的n 個(gè)數(shù)都是相互的,從其中抽出任何一個(gè)數(shù)都

4、不影響其他數(shù)據(jù),所以其自由度為n。在估計(jì)總體的方差時(shí),使用的是離差平方和。只要n-1個(gè)數(shù)的離差平方和確定了,方差也就 確定了;因?yàn)樵诰荡_定后,如果知道了其中n-1個(gè)數(shù)的值,第n個(gè)數(shù)的值也就確定了。這里, 均值就相當(dāng)于一個(gè)限制條件,由于加了這個(gè)限制條件,估計(jì)總體方差的自由度為n-1。Join Learn例有一個(gè)有4個(gè)數(shù)據(jù)(n4)的樣本, 其平均值m等于5,即受到m5的條件限制, 在自由確定4、2、5三個(gè)數(shù)據(jù)后, 第四個(gè)數(shù)據(jù)只能是9, 否則m5。因而這里的自由度n-14-13。推而廣之,任何統(tǒng)計(jì)量的自由度n-限制條件的個(gè)數(shù)。Join Learn根據(jù)數(shù)據(jù)分布選擇統(tǒng)計(jì)方法(1)實(shí)驗(yàn)設(shè)計(jì)很關(guān)鍵,盡量保

5、持體的同質(zhì)性數(shù)據(jù)的相互性和個(gè)(2) 一般來說,如果是大樣本,比如各組例數(shù)大于50,可以不作正態(tài)性檢驗(yàn),直接采用t檢驗(yàn)或方差分析。因?yàn)榻y(tǒng)計(jì)學(xué)上有中心極限定理,假定大樣本是服從正態(tài)分布的。(3) 多組資料數(shù)據(jù)最好采用方差分析法,絕對(duì)不能采用兩兩T檢驗(yàn)法Join Learn典型偏正態(tài)的數(shù)據(jù)處理對(duì)于明顯偏離正態(tài)性和方差齊性條件的資料,通常有兩種處理方式:一是通過某種形式的數(shù)據(jù)變換以其假定條,轉(zhuǎn)化后能用參數(shù)檢驗(yàn)的還用參數(shù)檢驗(yàn),如果轉(zhuǎn)化后還不行,則改用方案二。二是改用秩變換的非參數(shù)統(tǒng)計(jì)方法,如秩和檢驗(yàn)等。數(shù)據(jù)變換雖然改變了資料分布的形式,但未改變各組資料間的關(guān)系,常用的數(shù)據(jù)變換方式有對(duì)數(shù)變換、平方根變換及

6、平方根反正弦變換。Join Learn兩組樣本比較1. 資料符合正態(tài)分布,且兩組方差齊性,直接采用t檢驗(yàn)。2. 資料不符合正態(tài)分布 (1)可進(jìn)行數(shù)據(jù)轉(zhuǎn)換,如對(duì)數(shù)轉(zhuǎn)換等,使之服從正態(tài)分布,然后對(duì)轉(zhuǎn)換后的數(shù)據(jù)采用t檢驗(yàn); (2)采用非參數(shù)檢驗(yàn),如Wilcoxon檢驗(yàn)。3. 資料方差不齊 (1)采用Satterthwate 的t檢驗(yàn); (2)采用非參數(shù)檢驗(yàn),如Wilcoxon檢驗(yàn)。Join Learn兩組配對(duì)樣本的比較1.兩組差值服從正態(tài)分布,采用配對(duì)t檢驗(yàn)。2.兩組差值從正態(tài)分布,采用wilcoxon的符號(hào)配對(duì)秩和檢驗(yàn) “秩”又稱等級(jí)、即次序號(hào)的和稱“秩和”,秩和檢驗(yàn)就是用秩和作為統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)的方法。Join Learn多組完全隨機(jī)樣本比較1. 資料符合正態(tài)分布,且各組方差齊性,直接采用完全隨機(jī)的方差分析。如果檢驗(yàn)結(jié)果為有統(tǒng)計(jì)學(xué) 意義,則進(jìn)一步作兩兩比較,兩兩比較的方法有LSD檢驗(yàn),Bonferroni法,tukey法,Scheffe法,SNK 法等。2. 資料不符合正態(tài)分布,或各組方差不齊,則采用非參數(shù)檢驗(yàn)的KruscalWallis法。如果檢驗(yàn)結(jié)果為有統(tǒng)計(jì)學(xué)意義,則進(jìn)一步作兩兩比較,一般采用Bonferroni法校正P值,然后用成組的Wilcoxon檢驗(yàn)。Join Learn觀測(cè)變量為分類數(shù)據(jù)分類數(shù)據(jù)從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論