統(tǒng)計分析基礎(chǔ)_第1頁
統(tǒng)計分析基礎(chǔ)_第2頁
統(tǒng)計分析基礎(chǔ)_第3頁
統(tǒng)計分析基礎(chǔ)_第4頁
統(tǒng)計分析基礎(chǔ)_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計分析基礎(chǔ)2023/3/9基本統(tǒng)計1第一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計2基本統(tǒng)計課程大綱敘述統(tǒng)計(DescriptiveStatistcs)機率分配及抽樣機率分配概念參數(shù)的估計

(PointEstimation&IntervalEstimation)第二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計3什麼是統(tǒng)計學?Statistics源自印歐語系字根status(狀態(tài));understand(了解)蒐集、整理、陳述、解釋統(tǒng)計資料特性敘述統(tǒng)計學利用已知樣本(sample)所蒐集的資料,推論未知母(群)體(population)的特性推論統(tǒng)計學使在不確定情況下作成決策的科學方法第三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計4敘述統(tǒng)計與推論統(tǒng)計之比較母體(欲分析的對象)樣本(母體的代表)統(tǒng)計抽樣分析推估敍述統(tǒng)計推論統(tǒng)計從數(shù)據(jù)分析中有效掌握數(shù)據(jù)間的規(guī)律性及差異性第四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計5統(tǒng)計資料的種類屬性資料依資料的性質(zhì)而劃分類別,無法按大小排列例:產(chǎn)品區(qū)分為「合格」、「不合格」兩類 or作業(yè)員、班別。屬量資料計數(shù)值資料(離散型資料,DiscreteData)

零或正整數(shù)計量值資料(連續(xù)型資料,ContinuousData)可帶有小數(shù)點的資料第五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計6敘述統(tǒng)計如何觀察一組數(shù)據(jù)莖葉圖直方圖統(tǒng)計量數(shù)箱型圖第六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計7你對資料瞭解多少?

收集某廠某月每天的產(chǎn)量,連續(xù)27天。第七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計8莖葉圖

TheStem-and-LeafPlot

將十位數(shù)視為莖,個位數(shù)視為葉第八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計9莖葉圖你看出了什麼?平均產(chǎn)量約為(大部分資料落在)40-60左右。資料大概分散在20-50之間。資料的分佈不對稱,偏向數(shù)字大的那一邊。第九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計10莖葉圖你還可以看出什麼?若覺得stem太少,或每一stem的資料太多,可以再分細一點。第十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計11莖葉圖你還可以看出什麼?Q2=X(14)=40Q1=X(7)=22Q3=X(21)=54IQR=Q3-Q1=32P10=(X(2)+X(3))/2=7P90=(X(25)+X(26))/2=61第十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計12直方圖第十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計13直方圖與莖葉圖的補同直方圖的分組可較細緻,莖葉圖的分組較粗略。直方圖無原始數(shù)據(jù),莖葉圖有原始數(shù)據(jù)。第十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計14資料大概落在哪裡?平均產(chǎn)量,平均厚度。資料的分散程度?品質(zhì)(變異)是高或低?資料是否對稱?如何觀察一組數(shù)據(jù)第十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計15如何以一些量數(shù)描述一組數(shù)據(jù)代表資料特性的一些統(tǒng)計量數(shù)集中趨勢量數(shù):(centraltendency)

代表大部份資料集中的位置所在,通常利用此數(shù)作為資料的代表值差異量數(shù):(variation,dispersion)代表資料的分散程度偏態(tài)量數(shù)

:(shape)代表資料偏離對稱的程度第十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計16各種統(tǒng)計量數(shù)連續(xù)資料特性的描述方式平均數(shù)

Mean中位數(shù)Median眾數(shù)Mode全距Range四分位距InterquartileRange變異數(shù)Variance標準差StandardDeviation偏態(tài)Skew集中趨勢量數(shù)差異量數(shù)偏態(tài)量數(shù)第十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計17集中趨勢量數(shù)意義:代表大部份資料集中的位置所在,通常利用此數(shù)作為資料的代表值功用:簡化作用,代表作用,比較作用常用的量數(shù)算數(shù)平均數(shù)中位數(shù)眾數(shù)第十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計18算數(shù)平均數(shù)(Mean)樣本平均數(shù)(samplemean)第十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計19例子:連續(xù)27天LOTS平均產(chǎn)量?第十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計20中位數(shù)(Median)意義:一群資料中間的那個數(shù)。中位數(shù)將一組資料分成兩半,比中位數(shù)大和比中位數(shù)小的資料數(shù)各為一半。(Median,Me)算法:排序(X(1)≦X(2)≦…≦X(n))算出中位數(shù)大概的位置所在(或是比中位數(shù)小的數(shù)字有幾個):I=(n+1)/2看I是否為整數(shù),來決定中位數(shù)的所在。若I為整數(shù)(資料數(shù)為奇數(shù)):Me=X(I)若I為不整數(shù)(資料數(shù)為偶數(shù)):Me=(X([I])+X([I]+1))/2第二十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計21眾數(shù)(Mode)意義:一組資料中,出現(xiàn)次數(shù)最多的數(shù)NoMode

RawData: 10.3,4.9,8.9,11.7,6.3,7.7OneMode

RawData: 6.3,4.9,

8.9,6.3,4.9,

4.9MoreThan1Mode

RawData: 21,28,

28,41,43,43算法:做次數(shù)分配表第二十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計22三種集中量數(shù)的比較若有極端值時,平均數(shù)較不具意義。第二十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計23三種集中量數(shù)的比較Median一定居中。右偏Right-Skewed左偏Left-Skewed對稱SymmetricMean=Median=ModeMeanMedianModeModeMedianMean第二十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計24哪一個集中量數(shù)較好原則:無極端值:mean有極端值:median類別資料:mode例:現(xiàn)有100名學生成績想知道班上整體表現(xiàn)如何mean成績分等級,想知道哪一等級較多人mode第二十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計25非集中位置量數(shù)集中位置量數(shù)(集中趨勢量數(shù))大部分資料的所在非集中位置量數(shù)描繪數(shù)值資料的分佈情況百分位數(shù)(percentile)四分位數(shù)(quartile)十分位數(shù)(decimal)第二十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計26百分位數(shù)(Pk)算法:排序:算出百分位數(shù)大概位置的所在(比百分為數(shù)小的大概有幾個):I=(n+1)*k/100看I是否為整數(shù):若I為整數(shù),則Pk=X(I)若I不為整數(shù),則Pk=(X([I])+X([I]+1))/2第二十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計27特殊的百分位數(shù)(Pk)特殊的百分位數(shù)四分位數(shù)(Q1,Q2,Q3)—QuartileQ1=P25,

Q2=P50,

Q3=P75十分位數(shù)(D1,D2,…,D10)—DecimalD1=P10,

D2=P20,…,

D10=P100第二十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計28四分位數(shù)/十分位數(shù)廠內(nèi)每日產(chǎn)量例子:排序:1,1,13,14,21,21,22,23,25,30,35,38,39,40,42,48,50,52,53,53,54,56,56,58,59,63,65第一,二,三四分位數(shù):k=25,I=(n+1)k/100=7,Q1=X(7)=22k=50,I=(n+1)k/100=14,Q2=X(14)=40k=75,I=(n+1)k/100=21,Q3=X(21)=54第十,九十百分位數(shù):k=10,I=(n+1)/10=2.8,D1=(X(2)+X(3))/2=7k=90,I=(n+1)x0.9=25.2,D9=(X(25)+X(26))/2=61第二十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計29全距(Range)想法:若有兩個數(shù),如何表示他們的差異程度?公式:R=X(n)-X(1)優(yōu)點:意義簡單明瞭缺點:只考慮兩個觀察值,無法測出中間各觀察值之間的差異程度,敏感度小。受極端值影響較大產(chǎn)量例子:R=65-1=64.第二十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計30四分位距想法:如何彌補全距易受極端值影響的缺點?用中間資料來衡量差異程度公式:IQR=Q3-Q1意義:一組資料中間一半觀察值的全距僅與中間50%的資料有關(guān)當資料對稱時,Me-Q1=Q3-Me=IQR/2第三十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計31四分位距優(yōu)點:計算方便易於瞭解,不受極端值影響缺點:僅考慮中間一半的數(shù)值,對兩端之數(shù)值皆未涉及,較不敏感。為此項缺點不如全距之甚。產(chǎn)量例子:Q1=22Q3=54IQR=54-22=32第三十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計32離差(deviation)全距及四分位差均只考慮一群資料中的少數(shù)幾個資料,並未將全部資料考慮進來。那如何將全部資料考慮進來計算其分散程度?離差=觀察值與集中量數(shù)之差可見離差的絕對值越大表示其差異程度應越大若有n個資料,就有n個離差。如何將這n個離差整合起來成一個數(shù)?第三十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計33變異數(shù)與標準差離差:變異數(shù)公式:標準差公式:第三十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計34變異數(shù)與標準差優(yōu)點:意義簡明。代數(shù)計算容易。(實際計算可能複雜)由全部數(shù)值得到,較敏感。缺點:易受極端值影響。第三十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計35變異數(shù)與標準差(特性)特性:資料越集中(越相似),差異程度小,標準差(全距,IQR)也小。若一資料的標準差小,表大部份資料集中在平均數(shù)附近,則平均數(shù)的代表性高。標準差(變異數(shù),全距,IQR)恆大於或等於零。若為零則表示全部數(shù)值均相同。標準差與資料的大小無關(guān),他只與資料的分散程度有關(guān)。(可能兩組資料數(shù)字,平均數(shù)相差很大,但標準差相等)第三十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計36箱型圖(BoxPlot)以五個量表示資料分佈fivenumbersummaryplotQ2Q3Q1X(n)X(1)第三十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計37箱型圖(BoxPlot)右偏左偏對稱Q1

Q2

Q3Q1

Q2

Q3Q1

Q2

Q3哪一邊較大,就是偏向哪一邊第三十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計38箱型圖

最多資料聚集的地方QuartileBoxPlotOutlierBoxPlotP10P90Q2Q3Q1X(n)X(1)Q1-1.5IQRQ3+1.5IQR第三十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計39箱型圖極端值Outlier第三十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計40例子:某日之cellgap值)3.74.14.5資料分佈,有右偏情形,近似雙峰的現(xiàn)象,可能有不同因素在影響;需根據(jù)資料收集的成因加以進一步的探討第四十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計41箱型圖(比較數(shù)組資料的分佈情形)CellgapV.S機臺(TOOLID)不同機臺所對應的cellgap值差異似不大?!!Outlier第四十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計42箱型圖(比較數(shù)組資料的分佈情形)CellgapV.S量測日期Cellgap3.44.04.30.619202122232425262728293030day不同日期所對應之cellgap值似有差異第20,26,27,29,30日之cellgap值似有偏高現(xiàn)象。第23日之cellgap值似偏低。第19,20,30日之cellgap值離散度較其他位置為大。第四十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計43機率分配課程單元隨機變數(shù)期望值變異數(shù)重要的機率分配簡介常態(tài)分配t分配卡方分配F分配第四十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計44隨機變數(shù)定義:用以代表從某一母(群)體之所有可能隨機抽樣試驗的結(jié)果,都可以唯一存在的一個實數(shù)值與之對應之函數(shù),通常以大寫字母表示。數(shù)學表示方式:Xf(x)f(x)稱之為隨機變數(shù)x的機率密度函數(shù)性質(zhì):

第四十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計45重要機率分配簡介常態(tài)分配(NomalDistribution)通常以Z代表其隨機變數(shù),記作Z~N(,2)

其中為期望值,2為變異數(shù)。標準常態(tài)分配,(Z-)/~N(0,1)為一鐘型分配常態(tài)分配底下的面積是固定的P(-≦Z≦+)=68.26%P(-2≦Z≦+2)=95.44%P(-3≦Z≦+3)=99.74%第四十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計46常態(tài)分配圖形+1+2+3-3-2-1+4-468.27%95.45%99.73%第四十六頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計47常態(tài)分配隨機變數(shù)的線性轉(zhuǎn)換常態(tài)分配的標準化-3-2-10123一般常態(tài)分配標準常態(tài)分配第四十七頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計48其他重要的機率分配卡方分配(Chi-SquaredDistribution)記作X~

,其中為參數(shù)

t分配(StudenttDistribution)記作T~,其中為參數(shù)

F分配(FDistribution)記作F~,其中1,2

為參數(shù)

第四十八頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計49抽樣分配統(tǒng)計量(statistics)是一組隨機樣本的實數(shù)值函數(shù)T(X1,X2,…,Xn)Samplemean,variance,median,mode,sampleproportionetc.統(tǒng)計量也是一種隨機變數(shù)統(tǒng)計量的機率分配稱為抽樣分配(samplingdistribution)因為我們是用統(tǒng)計量去猜母體參數(shù),我們需要知道其抽樣分配,才能衡量猜的準確性。第四十九頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計50中央極限定理若X1,X2,….,Xn

為自任意一母群體(期望值為μ,變異數(shù)為σ2<)抽出的一組隨機樣本,則當n

時,(通常n>30),則的機率分配會近似於標準常態(tài)分配。中央極限定理的重要性不論母體分配為何,任何樣本平均數(shù)的抽樣分配,當樣本數(shù)巨大時,即可應用常態(tài)分配以求算其近似機率。第五十頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計51思考時間機率論與統(tǒng)計學著重的重點差異為何?為何須要發(fā)展統(tǒng)計學?機率論為就已知的母(群)體,探討抽樣出來的可能性。統(tǒng)計學討論就未知的母(群)及已知的樣本來對母(群)體特性作推估。因?qū)崉丈匣蚪?jīng)濟上無法對母(群)體作全檢,係為不確定因素來源,故利用抽樣方法來對母(群)體作推論。第五十一頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計52思考時間推論統(tǒng)計學與敘述統(tǒng)計學基本差異為何?推論統(tǒng)計學導入機率理論來對母(群)體加以推論,使得對母群體之機率特性有更進一步與可信之描述。而不只是對母群體單一樣本資料狀態(tài)的描述。第五十二頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計53統(tǒng)計學領(lǐng)域?qū)в[統(tǒng)計學Statistics敘述統(tǒng)計學DescriptiveStatistics推論統(tǒng)計學InferentialStatistics有母數(shù)統(tǒng)計學ParametricStatistics無母數(shù)統(tǒng)計學Non-parametricStatistics參數(shù)的估計ParameterEstimation參數(shù)的假設(shè)檢定HypothesisTesting點估計PointEstimation區(qū)間估計IntervalEstimation單邊假設(shè)檢定OneSideTesting雙邊假設(shè)檢定TwoSideTesting第五十三頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計推論54統(tǒng)計推論單元推論的基本觀念參數(shù)估計第五十四頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計55統(tǒng)計推論統(tǒng)計推論:在不確定的情況下,討論如何由資料全體(母體)中抽出一部分資料(樣本),而以這一部份資料去推測資料全體的某些特性。蒐集、整理、陳述、解釋統(tǒng)計資料特性敘述統(tǒng)計學利用已知樣本(sample)所蒐集的資料,推論未知母(群)體(population)的特性推論統(tǒng)計學使在不確定情況下作成決策的科學方法第五十五頁,共六十一頁,2022年,8月28日2023/3/9基本統(tǒng)計56點估計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論