應(yīng)用統(tǒng)計(jì)學(xué)-緒論2014課件_第1頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論2014課件_第2頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論2014課件_第3頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論2014課件_第4頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論2014課件_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、馬昕經(jīng)濟(jì)學(xué)教研室電話mail: maxin應(yīng)用統(tǒng)計(jì)學(xué)教學(xué)目的:信息時(shí)代是數(shù)據(jù)時(shí)代。決策已從過去以經(jīng)驗(yàn)為主轉(zhuǎn)變到科學(xué)決策。如何從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征,為科學(xué)決策提供依據(jù),這是本課程要解決的問題。本課程是在學(xué)生掌握統(tǒng)計(jì)分析的基本知識和技能之后,以進(jìn)一步深化學(xué)生的量化分析能力為宗旨、以多元統(tǒng)計(jì)為中心的一門應(yīng)用性課程。課程內(nèi)容:第一章 緒論第二章 向量、矩陣與多維正態(tài)分布第三章 方差分析第四章 回歸分析第五章 聚類分析第六章 判別分析第七章 主成分分析第八章 因子分析第九章 對應(yīng)分析第十章 結(jié)構(gòu)方程模型教材:Jams M Lattin等著,多元數(shù)

2、據(jù)分析(英文版),機(jī)械工業(yè)出版社參考書何曉群多元統(tǒng)計(jì)分析,中國人民大學(xué)出版社,2004王學(xué)民應(yīng)用多元分析,上海財(cái)經(jīng)大學(xué)出版社理查德約翰遜實(shí)用多元統(tǒng)計(jì)分析,清華大學(xué)出版社,2008(英文版)考核方法:作業(yè):30分期末考試(開卷) :70分教學(xué)資源位于: (key:ncepuedu2013):網(wǎng)盤課件課件例題數(shù)據(jù)2套模擬題一、多元數(shù)據(jù)分析的必要性數(shù)據(jù)分析從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征的過程事物特征的描述:變量/指標(biāo)每個(gè)變量/指標(biāo)數(shù)據(jù):反映事物某一方面的特征一般來說事物通常具有多面性,即有多方面特征例:學(xué)生的能力、物種、國家經(jīng)濟(jì)實(shí)力、企業(yè)競爭力僅從一個(gè)方面往往不足以反映事物特性

3、或個(gè)體之間的差異必須全面考慮事物的各個(gè)方面,才能對其正確認(rèn)識。統(tǒng)計(jì)學(xué):單變量/雙變量分析描述統(tǒng)計(jì)集中趨勢離散趨勢變量分布異常點(diǎn)推斷統(tǒng)計(jì):從樣本統(tǒng)計(jì)量推斷總體參數(shù)參數(shù)估計(jì):樣本均值估計(jì)總體均值,假設(shè)檢驗(yàn):總體均值或方差的檢驗(yàn),兩總體均值/方差相等的檢驗(yàn)相關(guān)分析:兩個(gè)隨機(jī)變量間的(線性)相關(guān)程度一元回歸:一個(gè)隨機(jī)變量對另一變量間的依存關(guān)系Simpsons ParadoxNo relationship between sex and acceptance for either programmeSo no evidence of discriminationWhy?More females appl

4、y for the English programme, but it it hard to get intoMore males applied to Engineering, which has a higher acceptance rate than EnglishMust look deeper than single cross-tab to find this outEngineeringMaleFemaleAccept3010Refuse entry3010Total6020EnglishMaleFemaleAccept510Refuse entry1530Total2040兩

5、變量分析有時(shí)會得到虛假結(jié)果Simpsons ParadoxIn this example, the bivariate analysis (cross-tabulation or correlation) gave misleading resultsIntroducing another variable gave a better understanding of the dataIt even reversed the initial conclusions性別錄取率專業(yè)?Some Common Patterns in Point Clouds planes filaments clus

6、ters outliersData Analysis:Finding and Interpreting such Patterns具體方法聚類分析:按距離遠(yuǎn)近分類判別分析:給定樣本定類親疏判別主成分分析、因子分析、對應(yīng)分析:找出主要因素,化簡數(shù)據(jù)方差分析多元回歸分析結(jié)構(gòu)方程模型GroupingDiscriminating Principle Component, Factoring,CorrespondenceInferring推斷exploring探索數(shù)據(jù)模式Structural Equation Model課程重點(diǎn)強(qiáng)調(diào)方法的應(yīng)用而非理論推導(dǎo)強(qiáng)調(diào)方法的內(nèi)涵與幾何解釋強(qiáng)調(diào)SPSS軟件的應(yīng)用和結(jié)

7、果的解釋牢記:從數(shù)據(jù)中獲取信息沒有確定的方法具體問題具體分析:把握機(jī)理三、多元數(shù)據(jù)的描述數(shù)據(jù)的計(jì)量尺度(measurement scale):告訴我們從數(shù)據(jù)中可獲得哪些信息。品質(zhì)數(shù)據(jù):計(jì)算無意義定類尺度:按窮盡和互斥原則將對象某種特征歸類通常用虛擬變量表示:定序尺度對象特征等級或順序差別的測度三、多元數(shù)據(jù)的描述數(shù)值數(shù)據(jù)定距尺度:測度對象特征的間距,不能做絕對比較。定比尺度:即可測度間距,又可做絕對比較。數(shù)值數(shù)據(jù)的矩陣表示: 樣本數(shù)n,變量數(shù)p數(shù)據(jù)的矩陣描述注:若無特別說明,向量均指列向量四、統(tǒng)計(jì)基本知識回顧:單變量分析描述統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)異常點(diǎn)均值的代表性目的:描述數(shù)據(jù)分布與正態(tài)分布的可能

8、偏離正態(tài)分布具有許多有利于統(tǒng)計(jì)的特性一般獨(dú)立隨機(jī)事件的分布都服從正態(tài)分布人的身高,產(chǎn)品質(zhì)量偏度:用來度量對稱性的指標(biāo)峰度:刻畫一個(gè)分布陡峭或平緩程度的指標(biāo)正態(tài)右偏左偏正態(tài)比正態(tài)更陡比正態(tài)平緩分布的偏度與峰度基本概念2、參數(shù)估計(jì)總體樣本變量觀測值華北電大的所有學(xué)生華北電大的所有學(xué)生中所有抽取的100名學(xué)生基本概念(續(xù))參數(shù)統(tǒng)計(jì)量精確度準(zhǔn)確度偏誤標(biāo)準(zhǔn)差:小標(biāo)準(zhǔn)誤:小標(biāo)準(zhǔn)差:大標(biāo)準(zhǔn)誤:小標(biāo)準(zhǔn)誤差standard error標(biāo)準(zhǔn)差standard deviation抽樣推斷:從樣本統(tǒng)計(jì)量推斷總體參數(shù)參數(shù)估計(jì):在未知總體參數(shù)的情況下,利用樣本統(tǒng)計(jì)量來估計(jì)總體參數(shù)的方法。參數(shù)點(diǎn)估計(jì)參數(shù)區(qū)間估計(jì)假設(shè)檢驗(yàn):先

9、對總體參數(shù)作一個(gè)假設(shè),然后通過搜集樣本數(shù)據(jù),用樣本統(tǒng)計(jì)量判斷對總體參數(shù)的假設(shè)是否成立參數(shù)估計(jì):總體參數(shù)的點(diǎn)估計(jì)假設(shè)在總體X中, 為未知參數(shù)(均值、方差、成數(shù)等)。由樣本(x1、x2xn )構(gòu)造統(tǒng)計(jì)量 來估計(jì)未知參數(shù),稱 為的點(diǎn)估計(jì)量。 將某次抽樣的樣本觀測值,代入即得該估計(jì)量的一個(gè)點(diǎn)估計(jì)值 。方法 矩估計(jì)法 極大似然估計(jì)法 最小二乘法設(shè)為待估計(jì)的總體參數(shù), 為樣本統(tǒng)計(jì)量,則的優(yōu)良標(biāo)準(zhǔn)為:點(diǎn)估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)指樣本統(tǒng)計(jì)量抽樣分布的平均值等于被估計(jì)的總體指標(biāo)無偏性設(shè) 和 是總體指標(biāo)的兩個(gè)無偏估計(jì)量,有效性若,則稱為比 更有效的估計(jì)量如果隨著樣本容量n的增大,樣本估計(jì)量在概率意義下越來越接近于總體真

10、實(shí)值,則稱該估計(jì)量是待估參數(shù)的一致估計(jì)量。一致性一致性是對一個(gè)估計(jì)量的最起碼要求?!叭绻阍趎趨于無窮大時(shí)還不能正確地得到它,那你就不應(yīng)該做這件事”葛蘭杰n1n2n3n1n2n3置信度(1-)反映了估計(jì)的可靠程度。根據(jù)樣本指標(biāo)和抽樣極限誤差可以得到滿足一定置信度的總體指標(biāo)的可能范圍定義設(shè)總體參數(shù)為,L、U為由樣本確定的兩個(gè)統(tǒng)計(jì)量,對于給定的(01),有P(LU)=1-,則稱(L, U)為參數(shù)的置信度為1-的置信區(qū)間參數(shù)估計(jì):參數(shù)的區(qū)間估計(jì)可靠度精確度為什么要做區(qū)間估計(jì)?任意抽出一個(gè)婦女,試猜測其體重,猜對贏50元,猜錯輸50元如何猜?輸贏概率如何?例:20個(gè)婦女的體重資料如表, 平均體重:12

11、3.6pound,標(biāo)準(zhǔn)差:15.5猜均值上下一個(gè)標(biāo)準(zhǔn)差:贏的概率?輸?shù)母怕什戮瞪舷聝蓚€(gè)標(biāo)準(zhǔn)差:輸贏概率?目的前提條件 置信度的置信區(qū)間估計(jì)總體均值正態(tài)總體方差已知估計(jì)總體均值正態(tài)總體方差未知(小樣本)估計(jì)總體均值 置信區(qū)間估計(jì)方法一覽表總體分布知,正態(tài)總體方差未知(大樣本)區(qū)間估計(jì)原理0.6827落在范圍內(nèi)的概率為68.27%樣本抽樣分布曲線原總體分布曲線置信度1-=0.6827區(qū)間估計(jì)原理0.9545落在范圍內(nèi)的概率為95.45%樣本抽樣分布曲線原總體分布曲線置信度1-=0.9545例 某保險(xiǎn)公司從投保人中隨機(jī)抽取36人,計(jì)算出此36人平均年齡為39.5歲,已知投保人年齡近似正態(tài)分布,標(biāo)準(zhǔn)

12、差7.2歲,試以99%的可靠度求所有投保人平均年齡的置信區(qū)間。如果將可靠度降低到95%的水平呢?解:求所有投保人平均年齡的置信區(qū)間?,F(xiàn)有一個(gè)點(diǎn)估計(jì)量在點(diǎn)估計(jì)量基礎(chǔ)上,構(gòu)造投保人平均年齡的置信區(qū)間關(guān)鍵是置信區(qū)間的寬度是多少。置信區(qū)間寬度取決于置信度和抽樣平均誤差:根據(jù)置信度查表得到在99%的置信度下,投保人年齡總體均值的置信區(qū)間為: (39.5-3.1, 39.5+3.1)36.442.6置信度95%,Z/2=1.96, =1.96*1.2=2.35, 置信區(qū)間(37.2,41.9)3、假設(shè)檢驗(yàn)采用邏輯上的反證法先認(rèn)為假設(shè)為真,觀察在此前提下所抽到樣本的出現(xiàn)是否合理。若合理則判斷假設(shè)可接受,反之拒絕假設(shè)。判斷是否合理的依據(jù)統(tǒng)計(jì)上的小概率原理(即這里的反證法是基于一定概率的反證法)。 假設(shè)檢驗(yàn)的步驟提出原假設(shè)和備擇假設(shè):收集樣本數(shù)據(jù),確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量及其分布規(guī)定顯著性水平,確定拒絕域和接受域計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值作出統(tǒng)計(jì)決策假設(shè)的三種形式:Z臨界點(diǎn)Z/2接受域-Z/2ZZ/2Z臨界點(diǎn)-Z拒絕域Z -ZZ臨界點(diǎn)Z拒絕域ZZ接受域Z Z在原假設(shè)為真的前提下,出現(xiàn)觀察到的樣本以及更極端樣本的概率。P值(P-value):拒絕原假設(shè)的最小顯著性水平。如果檢驗(yàn)的統(tǒng)計(jì)量為t,c是從樣本得到的統(tǒng)計(jì)量的值。左側(cè)檢驗(yàn)時(shí),P值= ptc右側(cè)檢驗(yàn)時(shí),P值= ptc雙側(cè)檢驗(yàn)中,P值=單側(cè)P值的2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論