數(shù)理統(tǒng)計(jì)課 課件_第1頁(yè)
數(shù)理統(tǒng)計(jì)課 課件_第2頁(yè)
數(shù)理統(tǒng)計(jì)課 課件_第3頁(yè)
數(shù)理統(tǒng)計(jì)課 課件_第4頁(yè)
數(shù)理統(tǒng)計(jì)課 課件_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)理統(tǒng)計(jì)課簡(jiǎn)介王兆軍南開大學(xué)統(tǒng)計(jì)研究院天津,22+2349823322+23698465自我介紹他們是? Zhaojun WANG王兆軍 Its me!王昭君目錄三位名人數(shù)理統(tǒng)計(jì)課內(nèi)容本課的幾個(gè)側(cè)重點(diǎn)不足之處南開數(shù)理統(tǒng)計(jì)課簡(jiǎn)介估計(jì)隨機(jī)模擬抽樣分布假設(shè)檢驗(yàn)本課的幾個(gè)側(cè)重點(diǎn)統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別統(tǒng)計(jì)史及產(chǎn)生的背景注重統(tǒng)計(jì)的應(yīng)用特點(diǎn)不過分強(qiáng)調(diào)理論點(diǎn)與點(diǎn)的結(jié)合數(shù)表的生成不足之處與計(jì)算機(jī)語(yǔ)言的結(jié)合習(xí)題不夠豐富例題的時(shí)代感不強(qiáng)某些內(nèi)容的欠缺(某些理論的證明、非參、Bayes統(tǒng)計(jì)、方差分析等)某些結(jié)果的理論敘述不夠嚴(yán)謹(jǐn)多謝王兆軍Tel: 022+23498233(O)Email: Http:/ /zjwang 統(tǒng)

2、計(jì)與數(shù)學(xué)的區(qū)別(一)統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別(二)e統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別(三)統(tǒng)計(jì)學(xué)數(shù)學(xué)出發(fā)點(diǎn)數(shù)據(jù)定義和公理研究方法歸納演繹評(píng)價(jià)方法好與壞對(duì)與錯(cuò)統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別(四)統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別(五)統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別(六)統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別(七)什么是統(tǒng)計(jì)?數(shù)據(jù)是什么?Data = ¥Science, 2011年2月刊封面2012年3月29日奧巴馬政府投入2億多美元啟動(dòng)“大數(shù)據(jù)發(fā)展研究計(jì)劃”(Big Data Research and Development Initiative)是美國(guó)繼1993年宣布“信息高速公路計(jì)劃”后又一重大科技戰(zhàn)略部署,標(biāo)志從商業(yè)、學(xué)術(shù)層面上升到國(guó)家戰(zhàn)略。Wikipedia(維基百科)A te

3、rm for a collection of data that are very large and complex so that it is difficult to process and analyze using on-hand database management tools, traditional data processing methods and analysis methodologies .ZB(1021), EB(1018), PB(1015), TB(1012), GB(109), MB(106)什么是大數(shù)據(jù)?Why difficulty? Big data

4、challenges the existing information technologies, management paradigm, statistical and computa- tional sciences.Volume大數(shù)據(jù)的特征 PBZB in scale Distributed storage and processing necessary Growing tremendously Data flow Multisource, correlated, heterogeneous Unstructured, unreliable, inconsistent.Total d

5、ataset embodies great value Individual or small subset contains less informationVelocityVarietyValue20131814201統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別(八)返回統(tǒng)計(jì)史及某些背景(一)Ronald Aylmer Fisher (1890. 2. 17-1962. 7. 29) PL HSU (1910-1970)Karl Pearson (1857-1936)統(tǒng)計(jì)史及某些背景(二)統(tǒng)計(jì)的起源(史寧中)Fisher 提出的顯著性檢驗(yàn)(女士品茶)試驗(yàn)設(shè)計(jì)(DOE)充分完備統(tǒng)計(jì)量(與Edington的爭(zhēng)論)t分布(

6、Student的筆名)卡方擬合優(yōu)度檢驗(yàn)(G. Mendel)Bayes估計(jì)(產(chǎn)品質(zhì)量檢驗(yàn))返回注重統(tǒng)計(jì)的應(yīng)用特點(diǎn)上屆數(shù)理統(tǒng)計(jì)期未成績(jī)(分析與檢驗(yàn))死刑數(shù)據(jù)的列聯(lián)表分析(茆詩(shī)松等)統(tǒng)計(jì)與欺騙(何書元)回歸診斷(韋博成)非參數(shù)統(tǒng)計(jì)(Wilcoxon,Mann & Whitney)抽樣調(diào)查(Mahalanobis)吸煙與肺癌(Fisher & Cornfield)SPRT檢驗(yàn)(Wilks)幾本參考書(非理論)返回不過分強(qiáng)調(diào)理論區(qū)間估計(jì)只講樞軸量法不給出Kolmogorov檢驗(yàn)的理論證明經(jīng)驗(yàn)分布函數(shù)的Bahadur表示不講證明略講次序統(tǒng)計(jì)量不講U統(tǒng)計(jì)量、M估計(jì)、L估計(jì)、R估計(jì)、同變檢驗(yàn)、Minimax

7、估計(jì)等理論在應(yīng)用中的重要性 1883年8月15日,美國(guó)物理學(xué)家Henry Augustus Rowland(1848-1901)在美國(guó)科學(xué)促進(jìn)會(huì)年會(huì)上發(fā)表了一則被譽(yù)為是美國(guó)科學(xué)的獨(dú)立宣言的演講為純科學(xué)呼吁,文章發(fā)表在科學(xué)雜志上。理論在應(yīng)用中的重要性 他說,“我時(shí)常被問及,科學(xué)與應(yīng)用科學(xué)究竟何者對(duì)世界更重要,為了應(yīng)用科學(xué),科學(xué)本身必須存在,如停止科學(xué)的進(jìn)步,只留意其應(yīng)用,我們很快就會(huì)退化成中國(guó)人那樣,多少代人以來他們都沒有什么進(jìn)步,因?yàn)樗麄冎粷M足于應(yīng)用,卻從未追問過原理,這些原理就構(gòu)成了純科學(xué)。中國(guó)人知道火藥應(yīng)用已經(jīng)若干世紀(jì),如果正確探索其原理,就會(huì)在獲得眾多應(yīng)用的同時(shí)發(fā)展出化學(xué),甚至物理學(xué)。因

8、為沒有尋根問底,中國(guó)人已遠(yuǎn)遠(yuǎn)落后于世界的進(jìn)步。我們現(xiàn)在只將這個(gè)所有民族中最古老、人口最多的民族當(dāng)成野蠻人。當(dāng)其他國(guó)家在競(jìng)賽中領(lǐng)先時(shí),我們國(guó)家(美國(guó))能滿足于袖手旁觀嗎?難道我們總是匍匐在塵土中去撿富人餐桌上掉下的面包屑,并因?yàn)橛懈嗟拿姘级J(rèn)為自己比他人更富裕嗎?不要忘記,面包是所有面包屑的來源?!?返回點(diǎn)與點(diǎn)的結(jié)合擬合優(yōu)度檢驗(yàn)顯著性檢驗(yàn)-UMP檢驗(yàn)-UMPU檢驗(yàn)區(qū)間估計(jì)、抽樣分布、顯著性檢驗(yàn)的結(jié)合隨機(jī)數(shù)、模擬的有機(jī)結(jié)合返回?cái)?shù)表的生成本講義的所有數(shù)表均是由Fortran程序生成,且某些數(shù)表與傳統(tǒng)給出的值有所不同,如W檢驗(yàn)統(tǒng)計(jì)量的系數(shù)表是由IMSL精確求解得到的(與模擬結(jié)果一致)返回返回估計(jì)點(diǎn)

9、估計(jì)區(qū)間估計(jì)準(zhǔn)則方法樞軸量法極限分布法Bayes估計(jì)無(wú)偏性、UMVUE相合性,ASN、LSE矩估計(jì)、MLEEW算法返回UMP,UMPUUMPU分布、列聯(lián)表返回返回2009年8月5日什么是統(tǒng)計(jì)?統(tǒng)計(jì)學(xué)是收集和分析數(shù)據(jù)的科學(xué)與藝術(shù) (不列顛百科全書)數(shù)理統(tǒng)計(jì)學(xué)是數(shù)學(xué)的一個(gè)分支,它是一門用有效的方法收集和分析帶有隨機(jī)影響的數(shù)據(jù)的學(xué)科,且其目的是解決特定的問題(陳希孺院士)數(shù)理統(tǒng)計(jì)是一門應(yīng)用性很強(qiáng)的學(xué)科,它是研究如何有效地收集、整理和分析受隨機(jī)影響的數(shù)據(jù),并對(duì)所考慮的問題作出推斷或預(yù)測(cè),直至為采取決策和行動(dòng)提供依據(jù)和建議的一門學(xué)科。(茆詩(shī)松)返回統(tǒng)計(jì)學(xué)的起源(一) 中國(guó)在周朝就設(shè)有統(tǒng)計(jì)官員,稱為司書。

10、設(shè)立“司書上士二人,中士四人,府二人,史二人,徒八人?!?負(fù)責(zé) “邦之六典,以周知入出百物,以知田野夫家六畜之?dāng)?shù)。” (見周禮天官冢宰)統(tǒng)計(jì)學(xué)的起源(二) 管子問中提到65個(gè)問,即65個(gè)調(diào)查科目,均為管理國(guó)家所需要的數(shù)據(jù)。比如, “問少壯而未勝甲兵者幾何人?” “為一民有幾年之食也?” 等等。(平均數(shù)、眾數(shù)?)返回女士品茶試驗(yàn) 20世紀(jì)20年代后期,在英國(guó)劍橋的一個(gè)夏日的午后,一群大學(xué)的紳士和他們的夫人們,還有來訪者,正圍坐在戶外的桌旁,享用著下午茶。在品茶過程中,一位女士堅(jiān)稱:把茶加進(jìn)奶里,或把奶加進(jìn)茶里,不同的做法,會(huì)使茶的味道品起來不同。在場(chǎng)的一幫科學(xué)精英們,對(duì)這位女士的“胡言亂語(yǔ)”呲之

11、以鼻。然而,在座的一個(gè)身材矮小、戴著厚眼鏡、下巴上蓄著的短尖髯開始變灰的先生,卻不這么看,他對(duì)這個(gè)問題很有興趣。(實(shí)際上這位女士正確地分辨出了每杯茶)返回Design of Experiment000001010011100101110111乾 坤震 巽 坎 離 艮 兌 這是一個(gè)最基本的正交表返回Fisher與Edington的爭(zhēng)論返回 William Sealey Gosset (1876-1937) 1899年進(jìn)入Guinees Brewing Company,于1904年發(fā)表一篇文章中,說明酵母中的細(xì)胞數(shù)量的分布是Poisson分布,并不屬于K. Pearson偏斜分布中的一員。之后,于

12、1908年在Biometrika上以Student為名發(fā)表了t分布(Guiness公司并不允許員工發(fā)表文章)。Gosset是K. Pearson與Fisher之間的中間人。返回Gregory Mendel (1822-1884)Karl Pearson(1857-1936)返回Bayes估計(jì)(一)Thomas Bayes (1702-1761)Bayes估計(jì)(二)No.nXMLEBayes15510.8752202010.95535000.143420000.045返回2008屆數(shù)理統(tǒng)計(jì)成績(jī)分析(一)2008屆數(shù)理統(tǒng)計(jì)成績(jī)分析(二)2008屆數(shù)理統(tǒng)計(jì)成績(jī)分析(三)John Tukey 統(tǒng)計(jì)界的

13、畢加索 (1915-2000)返回 普林斯頓大學(xué)統(tǒng)計(jì)系主任和貝 爾試驗(yàn)室,二戰(zhàn)期間,加入武器控制研究辦公室(Fire Control Research Office),研究槍炮的瞄準(zhǔn)、測(cè)距儀與槍炮有關(guān)的問題 Exploratory data analysis、FFT、boxplot、steam and leaf plots、robust等死刑數(shù)據(jù)(一)被告死刑合計(jì)是否白人19141160黑人17149166合計(jì)36290326數(shù)據(jù):美國(guó)佛羅里達(dá),1976-1977年兇殺案結(jié)論:白人被判死刑的比例為:19/160=11.9% 黑人被判死刑的比例為:17/166=10.2%死刑數(shù)據(jù)(二)被告被害死

14、刑死刑比例是否白人白人191320.126黑人090.000黑人白人11520.175黑人6970.058Contingency Table (列聯(lián)表)返回統(tǒng)計(jì)與欺騙 有一個(gè)人陸續(xù)收到一個(gè)人的Email告之明天足球比賽的結(jié)果,連續(xù)五次都預(yù)測(cè)對(duì)了。第六次時(shí)他要求你付200塊給他以知明天的比賽結(jié)果,你說這個(gè)人有預(yù)測(cè)比賽的能力嗎? (如果此人是猜的話,連續(xù)猜對(duì)五場(chǎng)的概率是1/25=0.031) (詳見何書元著概率論與數(shù)理統(tǒng)計(jì)2006)返回回歸診斷返回非參數(shù)統(tǒng)計(jì)(一) Frank Wilcoxon(2 Sept 1892 - 18 Nov 1965) Henry B. Mann (1905-2000)

15、非參數(shù)統(tǒng)計(jì)(二) 20世紀(jì)40年代,Wilcoxon是美國(guó)氰胺公司的化學(xué)家,他在進(jìn)行某項(xiàng)化工實(shí)驗(yàn),發(fā)現(xiàn)實(shí)驗(yàn)之初當(dāng)反應(yīng)發(fā)生器并未充分預(yù)熱時(shí),常常是某個(gè)數(shù)據(jù)要么過大、要么過小,而此時(shí)的t檢驗(yàn)極易受到這些異常值的影響。他查了許多資料也沒有找到相應(yīng)的解決方法,于是他自己提出了一種基于數(shù)據(jù)秩的方法,只是其計(jì)算非常繁瑣。他想:這不是一個(gè)化學(xué)家應(yīng)該做的,統(tǒng)計(jì)學(xué)界早就有人完成了這一工作,但他還是找不到相應(yīng)的文獻(xiàn)。于是,他便文章寄給了Biometrics,希望審稿人告訴他所需要的參考資料,然而,審稿人認(rèn)為這是一篇原創(chuàng)性的工作,于1945年發(fā)表了此文。非參數(shù)統(tǒng)計(jì)(三) Wilcoxon與Biometrics的編輯

16、們都不知道,OSU的一位經(jīng)濟(jì)學(xué)家Henry B. Mann和一位統(tǒng)計(jì)學(xué)研究生D. Ransom Whitney也在做一個(gè)相關(guān)的研究,并于1947年發(fā)表了一篇結(jié)果與Wilcoxon提出的方法類似的文章。 上述兩篇文章中無(wú)需使用參數(shù)就可以處理數(shù)據(jù)的分布了(這是K. Pearson一再要求的)。 實(shí)際上,在西方多數(shù)人不知道,20世紀(jì)30年代后期,蘇聯(lián)的Kolmogorov與其學(xué)生Smirnov已發(fā)展了一種不需使用參數(shù)的分布比較方法。非參數(shù)統(tǒng)計(jì)(四) Andrey N. Kolmogorov-數(shù)學(xué)界的莫扎特 (1903-1987)返回抽樣調(diào)查(一)加爾各答市總統(tǒng)學(xué)院物理系教授、主任20世紀(jì)20年代到英

17、國(guó)師從K. Pearson 和Fisher1931年成立Indian Statistical Institute1933年出版Sankhya1962年Fisher自印度返回澳大利亞的船上去世Prasanta Chandra Mahalanobis (1893-1972)抽樣調(diào)查(二) 20世紀(jì)初,當(dāng)Mahalanobis在鐵道公司工作時(shí)遇到了如下例子:為檢驗(yàn)裝在船上準(zhǔn)備從孟買運(yùn)到英國(guó)的黃麻的質(zhì)量,就用一種特殊的工具插入包中,從檢測(cè)帶出的少量黃麻來估計(jì)整包的質(zhì)量。而在包裝和上船過程中,外層的黃麻開始變質(zhì),而里面的被壓得越來越緊,冬天時(shí)常常凍得結(jié)成一塊。于是,當(dāng)取樣員將刀插入時(shí)會(huì)發(fā)生偏離,而此時(shí)所

18、取的樣本就不能真正代表總體分布了,這與K. Pearson的指導(dǎo)思想嚴(yán)重不符。 另外,在人口普查時(shí),由于印度人多且普查時(shí)間不同,故精度有限。于是,Mahalanobis推斷:如果能夠收集到一個(gè)具有充分代表性的小樣本,則可以用它來估計(jì)總體特征。返回吸煙與肺癌(一) R. A. Fisher (1890-1962) Jerome Cornfield (1912-1979) Jerzy Neyman (1894-1981)吸煙與肺癌(二)1958年,F(xiàn)isher在Nature上發(fā)表了兩篇文章“Lung cancer and cigarettes?”和“Cancer and smoking”。他認(rèn)為吸

19、煙會(huì)導(dǎo)致肺癌的證據(jù)嚴(yán)重不足。 Neyman 也認(rèn)為將肺癌與吸煙聯(lián)系起來的研究推理中存在問題。隨著證據(jù)的增多,Neyman慢慢地也似乎認(rèn)可二者間的聯(lián)系,但Fisher仍強(qiáng)烈反對(duì)。吸煙與肺癌(三)Fisher指出:不通過隨機(jī)化實(shí)驗(yàn),根本無(wú)法證明任何東西。(統(tǒng)計(jì)相關(guān)性與因果關(guān)系是不相同的)1959年Cornfield與5位來自美國(guó)的頂尖癌癥專家聯(lián)合撰寫了一篇30頁(yè)的論文。此文指出:有關(guān)證據(jù)壓倒性地支持“吸煙是人類肺部表皮癌發(fā)生率迅速上升的原因之一”。吸煙與肺癌(四)原方法:肺癌患者中的吸煙人數(shù)大大高于非肺癌患者中吸煙人數(shù)。 (有兩種方法:追溯性研究(retrospective studies):從一

20、種疾病開始著手,向后看與此病相關(guān)的有什么先決條件。其不足是對(duì)照組與病例組不匹配;事先研究(prospective studies):事先選定一群人,詳細(xì)記錄他們的吸煙史及疾病情況。其不足是研究是小范圍的,結(jié)論也許只是針對(duì)某個(gè)特定群體而言的)Cornfield方法:他們搜集了1958年前不同國(guó)家、不同總體所做的30項(xiàng)流行病學(xué)研究。返回SPRT檢驗(yàn)(一)Samuel S. Wilks (1906-1964)Abraham Wald (1902-1950)SPRT檢驗(yàn)(二) 20世紀(jì)40年代,Wilks在普林斯頓大學(xué)數(shù)學(xué)系工作,并任華盛頓海軍研究局顧問,成立了普林斯頓統(tǒng)計(jì)研究小組(SRG-P)。當(dāng)Theodore W. Anderson還是此小組的研究生時(shí)研究了如下課題:由于日本人以隨機(jī)形態(tài)在海岸線上布滿地雷,而進(jìn)攻日本本土日子越來越近,故美國(guó)需要找出一種毀壞地雷的有效方法。在此之前,歐

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論