版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)理統(tǒng)計(jì)中國人民大學(xué)統(tǒng)計(jì)學(xué)院選用教材呂曉玲、黃丹陽(2024),《數(shù)據(jù)科學(xué)統(tǒng)計(jì)基礎(chǔ)》(第2版),中國人民大學(xué)出版社第1章數(shù)據(jù)及其描述:統(tǒng)計(jì)量1.1數(shù)據(jù)和變量1.2總體、樣本和統(tǒng)計(jì)量1.3從樣本認(rèn)識總體的圖表方法1.4抽樣分布1.5次序統(tǒng)計(jì)量1.6充分統(tǒng)計(jì)量1.7常用的概率分布族1.8與本章相關(guān)的R語言操作
第1章數(shù)據(jù)及其描述:統(tǒng)計(jì)量
統(tǒng)計(jì)學(xué)是探討隨機(jī)現(xiàn)象統(tǒng)計(jì)規(guī)律性的一門學(xué)科,它以概率論為理論基礎(chǔ),研究如何以有效的方式收集、整理和分析受到隨機(jī)因素影響的數(shù)據(jù),從而對研究對象的某些特征做出判斷。第1章數(shù)據(jù)及其描述:統(tǒng)計(jì)量數(shù)據(jù)和變量PART1.11.1數(shù)據(jù)和變量1.1.1數(shù)據(jù)的例子數(shù)據(jù)的記錄手段具有明顯的時(shí)代特征。數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)按照收集方法可以分為觀測數(shù)據(jù)和試驗(yàn)數(shù)據(jù)。凡是可以電子化記錄的其實(shí)都是數(shù)據(jù)。這里所說的記錄不是靠自然人的大腦,而是通過必要的信息化技術(shù)和電子化手段。1.1數(shù)據(jù)和變量1.1.2變量的類型這些特征在不同研究個(gè)體的取值是不同的,因此稱為隨機(jī)變量(或簡稱變量,一維情況)或隨機(jī)向量(二維及以上)。變量有很多類型,主要分為兩種。往往我們要研究的并不是一個(gè)問題的所有方面,而是某些感興趣的維度(或稱為特征),比如某地區(qū)居民的收入水平,某疾病的發(fā)病率與飲食習(xí)慣的關(guān)系等。一種是定量變量或數(shù)量變量,比如五年級男生身高,某款汽車的速度,某種疾病的患病人數(shù);另外一種變量類型稱為分類變量或定性變量、示性變量、屬性變量、因子型變量,比如性別、職業(yè)、地區(qū)等。分類變量有些是有序的,比如信用等級、工資收入等級等,稱為定序變量。1.1數(shù)據(jù)和變量1.1.2變量的類型連續(xù)型變量(區(qū)間變量、實(shí)數(shù)型變量):取值范圍是某區(qū)間中的任何值離散型變量:取整數(shù)值或可數(shù)數(shù)量集合值的變量。年齡一般來說,應(yīng)該是連續(xù)型的;但往往取整數(shù),成了離散型;而在問卷調(diào)查中,往往在年齡的若干選項(xiàng)(比如”幼年“、”青年“、
”中年“,”老年”)中選擇一個(gè),這就是分類變量或者定序變量了。變量類型并不是絕對的1.1數(shù)據(jù)和變量1.1.2變量的類型變量的種類實(shí)際上是由人們對變量的約束而定的比如顏色(紅、黃、藍(lán)、紫等),最原始的變量是定性變量。定性變量包含最少的約束。定序變量是把定性變量加了大小的約束,
比如按照波長的大小排列順序,
則有紅>黃>藍(lán)>紫。如果按照頻率排列,這個(gè)順序則相反。定量變量則不僅僅排序,而且有數(shù)目,每一個(gè)顏色都由特定的頻率或波長定義,這就稱為連續(xù)變量或者區(qū)間變量。1.1數(shù)據(jù)和變量1.1.2變量的類型表1.1.1顏色的頻率和波長1.1數(shù)據(jù)和變量1.1.2變量的類型對數(shù)據(jù)的人為約束越多,
數(shù)據(jù)在模型中所起的作用越小。
或者說“自由度”越小。比如,把年齡排序成(或者用歲數(shù)這樣的整數(shù)):老>中>青>幼,看上去似乎更合理。實(shí)際上,這意味著老年和幼年是兩個(gè)極端的現(xiàn)象。但在體力上和心理上,老年和幼年卻呈現(xiàn)了一些類似,這種信息容易被排序(或數(shù)量化)所埋沒但也可通過模型選擇學(xué)習(xí)出這種非線性的影響。如果按照體力或智力排序,則會有不同的結(jié)果。第1章數(shù)據(jù)及其描述:統(tǒng)計(jì)量總體、樣本和統(tǒng)計(jì)量PART1.21.2總體、樣本和統(tǒng)計(jì)量1.2.1總體和分布在一個(gè)統(tǒng)計(jì)問題中,我們把研究對象的全體稱為總體,其中每個(gè)成員稱為個(gè)體。在實(shí)際問題中,總體是客觀存在的人群或物類。這是對總體這個(gè)概念在研究問題的對象這個(gè)層面的理解。總體可以用一個(gè)概率分布來描述,其數(shù)量指標(biāo)X就是服從這個(gè)分布的隨機(jī)變量。因此,常常用隨機(jī)變量的符號或分布的符號表示總體。因此,常常用隨機(jī)變量的符號或分布的符號表示總體。以后我們說“從某總體中抽樣”和“從某分布中抽樣”是同一個(gè)意思。1.2總體、樣本和統(tǒng)計(jì)量1.2.1總體和分布如果我們要研究的問題不只是一個(gè)維度,而是二維或更高維度。比如研究兒童血色素(X1)同其性別(X2)、年齡(X3)之間的關(guān)系。那么總體仍然是一堆數(shù),只不過每個(gè)元素不是一個(gè)數(shù)字,而是一個(gè)向量。這個(gè)總體仍然可以用一個(gè)概率分布來描述,就是(X1,X2,X3)的聯(lián)合分布。更進(jìn)一步的,數(shù)據(jù)的維度可能會很高,幾千、上萬,甚至更高,我們可以假設(shè)這些變量之間有某種相互關(guān)系,從而假定一些條件分布的形式,使用統(tǒng)計(jì)模型或算法進(jìn)行數(shù)據(jù)分析,這是后續(xù)專業(yè)課的具體內(nèi)容,本書只有少量涉及。但本書所介紹的思想和原則是后續(xù)所有專業(yè)課的基礎(chǔ)。1.2總體、樣本和統(tǒng)計(jì)量例1.2.1為了解某地區(qū)居民在某網(wǎng)站購物情況,回答以下三個(gè)問題:網(wǎng)上購物居民占所有居民的比例:二項(xiàng)分布過去一年內(nèi)網(wǎng)購居民的購物次數(shù):離散分布過去一年內(nèi)網(wǎng)購居民的購物金額:連續(xù)分布1231.2總體、樣本和統(tǒng)計(jì)量例1.2.2彩色濃度是彩電質(zhì)量好壞的一個(gè)重要指標(biāo)。20世紀(jì)70年代在美國銷售的SONY牌彩電有兩個(gè)產(chǎn)地:美國和日本。其彩色濃度的標(biāo)準(zhǔn)值為??,允許范圍是[???5,??+5],否則為不合格品。在70年代后期,美國消費(fèi)者購買日產(chǎn)SONY彩電的熱情明顯高于購買美產(chǎn)SONY彩電,這是為什么呢?等級ⅠⅡⅢⅣ美產(chǎn)33.333.333.30日產(chǎn)68.327.14.30.3表1.2.1各等級彩電的比例(%)1.2總體、樣本和統(tǒng)計(jì)量例1.2.3
1.2總體、樣本和統(tǒng)計(jì)量例1.2.4在文本數(shù)據(jù)分析中,我們要研究的個(gè)體是一篇篇文章。在轉(zhuǎn)換成數(shù)量指標(biāo)之后,每篇文章可以對應(yīng)成一個(gè)P1維向量。表示該文章在P1個(gè)詞語上的詞頻。我們認(rèn)為這個(gè)P1維向量服從一定的概率分布。在圖像分析中,個(gè)體是一張張圖片,對應(yīng)的數(shù)量指標(biāo)是P2維向量,表示圖片在P2個(gè)像素點(diǎn)的像素值,服從一個(gè)P2維的概率分布。1.2總體、樣本和統(tǒng)計(jì)量1.2.2樣本普查,又稱全數(shù)檢查,即對總體中每個(gè)個(gè)體都進(jìn)行檢查或觀察。抽樣,即從總體抽取若干個(gè)體進(jìn)行檢查或觀察,用所獲得的數(shù)據(jù)對總體進(jìn)行統(tǒng)計(jì)推斷,這一過程可用圖1.2.4示意。圖1.2.4總體及其樣本1.2總體、樣本和統(tǒng)計(jì)量1.2.2樣本從總體中抽出的部分(多數(shù)場合是小部分,即使現(xiàn)在的大數(shù)據(jù),也只是總體的一部分)個(gè)體組成的集合稱為樣本,樣本中所含的個(gè)體稱為樣品,樣本中樣品個(gè)數(shù)稱為樣本量或樣本容量。由于抽樣前不知道哪個(gè)個(gè)體被抽中,也不知道被抽中的個(gè)體的測量或試驗(yàn)結(jié)果,所以容量為n的樣本可看做n維隨機(jī)向量,用大寫字母X1,X2,…,Xn表示。用小寫字母x1,x2,…,xn表示其觀測值(實(shí)現(xiàn)值),這就是我們常說的數(shù)據(jù)。如果進(jìn)行多次重復(fù)抽樣,樣本的觀測值會不同。一切可能觀測值的全體稱為n維樣本空間。1.2總體、樣本和統(tǒng)計(jì)量例1.2.3樣本的例子某公園的一次性門票為200元,一年內(nèi)可以無限次入場的年票價(jià)格為595元。為檢驗(yàn)該票價(jià)制度的合理性,隨機(jī)抽取1000位年票持有者,記錄了他們某年入園游覽的次數(shù)。見表1.2.2.這是一個(gè)容量為1000的樣本。1.2.2樣本游覽次數(shù)012345+人數(shù)45219210213148165表1.2.21000位年票持有者某年入園游覽的次數(shù)11.2總體、樣本和統(tǒng)計(jì)量例1.2.3樣本的例子某學(xué)院學(xué)生的體測數(shù)據(jù),包含體重(斤)、腰圍(碼)、1分鐘脈搏(次)、引體向上次數(shù)、5分鐘仰臥起坐次數(shù)和1分鐘跳繩次數(shù),隨機(jī)抽取20人,如表1.2.3所示。這是一個(gè)容量為20的多維樣本。1.2.2樣本表1.2.320名學(xué)生的體測數(shù)據(jù)21.2總體、樣本和統(tǒng)計(jì)量1.2.2樣本樣本來自總體,樣本包含總體信息。 為了使所抽取的樣本能很好地反映總體,抽樣方法的確定很重要。最理想的抽樣方法是簡單隨機(jī)抽樣,它滿足如下兩個(gè)要求:隨機(jī)性:即要求總體中每個(gè)個(gè)體都有同等的機(jī)會被選到樣本中。這說明樣本中每個(gè)X??的分布相同,均與總體X同分布。獨(dú)立性:樣本中每個(gè)個(gè)體的選取并不影響其他個(gè)體的選取。這意味著樣本中每個(gè)個(gè)體X??是相互獨(dú)立的。1.2總體、樣本和統(tǒng)計(jì)量1.2.2樣本由簡單隨機(jī)抽樣得到的樣本稱為簡單隨機(jī)樣本,簡稱樣本。此時(shí)(??1,??2,...,????)可以看成是相互獨(dú)立且服從同一分布(independentandidenticaldistribution,iid)的隨機(jī)變量,簡稱獨(dú)立同分布樣本。如無特別說明,本書所指的樣本均為簡單隨機(jī)樣本。1.2總體、樣本和統(tǒng)計(jì)量1.2.2樣本例1.2.6樣本的例子有一批燈泡600只,現(xiàn)要從中抽取6只做壽命試驗(yàn),如何從600只燈泡中抽取這6只燈泡,使所得樣本為簡單隨機(jī)樣本?1.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量定義
1.2.1不含任何未知參數(shù)的樣本函數(shù)稱為統(tǒng)計(jì)量。
1.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量
11.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量
21.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量
31.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量
41.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量
51.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量
5改進(jìn):1.2總體、樣本和統(tǒng)計(jì)量1.2.3統(tǒng)計(jì)量
61.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖例1.3.11.頻數(shù)分布表對于取值連續(xù)型的變量,當(dāng)樣本量n較大時(shí),把樣本整理為分組樣本可得頻數(shù)頻率表,它可按觀察值大小顯示出樣本中數(shù)據(jù)的分布狀況。光通量是燈泡亮度的質(zhì)量特征?,F(xiàn)有一批220伏25瓦白熾燈泡要測其光通量的分布,為此從中隨機(jī)抽取120只,測得其光通量如表1.3.1所示。1.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖1.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖為從這組數(shù)據(jù)中挖掘出有用信息,常對數(shù)據(jù)進(jìn)行分組,獲得頻數(shù)頻率表,即分組樣本。具體操作如下:
1.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖
1.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖表1.3.3120個(gè)光通量的頻數(shù)頻率表1.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖
1.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖直方圖的優(yōu)點(diǎn)是能把樣本中的數(shù)據(jù)用圖形表示出來。直方圖是直接對總體密度函數(shù)形狀的一種估計(jì)。在樣本量較大的場合,直方圖常是總體分布的影子。如圖1.3.1上的直方圖中間高,兩邊低,左右基本對稱。這很可能是”白熾燈泡光通量常是正態(tài)分布”的影子。又如圖1.3.2上的兩個(gè)直方圖是不對稱的,是有偏的,其相應(yīng)的總體可能是偏態(tài)的。各種統(tǒng)計(jì)軟件都有畫直方圖的功能。1.3從樣本認(rèn)識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖圖1.3.2非對稱直方圖1.3從樣本認(rèn)識總體的圖表方法對于分類型變量或者離散型變量(取值是整數(shù),但較少,按分類型變量處理)所對應(yīng)的總體分布(概率分布列,各類別的取值概率)的估計(jì)可以使用條形圖或者餅圖。條形圖使用寬度相同的條形來表示各類別頻數(shù)多少的圖形。繪制條形圖時(shí),各類別可以放在縱軸,也可以放在橫軸,條形的長短表示各類別的頻數(shù)或頻率。餅圖是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形。它主要用于表示一個(gè)樣本中各類別的頻數(shù)占全部頻數(shù)的百分比。例1.3.2對消費(fèi)者喜歡的飲料類別進(jìn)行數(shù)據(jù)調(diào)查,隨機(jī)訪問了200名用戶,其中喜歡“茶類飲品”、“碳酸飲料”、“果汁”、“礦泉水”、“其他”的人數(shù)分別是45、52、37、28和38。繪制的餅圖和條形圖如圖1.3.3。1.3.2餅圖與條形圖1.3從樣本認(rèn)識總體的圖表方法圖1.3.3飲料調(diào)查數(shù)據(jù)的條形圖和餅圖0
10
20
30
40
50
茶類飲品碳酸飲料果汁礦泉水其他飲料類別消費(fèi)者喜歡類別的條形圖頻數(shù)礦泉水14%果汁18.5%其他19%茶類飲品22.5%碳酸飲料26%消費(fèi)者喜歡飲料類別的餅圖1.3.2餅圖與條形圖1.3從樣本認(rèn)識總體的圖表方法1.3.3樣本的經(jīng)驗(yàn)分布函數(shù)1.經(jīng)驗(yàn)分布函數(shù)設(shè)總體X的概率密度函數(shù)為f(x),累積分布函數(shù)為F(x)。從中抽取容量為n的簡單隨機(jī)樣本,對其觀測值X1,X2,...,Xn偏愛哪一個(gè)都沒有理由,故可把這n個(gè)值看做某個(gè)離散隨機(jī)變量(暫時(shí)記為X’等可能取的值;這就得到如下離散分布:X’X1X2…XnP1/n1/n…1/n1.3從樣本認(rèn)識總體的圖表方法1.3.3樣本的經(jīng)驗(yàn)分布函數(shù)1.經(jīng)驗(yàn)分布函數(shù)
1.3從樣本認(rèn)識總體的圖表方法1.3.3樣本的經(jīng)驗(yàn)分布函數(shù)例1.3.3為比較兩地區(qū)居民的收入差異,現(xiàn)隨機(jī)調(diào)查了每個(gè)地區(qū)10位居民的收入情況,數(shù)據(jù)如下:兩個(gè)地區(qū)居民收入的經(jīng)驗(yàn)分布函數(shù)如圖1.3.4所示??梢钥闯龃嬖诿黠@的差異,這表明兩個(gè)地區(qū)收入的總體分布存在較大差異。1.3從樣本認(rèn)識總體的圖表方法1.3.3樣本的經(jīng)驗(yàn)分布函數(shù)圖1.3.4兩個(gè)地區(qū)居民收入的經(jīng)驗(yàn)分布函數(shù)1.3從樣本認(rèn)識總體的圖表方法1.3.3樣本的經(jīng)驗(yàn)分布函數(shù)1.經(jīng)驗(yàn)分布函數(shù)
1.3從樣本認(rèn)識總體的圖表方法1.3.3樣本的經(jīng)驗(yàn)分布函數(shù)2.樣本矩
1.3從樣本認(rèn)識總體的圖表方法1.3.3樣本的經(jīng)驗(yàn)分布函數(shù)2.樣本矩
1.3從樣本認(rèn)識總體的圖表方法1.3.4高維數(shù)據(jù)的圖表展示方法在處理高維數(shù)據(jù)時(shí),我們首先進(jìn)行單變量分析,再進(jìn)行兩兩間的相互分析。對于一維連續(xù)型變量,我們可以繪制直方圖(總體密度函數(shù)的離散化估計(jì));核密度估計(jì)曲線(使用非參數(shù)方法對密度曲線的估計(jì),與直方圖相比,這是一條平滑的曲線);經(jīng)驗(yàn)分布圖(總體分布函數(shù)的估計(jì));對于一維離散變量,我們可以繪制條形圖(分布列的估計(jì));餅形圖(分布列的估計(jì));1.3從樣本認(rèn)識總體的圖表方法1.3.4高維數(shù)據(jù)的圖表展示方法對于兩個(gè)連續(xù)變量(??,??),我們可以繪制
對于兩個(gè)離散變量,可以繪制分組條形圖(給定一個(gè)變量后,另一個(gè)變量取值的條件分布);交叉列聯(lián)表;對于一個(gè)離散變量和一個(gè)連續(xù)變量,可以繪制分組箱線圖。1.3從樣本認(rèn)識總體的圖表方法1.3.4高維數(shù)據(jù)的圖表展示方法例1.3.4可展示的圖表包括:散點(diǎn)圖、密度曲線、箱線圖、直方圖、等高線圖等。下面我們以例1.2.5(2)為例進(jìn)行展示。1.3從樣本認(rèn)識總體的圖表方法1.3.5數(shù)據(jù)變換例1.3.5某年級兩個(gè)班的概率論期末考試成績?nèi)缦拢?.3從樣本認(rèn)識總體的圖表方法1.3.5數(shù)據(jù)變換圖1.3.5兩個(gè)班級概率論考試成績原始數(shù)據(jù)及標(biāo)準(zhǔn)化數(shù)據(jù)的盒形圖1.3從樣本認(rèn)識總體的圖表方法1.3.5數(shù)據(jù)變換例1.3.6某款手機(jī)APP用戶每次登陸的使用時(shí)長(單位:秒)的隨機(jī)抽樣數(shù)據(jù)(n=50)如下:1.3從樣本認(rèn)識總體的圖表方法1.3.5數(shù)據(jù)變換圖1.3.6某款手機(jī)APP用戶每次登陸的使用時(shí)長及其對數(shù)變換的直方圖1.4抽樣分布1.4.1樣本均值的抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布1.4.3用隨機(jī)模擬法尋找統(tǒng)計(jì)量的近似分布1.4抽樣分布定義1.4.11.2.3節(jié)介紹了統(tǒng)計(jì)量的概念,我們知道統(tǒng)計(jì)量是隨機(jī)變量(向量),因此抽樣分布的定義如下。統(tǒng)計(jì)量的概率分布稱為抽樣分布。1.4抽樣分布1.4.1樣本均值的抽樣分布定理1.4.1
1.4抽樣分布1.4.1樣本均值的抽樣分布例1.4.1圖1.4.1左側(cè)有一個(gè)由20個(gè)數(shù)組成的總體X,該總體分布為:圖1.4.1總體及其4個(gè)樣本的樣本均值1.4抽樣分布1.4.1樣本均值的抽樣分布
圖1.4.2500個(gè)樣本均值形成的直方圖1.4抽樣分布1.4.1樣本均值的抽樣分布
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布定義1.4.21.樣本方差的抽樣分布
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布定理1.4.2
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布為了定理1.4.2的證明,特給出多維隨機(jī)向量的期望與方差的矩陣表示。
于是Y的期望向量為:
...這就證明了第一個(gè)等式。1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布
至于第二個(gè)等式,亦可由線性變換導(dǎo)出:1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布接下來證明定理1.4.2.
…………
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布
這就證明了結(jié)論(2)。
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布定義1.4.32.樣本均值與樣本標(biāo)準(zhǔn)差之比的抽樣分布
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布定理1.4.3
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布定理1.4.4
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布t分布的密度函數(shù)圖像是一個(gè)關(guān)于縱軸對稱的分布(見圖1.4.4),與標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)十分類似,只是峰比標(biāo)準(zhǔn)正態(tài)分布低一些,尾部的概率比標(biāo)準(zhǔn)正態(tài)分布大一些。圖1.4.4
t(5)分布與N(0,1)的密度函數(shù)1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布t分布有以下性質(zhì):
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布定理1.4.53.兩個(gè)獨(dú)立正態(tài)樣本方差比的F分布
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布證:我們分兩步來證明這個(gè)定理。
最后的定積分為伽瑪函數(shù),所以
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布
證畢。
1.4抽樣分布1.4.2正態(tài)總體各統(tǒng)計(jì)量的分布F分布的密度函數(shù)圖形:當(dāng)分子的自由度為1或2時(shí),其密度函數(shù)是單調(diào)遞減函數(shù)(見圖1.4.5a),其他情況下密度函數(shù)呈單峰的右偏分布(見圖1.4.5b)。圖1.4.5F分布的密度函數(shù)F分布有以下性質(zhì):
1.4抽樣分布1.4.3次序統(tǒng)計(jì)量的分布定理1.5.61.第k個(gè)次序統(tǒng)計(jì)量的抽樣分布
1.4抽樣分布例1.4.2
1.4.3用隨機(jī)模擬法尋找統(tǒng)計(jì)量的近似分布1.4抽樣分布1.4.3用隨機(jī)模擬法尋找統(tǒng)計(jì)量的近似分布
1.4抽樣分布1.4.3用隨機(jī)模擬法尋找統(tǒng)計(jì)量的近似分布
1.4抽樣分布1.4.3用隨機(jī)模擬法尋找統(tǒng)計(jì)量的近似分布
1.4抽樣分布1.4.3用隨機(jī)模擬法尋找統(tǒng)計(jì)量的近似分布
1.5次序統(tǒng)計(jì)量1.5.1次序統(tǒng)計(jì)量的概念1.5.2樣本極差1.5.3樣本中位數(shù)與樣本p分位數(shù)1.5.4箱線圖和QQ圖1.5.5次序統(tǒng)計(jì)量的分布1.5次序統(tǒng)計(jì)量1.5.1次序統(tǒng)計(jì)量的概念定義1.5.1
1.5次序統(tǒng)計(jì)量1.5.1次序統(tǒng)計(jì)量的概念例1.5.1設(shè)總體X的分布為僅取0,1,2的離散均勻分布,即現(xiàn)從中隨機(jī)抽取容量為3的樣本,該樣本一切可能取值有3^{3}=27種,現(xiàn)將它們都列在表1.4.1的左側(cè),而相應(yīng)的次序統(tǒng)計(jì)量的取值列在表1.4.1的右側(cè)。1.5次序統(tǒng)計(jì)量1.5.1次序統(tǒng)計(jì)量的概念表1.5.1樣本X1X2X3及其次序統(tǒng)計(jì)量X(1)X(2)X(3)的取值1.5次序統(tǒng)計(jì)量1.5.1次序統(tǒng)計(jì)量的概念由表1.5.1可見,次序統(tǒng)計(jì)量(X(1)X(2)X(3))與樣本(X1X2X3)的分布不相同,具體表現(xiàn)在以下幾個(gè)方面。(1)X(1)X(2)X(3)的分布不同。(2)任何兩個(gè)次序統(tǒng)計(jì)量的聯(lián)合分布也是不同的。(3)任意兩個(gè)次序統(tǒng)計(jì)量是不獨(dú)立的,例如:
1.5次序統(tǒng)計(jì)量1.5.2樣本極差定義1.5.2
(1)極差含有總體標(biāo)準(zhǔn)差的信息。(2)極差受樣本量影響較大。圖1.5.1樣本(用x表示)極差反映總體分散程度1.5次序統(tǒng)計(jì)量1.5.2樣本極差例1.5.2
1.5次序統(tǒng)計(jì)量1.5.3樣本中位數(shù)與樣本p分位數(shù)定義1.5.3
n為奇數(shù)n為偶數(shù)1.5次序統(tǒng)計(jì)量1.5.2樣本極差例1.5.3一批磚在交付客戶之前要抽檢其抗壓強(qiáng)度(單位:Mpa),現(xiàn)從中隨機(jī)抽取10塊磚,測得其抗壓強(qiáng)度為(已排序):
1.5次序統(tǒng)計(jì)量1.5.3樣本中位數(shù)與樣本p分位數(shù)定義1.5.3
np是整數(shù)np不是整數(shù)
1.5次序統(tǒng)計(jì)量1.5.3樣本中位數(shù)與樣本p分位數(shù)例1.5.4
1.5次序統(tǒng)計(jì)量1.5.4箱線圖和QQ圖
圖1.5.2箱線圖示意圖1.5次序統(tǒng)計(jì)量1.5.4箱線圖和QQ圖箱線圖可用來對總體的分布形狀進(jìn)行大致的判斷。圖1.5.3給出了三種常見的箱線圖,分別對應(yīng)左偏分布、對稱分布和右偏分布。圖1.5.3三種常見的箱線圖及其對應(yīng)的分布輪廓1.5次序統(tǒng)計(jì)量1.5.4箱線圖和QQ圖例1.5.5圖1.5.5給出了例1.3.5中兩個(gè)班級概率論成績與正態(tài)分布的QQ圖??梢钥闯鰯?shù)據(jù)基本成一條直線,但1班在左下方,2班在右上方偏差較大。圖1.5.51班(左)和2班(右)概率論成績與正態(tài)分布的QQ圖1.5次序統(tǒng)計(jì)量1.5.5次序統(tǒng)計(jì)量的分布定理1.5.1
1.5次序統(tǒng)計(jì)量1.5.5次序統(tǒng)計(jì)量的分布
1.5次序統(tǒng)計(jì)量1.5.5次序統(tǒng)計(jì)量的分布例1.5.6
從而
故
1.5次序統(tǒng)計(jì)量1.5.5次序統(tǒng)計(jì)量的分布2.任意兩個(gè)次序統(tǒng)計(jì)量的分布以及n個(gè)次序統(tǒng)計(jì)量的聯(lián)合分布
1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念1.6.2因子分解定理1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念例1.6.1某廠要了解某產(chǎn)品的不合格品率p,按常規(guī),檢驗(yàn)員隨機(jī)抽檢了10件產(chǎn)品,檢驗(yàn)結(jié)果如下(0表示合格品,1表示不合格品):
(1)第1件不合格,第2件合格,第3件合格,…,第10件合格;(2)10件中共有2件不合格;(3)頭2件中有1件不合格。1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念例1.6.2
這個(gè)例子實(shí)際上就是例1.6.1的一般化敘述。首先指出該樣本的聯(lián)合分布是
1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念
1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念
1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念
1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念
1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念
由此可得聯(lián)合分布
最后可得
這就證明了此引理。1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念例1.6.3
1.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念例1.6.3
例1.6.41.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念
例1.6.41.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念
例1.6.41.6充分統(tǒng)計(jì)量1.6.1充分統(tǒng)計(jì)量的概念在給定T=a下,樣本X取值為b時(shí),條件概率
定理1.6.21.6充分統(tǒng)計(jì)量1.6.2因子分解定理
1.6充分統(tǒng)計(jì)量1.6.2因子分解定理
1.6充分統(tǒng)計(jì)量1.6.2因子分解定理
1.6充分統(tǒng)計(jì)量1.6.2因子分解定理
1.7常用的概率分布族1.7.1常用概率分布族表1.7.2伽瑪分布族1.7.3貝塔分布族1.7.4指數(shù)型分布族1.7常用的概率分布族1.7.1常用概率分布族表1.7常用的概率分布族1.7.1常用概率分布族表1.7常用的概率分布族1.7.2伽瑪分布族
1.7常用的概率分布族1.7.2伽瑪分布族2.伽瑪分布若隨機(jī)變量X的密度函數(shù)為:則稱??服從伽瑪分布,記作??~????(??,??),其中??>0為形狀參數(shù),??>0為尺度參數(shù),伽瑪分布族記為????(??,??);??>0,??>0。圖1.7.1給出了若干條??固定、??不同的伽瑪密度函數(shù)曲線,從圖中可以看出:0<??<1時(shí),??(??)是嚴(yán)格下降函數(shù),且在??=0處有奇異點(diǎn);??=1時(shí),??(??)是嚴(yán)格下降函數(shù),且在??=0處??(0)=??;1<??≤2時(shí),??(??)是單峰函數(shù),先上凸、后下凸;??>2時(shí),??(??)是單峰函數(shù),先下凸、中間上凸、后下凸。且??越大,??(??)越近似于正態(tài)密度函數(shù)。
0,X≥0X<01.7常用的概率分布族1.7.2伽瑪分布族
1.7常用的概率分布族1.7.2伽瑪分布族
0,X≥0X<01.7常用的概率分布族1.7.2伽瑪分布族4.伽瑪分布的性質(zhì)
1.7常用的概率分布族1.7.2伽瑪分布族例1.7.1電子產(chǎn)品的失效常由于外界的“沖擊”引起。若在(0,??)內(nèi)發(fā)生沖擊的次數(shù)??(??)服從參數(shù)為????的泊松分布,試證第n次沖擊來到的時(shí)間????服從伽瑪分布????(??,??)。
證
因?yàn)槭录暗趎次沖擊來到的時(shí)間Sn小于等于t”等價(jià)于事件“(0,t)內(nèi)發(fā)生沖擊的次數(shù)N(t)大于等于n”,即于是,Sn的分布函數(shù)為:1.7常用的概率分布族1.7.2伽瑪分布族例1.7.1
用分布積分法可以驗(yàn)證下列等式:所以這就表明Sn~Ga(n,λ)。證畢。1.7常用的概率分布族1.7.3貝塔分布族
(1)??(??,??)=??(??,??)。(2)貝塔函數(shù)與伽瑪函數(shù)間有如下關(guān)系:??(??,??)=(??(??)??(??))/(??(??+??))1.7常用的概率分布族1.7.3貝塔分布族2..貝塔分布若隨機(jī)變量X的密度函數(shù)為:則稱X服從貝塔分布,記做??~????(??,??),其中??>0,??>0都是形狀參數(shù),故貝塔分布族可表示為{????(??,??);??>0,??>0}。下圖給出了幾種典型的貝塔密度函數(shù)曲線。
0,0<x<1其他1.7常用的概率分布族1.7.3貝塔分布族
1.7常用的概率分布族1.7.4指數(shù)型分布族定義1.7.1
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.2
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.2
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.2
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.2
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.2
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.3
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.3
1.7常用的概率分布族1.7.4指數(shù)型分布族
1.7常用的概率分布族1.7.4指數(shù)型分布族例1.7.4
謝謝觀看統(tǒng)計(jì)學(xué)院SCHOOLOFSTATISTICS參數(shù)估計(jì)第二章第2章參數(shù)估計(jì)點(diǎn)估計(jì)與無偏性PART2.12.1點(diǎn)估計(jì)與無偏性定義2.1.1
2.1點(diǎn)估計(jì)與無偏性定義2.1.1參數(shù)通常指如下幾種,它們都可以表示為總體概率分布的函數(shù),記為??=??(??)或??=??(??)。分布中所含的未知常數(shù);分布中的期望、方差、標(biāo)準(zhǔn)差、分位數(shù)等特征數(shù);某事件的概率等。一個(gè)參數(shù)的估計(jì)量常不止一個(gè),如何評價(jià)其優(yōu)劣性呢?常用的評價(jià)標(biāo)準(zhǔn)有多個(gè),如無偏性、有效性、均方誤差最小與相合性。本節(jié)先講無偏性,其他幾個(gè)評價(jià)標(biāo)準(zhǔn)以后再作介紹。2.1點(diǎn)估計(jì)與無偏性定義2.1.2
2.1點(diǎn)估計(jì)與無偏性定義2.1.2圖2.1.12.1點(diǎn)估計(jì)與無偏性定義2.1.2
2.1點(diǎn)估計(jì)與無偏性例2.1.1
2.1點(diǎn)估計(jì)與無偏性例2.1.1
2.1點(diǎn)估計(jì)與無偏性
2.1點(diǎn)估計(jì)與無偏性表2.1.1正態(tài)標(biāo)準(zhǔn)差的修偏系數(shù)表第2章參數(shù)估計(jì)矩估計(jì)與相合性PART2.22.2矩估計(jì)與相合性2.2.1矩估計(jì)矩估計(jì)是一種具體的尋找點(diǎn)估計(jì)的方法,它的基本思想是“替代”,具體是:用樣本矩(即矩統(tǒng)計(jì)量)估計(jì)總體矩。用樣本矩的函數(shù)估計(jì)總體矩的相應(yīng)函數(shù)。2.2矩估計(jì)與相合性2.2.1矩估計(jì)這里的矩可以是各階原點(diǎn)矩,也可以是各階中心矩。這一思想是英國統(tǒng)計(jì)學(xué)家皮爾遜
(K.Pearson)在1900年提出的。該思想合理,方法簡單,使用方便,只要總體矩存在的場合都可使用。該思想后人稱為矩法,
所得估計(jì)稱為矩估計(jì)。2.2矩估計(jì)與相合性例2.2.1
2.2矩估計(jì)與相合性例2.2.1
2.2矩估計(jì)與相合性例2.2.2
2.2矩估計(jì)與相合性例2.2.3設(shè)樣本X1,X2,···,Xn來自正態(tài)總體N(μ,σ2),μ與σ未知,求p=P(X<1)的估計(jì)。2.2矩估計(jì)與相合性解
2.2矩估計(jì)與相合性
2.2矩估計(jì)與相合性2.2.2相合性2.2矩估計(jì)與相合性定義2.2.1
2.2矩估計(jì)與相合性定義2.2.1
2.2矩估計(jì)與相合性
2.2矩估計(jì)與相合性定理2.2.1(辛欽大數(shù)定律)
2.2矩估計(jì)與相合性定理2.2.2
2.2矩估計(jì)與相合性定理2.2.2證
2.2矩估計(jì)與相合性
2.2矩估計(jì)與相合性故有由τ的任意性,定理得證。
2.2矩估計(jì)與相合性例2.2.4
2.2矩估計(jì)與相合性例2.2.4
最大似然估計(jì)與漸近正態(tài)性PART2.32.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)定義2.3.1
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)例2.3.1
設(shè)X=(X1,X2,···,Xn)是來自二點(diǎn)分布??(1,??)的一個(gè)樣本,其中諸Xi非0即1,??∈[0,1]是成功概率,該樣本的聯(lián)合分布為:2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)圖2.3.1成功概率??的似然函數(shù)2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
對其求導(dǎo),并令導(dǎo)函數(shù)為零可得對數(shù)似然方程,在本例中
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)例2.3.2設(shè)某機(jī)床加工的軸的直徑與圖紙規(guī)定的尺寸的偏差服從N(μ,σ2),
其中μ,σ2未知。為估計(jì)μ與σ2,
從中隨機(jī)抽取n=100根軸,測得其偏差為X1,X2,···,X100。試求μ,σ2的最大似然估計(jì)。2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
解
2.寫出對數(shù)似然函數(shù):
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)3.分別對
μ與
σ2求偏導(dǎo),并令它們都為0,得到對數(shù)似然方程為:解
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)例2.3.3設(shè)X=(X1,X2,···,Xn)是來自均勻分布U(0,θ)的一個(gè)樣本,求
θ的MLE2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
解其中X(n)是樣本的最大次序統(tǒng)計(jì)量。圖2.3.2均勻分布U(0,θ)中θ的似然函數(shù)2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)這里并不能使用一階條件求函數(shù)極值,因此使用MLE的定義求θ的MLE。
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
為了說明這一點(diǎn),我們可求得最大次序統(tǒng)計(jì)量X(n)的密度函數(shù):2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
可見,同一參數(shù)的無偏估計(jì)不止一個(gè),它們的進(jìn)一步比較將在下一節(jié)討論。2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)例2.3.4設(shè)X=(X1,X2,···,Xn)是來自均勻分布U(θ,θ+1)的一個(gè)樣本,其中θ可為任意實(shí)數(shù),現(xiàn)要尋求θ
的MLE。2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
解該似然函數(shù)在其不為零的區(qū)域上是常數(shù),只要??不超過X(1)或??+1不小于X(n)都可使??(??)達(dá)到極大,即
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)例2.3.5它有兩個(gè)參數(shù),μ可取任意實(shí)數(shù),稱為位置參數(shù);σ>0稱為尺度參數(shù)。
現(xiàn)要求μ與σ的MLE。設(shè)X=(X1,X2,···,Xn)是來自雙參數(shù)指數(shù)分布exp(μ,σ)的一個(gè)樣本,該分布的密度函數(shù)為:
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)先寫出μ與σ的似然函數(shù),在非零區(qū)域上有解
這雖是在固定σ下尋求μ的最大值,但沒有具體規(guī)定σ的值。
即σ為任意值時(shí)μ的MLE都為X(1)。
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)
解此對數(shù)似然方程,可得σ的MLE為:這是因?yàn)閷θ我獾摩膛cσ,有
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)例2.3.6
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)由二元正態(tài)密度函數(shù)可以寫出σ2與ρ的似然函數(shù):解
2.3最大似然估計(jì)與漸近正態(tài)性2.3.1最大似然估計(jì)經(jīng)驗(yàn)證,它們確實(shí)使似然函數(shù)L(σ2,ρ)達(dá)到最大值,
故它們分別是σ2與ρ的MLE。解之可得
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理定理2.3.1(不變原理)
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理例2.3.7某產(chǎn)品生產(chǎn)現(xiàn)場有多臺設(shè)備,設(shè)備故障的維修時(shí)間T服從對數(shù)正態(tài)分布LN(μ,σ2)?,F(xiàn)在一周內(nèi)共發(fā)生24次故障,其維修時(shí)間t(單位:
分)為:平均維修時(shí)間μT
與維修時(shí)間的標(biāo)準(zhǔn)差σT
的MLE。可完成95%故障的維修時(shí)間t0.95(0.95分位數(shù))的MLE。1228125475853368851110407564115485260728710555826665求2.3最大似然估計(jì)與漸近正態(tài)性這個(gè)問題的一般提法是:設(shè)t1,t2,···,tn是來自對數(shù)正態(tài)分布LN(μ,σ2)的一個(gè)樣本,現(xiàn)要對其均值μT、標(biāo)準(zhǔn)差σT和0.95分位數(shù)t0.95分別給出MLE。解2.3.2最大似然估計(jì)的不變原理(1)對數(shù)正態(tài)分布LN(μ,σ2)的均值和方差分別為:若能獲得μ與σ2的MLE,由不變原理立即可得μT與σT的MLE。
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理當(dāng)T~LN(μ,σ2)時(shí),有X=lnT~N(μ,σ2)。
由此可知,lnt1,lnt2,···,lntn是來自正態(tài)分布
N(μ,σ2)的一個(gè)樣本,由此可得μ與σ2的MLE分別為(見例2.3.2):
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理從而可得對數(shù)正態(tài)分布的均值μT與方差σT2的MLE分別為:這表明,該生產(chǎn)現(xiàn)場設(shè)備的平均維修時(shí)間約為68分鐘,維修時(shí)間的標(biāo)準(zhǔn)差約為26分鐘。
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理(2)為了給出t0.95的MLE,我們先對對數(shù)正態(tài)分布LN(μ,σ2)的p
分位數(shù)tp
給出一般表達(dá)式,記維修時(shí)間T的
的分布函數(shù)為F(t),則有
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理例2.3.8設(shè)某電子設(shè)備的壽命(從開始工作到首次發(fā)生故障的連續(xù)工作時(shí)間,單位:小時(shí))服從指數(shù)分布exp(λ)?,F(xiàn)任取15臺進(jìn)行壽命試驗(yàn),按規(guī)定到第7臺發(fā)生故障時(shí)試驗(yàn)停止,所得7個(gè)壽命數(shù)據(jù)為:500 1350 2130 2500 3120 3500 3800這是一個(gè)不完全樣本,常稱為定數(shù)截尾樣本,現(xiàn)要對其尋求平均壽命θ=1/λ的MLE。2.3最大似然估計(jì)與漸近正態(tài)性
解2.3.2最大似然估計(jì)的不變原理
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理其中,p
與F
分別為指數(shù)分布的密度函數(shù)與分布函數(shù)代入后,略去與參數(shù)無關(guān)的量,即得λ的似然函數(shù)
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理
用微分法可得對數(shù)似然方程
2.3最大似然估計(jì)與漸近正態(tài)性2.3.2最大似然估計(jì)的不變原理在本例中,n=15,r=7,t(r)=3800,首先算得總試驗(yàn)時(shí)間由此可得平均壽命(單位:小時(shí))的MLE
為:
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性定義2.3.2
或依分布收斂符號L
記為:
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性例2.3.9
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性或
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性例2.3.10
前面已經(jīng)指出:
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性則由中心極限定理知
或
考慮到n/(n?1)→1,又有有
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性這表明
S2
是σ2的漸近正態(tài)估計(jì),其漸近方差為2σ4/n。綜上所述,有
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性定理2.3.2
則有下述三個(gè)結(jié)論成立:
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性定理2.3.3設(shè)p(x;θ)是某密度函數(shù),其參數(shù)空間Θ={θ}是直線上的非退化區(qū)間,假如:(1)對一切θ∈Θ,p=p(x;θ)對θ的如下偏導(dǎo)數(shù)都存在(2)對一切θ∈Θ,有成立,其中F1(x)與F2(x)在實(shí)數(shù)軸上可積,而H(x)滿足這里M與θ無關(guān)。
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性定理2.3.3(3)對一切θ∈Θ,有
其中,I(θ)稱為費(fèi)希爾信息量,有時(shí)還簡稱信息量。
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性定義2.3.3
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性例2.3.11求二點(diǎn)分布b(1,θ)參數(shù)
θ的費(fèi)希爾信息量,其分布列為:
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性解可以驗(yàn)證,二點(diǎn)分布屬于Cramer-Rao正則族。為求其費(fèi)希爾信息量,要進(jìn)行如下運(yùn)算:
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性例2.3.12設(shè)X1,X2,···,Xn是來自正態(tài)總體N(μ,σ2)的一個(gè)樣本,可以驗(yàn)證,正態(tài)分布屬于Cramer-Rao正則族。
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性
從而
2.3最大似然估計(jì)與漸近正態(tài)性2.3.3最大似然估計(jì)的漸近正態(tài)性在已知μ的條件下,σ的MLE是
而??的費(fèi)希爾信息量的計(jì)算如下:
從而
2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法MLE是一種非常有效的參數(shù)估計(jì)方法,但當(dāng)分布中有多余參數(shù)或數(shù)據(jù)為截尾或缺失時(shí),其MLE的求取是比較困難的。于是Dempster等于1977年提出了EM算法,其出發(fā)點(diǎn)是把求MLE的過程分兩步走。第一步求期望,以便把多余的部分去掉;第二步求最大值。2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法Dempster等人建議如下分兩步進(jìn)行迭代求解首先,人為設(shè)一個(gè)θ的初值
θ(0)第一步(也稱E-步),在已知觀測數(shù)據(jù)y和第i步估計(jì)值θ(i)條件下,求基于完全數(shù)據(jù)的對數(shù)似然函數(shù)(關(guān)于潛在變量z)的期望,稱為Q函數(shù):
第二步(也稱M-步),求Q(θ|y,θ(i))關(guān)于θ的最大值,記錄對應(yīng)的θ值進(jìn)行更新:
??重復(fù)以上兩步,直到收斂即可得到θ的MLE。2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法
EM算法是一種引入潛在變量的方法,相比于其他同類方法,如缺失數(shù)據(jù)填補(bǔ)法等,EM算法較為簡單和穩(wěn)定,原因是每次迭代會使似然函數(shù)增大或達(dá)到局部極值(參考2.3.4節(jié))EM算法只能保證收斂到一個(gè)穩(wěn)定點(diǎn),并不能保證其能夠達(dá)到全局最優(yōu).2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法例2.3.13設(shè)一次試驗(yàn)可能有4個(gè)結(jié)果,發(fā)生的概率分別為1/2?θ/4,(1?θ)/4,(1+θ)/4,θ/4,θ∈(0,1)。現(xiàn)進(jìn)行了197次試驗(yàn),四種結(jié)果的發(fā)生次數(shù)分別為75,18,70,34,試求θ的MLE。2.3最大似然估計(jì)與漸近正態(tài)性以y1,y2,y3,y4
表示四種結(jié)果發(fā)生的次數(shù),此時(shí)總體分布為多項(xiàng)分布,
其似然函數(shù)為我們可以通過最大化對數(shù)似然函數(shù)的方式求解θ的MLE。
2.3.4EM算法2.3最大似然估計(jì)與漸近正態(tài)性EM算法通過引入兩個(gè)潛在變量
z1,z2后,通過迭代計(jì)算方式求解。假設(shè)第一種結(jié)果可以分成兩個(gè)部分,發(fā)生的概率分別為(1?θ)/4和?,令z1和y1?z1分別表示落入這兩部分的次數(shù);再假設(shè)第三種結(jié)果也分成兩部分,發(fā)生的概率分別為θ/4和1/4,令z2和y3?z2分別表示落入這兩部分的次數(shù),z1,z2是不可觀測的。也稱(y,z)是完全數(shù)據(jù),而只有觀測數(shù)據(jù)y時(shí)稱為不完全數(shù)據(jù)。此時(shí)完全數(shù)據(jù)的似然函數(shù)用Lc表示:2.3.4EM算法2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法
其對數(shù)似然為
然而此時(shí)由于z1
和z2
未知,上式無法直接求解,但我們注意到,當(dāng)給定y,θ已知時(shí),
2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法對于本例,可得到
所以
又知
所以
取θ(0)=0.5,則13次迭代后可求得θ的MLE為0.6067。2.3最大似然估計(jì)與漸近正態(tài)性定理2.3.4
2.3.4EM算法2.3最大似然估計(jì)與漸近正態(tài)性證
2.3.4EM算法2.3最大似然估計(jì)與漸近正態(tài)性上式兩邊求z在(Y,θ=θ(i))已知條件下的期望有2.3.4EM算法
(2.3.2)(2.3.2)式分別取θ=θ(i)和θ(i+1),得
(2.3.3)(2.3.4)2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法(2.3.4)–(2.3.3)得
2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法例2.3.14給定數(shù)據(jù)X是n行p列的矩陣,每一行是一個(gè)樣本點(diǎn),每一列是一個(gè)變量,我們的目標(biāo)是根據(jù)列變量的取值對樣本點(diǎn)進(jìn)行聚類,假定一共有K類。
在EM聚類方法中假定每一行觀測有一個(gè)潛在的(未觀測到的)指標(biāo)向量Zi=(Zi1,Zi2,···,ZiK),其中Zik=0或1,并且K個(gè)中只有一個(gè)等于1。如果Zik=1,那么表明第i個(gè)樣本點(diǎn)屬于第k類。向量Zi
服從多項(xiàng)分布,概率分布列為(π1,π2,···,πK)。2.3最大似然估計(jì)與漸近正態(tài)性
2.3.4EM算法2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法本例所要估計(jì)的參數(shù)為(μk,Σk,πk),k=1,...,K.EM算法步驟如下:首先,數(shù)據(jù)(X,Z)的完全似然函數(shù)可以寫成:完全對數(shù)似然函數(shù)為:(2.3.5)
2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法為了得到該問題的Q函數(shù),需要計(jì)算給定Xi時(shí)Zi的期望,也就是要得到如下概率值P(Zik=1|Xi)。根據(jù)全概率公式,有所以將(2.3.5)式Zik替換為γ(Zik),即為Q函數(shù)。
(2.3.6)2.3最大似然估計(jì)與漸近正態(tài)性2.3.4EM算法
EM算法的參數(shù)估計(jì)步驟如下:最小方差無偏估計(jì)PART2.42.4最小方差無偏估計(jì)2.4.1無偏估計(jì)的有效性
圖2.4.1θ的兩個(gè)無偏估計(jì)的密度函數(shù)示意圖2.4最小方差無偏估計(jì)2.4.1無偏估計(jì)的有效性因而,我們可以用估計(jì)量的方差去衡量兩個(gè)無偏估計(jì)的好壞,從而引入無偏估計(jì)有效性的標(biāo)準(zhǔn)。2.4最小方差無偏估計(jì)2.4.1無偏估計(jì)的有效性定義2.4.1
例2.4.1
2.4最小方差無偏估計(jì)2.4.1無偏估計(jì)的有效性2.4最小方差無偏估計(jì)2.4.1無偏估計(jì)的有效性例2.4.2
2.4最小方差無偏估計(jì)2.4.2有偏估計(jì)的均方誤差準(zhǔn)則定義2.4.2
2.4最小方差無偏估計(jì)2.4.2有偏估計(jì)的均方誤差準(zhǔn)則
例2.4.3
2.4最小方差無偏估計(jì)2.4.2有偏估計(jì)的均方誤差準(zhǔn)則n
2.4最小方差無偏估計(jì)2.4.2有偏估計(jì)的均方誤差準(zhǔn)則
2.4最小方差無偏估計(jì)2.4.2有偏估計(jì)的均方誤差準(zhǔn)則以下數(shù)據(jù)是在n=10時(shí)算得的:表2.4.1三個(gè)估計(jì)的偏差平方、方差與均方誤差
00.22220.22220.010.18000.19000.03300.14880.18182.4最小方差無偏估計(jì)
2.4.2有偏估計(jì)的均方誤差準(zhǔn)則表2.4.1可以對三個(gè)估計(jì)的優(yōu)劣作出評價(jià)2.4最小方差無偏估計(jì)2.4.3一致最小方差無偏估計(jì)例2.4.4
2.4最小方差無偏估計(jì)定義2.4.3假如參數(shù)的無偏估計(jì)存在,則稱此參數(shù)為可估參數(shù)??晒绤?shù)g(θ)
的無偏估計(jì)可能只有一個(gè),也可能有多個(gè)。
在有多個(gè)無偏估計(jì)的場合,常用其方差作為進(jìn)一步選擇的指標(biāo)。2.4.3一致最小方差無偏估計(jì)2.4最小方差無偏估計(jì)定義2.4.4
2.4.3一致最小方差無偏估計(jì)2.4最小方差無偏估計(jì)定理2.4.1
2.4.3一致最小方差無偏估計(jì)證2.4.3一致最小方差無偏估計(jì)
2.4最小方差無偏估計(jì)證2.4.3一致最小方差無偏估計(jì)
2.4最小方差無偏估計(jì)2.4最小方差無偏估計(jì)2.4.3一致最小方差無偏估計(jì)例2.4.5
2.4最小方差無偏估計(jì)2.4.3一致最小方差無偏估計(jì)例2.4.5
2.4最小方差無偏估計(jì)定理2.4.2
2.4.3一致最小方差無偏估計(jì)之前的定理是驗(yàn)證性的,加下來介紹構(gòu)造UMVUE的方法
證2.4.3一致最小方差無偏估計(jì)
所以2.4最小方差無偏估計(jì)
證2.4.3一致最小方差無偏估計(jì)故得
2.4最小方差無偏估計(jì)2.4最小方差無偏估計(jì)例2.4.6
2.4.3一致最小方差無偏估計(jì)2.4最小方差無偏估計(jì)例2.4.62.4.3一致最小方差無偏估計(jì)
2.4最小方差無偏估計(jì)定義2.4.5
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)例2.4.7
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)
2.4.4完備性及其應(yīng)用
2.4最小方差無偏估計(jì)
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)一些結(jié)論簡單隨機(jī)樣本的聯(lián)合分布族總是不完備的指數(shù)型分布族,其充分統(tǒng)計(jì)量都是完備的次序統(tǒng)計(jì)量是完備的2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)定理2.4.3
2.4.4完備性及其應(yīng)用
證2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)2.4最小方差無偏估計(jì)
2.4.4完備性及其應(yīng)用證2.4最小方差無偏估計(jì)例2.4.8
2.4.4完備性及其應(yīng)用
解2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)
解2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)考慮到諸X1,X2,···,Xn是相互獨(dú)立的,且X2+X3+···+Xn服從參數(shù)為(n?1)λ的泊松分布,所以2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)
2.4最小方差無偏估計(jì)例2.4.9某廠生產(chǎn)一種產(chǎn)品,這種產(chǎn)品包裝好后按一定數(shù)量放在盒子里。在檢驗(yàn)產(chǎn)品時(shí),檢驗(yàn)員從每個(gè)盒子里隨機(jī)選出一個(gè)容量為n的樣本,并逐個(gè)檢查每個(gè)樣品的質(zhì)量。假如樣本中有2個(gè)或更多個(gè)不合格品,那么這一盒被認(rèn)為是不合格品,退回工廠,而工廠要求質(zhì)檢員把每盒查出的廢品通報(bào)廠方。2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)例2.4.9
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)例2.4.9
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)例2.4.9
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)例2.4.9
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)例2.4.9
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)例2.4.9
2.4.4完備性及其應(yīng)用例2.4.102.4最小方差無偏估計(jì)尋求二點(diǎn)分布b(1,p)的可估參數(shù)p(1?p)的UMVUE。2.4.4完備性及其應(yīng)用使用求解方程的方法直接尋找UMVUE
解2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)nt=0nt=0t=0n-1t=1n
比較左右兩端的系數(shù)可得p(1?p)的UMVUE為:2.4最小方差無偏估計(jì)2.4.4完備性及其應(yīng)用解
例2.4.112.4最小方差無偏估計(jì)
2.4.4完備性及其應(yīng)用
解2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)
2.4.4完備性及其應(yīng)用2.4最小方差無偏估計(jì)C-R不等式PART2.52.5C-R不等式定理2.5.1
(2.5.1)2.5C-R不等式定理2.5.1證因?yàn)闃颖臼呛唵螛颖?,又?/p>
由于
2.5C-R不等式定理2.5.1證所以
2.5C-R不等式定理2.5.1再利用協(xié)方差性質(zhì)(即施瓦茲不等式)
將上述結(jié)果代回原式,即得C-R不等式。2.5C-R不等式定義2.5.1
2.5C-R不等式例2.5.1
2.5C-R不等式例2.5.2設(shè)X1,X2,···,Xn
是取自正態(tài)總體N(0,σ2)的一個(gè)樣本,可以驗(yàn)證,正態(tài)分布族{N(0,σ2):σ>0}是C-R正則分布族。下面來求參數(shù)g(σ2)=σ2的C-R下界,由于
2.5C-R不等式利用E(x2k)=σ2k(2k?1)(2k?3)···1,可算得費(fèi)希爾信息量
2.5C-R不等式
,都是σ2
的無偏估計(jì),其方差分別為:,
2.5C-R不等式
2.5C-R不等式例2.5.3
2.5C-R不等式
置信區(qū)間PART2.62.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.1
1.區(qū)間估計(jì)及其置信度與置信系數(shù)2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.1注1:從上述定義可知,構(gòu)造一個(gè)未知參數(shù)的區(qū)間估計(jì)并不難。
一個(gè)參數(shù)的區(qū)間估計(jì)可以給出多種,但要給出一個(gè)好的區(qū)間估計(jì)需要有豐富的統(tǒng)計(jì)思想和熟練的統(tǒng)計(jì)技巧。注2:當(dāng)置信度所示概率與參數(shù)θ無關(guān)時(shí),置信度就是置信系數(shù),以后我們將努力尋求置信度與θ無關(guān)的區(qū)間估計(jì)。注3:上述定義中區(qū)間估計(jì)用閉區(qū)間給出,也可用開區(qū)間或半開區(qū)間給出,由實(shí)際需要而定。1.區(qū)間估計(jì)及其置信度與置信系數(shù)2.6置信區(qū)間2.6.1置信區(qū)間概念例2.6.1它的置信度可用t分布算得,具體如下:
1.區(qū)間估計(jì)及其置信度與置信系數(shù)2.6置信區(qū)間2.6.1置信區(qū)間概念
例2.6.1由于t分布只依賴于其自由度n?1,而不依賴于未知參數(shù)μ與σ,所以用
t分布算得的置信度就是置信系數(shù)。在n=20,對k=1,2,3可算出其置信系數(shù)如下:其中:
1.區(qū)間估計(jì)及其置信度與置信系數(shù)例2.6.12.6置信區(qū)間2.6.1置信區(qū)間概念正態(tài)均值μ的三個(gè)區(qū)間估計(jì)的置信系數(shù)一個(gè)比一個(gè)高,第三個(gè)區(qū)間的置信系數(shù)達(dá)到0.99。
1.區(qū)間估計(jì)及其置信度與置信系數(shù)
2.6置信區(qū)間2.6.1置信區(qū)間概念例2.6.1其中:現(xiàn)轉(zhuǎn)入考察這三個(gè)區(qū)間估計(jì)的平均長度由式(2.6.1)可知,
其平均長度為:
1.區(qū)間估計(jì)及其置信度與置信系數(shù)
2.6置信區(qū)間2.6.1置信區(qū)間概念例2.6.1由此可得平均長度為:
利用伽瑪分布可算得
1.區(qū)間估計(jì)及其置信度與置信系數(shù)在保證置信系數(shù)的前提下,盡量縮短置信區(qū)間平均長度。2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.2
2.置信區(qū)間2.6置信區(qū)間2.6.1置信區(qū)間概念
2.置信區(qū)間2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.3在定義2.6.2的記號下,如對給定的α(0<α<1)恒有
3.同等置信區(qū)間2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.4
4.置信限2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.4
4.置信限定義2.6.5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工道路合同范例
- 天津渤海職業(yè)技術(shù)學(xué)院《ERP》2023-2024學(xué)年第一學(xué)期期末試卷
- 天津?yàn)I海職業(yè)學(xué)院《人工智能》2023-2024學(xué)年第一學(xué)期期末試卷
- 生產(chǎn)設(shè)備拆裝合同范例
- 新力精裝房合同范例
- 信用管理顧問合同范例
- 授權(quán)代理書合同范例
- 小區(qū)水箱銷售合同范例
- 奶牛設(shè)備出售合同范例
- 甲方產(chǎn)品購銷合同范例
- 國軍淞滬會戰(zhàn)
- 2023年湖南體育職業(yè)學(xué)院高職單招(語文)試題庫含答案解析
- GB/T 39314-2020鋁合金石膏型鑄造通用技術(shù)導(dǎo)則
- GB/T 17252-1998聲學(xué)100kHz以下超聲壓電換能器的特性和測量
- GB 16847-1997保護(hù)用電流互感器暫態(tài)特性技術(shù)要求
- 裝飾裝修施工質(zhì)量檢查評分表
- 超圖軟件三維平臺技術(shù)參數(shù)v7c2015r
- 《思想道德與法治》 課件 第四章 明確價(jià)值要求 踐行價(jià)值準(zhǔn)則
- 幼兒園講座:課程游戲化、生活化建設(shè)的背景與目的課件
- 湖南省高等教育自學(xué)考試 畢業(yè)生登記表
- 地理信息系統(tǒng)(GIS)公開課(課堂)課件
評論
0/150
提交評論