數(shù)學科普資料:正態(tài)分布的前世今生(上)_第1頁
數(shù)學科普資料:正態(tài)分布的前世今生(上)_第2頁
數(shù)學科普資料:正態(tài)分布的前世今生(上)_第3頁
數(shù)學科普資料:正態(tài)分布的前世今生(上)_第4頁
數(shù)學科普資料:正態(tài)分布的前世今生(上)_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)學科普資料:正態(tài)分布的前世今生(上)數(shù)學科普資料:正態(tài)分布的前世今生(上)數(shù)學科普資料:正態(tài)分布的前世今生(上)數(shù)學科普資料:正態(tài)分布的前世今生(上)編制僅供參考審核批準生效日期地址:電話:傳真:郵編:正態(tài)分布的前世今生(上)rickjin(靳志輝)關(guān)鍵詞:

正態(tài)分布,

統(tǒng)計學,

高斯,

最小二乘法神說,要有正態(tài)分布,就有了正態(tài)分布。神看正態(tài)分布是好的,就讓隨機誤差就服從了正態(tài)分布。創(chuàng)世紀-數(shù)理統(tǒng)計一、正態(tài)分布,熟悉的陌生人學過基礎(chǔ)統(tǒng)計學的同學大都對正態(tài)分布非常熟悉。這個鐘型的分布曲線不但形狀優(yōu)雅,其密度函數(shù)寫成數(shù)學表達式12π??√σexp(?(x?μ)22σ2)也非常具有數(shù)學的美感。其標準化后的概率密度函數(shù)12π??√exp(?x22)更加的簡潔漂亮,兩個最重要的數(shù)學常量π,e都出現(xiàn)在了公式之中。在我個人的審美之中,它也屬于top-N的最美麗的數(shù)學公式之一,如果有人問我數(shù)理統(tǒng)計領(lǐng)域哪個公式最能讓人感覺到上帝的存在,那我一定投正態(tài)分布的票。因為這個分布戴著神秘的面紗,在自然界中無處不在,讓你在紛繁蕪雜的數(shù)據(jù)背后看到隱隱的秩序。正態(tài)分布曲線正態(tài)分布又通常被稱為高斯分布,在科學領(lǐng)域,冠名權(quán)那是一個很高的榮譽。早年去過德國的兄弟們還會發(fā)現(xiàn),德國的鋼镚和10馬克的紙幣上都留有高斯的頭像和正態(tài)密度曲線。正態(tài)分布被冠名高斯分布,我們也容易認為是高斯發(fā)現(xiàn)了正態(tài)分布,其實不然,不過高斯對于正態(tài)分布的歷史地位的確立是起到了決定性的作用。德國馬克上的高斯頭像和正態(tài)分布曲線正態(tài)曲線雖然看上去很美,卻不是一拍腦袋就能想到的。我們在本科學習數(shù)理統(tǒng)計的時候,課本一上來介紹正態(tài)分布就給出密度分布函數(shù),卻從來不說明這個分布函數(shù)是通過什么原理推導出來的。所以我一直搞不明白數(shù)學家當年是怎么找到這個概率分布曲線的,又是怎么發(fā)現(xiàn)隨機誤差服從這個奇妙的分布的。我們在實踐中大量的使用正態(tài)分布,卻對這個分布的來龍去脈知之甚少,正態(tài)分布真是讓人感覺既熟悉又陌生。直到我讀研究生的時候,我的導師給我介紹了陳希儒院士的《數(shù)理統(tǒng)計學簡史》這本書,看了之后才了解了正態(tài)分布曲線從發(fā)現(xiàn)到被人們重視進而廣泛應(yīng)用,也是經(jīng)過了幾百年的歷史。正態(tài)分布的這段歷史是很精彩的,我們通過講一系列的故事來揭開她的神秘面紗。二、邂逅,正態(tài)曲線的首次發(fā)現(xiàn)第一個故事和概率論的發(fā)展密切相關(guān),主角是棣莫弗(DeMoivre)和拉普拉斯(Laplace)。拉普拉斯是個大科學家,被稱為法國的牛頓;棣莫弗名氣可能不算很大,不過大家應(yīng)該都熟悉這個名字,因為我們在高中數(shù)學學復數(shù)的時候我們都學過棣莫弗定理(cosθ+isinθ)n=cos(nθ)+isin(nθ).古典概率論發(fā)源于賭博,惠更斯、帕斯卡、費馬、貝努利都是古典概率的奠基人,他們那會研究的概率問題大都來自賭桌上,最早的概率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題。統(tǒng)計學中的總體均值之所以被稱為期望(Expectation),就是源自惠更斯、帕斯卡這些人研究平均情況下一個賭徒在賭桌上可以期望自己贏得多少錢。棣莫弗(DeMoivre)拉普拉斯

(Laplace)有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關(guān)的一個問題:A,B兩人在賭場里賭博,A,B各自的獲勝概率是p和q=1?p,賭n局,若A贏的局數(shù)X>np,則A付給賭場X?np元,否則B付給賭場np?X元。問賭場掙錢的期望值是多少?

問題并不復雜,本質(zhì)上是一個二項分布,最后求出的理論結(jié)果是2npqb(n,p,np),其中b(n,p,i)=(ni)piqn?i是常見的二項概率。但是對具體的n,要把這個理論結(jié)果實際計算出數(shù)值結(jié)果可不是件容易的事,因為其中的二項公式中有組合數(shù).這就驅(qū)動棣莫弗尋找近似計算的方法。與此相關(guān)聯(lián)的另一個問題,是遵從二項分布的隨機變量X~B(n,p),問X落在二項分布中心點一定范圍的概率Pd=P(|X?np|≤d)是多少?

對于p=12的情形,棣莫弗做了一些計算并得到了一些近似結(jié)果,但是還不夠漂亮,幸運的是棣莫弗和斯特林(Stirling)處在同一個時代,而且二人之間有聯(lián)系,斯特林公式是在數(shù)學分析中必學的一個重要公式:(事實上斯特林公式的形式其實是棣莫弗最先發(fā)現(xiàn)的,但是斯特林改進了這個公式,改進的結(jié)果為棣莫弗所用)n!~2πn???√(ne)n1733年,棣莫弗很快利用斯特林公式進行計算并取得了重要的進展??紤]n是偶數(shù)的情形,令二項概率b(i)=b(n,12,i)=(ni)(12)n通過斯特林公式做一些簡單的計算容易得到,b(n2)~2πn???√

?

b(n2+d)b(n2)~exp(?2d2n).于是有b(n2+d)~22πn???√exp(?2d2n).使用上式的結(jié)果,并在二項概率累加求和的過程中近似的使用定積分代替求和,很容易就能得到

P(∣∣∣Xn?12∣∣∣≤cn?√)=

=

∑?cn√≤i≤cn√b(n2+i)∑?cn√≤i≤cn√22πn???√exp(?2i2n)

(1)∑?2c≤2in√≤2c12π??√exp???12(2in?√)2??2n?√∫2c?2c12π??√exp(看,正態(tài)分布的密度函數(shù)的形式在積分公式中出現(xiàn)了!這也就是我們在數(shù)理統(tǒng)計課本上學到的二項分布的極限分布是正態(tài)分布。以上只是討論了p=12的情形,棣莫弗也對p≠12做了一些計算,后來拉普拉斯對p≠12的情況做了更多的分析,并把二項分布的正態(tài)近似推廣到了任意p的情況。這是第一次正態(tài)密度函數(shù)被數(shù)學家勾畫出來,而且是以二項分布的極限分布的形式被推導出來的。熟悉基礎(chǔ)概率統(tǒng)計的同學們都知道這個結(jié)果其實叫棣莫弗-拉普拉斯中心極限定理。[DeMoivre-Laplace中心極限定理]

設(shè)隨機變量Xn(n=1,2...)服從參數(shù)為p的二項分布,則對任意的x,恒有l(wèi)imn→∞P{Xn?Xpnp(1?p)???????√≤x}=∫x?∞12π??√exp(?t22)dt.我們在大學學習數(shù)理統(tǒng)計的時候,學習的過程都是先學習正態(tài)分布,然后才學習中心極限定理。而學習到正態(tài)分布的時候,直接就描述了其概率密度的數(shù)學形式,雖然數(shù)學上很漂亮,但是容易困惑數(shù)學家們是如何憑空就找到這個分布的。讀了陳希孺的《數(shù)理統(tǒng)計學簡史》之后,我才明白正態(tài)分布的密度形式首次發(fā)現(xiàn)是在棣莫弗-拉普拉斯的中心極限定理中。數(shù)學家研究數(shù)學問題的進程很少是按照我們數(shù)學課本的安排順序推進的,現(xiàn)代的數(shù)學課本都是按照數(shù)學內(nèi)在的邏輯進行組織編排的,雖然邏輯結(jié)構(gòu)上嚴謹優(yōu)美,卻把數(shù)學問題研究的歷史痕跡抹得一干二凈。DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)者之一JamesWaston在他的名著《DNA雙螺旋》序言中說:“科學的發(fā)現(xiàn)很少會像門外漢所想象的一樣,按照直接了當合乎邏輯的方式進行的。”棣莫弗給出他的發(fā)現(xiàn)后40年(大約是1770),拉普拉斯建立了中心極限定理較一般的形式,中心極限定理隨后又被其它數(shù)學家們推廣到了其它任意分布的情形,而不限于二項分布。后續(xù)的統(tǒng)計學家發(fā)現(xiàn),一系列的重要統(tǒng)計量,在樣本量N趨于無窮的時候,其極限分布都有正態(tài)的形式,這構(gòu)成了數(shù)理統(tǒng)計學中大樣本理論的基礎(chǔ)。棣莫弗在二項分布的計算中瞥見了正態(tài)曲線的模樣,不過他并沒有能展現(xiàn)這個曲線的美妙之處。棣莫弗的這個工作當時并沒有引起人們足夠的重視,原因在于棣莫弗不是個統(tǒng)計學家,從未從統(tǒng)計學的角度去考慮其工作的意義。正態(tài)分布(當時也沒有被命名為正態(tài)分布)在當時也只是以極限分布的形式出現(xiàn),并沒有在統(tǒng)計學,尤其是誤差分析中發(fā)揮作用。這也就是正態(tài)分布最終沒有被冠名棣莫弗分布的重要原因。那高斯做了啥了不起的工作導致統(tǒng)計學家把正態(tài)分布的這頂桂冠戴在了他的頭上呢?這先得從最小二乘法的發(fā)展說起。三、最小二乘法,數(shù)據(jù)分析的瑞士軍刀第二個故事的主角是歐拉(Euler),拉普拉斯(Lapalace),勒讓德(Legendre)和高斯(Gauss),故事發(fā)生的時間是十八世紀中到十九世紀初。十七、十八世紀是科學發(fā)展的黃金年代,微積分的發(fā)展和牛頓萬有引力定律的建立,直接的推動了天文學和測地學的迅猛發(fā)展。當時的大科學家們都在考慮許多天文學上的問題。幾個典型的問題如下:土星和木星是太陽系中的大行星,由于相互吸引對各自的運動軌道產(chǎn)生了影響,許多大數(shù)學家,包括歐拉和拉普拉斯都在基于長期積累的天文觀測數(shù)據(jù)計算土星和木星的運行軌道。勒讓德承擔了一個政府給的重要任務(wù),測量通過巴黎的子午線的長度。海上航行經(jīng)緯度的定位。主要是通過對恒星和月面上的一些定點的觀測來確定經(jīng)緯度。這些天文學和測地學的問題,無不涉及到數(shù)據(jù)的多次測量、分析與計算;十七、十八世紀的天文觀測,也積累了大量的數(shù)據(jù)需要進行分析和計算。很多年以前,學者們就已經(jīng)經(jīng)驗性的認為,對于有誤差的測量數(shù)據(jù),多次測量取平均是比較好的處理方法。雖然缺乏理論上的論證,也不斷的受到一些人的質(zhì)疑,取平均作為一種異常直觀的方式,已經(jīng)被使用了千百年,在多年積累的數(shù)據(jù)的處理經(jīng)驗中也得到相當程度的驗證,被認為是一種良好的數(shù)據(jù)處理方法。勒讓德(Legendre)以上涉及的問題,我們直接關(guān)心的目標量往往無法直接觀測,但是一些相關(guān)的量是可以觀測到的,而通過建立數(shù)學模型,最終可以解出我們關(guān)心的量。這些問題都可以用如下數(shù)學模型描述:我們想估計的量是β0,?,βp,另有若干個可以測量的量x1,?,xp,y,這些量之間有線性關(guān)系y=β0+β1x1+?+βpxp如何通過多組觀測數(shù)據(jù)求解出參數(shù)β0,?,βp呢?歐拉和拉普拉斯采用的都是求解線性方程組的方法。

?????????????y1=β0+β1x11+β2x21+?+βpxp1y2=β0+β1x12+β2x22+?+βpxp2

(2)

?yn=β0+β1x1n+β2x2n+?+βpxpn但是面臨的一個問題是,有n組觀測數(shù)據(jù),p+1個變量,如果n>p+1,則得到的線性矛盾方程組,無法直接求解。所以歐拉和拉普拉斯采用的方法都是通過一定的對數(shù)據(jù)的觀察,把n個線性方程分為p+1組,然后把每個組內(nèi)的方程線性求和后歸并為一個方程,從而就把n個方程的方程組化為p+1個方程的方程組,進一步解方程求解參數(shù)。這些方法初看有一些道理,但是都過于經(jīng)驗化,無法形成統(tǒng)一處理這一類問題的一個通用解決框架。以上求解線性矛盾方程的問題在現(xiàn)在的本科生看來都不困難,就是統(tǒng)計學中的線性回歸問題,直接用最小二乘法就解決了,可是即便如歐拉、拉普拉斯這些數(shù)學大牛,當時也未能對這些問題提出有效的解決方案??梢娫诳茖W研究中,要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在1805年發(fā)表的,基本思想就是認為測量中有誤差,所以所有方程的累積誤差為累積誤差=∑(觀測值?理論值)2我們求解出導致累積誤差最小的參數(shù)即可。β?==argminβ∑i=1ne2iargminβ∑i=1n[yi?(β0+β1x1i+?+βpxpi)]2

(3)勒讓德在論文中對最小二乘法的優(yōu)良性做了幾點說明:最小二乘使得誤差平方和最小,并在各個方程的誤差之間建立了一種平衡,從而防止某一個極端誤差取得支配地位計算中只要求偏導后求解線性方程組,計算過程明確便捷最小二乘可以導出算術(shù)平均值作為估計值對于最后一點,推理如下:假設(shè)真值為θ,x1,?,xn為n次測量值,每次測量的誤差為ei=xi?θ,按最小二乘法,誤差累積為L(θ)=∑i=1ne2i=∑i=1n(xi?θ)2求解θ使得L(θ)達到最小,正好是算術(shù)平均xˉ=1n∑i=1nxi.由于算術(shù)平均是一個歷經(jīng)考驗的方法,而以上的推理說明,算術(shù)平均是最小二乘的一個特例,所以從另一個角度說明了最小二乘方法的優(yōu)良性,使我們對最小二乘法更加有信心。最小二乘法發(fā)表之后很快得到了大家的認可接受,并迅速的在數(shù)據(jù)分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發(fā)明歸功于高斯,這又是怎么一回事呢。高斯在1809年也發(fā)表了最小二乘法,并且聲稱自己已經(jīng)使用這個方法多年。高斯發(fā)明了小行星定位的數(shù)學方法,并在數(shù)據(jù)分析中使用最小二乘方法進行計算,準確地預測了谷神星的位置。扯了半天最小二乘法,沒看出和正態(tài)分布有任何關(guān)系啊,離題了吧?單就最小二乘法本身,雖然很實用,不過看上去更多的算是一個代數(shù)方法,雖然可以推導出最優(yōu)解,對于解的誤差有多大,無法給出有效的分析,而這個就是正態(tài)分布粉墨登場發(fā)揮作用的地方。勒讓德提出的最小二乘法,確實是一把在數(shù)據(jù)分析領(lǐng)域披荊斬棘的好刀,但是刀刃還是不夠鋒利;而這把刀的打造后來至少一半功勞被歸到高斯,是因為高斯不但獨自地給出了造刀的方法,而且把最小二乘這把刀的刀刃造得無比鋒利,把最小二乘打造為了一把瑞士軍刀。高斯拓展了最小二乘法,把正態(tài)分布和最小二乘法聯(lián)系在一起,并使得正態(tài)分布在統(tǒng)計誤差分析中確立了自己的定位,否則正態(tài)分布就不會被稱為高斯分布了。那高斯這位神人是如何把正態(tài)分布引入到誤差分析之中,打造最小二乘這把瑞士軍刀的呢?四、眾里尋她千百度,誤差分布曲線的確立第三個故事有點長,主角是高斯和拉普拉斯,故事的主要內(nèi)容尋找隨機誤差分布的規(guī)律。天文學是第一個被測量誤差困擾的學科,從古代至十八世紀天文學一直是應(yīng)用數(shù)學最發(fā)達的領(lǐng)域,到十八世紀,天文學的發(fā)展積累了大量的天文學數(shù)據(jù)需要分析計算,應(yīng)該如何來處理數(shù)據(jù)中的觀測誤差成為一個很棘手的問題。我們在數(shù)據(jù)處理中經(jīng)常使用平均的常識性法則,千百年來的數(shù)據(jù)使用經(jīng)驗說明算術(shù)平均能夠消除誤差,提高精度。平均有如此的魅力,道理何在,之前沒有人做過理論上的證明。算術(shù)平均的合理性問題在天文學的數(shù)據(jù)分析工作中被提出來討論:測量中的隨機誤差服應(yīng)該服從怎樣的概率分布算術(shù)平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系伽利略在他著名的《關(guān)于兩個主要世界系統(tǒng)的對話》中,對誤差的分布做過一些定性的描述,主要包括:誤差是對稱分布的;大的誤差出現(xiàn)頻率低,小的誤差出現(xiàn)頻率高。用數(shù)學的語言描述,也就是說誤差分布函數(shù)f(x)關(guān)于0對稱分布,概率密度隨|x|增加而減小,這兩個定性的描述都很符合常識。許多天文學家和數(shù)學家開始了尋找誤差分布曲線的嘗試。托馬斯?辛普森(ThomasSimpson,1710-1761)先走出了有意義的一步。設(shè)真值為θ,而x1,?,xn為n次測量值,每次測量的誤差為ei=xi?θ,若用算術(shù)平均xˉ=(∑ni=1xi)/n去估計θ,其誤差為eˉ=(∑ni=1ei)/n。Simpson證明了,對于如下的一個概率分布,Simpson的誤差態(tài)分布曲線有下面的估計:P(|eˉ|<x)≥P(|e1|<x).也就是說,|eˉ|相比于|e1|取小值的機會更大。辛普森的這個工作很粗糙,但是這是第一次在一個特定情況下,從概率論的角度嚴格證明了算術(shù)平均的優(yōu)良性。在1772-1774年間,拉普拉斯也加入到了尋找誤差分布函數(shù)的隊伍中。拉普拉斯假定誤差分布函數(shù)f(x)滿足如下性質(zhì)?f′(x)=mf(x).由此最終求得的分布函數(shù)為f(x)=m2e?m|x|這個概率密度函數(shù)現(xiàn)在被稱為拉普拉斯分布。Laplace的誤差態(tài)分布曲線以這個函數(shù)作為誤差分布,拉普拉斯開始考慮如何基于測量的結(jié)果去估計未知參數(shù)的值。拉普拉斯可以算是一個貝葉斯主義者,他的參數(shù)估計的原則和現(xiàn)代貝葉斯方法非常相似:假設(shè)先驗分布是均勻的,計算出參數(shù)的后驗分布后,取后驗分布的中值點,即1/2分位點,作為參數(shù)估計值??墒腔谶@個誤差分布函數(shù)做了一些計算之后,拉普拉斯發(fā)現(xiàn)計算過于復雜,最終沒能給出什么有用的結(jié)果。拉普拉斯可是概率論的大牛,寫過兩本極有影響力的《概率分析理論》,不過以我的數(shù)學審美,實在無法理解拉普拉斯這樣的大牛怎么找了一個零點不可導的誤差的分布函數(shù),拉普拉斯最終還是沒能搞定誤差分布的問題。現(xiàn)在輪到高斯登場了,高斯在數(shù)學史中的地位極高,號稱數(shù)學史上的狐貍,數(shù)學家阿貝爾對他的評論是“他像狐貍一樣,用其尾巴把其在沙灘上的蹤跡清除掉”(Heislikethefox,whoeffaceshistracksinthesandwithhistail.)我們的數(shù)學大師陳省身把黎曼和龐加萊(HenriPoincaré)稱為數(shù)學家中的菩薩,而稱自己為羅漢;高斯是黎曼的導師,數(shù)學圈里有些教授把高斯稱為數(shù)學家中的佛。在數(shù)學家中既能仰望理論數(shù)學的星空,又能腳踏應(yīng)用數(shù)學的實地的可不多見,高斯是數(shù)學家中少有的頂“天”立“地”的人物,他既對純理論數(shù)學有深刻的洞察力,又極其重視數(shù)學在實踐中的應(yīng)用。在誤差分布的處理中,高斯以極其簡單的手法確立了隨機誤差的概率分布,其結(jié)果成為數(shù)理統(tǒng)計發(fā)展史上的一塊里程碑。高斯的介入首先要從天文學界的一個事件說起。1801年1月,天文學家GiuseppePiazzi發(fā)現(xiàn)了一顆從未見過的光度8等的星在移動,這顆現(xiàn)在被稱作谷神星(Ceres)的小行星在夜空中出現(xiàn)6個星期,掃過八度角后在就在太陽的光芒下沒了蹤影,無法觀測。而留下的觀測數(shù)據(jù)有限,難以計算出他的軌道,天文學家也因此無法確定這顆新星是彗星還是行星,這個問題很快成了學術(shù)界關(guān)注的焦點。高斯當時已經(jīng)是很有名望的年輕數(shù)學家了,這個問題也引起了他的興趣。高斯以其卓越的數(shù)學才能創(chuàng)立了一種嶄新的行星軌道的計算方法,一個小時之內(nèi)就計算出了行星的軌道,并預言了它在夜空中出現(xiàn)的時間和位置。1801年12月31日夜,德國天文愛好者奧伯斯(HeinrichOlbers)在高斯預言的時間里,用望遠鏡對準了這片天空。果然不出所料,谷神星出現(xiàn)了!高斯為此名聲大震,但是高斯當時拒絕透露計算軌道的方法,原因可能是高斯認為自己的方法的理論基礎(chǔ)還不夠成熟,而高斯一向治學嚴謹、精益求精,不輕易發(fā)表沒有思考成熟的理論。直到1809年高斯系統(tǒng)地完善了相關(guān)的數(shù)學理論后,才將他的方法公布于眾,而其中使用的數(shù)據(jù)分析方法,就是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法。那高斯是如何推導出誤差分布為正態(tài)分布的?讓我們看看高斯是如何猜測上帝的意圖的。設(shè)真值為θ,而x1,?,xn為n次獨立測量值,每次測量的誤差為ei=xi?θ,假設(shè)誤差ei的密度函數(shù)為f(e),則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率,記為L(θ)=L(θ;x1,?,xn)=f(e1)?f(en)=f(x1?θ)?f(xn?θ).

(4)但是高斯不采用貝葉斯的推理方式,而是直接取L(θ)達到最小值的θ?=θ?(x1,?,xn)作為θ的估計值,即θ?=argminθL(θ).現(xiàn)在我們把L(θ)稱為樣本的似然函數(shù),而得到的估計值θ?稱為極大似然估計。高斯首次給出了極大似然的思想,這個思想后來被統(tǒng)計學家系統(tǒng)地發(fā)展成為參數(shù)估計中的極大似然估計理論。高斯接下來的想法特別牛,他開始揣度上帝的意圖,而這充分體現(xiàn)了高斯的數(shù)學天才。他把整個問題的思考模式倒過來:既然千百年來大家都認為算術(shù)平均是一個好的估計,那我就認為極大似然估計導出的就應(yīng)該是算術(shù)平均!所以高斯猜測上帝在創(chuàng)世紀中的旨意就是:誤差分布導出的極大似然估計=算術(shù)平均值.然后高斯去找誤差密度函數(shù)f以迎合這一點。即尋找這樣的概率分布函數(shù)f,使得極大似然估計正好是算術(shù)平均θ?=xˉ。通過應(yīng)用數(shù)學技巧求解這個函數(shù)f,高斯證明(證明不難,后續(xù)給出)了所有的概率密度函數(shù)中,唯一滿足這個性質(zhì)的就是f(x)=12π??√σexp(?x22σ2).瞧,正態(tài)分布的密度函數(shù)N(0,σ2)被高斯他老人家給解出來了!進一步,高斯基于這個誤差分布函數(shù)對最小二乘法給出了一個很漂亮的解釋。對于最小二乘公式中涉及的每個誤差ei(見前面的公式(3),有ei~N(0,σ2),則(e1,?,en)的聯(lián)合概率分布為(e1,?,en)~1(2π??√σ)nexp(?12σ2∑i=1ne2i).要使得這個概率最大,必須使得∑ni=1e2i取最小值,這正好就是最小二乘法的要求。高斯所拓展的最小二乘法成為了十九世紀統(tǒng)計學的最重要成就,它在十九世紀統(tǒng)計學的重要性就相當于十八世紀的微積分之于數(shù)學。而勒讓德和最小二乘的的發(fā)明權(quán)之爭,成了數(shù)學史上僅次于牛頓、萊布尼茨微積分發(fā)明權(quán)的爭端。相比于勒讓德1805給出的最小二乘法描述,高斯基于誤差正態(tài)分布的最小二乘理論顯然更高一籌,高斯的工作中既提出了極大似然估計的思想,又解決了誤差的概率密度分布的問題,由此我們可以對誤差大小的影響進行統(tǒng)計度量了。高斯的這項工作對后世的影響極大,而正態(tài)分布也因此被冠名高斯分布。估計高斯本人當時是完全沒有意識到他的這個工作給現(xiàn)代數(shù)理統(tǒng)計學帶來的深刻影響。高斯在數(shù)學上的貢獻特多,去世前他要求給自己的墓碑上雕刻上正十七邊形,以說明他在正十七邊形尺規(guī)作圖上的杰出工作。而后世的德國鈔票和鋼镚上是以正態(tài)密度曲線來紀念高斯,這足以說明高斯的這項工作在當代科學發(fā)展中的份量。十七、十八世紀科學界流行的做法,是盡可能從某種簡單明了的準則(firstprinciple)出發(fā)進行邏輯推導。高斯設(shè)定了準則“最大似然估計應(yīng)該導出優(yōu)良的算術(shù)平均”,并導出了誤差服從正態(tài)分布,推導的形式上非常簡潔優(yōu)美。但是高斯給的準則在邏輯上并不足以讓人完全信服,因為算術(shù)平均的優(yōu)良性當時更多的是一個經(jīng)驗直覺,缺乏嚴格的理論支持。高斯的推導存在循環(huán)論證的味道:因為算術(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布;反過來,又基于正態(tài)分布推導出最小二乘和算術(shù)平均,來說明最小二乘法和算術(shù)平均的優(yōu)良性。這陷入了一個雞生蛋蛋生雞的怪圈,邏輯上算術(shù)平均的優(yōu)良性到底有沒有自行成立的理由呢?

高斯的文章發(fā)表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正態(tài)分布既可以從拋鋼镚產(chǎn)生的序列求和中生成出來,又可以被優(yōu)雅地作為誤差分布定律,這難道是偶然現(xiàn)象?拉普拉斯不愧為概率論的大牛,他馬上將誤差的正態(tài)分布理論和中心極限定理聯(lián)系起來,提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加,則根據(jù)他的中心極限定理,隨機誤差理所當然是高斯分布。而20世紀中心極限定理的進一步發(fā)展,也給這個解釋提供了更多的理論支持。因此有了這個解釋為出發(fā)點,高斯的循環(huán)論證的圈子就可以打破。估計拉普拉斯悟出這個結(jié)論之后一定想撞墻,自己辛辛苦苦尋尋覓覓了這么久的誤差分布曲線就在自己的眼皮底下,自己卻長年來視而不見,被高斯給占了先機。至此,誤差分布曲線的尋找塵埃落定,正態(tài)分布在誤差分析中確立了自己的地位,并在整個19世紀不斷地開疆擴土,直至在統(tǒng)計學中鶴立雞群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,為現(xiàn)代統(tǒng)計學的發(fā)展開啟了一扇大門。在整個正態(tài)分布被發(fā)現(xiàn)與應(yīng)用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻,拉普拉斯從中心極限定理的角度解釋它,高斯把它應(yīng)用在誤差分析中,殊途同歸。正態(tài)分布被人們發(fā)現(xiàn)有這么好的性質(zhì),各國人民都爭搶它的冠名權(quán)。因為拉普拉斯是法國人,所以當時在法國被稱為拉普拉斯分布;而高斯是德國人,所以在德國叫做高斯分布;中立國的人稱它為拉普拉斯-高斯分布。后來法國的大數(shù)學家龐加萊建議改用正態(tài)分布這一中立名稱,而隨后統(tǒng)計學家卡爾?皮爾森使得這個名稱被廣泛接受:ManyyearsagoIcalledtheLaplace-Gaussiancurvethenormalcurve,whichname,whileitavoidsaninternationalquestionofpriority,hasthedisadvantageofleadingpeopletobelievethatallotherdistributionsoffrequencyareinonesenseoranother"abnormal".-KarlPearson(1920)不過因為高斯在數(shù)學家中的名氣實在是太大,正態(tài)分布的桂冠還是更多的被戴在了高斯的腦門上,目前數(shù)學界通行的用語是正態(tài)分布、高斯分布,兩者并用。正態(tài)分布在高斯的推動下,迅速在測量誤差分析中被廣泛使用,然而早期也僅限于測量誤差的分析中,其重要性遠沒有被自然科學和社會科學領(lǐng)域中的學者們所認識,那正態(tài)分布是如何從測量誤差分析的小溪,沖向自然科學和社會科學的汪洋大海的呢?五、曲徑通幽處,禪房花木深在介紹正態(tài)分布的后續(xù)發(fā)展之前,我們來多講一點數(shù)學,也許有些人會覺得枯燥,不過高斯曾經(jīng)說過:“數(shù)學是上帝的語言”。所以要想更加深入地理解正態(tài)分布的美,唯有通過上帝的語言。造物主造物的準則往往是簡單明了的,只是在紛繁蕪雜的萬物之中,我們要發(fā)現(xiàn)并領(lǐng)會它并非易事。之前提到過,十七、十八世紀科學界流行的做法,是盡可能從某種簡單明了的準則(firstprinciple)出發(fā)作為科學探求的起點;而后來的數(shù)學家和物理學家們的研究發(fā)現(xiàn),屢次從一些給定的簡單的準則出發(fā),我們總是被引領(lǐng)到了正態(tài)分布的家門口,這讓人感覺到正態(tài)分布的美妙。達爾文的表弟高爾頓是生物學家兼統(tǒng)計學家,他對正態(tài)分布非常的推崇與贊美:“我?guī)缀醪辉娺^像誤差呈正態(tài)分布這么激發(fā)人們無窮想象的宇宙秩序”。當代兩位偉大的概率學家Levy和Kac都曾經(jīng)說過,正態(tài)分布是他們切入概率論的初戀情人,具有無窮的魅力。如果古希臘人知道正態(tài)分布,想必奧林匹斯山的神殿里會多出一個正態(tài)女神,由她來掌管世間的混沌。要拉下正態(tài)分布的神秘面紗展現(xiàn)她的美麗,需要高深的概率論知識,本人在數(shù)學方面知識淺薄,不能勝任。只能在極為有限的范圍內(nèi)嘗試掀開她的面紗的一角。棣莫弗和拉普拉斯以拋鋼镚的序列求和為出發(fā)點,沿著一條小徑第一次把我們領(lǐng)到了正態(tài)分布的家門口,這條路叫做中心極限定理。而這條路上風景秀麗,許多概率學家都為之傾倒。這條路在20世紀被概率學家門越拓越寬,成為了通往正態(tài)曲線的一條康莊大道。而數(shù)學家和物理學家們發(fā)現(xiàn):條條小路通正態(tài)。著名的物理學家在他的名著《ProbabilityTheory:theLogicofScience》(中文譯書《概率論沉思錄》)中,描繪了四條通往正態(tài)分布的小徑;曲徑通幽處,禪房花木深,讓我們一起來欣賞一下四條小徑上的風景吧。1.高斯的推導(1809)第一條小徑是高斯找到的,高斯以如下準則作為小徑的出發(fā)點誤差分布導出的極大似然估計=算術(shù)平均值設(shè)真值為θ,而x1,?,xn為n次獨立測量值,每次測量的誤差為ei=xi?θ,假設(shè)誤差ei的密度函數(shù)為f(e),則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率,記為L(θ)=L(θ;x1,?,xn)=f(e1)?f(en)=f(x1?θ)?f(xn?θ)

(5)為求極大似然估計,令dlogL(θ)dθ=0.整理后可以得到∑i=1nf′(xi?θ)f(xi?θ)=0.令g(x)=f′(x)/f(x),由上式可以得到∑i=1ng(xi?θ)=0.由于高斯假設(shè)極大似然估計的解就是算術(shù)平均xˉ,把解帶入上式,可以得到

∑i=1ng(xi?xˉ)=0.

(6)在上式中取n=2,有g(shù)(x1?xˉ)+g(x2?xˉ)=0.由于此時有x1?xˉ=?(x2?xˉ),并且x1,x2是任意的,由此得到:g(?x)=?g(x).再在(6)式中取n=m+1,并且要求x1=?=xm=?x,且xm+1=mx,則有xˉ=0,并且∑i=1ng(xi?xˉ)=mg(?x)+g(mx).所以得到g(mx)=mg(x).而滿足上式的唯一的連續(xù)函數(shù)就是g(x)=cx,從而進一步可以求解出f(x)=Mecx2.由于f(x)是概率分布函數(shù),把f(x)正規(guī)化一下就得到正態(tài)分布密度函數(shù)N(0,σ2).2.Herschel(1850)和麥克斯韋(1860)的推導第二條小徑是天文學家JohnHershcel和物理學家麥克斯韋(Maxwell)發(fā)現(xiàn)的。1850年,天文學家Herschel在對星星的位置進行測量的時候,需要考慮二維的誤差分布,為了推導這個誤差的概率密度分布f(x,y),Herschel設(shè)置了兩個準則:x軸和y軸的誤差是相互獨立的,即誤差的概率在正交的方向上相互獨立;誤差的概率分布在空間上具有旋轉(zhuǎn)對稱性,即誤差的概率分布和角度沒有關(guān)系。這兩個準則對于Herschel考慮的實際測量問題看起來都很合理。由準則1,可以得到f(x,y)應(yīng)該具有如下形式f(x,y)=f(x)?f(y).把這個函數(shù)轉(zhuǎn)換為極坐標,在極坐標下的概率密度函數(shù)設(shè)為g(r,θ),有f(x,y)=f(rcosθ,rsinθ)=g(r,θ)由準則2,g(r,θ)具有旋轉(zhuǎn)對稱性,也就是應(yīng)該和θ無關(guān),所以g(r,θ)=g(r),綜合以上,我們可以得到f(x)f(y)=g(r)=g(x2+y2??????√).取y=0,得到g(x)=f(x)f(0),所以上式可以轉(zhuǎn)換為log[f(x)f(0)]+log[f(y)f(0)]=log[f(x2+y2??????√)f(0)].令log(f(x)/f(0))=h(x),則有h(x)+h(y)=h(x2+y2??????√).從這個函數(shù)方程中可以解出h(x)=ax2,從而可以得到f(x)的一般形式如下f(x)=απ??√e?αx2而f(x)就是正態(tài)分布N(0,1/2α)???√,而f(x,y)就是標準二維正態(tài)分布函數(shù)。f(x,y)=απexp(?α(x2+y2)).1860年,我們偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分布的時候,在三維空間中基于類似的準則推導出了氣體分子運動的分布是正態(tài)分布ρ(vx,vy,vz)∝exp(?α(v2x+v2y+v2z))。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們在普通物理中學過的麥克斯韋-波爾茲曼氣體速率分布定律嗎?

F(v)==(m2πkT)3/2exp(?mv22kT)(m2πkT)1/2exp(?mv2x2kT)?(m2πkT)1/2exp(?mv2y2kT)?(m2πkT)1/2exp(?mv2z2kT)

(7)所以這個分布其實是三個正態(tài)分布的乘積。你的物理老師是否告訴過你其實這個分布就是三維正態(tài)分布?反正我是一直不知道,直到今年才明白。Herschel-Maxwell推導的神妙之處在于,沒有利用任何概率論的知識,只是基于空間幾何的不變性,就推導出了正態(tài)分布。美國諾貝爾物理學獎得主費曼(Feymann)每次看到一個有π的數(shù)學公式的時候,就會問:圓在哪里?這個推導中使用到了x2+y2,也就是告訴我們正態(tài)分布密度公式中有個π,其根源來在于二維正態(tài)分布中的等高線恰好是個圓。3.Landon的推導(1941)第三條道是一位電氣工程師,VernonD.Landon給出的。1941年,Landon研究通信電路中的噪聲電壓,通過分析經(jīng)驗數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似,不同的是分布的層級,而這個層級可以使用方差σ2來刻畫。因此他推理認為噪聲電壓的分布函數(shù)形式是p(x;σ2)?,F(xiàn)在假設(shè)有一個相對于σ而言很微小的誤差擾動e,且e的分布函數(shù)是q(e),那么新的噪聲電壓是x′=x+e。Landon提出了如下的準則隨機噪聲具有穩(wěn)定的分布模式累加一個微小的隨機噪聲,不改變其穩(wěn)定的分布模式,只改變分布的層級(用方差度量)用數(shù)學的語言描述:如果x~p(x;σ2),

e~q(e),

x′=x+e,則有x′~p(x;σ2+var(e)).現(xiàn)在我們來推導函數(shù)p(x;σ2)應(yīng)該長成啥樣。按照兩個隨機變量和的分布的計算方式,x′的分布函數(shù)將是x的分布函數(shù)和e的分布函數(shù)的卷積,即有f(x′)=∫p(x′?e;σ2)q(e)de.把p(x′?e;σ2)在x′處做泰勒級數(shù)展開(為了方便,展開后把自變量由x′替換為x),上式可以展開為f(x)=p(x;σ2)??p(x;σ2)?x∫eq(e)de+12?2p(x;σ2)?x2∫e2q(e)de+?記p=p(x;σ2),則有f(x)=p??p?xeˉ+12?2p?x2e2ˉ+o(e2ˉ)對于微小的隨機擾動e,我們認為他取正值或者負值是對稱的,所以eˉ=0。所以有f(x)=p+12?2p?x2e2ˉ+o(e2ˉ)

(8)對于新的噪聲電壓是x′=x+e,方差由σ2增加為σ2+var(e)=σ2+e2ˉ,所以按照Landon的分布函數(shù)模式不變的假設(shè),新的噪聲電壓的分布函數(shù)應(yīng)該為f(x)=p(x;σ2+e2ˉ)。把p(x;σ2+e2ˉ)在σ2處做泰勒級數(shù)展開,得到f(x)=p+?p?σ2e2ˉ+o(e2ˉ).

(9)比較(8)和(9)這兩個式子,可以得到如下偏微分方程12?2p?x2=?p?σ2.而這個方程就是物理上著名的擴散方程(diffusionequation),求解該方程就得到p(x;σ2)=12π??√σexp(?x22σ2)又一次,我們推導出了正態(tài)分布!對于這個推導的評價很高,認為Landon的推導本質(zhì)上給出了自然界的噪音形成的過程。他指出這個推導基本上就是中心極限定理的增量式版本,相比于中心極限定理來說,是一次性累加所有的因素,Landon的推導是每次在原有的分布上去累加一個微小的擾動。而在這個推導中,我們看到,正態(tài)分布具有相當好的穩(wěn)定性;只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成,他就容易繼續(xù)保持正態(tài)分布

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論