《數(shù)據(jù)分析與處理》課程實(shí)施大綱_第1頁(yè)
《數(shù)據(jù)分析與處理》課程實(shí)施大綱_第2頁(yè)
《數(shù)據(jù)分析與處理》課程實(shí)施大綱_第3頁(yè)
《數(shù)據(jù)分析與處理》課程實(shí)施大綱_第4頁(yè)
《數(shù)據(jù)分析與處理》課程實(shí)施大綱_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《數(shù)據(jù)分析與處理》課程實(shí)施大綱1.教學(xué)理念20世紀(jì)以前在西方教育理論中占主導(dǎo)地位的教學(xué)觀是“教學(xué)是藝術(shù)”。但隨著20世紀(jì)以來(lái)科學(xué)思潮的影響,以及心理學(xué)特別是行為科學(xué)的發(fā)展,人們意識(shí)到,教學(xué)也是科學(xué)。即教學(xué)不僅有科學(xué)的基礎(chǔ),而且還可以用科學(xué)的方法來(lái)研究。于是,人們開始關(guān)注教學(xué)的哲學(xué)、心理學(xué)、社會(huì)學(xué)的理論基礎(chǔ),以及如何用觀察、實(shí)驗(yàn)等科學(xué)的方法來(lái)研究教學(xué)問(wèn)題。有效教學(xué)就是在這一背景下提出來(lái)的。有效教學(xué)的核心就是教學(xué)的效益,即什么樣的教學(xué)是有效的?是高效、低效還是無(wú)效?所謂“有效”,主要是指通過(guò)教師在一段時(shí)間的教學(xué)后,學(xué)生所獲得的具體進(jìn)步或發(fā)展。教學(xué)有沒(méi)有效益,并不是指教師有沒(méi)有教完內(nèi)容或教得認(rèn)不認(rèn)真,而是指學(xué)生有沒(méi)有學(xué)到什么或?qū)W生學(xué)得好不好。如果學(xué)生不想學(xué)或者學(xué)了沒(méi)有收獲,即使教師教得再辛苦也是無(wú)效教學(xué)。同樣如果學(xué)生學(xué)得很辛苦,但沒(méi)有得到應(yīng)有的發(fā)展,也是無(wú)效或低效教學(xué)。2.課程介紹2.1課程的性質(zhì)數(shù)據(jù)分析是信息計(jì)算科學(xué)專業(yè)本科生重要的必修課,也適用于數(shù)理統(tǒng)計(jì)專業(yè)的本科生,主要內(nèi)容有:數(shù)據(jù)描述性分析、非參數(shù)方法、回歸分析、主成分分析、判別分析、聚類分析、時(shí)間序列分析、bayes統(tǒng)計(jì)分析和常用數(shù)據(jù)分析方法的sas,數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來(lái)的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析的目的是把隱沒(méi)在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中、萃取和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。在統(tǒng)計(jì)學(xué)領(lǐng)域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實(shí)或證偽。探索性數(shù)據(jù)分析是指為了形成值得假設(shè)的檢驗(yàn)而對(duì)數(shù)據(jù)進(jìn)行分析的一種方法,是對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)手段的補(bǔ)充。該方法由美國(guó)著名統(tǒng)計(jì)學(xué)家約翰·圖基(JohnTukey)命名。定性數(shù)據(jù)分析又稱為“定性資料分析”、“定性研究”或者“質(zhì)性研究資料分析”,是指對(duì)諸如詞語(yǔ)、照片、觀察結(jié)果之類的非數(shù)值型數(shù)據(jù)(或者說(shuō)資料)的分析。excel作為常用的分析工具,可以實(shí)現(xiàn)基本的分析工作,在商業(yè)智能領(lǐng)域Cognos、Microstrategy、Brio、BO和Oracle以及國(guó)內(nèi)產(chǎn)品如北京永洪科技的YonghongZ-SuiteBI套件等。2.2課程在學(xué)科專業(yè)結(jié)構(gòu)中的地位、作用本課程主要是提高學(xué)生對(duì)統(tǒng)計(jì)方面的能力,和概率論可以結(jié)合在一起,數(shù)據(jù)分析行業(yè),在國(guó)外的發(fā)展已經(jīng)非常成熟,每年有上千億美元的市場(chǎng)份額。在國(guó)外,數(shù)據(jù)分析非常重要,在美國(guó)有專門的數(shù)據(jù)中心,為全國(guó)甚至全球的數(shù)據(jù)分析行業(yè)提供數(shù)據(jù)平臺(tái),還有一些圖書館,專門設(shè)有數(shù)據(jù)分析,數(shù)據(jù)統(tǒng)計(jì)圖書收藏,為數(shù)據(jù)分析行業(yè)的從業(yè)人員提供查詢搜索平臺(tái)。在中國(guó),數(shù)據(jù)分析工作正在被逐漸的受到重視,越來(lái)越多的人們意識(shí)到此項(xiàng)工作環(huán)節(jié)的重要性。08年4月份,經(jīng)中國(guó)資委審批、民政部備案后,中國(guó)商業(yè)聯(lián)合會(huì)數(shù)據(jù)分析專業(yè)委員會(huì)正式成立,這是數(shù)據(jù)分析行業(yè)內(nèi)唯一的協(xié)會(huì),它的成立標(biāo)志著中國(guó)數(shù)據(jù)分析行業(yè)在經(jīng)濟(jì)發(fā)展中的地位已經(jīng)被得到充分的認(rèn)可,數(shù)據(jù)分析工作也會(huì)因此走向更加規(guī)范的發(fā)展軌道。在市場(chǎng)調(diào)查數(shù)據(jù)分析中,常用的分析方法有:描述性統(tǒng)計(jì)(包括集中趨勢(shì)分析、頻數(shù)分析、數(shù)據(jù)的分布、數(shù)據(jù)離散程度分析等)、回歸分析、主成分分析與因子分析、判別分析、聚類分析、時(shí)間序列分析以及常用數(shù)據(jù)分析方法。數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來(lái)的大量一手和二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。綜上數(shù)據(jù)分析對(duì)于項(xiàng)目的實(shí)施具有重要的意義。2.3課程的前沿及發(fā)展趨勢(shì)這門課程的前沿是與計(jì)算機(jī)結(jié)合,實(shí)現(xiàn)更智能的電腦統(tǒng)計(jì)數(shù)據(jù),分析數(shù)據(jù),得出最合適的結(jié)果,在用統(tǒng)計(jì)分析方法研究多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對(duì)于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。主成分分析,是考察多個(gè)變量間相關(guān)性一種多元統(tǒng)計(jì)方法,研究如何通過(guò)少數(shù)幾個(gè)主成分來(lái)揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個(gè)主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān).通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來(lái)信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個(gè)主成分。2.4學(xué)習(xí)本課程的必要性這門課程是概率論的后續(xù)之作,用更為精確的方法處理數(shù)據(jù),若果沒(méi)有了這門課程,學(xué)生將不知道如何真正分析數(shù)據(jù),處理數(shù)據(jù),數(shù)據(jù)分析是信息計(jì)算科學(xué)專業(yè)本科生重要的必修課,也適用于數(shù)理統(tǒng)計(jì)專業(yè)的本科生,主要內(nèi)容有:數(shù)據(jù)描述性分析、非參數(shù)方法、回歸分析、主成分分析、判別分析、聚類分析、時(shí)間序列分析、bayes統(tǒng)計(jì)分析和常用數(shù)據(jù)分析方法的sas,數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來(lái)的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析的目的是把隱沒(méi)在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中、萃取和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。在統(tǒng)計(jì)學(xué)領(lǐng)域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實(shí)或證偽。在市場(chǎng)調(diào)查數(shù)據(jù)分析中,常用的分析方法有:描述性統(tǒng)計(jì)(包括集中趨勢(shì)分析、頻數(shù)分析、數(shù)據(jù)的分布、數(shù)據(jù)離散程度分析等)、回歸分析、主成分分析與因子分析、判別分析、聚類分析、時(shí)間序列分析以及常用數(shù)據(jù)分析方法。數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來(lái)的大量一手和二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。3.教師簡(jiǎn)介4.先修課程概率論,高等代數(shù),數(shù)學(xué)分析5.課程目標(biāo)5.1知識(shí)與技能方面主要是提高學(xué)生對(duì)于方法的掌握及運(yùn)用,在遇到實(shí)際問(wèn)題時(shí)會(huì)展開思考,統(tǒng)計(jì),分析,處理,數(shù)理統(tǒng)計(jì)學(xué)的一個(gè)分支。如果在一個(gè)統(tǒng)計(jì)問(wèn)題中,其總體分布不能用有限個(gè)實(shí)參數(shù)來(lái)刻畫,只能對(duì)它作一些諸如分布連續(xù)、有密度、具有某階矩等一般性的假定,則稱之為非參數(shù)統(tǒng)計(jì)問(wèn)題。例如,檢驗(yàn)“兩個(gè)總體有相同分布”這個(gè)假設(shè),若假定兩總體的分布分別為正態(tài)分布N(μ1,σ2)和N(μ2,σ2),則問(wèn)題只涉及三個(gè)實(shí)參數(shù)μ1,μ2,σ2,這是參數(shù)統(tǒng)計(jì)問(wèn)題。若只假定兩總體的分布為連續(xù),此外一無(wú)所知,問(wèn)題涉及的分布不能用有限個(gè)實(shí)參數(shù)刻畫,則這是非參數(shù)統(tǒng)計(jì)問(wèn)題。又如,估計(jì)總體分布的期望μ,若假定總體分布為正態(tài)N(μ,σ2),則問(wèn)題是參數(shù)性的;若只假定總體分布的期望值存在,則問(wèn)題是非參數(shù)性的。不過(guò)參數(shù)統(tǒng)計(jì)與非參數(shù)統(tǒng)計(jì)之間并沒(méi)有涇渭分明的界線。有的統(tǒng)計(jì)問(wèn)題,從不同的角度,可以理解為參數(shù)性的,也可以理解為非參數(shù)性的。例如線性回歸(見(jiàn)回歸分析)問(wèn)題,若關(guān)心的是估計(jì)回歸系數(shù),它只是有限個(gè)實(shí)參數(shù),因而可以看成是參數(shù)性的。但是,如果對(duì)隨機(jī)誤差的分布類型沒(méi)有作任何假定,則從問(wèn)題的總體分布這個(gè)角度看,也可以看成是非參數(shù)性的。重要的非參數(shù)統(tǒng)計(jì)方法秩方法是基于秩統(tǒng)計(jì)量(見(jiàn)統(tǒng)計(jì)量)的一類重要的非參數(shù)統(tǒng)計(jì)方法。設(shè)有樣本X1,X2,…,Xn,把它們由小到大排列,若Xi在這個(gè)次序中占第Ri個(gè)位置(最小的占第1個(gè)位置),則稱Xi的秩為Ri(i=1,2,…,n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗(yàn)"是一個(gè)有代表性的例子。5.2過(guò)程與方法方面次序統(tǒng)計(jì)量和U統(tǒng)計(jì)量在非參數(shù)統(tǒng)計(jì)中也有重要應(yīng)用。前者可用于估計(jì)總體分布的分位數(shù)(見(jiàn)概率分布)、檢驗(yàn)兩總體有相同的分布及構(gòu)造連續(xù)總體分布的容忍限和容忍區(qū)間(見(jiàn)區(qū)間估計(jì))等。后者主要用于構(gòu)造總體分布的數(shù)字特征的一致最小方差無(wú)偏估計(jì)(見(jiàn)點(diǎn)估計(jì))及基于這種估計(jì)的假設(shè)檢驗(yàn)。蘇聯(lián)數(shù)學(xué)家Α.Η.柯?tīng)柲缏宸蚝挺?И.斯米爾諾夫在20世紀(jì)30年代的工作開辟了非參數(shù)統(tǒng)計(jì)的一個(gè)方面,他們的方法基于樣本X1,X2,…,Xn的經(jīng)驗(yàn)分布函數(shù)Fn(x)(見(jiàn)樣本)???tīng)柲缏宸蚩疾霧n(x)與理論分布F(x)的最大偏差墹n,當(dāng)墹n超過(guò)一定限度時(shí),否定這個(gè)理論分布F(x)。這就是柯?tīng)柲缏宸驒z驗(yàn)。斯米爾諾夫則考察由兩個(gè)分布為F(x)和g(x)的總體中抽出的樣本X1,X2,…,Xm和Y1,Y2,…,Yn計(jì)算其經(jīng)驗(yàn)分布Fm(x)和gn(x)的最大偏差墹mn,當(dāng)墹mn超過(guò)一定限度時(shí),否定“F與g相等”這個(gè)假設(shè)。這就是斯米爾諾夫檢驗(yàn)。在非參數(shù)性估計(jì)方面,有關(guān)于估計(jì)分布的對(duì)稱中心、概率密度函數(shù)和回歸函數(shù)等比較重要的成果。非參數(shù)統(tǒng)計(jì)的特點(diǎn)非參數(shù)統(tǒng)計(jì)問(wèn)題中對(duì)總體分布的假定要求的條件很寬,因而針對(duì)這種問(wèn)題而構(gòu)造的非參數(shù)統(tǒng)計(jì)方法,不致因?yàn)閷?duì)總體分布的假定不當(dāng)而導(dǎo)致重大錯(cuò)誤,所以它往往有較好的穩(wěn)健性(見(jiàn)穩(wěn)健統(tǒng)計(jì)),這是一個(gè)重要特點(diǎn)。但因?yàn)榉菂?shù)統(tǒng)計(jì)方法需要照顧范圍很廣的分布,在某些情況下會(huì)導(dǎo)致其效率的降低。不過(guò),近代理論證明了:一些重要的非參數(shù)統(tǒng)計(jì)方法。5.3情感、態(tài)度與價(jià)值觀方面我覺(jué)得對(duì)于學(xué)習(xí)數(shù)據(jù)分析與處理這門課程,需要足夠的勤奮,以及悟性,因?yàn)槔锩娴膬?nèi)容很多來(lái)源于數(shù)分分析,所以這門課是先修課,只有先學(xué)好了先修課,對(duì)這門課學(xué)起來(lái)才會(huì)輕松些,學(xué)好了這些專業(yè)課,對(duì)于提升自己是有很大幫助的,因?yàn)樗麄兪呛芏喙ぷ鞯幕A(chǔ)。價(jià)值觀是指?jìng)€(gè)人對(duì)客觀事物(包括人、物、事)及對(duì)自己的行為結(jié)果的意義、作用、效果和重要性的總體評(píng)價(jià),是對(duì)什么是好的、是應(yīng)該的總看法,是推動(dòng)并指引一個(gè)人采取決定和行動(dòng)的原則、標(biāo)準(zhǔn),是個(gè)性心理結(jié)構(gòu)的核心因素之一。它使人的行為帶有穩(wěn)定的傾向性。價(jià)值觀是人用于區(qū)別好壞,分辨是非及其重要性的心理傾向體系。它反映人對(duì)客觀事物的是非及重要性的評(píng)價(jià),人不同于動(dòng)物,動(dòng)物只能被動(dòng)適應(yīng)環(huán)境,人不僅能認(rèn)識(shí)世界是什么、怎么樣和為什么,而且還知道應(yīng)該做什么、選擇什么,發(fā)現(xiàn)事物對(duì)自己的意義,設(shè)計(jì)自己,確定并實(shí)現(xiàn)奮斗目標(biāo)。價(jià)值觀具有相對(duì)的穩(wěn)定性和持久性。在特定的時(shí)間、地點(diǎn)、條件下,人們的價(jià)值觀總是相對(duì)穩(wěn)定和持久的。比如,對(duì)某種事物的好壞總有一個(gè)看法和評(píng)價(jià),在條件不變的情況下這種看法不會(huì)改變。但是,隨著人們的經(jīng)濟(jì)地位的改變,以及人生觀和世界觀的改變,這種價(jià)值觀也會(huì)隨之改變。6.課程內(nèi)容6.1課程的內(nèi)容概要本書主要介紹方法,處理數(shù)據(jù)的方法及手段,回歸分析(英語(yǔ):RegressionAnalysis)是一種統(tǒng)計(jì)學(xué)上分析數(shù)據(jù)的方法,目的在于了解兩個(gè)或多個(gè)變量間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型以便觀察特定變量來(lái)預(yù)測(cè)研究者感興趣的變量?;貧w分析是建立因變量Y(或稱依變量,反應(yīng)變量)與自變量X(或稱獨(dú)變量,解釋變量)之間關(guān)系的模型。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。對(duì)具有相關(guān)關(guān)系的現(xiàn)象,擇一適當(dāng)?shù)臄?shù)學(xué)關(guān)系式,用以說(shuō)明一個(gè)或一組變量變動(dòng)時(shí),另一變量或一組變量平均變動(dòng)的情況,這種關(guān)系式稱為回歸方程。關(guān)分析研究的是現(xiàn)象之間是否相關(guān)、相關(guān)的方向和密切程度,一般不區(qū)別自變量或因變量。而回歸分析則要分析現(xiàn)象之間相關(guān)的具體形式,確定其因果關(guān)系,并用數(shù)學(xué)模型來(lái)表現(xiàn)其具體關(guān)系。比如說(shuō),從相關(guān)分析中我們可以得知“質(zhì)量”和“用戶滿意度”變量密切相關(guān),但是這兩個(gè)變量之間到底是哪個(gè)變量受哪個(gè)變量的影響,影響程度如何,則需要通過(guò)回歸分析方法來(lái)確定。一般來(lái)說(shuō),回歸分析是通過(guò)規(guī)定因變量和自變量來(lái)確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實(shí)測(cè)數(shù)據(jù)來(lái)求解模型的各個(gè)參數(shù)。6.2教學(xué)重點(diǎn)、難點(diǎn)(1)本課程教學(xué)重點(diǎn)是因子分析,聚類分析,聚類分析(ClusterAnalysis),又稱群分析,是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是通過(guò)數(shù)據(jù)建模簡(jiǎn)化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點(diǎn)等算法的聚類分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,如SPSS、SAS等。從機(jī)器學(xué)習(xí)的角度講,簇相當(dāng)于隱藏模式。聚類是搜索簇的無(wú)監(jiān)督學(xué)習(xí)過(guò)程。與分類不同,無(wú)監(jiān)督學(xué)習(xí)不依賴預(yù)先定義的類或帶類標(biāo)記的訓(xùn)練實(shí)例,需要由聚類學(xué)習(xí)算法自動(dòng)確定標(biāo)記,而分類學(xué)習(xí)的實(shí)例或數(shù)據(jù)對(duì)象有類別標(biāo)記。聚類是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。聚類分析是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。(2)教學(xué)難點(diǎn)是判別分析,判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法。其基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),用研究對(duì)象的大量資料確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類。當(dāng)?shù)玫揭粋€(gè)新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問(wèn)題屬于判別分析問(wèn)題。6.3學(xué)時(shí)安排理論學(xué)時(shí)4第一周周一(數(shù)據(jù)的數(shù)字特征,數(shù)據(jù)的分布)周四(多元數(shù)據(jù)的數(shù)字特征與相關(guān)分析,兩種處理方法的秩檢驗(yàn))理論學(xué)時(shí)4第二周周一(成隊(duì)分組設(shè)計(jì)下兩種處理方法的比較,多種處理方法比較的Kruskal-Wallis檢驗(yàn))周四(分組設(shè)計(jì)下多種處理方法的比較)理論學(xué)時(shí)4第三周周一(線性回歸模型)周四(逐步回歸法)理論學(xué)時(shí)4第四周周一(Logistic回歸模型)周四(主成分分析)理論學(xué)時(shí)4第五周周一(因子分析)周四(距離判別)理論學(xué)時(shí)4第六周周一(Bayes判別)周四(第五章習(xí)題課)理論學(xué)時(shí)4第七周周一(距離與相似系數(shù))周四(譜系聚類法)理論學(xué)時(shí)4第八周周一(快速聚類法)周四(第六章習(xí)題課)7.課程實(shí)施7.1教學(xué)單元一7.1.1教學(xué)日期第一周周一、周四7.1.(1)掌握均值,方差,中位數(shù),極差。數(shù)據(jù)分析與處理這門學(xué)科主要是讓學(xué)生掌握處理分析數(shù)據(jù)的各種方法,本單元主要是學(xué)習(xí)數(shù)據(jù)的數(shù)字特征,數(shù)據(jù)的分布,多元數(shù)據(jù)的數(shù)字特征與相關(guān)分析,兩種處理方法的秩檢驗(yàn),威爾科克森符號(hào)秩檢驗(yàn)(Wilcoxon'sSignRankTest)什么是威爾科克森符號(hào)秩檢驗(yàn)它適用于T檢驗(yàn)中的成對(duì)比較,但并不要求成對(duì)數(shù)據(jù)之差di服從正態(tài)分布,只要求對(duì)稱分布即可。(2)學(xué)會(huì)畫直方圖、莖葉圖、箱線圖。檢驗(yàn)成對(duì)觀測(cè)數(shù)據(jù)之差是否來(lái)自均值為0的總體(產(chǎn)生數(shù)據(jù)的總體是否具有相同的均值)。威爾科克森符號(hào)秩檢驗(yàn)的步驟正負(fù)符號(hào)檢驗(yàn)和威爾科克森符號(hào)秩檢驗(yàn),都可看作是就成對(duì)觀察值而進(jìn)行的參數(shù)方式的T檢驗(yàn)的代用品,非參數(shù)檢驗(yàn)具有無(wú)需對(duì)總體分布作假定的優(yōu)點(diǎn),而就成對(duì)觀察值作的參數(shù)方式的T檢驗(yàn),必須假定有關(guān)的差別總體服從正態(tài)分布。(3)了解二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)。該方法具體步驟如下:第一步:求出成對(duì)觀測(cè)數(shù)據(jù)的差di,并將di的絕對(duì)值按大小順序編上等級(jí)(曼-惠特尼U檢驗(yàn))。第二步:等級(jí)編號(hào)完成以后恢復(fù)正負(fù)號(hào),分別求出正等級(jí)之和T+和負(fù)等級(jí)之和T-,選擇T+和T-中較小的一個(gè)作為威爾科克森檢驗(yàn)統(tǒng)計(jì)量T。第三步;作出判斷。根據(jù)顯著性水平α查附表,得到臨界值Tα,若T統(tǒng)計(jì)量T的均值和方差分別為:(n為成對(duì)觀測(cè)的個(gè)數(shù))(近似服從標(biāo)準(zhǔn)正態(tài)分布)若Z<-Zα(單側(cè))或Z<-Zα/2(雙側(cè)),則拒絕H0。7.1.(1)本單元的重點(diǎn)是均值,方差,極差,直方圖,莖葉圖,秩檢驗(yàn)。莖葉圖(Stem-and-Leafdisplay)又稱“枝葉圖”,由統(tǒng)計(jì)學(xué)家約翰托奇(ArthurBowley)設(shè)計(jì),它的思路是將數(shù)組中的數(shù)按位數(shù)進(jìn)行比較,將數(shù)的大小基本不變或變化不大的位作為一個(gè)主干(莖),將變化大的位的數(shù)作為分枝(葉),列在主干的后面,這樣就可以清楚地看到每個(gè)主干后面的幾個(gè)數(shù),每個(gè)數(shù)具體是多少。莖葉圖是一個(gè)與直方圖相類似的特殊工具,但又與直方圖不同,莖葉圖保留原始資料的資訊,直方圖則失去原始資料的訊息。樣本中各數(shù)據(jù)與樣本平均數(shù)的差的平方和的平均數(shù)叫做樣本方差;樣本方差的算術(shù)平方根叫做樣本標(biāo)準(zhǔn)差。樣本方差和樣本標(biāo)準(zhǔn)差都是衡量一個(gè)樣本波動(dòng)大小的量,樣本方差或樣本標(biāo)準(zhǔn)差越大,樣本數(shù)據(jù)的波動(dòng)就越大。方差和標(biāo)準(zhǔn)差。方差和標(biāo)準(zhǔn)差是測(cè)算離散趨勢(shì)最重要、最常用的指標(biāo)。方差是各變量值與其均值離差平方的平均數(shù),它是測(cè)算數(shù)值型數(shù)據(jù)離散程度的最重要的方法。標(biāo)準(zhǔn)差為方差的平方根,用S表示。標(biāo)準(zhǔn)差相應(yīng)的計(jì)算公式為標(biāo)準(zhǔn)差與方差不同的是,標(biāo)準(zhǔn)差和變量的計(jì)算單位相同,比方差清楚,因此很多時(shí)候我們分析的時(shí)候更多的使用的是標(biāo)準(zhǔn)差。全距(Range),又稱極差,是用來(lái)表示統(tǒng)計(jì)資料中的變異量數(shù)(measuresofvariation),其最大值與最小值之間的差距;即最大值減最小值后所得之?dāng)?shù)據(jù)。極差不能用作比較,單位不同;方差能用作比較,因?yàn)槎际莻€(gè)比率。極差是指一組測(cè)量值內(nèi)最大值與最小值之差,又稱范圍誤差或全距,以R表示。它是標(biāo)志值變動(dòng)的最大范圍,它是測(cè)定標(biāo)志變動(dòng)的最簡(jiǎn)單的指標(biāo)。。移動(dòng)極差(MovingRange)是其中的一種。極差沒(méi)有充分利用數(shù)據(jù)的信息,但計(jì)算十分簡(jiǎn)單,僅適用樣本容量較?。╪<10)情況。直方圖(Histogram)又稱質(zhì)量分布圖、柱狀圖,是一種統(tǒng)計(jì)報(bào)告圖,也是表示資料變化情況的一種主要工具。直方圖由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。作直方圖的目的就是通過(guò)觀察圖的形狀,判斷生產(chǎn)過(guò)程是否穩(wěn)定,預(yù)測(cè)生產(chǎn)過(guò)程的質(zhì)量。威爾科克森符號(hào)秩檢驗(yàn)(Wilcoxon'sSignRankTest)什么是威爾科克森符號(hào)秩檢驗(yàn)它適用于T檢驗(yàn)中的成對(duì)比較,但并不要求成對(duì)數(shù)據(jù)之差di服從正態(tài)分布,只要求對(duì)稱分布即可。檢驗(yàn)成對(duì)觀測(cè)數(shù)據(jù)之差是否來(lái)自均值為0的總體(產(chǎn)生數(shù)據(jù)的總體是否具有相同的均值)。威爾科克森符號(hào)秩檢驗(yàn)的步驟正負(fù)符號(hào)檢驗(yàn)和威爾科克森符號(hào)秩檢驗(yàn),都可看作是就成對(duì)觀察值而進(jìn)行的參數(shù)方式的T檢驗(yàn)的代用品,非參數(shù)檢驗(yàn)具有無(wú)需對(duì)總體分布作假定的優(yōu)點(diǎn),而就成對(duì)觀察值作的參數(shù)方式的T檢驗(yàn),必須假定有關(guān)的差別總體服從正態(tài)分布。該方法具體步驟如下:第一步:求出成對(duì)觀測(cè)數(shù)據(jù)的差di,并將di的絕對(duì)值按大小順序編上等級(jí)(曼-惠特尼U檢驗(yàn))。第二步:等級(jí)編號(hào)完成以后恢復(fù)正負(fù)號(hào),分別求出正等級(jí)之和T+和負(fù)等級(jí)之和T-,選擇T+和T-中較小的一個(gè)作為威爾科克森檢驗(yàn)統(tǒng)計(jì)量T。第三步;作出判斷。根據(jù)顯著性水平α查附表,得到臨界值Tα,若T統(tǒng)計(jì)量T的均值和方差分別為:(n為成對(duì)觀測(cè)的個(gè)數(shù))(近似服從標(biāo)準(zhǔn)正態(tài)分布)若Z<-Zα(單側(cè))或Z<-Zα/2(雙側(cè)),則拒絕H0。比較標(biāo)準(zhǔn)正態(tài)分布、不同自由度的t分布和非對(duì)稱分布數(shù)據(jù)的箱線圖的特征,可以發(fā)現(xiàn):對(duì)于標(biāo)準(zhǔn)正態(tài)分布的大樣本,只有0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線圖的方盒關(guān)于中位線對(duì)稱。選取不同自由度的t分布的大樣本,代表對(duì)稱重尾分布,當(dāng)t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對(duì)稱分布的例子進(jìn)行分析,發(fā)現(xiàn)當(dāng)卡方分布的自由度越小,異常值出現(xiàn)于一側(cè)的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強(qiáng)。異常值集中在較小值一側(cè),則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側(cè),則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線圖的特征(樣本數(shù)據(jù)由SAS的隨機(jī)數(shù)生成函數(shù)自動(dòng)生成),驗(yàn)證了上述規(guī)律。這個(gè)規(guī)律揭示了數(shù)據(jù)批分布偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計(jì)的依據(jù)。(2)難點(diǎn)是秩檢驗(yàn),它適用于T檢驗(yàn)中的成對(duì)比較,但并不要求成對(duì)數(shù)據(jù)之差di服從正態(tài)分布,只要求對(duì)稱分布即可。檢驗(yàn)成對(duì)觀測(cè)數(shù)據(jù)之差是否來(lái)自均值為0的總體(產(chǎn)生數(shù)據(jù)的總體是否具有相同的均值)。7.1.教學(xué)過(guò)程主要通過(guò)講解方法,如何計(jì)算,判別。通過(guò)講解實(shí)際問(wèn)題來(lái)進(jìn)行分析求解。種子發(fā)芽問(wèn)題:設(shè)種子發(fā)芽率是80%,每穴播5粒,用X表示發(fā)芽的粒數(shù),求X的概率分布??赡苡械难ㄖ话l(fā)芽1粒,有的發(fā)芽3粒,有的發(fā)芽4?!此煞植?,葡萄干問(wèn)題:在蛋糕中添加葡萄干。把所有葡萄干揉入面團(tuán)中,按平均每塊蛋糕3粒葡萄干計(jì)算稱量面粉、葡萄干等原料后開始制作蛋糕。問(wèn)制做成的蛋糕每塊含有的葡萄干數(shù)量的概率分布。有的蛋糕含有3粒葡萄干,有的可能含有5粒,有的可能只有一粒,有的可能沒(méi)有。這兩個(gè)分布有一定的相似性。有的穴只發(fā)芽1粒,有的蛋糕只有一粒葡萄干,有的穴只發(fā)芽3粒,有的蛋糕有3粒葡萄干……圖形在MATLAB命令控制臺(tái)輸入disttool可以打開交互式經(jīng)驗(yàn)分布函數(shù)圖工具。當(dāng)二項(xiàng)分布的參數(shù)p=0.5時(shí),概率分布圖是對(duì)稱的發(fā)芽率為0.8時(shí),圖形為:泊松分布只有一個(gè)參數(shù)λ,兩個(gè)分布,二項(xiàng)分布的np計(jì)算得到的數(shù)是個(gè)最有可能的平均數(shù),相當(dāng)于泊松分布的平均數(shù)λ。但是從上面的圖形來(lái)看,控制二項(xiàng)分布的參數(shù)n和p得到的概率分布圖樣子不一樣。奇怪的是,泊松分布圖只受制于一個(gè)參數(shù)λ,這個(gè)λ越大圖形就越對(duì)稱越好看:λ=30看來(lái)參數(shù)比較極端時(shí),都是向著正態(tài)分布看齊了。分布的檢驗(yàn),話說(shuō)很多情形都是泊松分布。比如單位體積的空氣含有的某種微粒的數(shù)目、單位面積上壞人的數(shù)量的分布、單位時(shí)間內(nèi)來(lái)到公共汽車站的乘客數(shù)目、單位面積上某種細(xì)菌的數(shù)量、單位質(zhì)量的米粒中含有的雜質(zhì)的數(shù)量、單位人群中患有某種特殊疾病的人數(shù),等等。另外還有可以用泊松分布近似的二項(xiàng)分布的各種情況(當(dāng)n很大,p很小,以至于np<4時(shí)可用泊松分布來(lái)近似二項(xiàng)分布)。盡管如此,有些時(shí)候也不能斷然認(rèn)為某觀測(cè)的總體符合泊松分布或者二項(xiàng)分布(或者其他分布,比如正態(tài)分布)。假設(shè)已經(jīng)有一組觀測(cè)的數(shù)據(jù),如何根據(jù)這些數(shù)據(jù)檢驗(yàn)是否符合某種分布?使用MATLAB的jbtest函數(shù)可以檢驗(yàn)大樣本(觀測(cè)值有30個(gè)以上)是否符合正態(tài)分布,對(duì)于小樣本數(shù)據(jù)使用Lilliefors檢驗(yàn)。其他的分布的檢驗(yàn),可以使用kstest函數(shù)來(lái)檢測(cè)。計(jì)算二項(xiàng)分布的累加概率的函數(shù)是:binocdf(X,N,P)泊松分布的累加分布函數(shù)是:poisscdf(X,LAMBDA)假設(shè)獲得的一組樣本觀測(cè)值為向量X,則檢驗(yàn)此總體是否符合二項(xiàng)分布的方法是:H=kstest(X,[Xbinocdf(X,N,P)])如果H=0表示不能拒絕原假設(shè)(即符合二項(xiàng)分布的假設(shè)),如果H=1表示拒絕原假設(shè),不符合二項(xiàng)分布。至于檢驗(yàn)泊松分布,則是:H=kstest(X,[Xpoisscdf(X,lambda)])仔細(xì)想想,會(huì)發(fā)現(xiàn)需要事先指定分布的參數(shù)。這個(gè)可能需要反復(fù)的試驗(yàn)。比如,平均數(shù),可以直接用樣本的平均數(shù)來(lái)試試。這里又引出了參數(shù)估計(jì)的問(wèn)題。最大似然估計(jì)的函數(shù):二項(xiàng)分布:[phat,pci]=mle('binomial',data,alpha,p1),p1為試驗(yàn)次數(shù)。data為樣本觀測(cè)數(shù)據(jù)(向量),alpha為置信水平(一般是0.05)。'poisson'是泊松分布的參數(shù)估計(jì)。直接用函數(shù):[p,pci]=binofit(X,N,alpha)也可以??梢韵惹髽颖镜钠骄鶖?shù)再除以試驗(yàn)次數(shù)N,就得到一個(gè)試驗(yàn)用的P。泊松分布的參數(shù)估計(jì):[lambda,lambdaci]=poissfit(X,alpha)??梢灾苯忧髽颖镜钠骄鶖?shù)當(dāng)成參數(shù)λ,檢驗(yàn)分布是否符合泊松分布。分布擬合檢驗(yàn)要對(duì)一組樣本進(jìn)行正態(tài)性檢驗(yàn),在MATLAB中,一種方法是用normplot畫出樣本,如果都分布在一條直線上,則表明樣本來(lái)自正態(tài)分布,否則是非正態(tài)分布。MATLAB中也提供了幾種更正式的檢驗(yàn)方法:kstestKolmogorov-Smirnov正態(tài)性檢驗(yàn),將樣本與標(biāo)準(zhǔn)正態(tài)分布(均值為0,方差為1)進(jìn)行對(duì)比,不符合正態(tài)分布返回1,否則返回0;該函數(shù)也可以用于其它分布類型的檢驗(yàn);lillietestLillieforstest。與kstest不同,檢驗(yàn)?zāi)繕?biāo)不是標(biāo)準(zhǔn)正態(tài),而是具有與樣本相同均值和方差的正態(tài)分布。jbtestJarque-Beratest。與Lillieforstest類似,但不適用于小樣本的情況7.1.(1)教學(xué)方法主要是通過(guò)舉例,引進(jìn)實(shí)例,然后把方法灌入,從而使學(xué)生知道該如何運(yùn)用已學(xué)的知識(shí)解決實(shí)際問(wèn)題,下面以箱線圖為例,箱線圖應(yīng)用舉例現(xiàn)有某直銷中心30名員工的工資測(cè)算數(shù)據(jù)兩批,第一批為工資調(diào)整前的數(shù)據(jù),第二批為工資調(diào)整后的數(shù)據(jù),繪出它們的箱線圖(如下圖),進(jìn)行比較,可以很容易地得出:工資調(diào)整前,總體水平在752元左右,四分位距為307.5,沒(méi)有異常值。經(jīng)過(guò)調(diào)整后,箱線圖顯示,第2、29、10、24、27號(hào)為溫和的異常值,第26、30、28號(hào)為極端的異常值。為什么會(huì)出現(xiàn)異常值呢?經(jīng)過(guò)進(jìn)一步分析知道,第2、29、10、24號(hào)員工由于技能強(qiáng)、工齡長(zhǎng)、積累貢獻(xiàn)大、表現(xiàn)較好,勞苦功高,理應(yīng)得到較高的報(bào)酬;第27、26、30、28號(hào)職工則因?yàn)榧寄芷?、工齡短、積累貢獻(xiàn)小且表現(xiàn)較差,得到的工資較低,甚至連一般水平也難以達(dá)到。這體現(xiàn)了工資調(diào)整的獎(jiǎng)優(yōu)罰劣原則。(2)對(duì)結(jié)果進(jìn)行分析。另外,調(diào)整后工資總體水平比調(diào)整前高出270元,四分位距為106,工資分布比調(diào)整前更加集中,在合適的范圍內(nèi)既拉開了差距,又不至于差距太懸殊,還針對(duì)特殊情況進(jìn)行了特殊處理。這種工資分布具有激勵(lì)作用,可以說(shuō)工資調(diào)整達(dá)到預(yù)期目的。箱線圖美中不足之處在于它不能提供關(guān)于數(shù)據(jù)分布偏態(tài)和尾重程度的精確度量;對(duì)于批量較大的數(shù)據(jù)批,箱線圖反映的形狀信息更加模糊;用中位數(shù)代表總體平均水平有一定的局限性等等。所以,應(yīng)用箱線圖最好結(jié)合其它描述統(tǒng)計(jì)工具如均值、標(biāo)準(zhǔn)差、偏度、分布函數(shù)等來(lái)描述數(shù)據(jù)批的分布形狀。7.1.本單元課后習(xí)題是第一章全部。課后反思查閱資料,了解切比雪夫不等式,最大似然估計(jì),切比雪夫(Chebyshev)不等式對(duì)于任一隨機(jī)變量X,若EX與DX均存在,則對(duì)任意ε>0,恒有P{|X-EX|>=ε}<=DX/ε^2或P{|X-EX|<ε}>=1-DX/ε^2切比雪夫不等式說(shuō)明,DX越小,則P{|X-EX|>=ε}越小,P{|X-EX|<ε}越大,也就是說(shuō),隨機(jī)變量X取值基本上集中在EX附近,這進(jìn)一步說(shuō)明了方差的意義。同時(shí)當(dāng)EX和DX已知時(shí),切比雪夫不等式給出了概率P{|X-EX|>=ε}的一個(gè)上界,該上界并不涉及隨機(jī)變X的具體概率分布,而只與其方差DX和ε有關(guān),因此,切比雪夫不等式在理論和實(shí)際中都有相當(dāng)廣泛的應(yīng)用。需要指出的是,雖然切比雪夫不等式應(yīng)用廣泛,但在一個(gè)具體問(wèn)題中,由它給出的概率上界通常比較保守。切比雪夫不等式是指在任何數(shù)據(jù)集中,與平均數(shù)超過(guò)K倍標(biāo)準(zhǔn)差的數(shù)據(jù)占的比例至多是1/K^2。在概率論中,切比雪夫不等式顯示了隨機(jī)變數(shù)的「幾乎所有」值都會(huì)「接近」平均。這個(gè)不等式以數(shù)量化這方式來(lái)描述,究竟「幾乎所有」是多少,「接近」又有多接近:與平均相差2個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多於1/4與平均相差3個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多於1/9與平均相差4個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多於1/16……與平均相差k個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多於1/k2。舉例說(shuō),若一班有36個(gè)學(xué)生,而在一次考試中,平均分是80分,標(biāo)準(zhǔn)差是10分,我們便可得出結(jié)論:少於50分(與平均相差3個(gè)標(biāo)準(zhǔn)差以上)的人,數(shù)目不多於4個(gè)(=36*1/9)。測(cè)度論說(shuō)法設(shè)(X,Σ,μ)為一測(cè)度空間,f為定義在X上的廣義實(shí)值可測(cè)函數(shù)。對(duì)於任意實(shí)數(shù)t>0,一般而言,若g是非負(fù)廣義實(shí)值可測(cè)函數(shù),在f的定義域非降,則有上面的陳述,可透過(guò)以|f|取代f,再取如下定義而得。最大似然法(MaximumLikelihood,ML)也稱為最大概似估計(jì),是一種具有理論性的點(diǎn)估計(jì)法,此方法的基本思想是:當(dāng)從模型總體隨機(jī)抽取n組樣本觀測(cè)值后,最合理的參數(shù)估計(jì)量應(yīng)該使得從模型中抽取該n組樣本觀測(cè)值的概率最大,而不是像最小二乘估計(jì)法旨在得到使得模型能最好地?cái)M合樣本數(shù)據(jù)的參數(shù)估計(jì)量。該方法在每組序列比對(duì)中考慮了每個(gè)核苷酸替換的概率。最大似然估計(jì)是一種統(tǒng)計(jì)方法,它用來(lái)求一個(gè)樣本集的相關(guān)概率密度函數(shù)的參數(shù)。這個(gè)方法最早是遺傳學(xué)家以及統(tǒng)計(jì)學(xué)家羅納德·費(fèi)雪爵士在1912年至1922年間開始使用的。最大似然法明確地使用概率模型,其目標(biāo)是尋找能夠以較高概率產(chǎn)生觀察數(shù)據(jù)的系統(tǒng)發(fā)生樹。最大似然法是一類完全基于統(tǒng)計(jì)的系統(tǒng)發(fā)生樹重建方法的代表。該方法在每組序列比對(duì)中考慮了每個(gè)核苷酸替換的概率。例如,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的三倍。在一個(gè)三條序列的比對(duì)中,如果發(fā)現(xiàn)其中有一列為一個(gè)C,一個(gè)T和一個(gè)G,我們有理由認(rèn)為,C和T所在的序列之間的關(guān)系很有可能更接近。由于被研究序列的共同祖先序列是未知的,概率的計(jì)算變得復(fù)雜;又由于可能在一個(gè)位點(diǎn)或多個(gè)位點(diǎn)發(fā)生多次替換,并且不是所有的位點(diǎn)都是相互獨(dú)立,概率計(jì)算的復(fù)雜度進(jìn)一步加大。盡管如此,還是能用客觀標(biāo)準(zhǔn)來(lái)計(jì)算每個(gè)位點(diǎn)的概率,計(jì)算表示序列關(guān)系的每棵可能的樹的概率。然后,根據(jù)定義,概率總和最大的那棵樹最有可能是反映真實(shí)情況的系統(tǒng)發(fā)生樹。信號(hào)功率譜密度估計(jì)方法之一。其原理是讓信號(hào)通過(guò)一個(gè)最大似然法濾波器,選擇濾波器的參數(shù)使所關(guān)心的頻率的正弦波信號(hào)能夠不失真地通過(guò),同時(shí),使所有其他頻率的正弦波通過(guò)這個(gè)濾波器后輸出的均方值最小。在這個(gè)條件下,信號(hào)經(jīng)過(guò)這個(gè)濾波器后輸出的均方值就作為其最大似然法功率譜估值??梢宰C明,如果信號(hào)x是由一個(gè)確定性信號(hào)S加上一個(gè)高斯白噪聲n所組成,則上述濾波器的輸出是信號(hào)S的最大似然估值,因此,稱為最大似然法。如果n不是高斯噪聲,則上述濾波器的輸出是信號(hào)S的最小方差的線性的無(wú)偏估值。7.1.課前主要是查閱了資料,深入了解了參數(shù)估計(jì),參數(shù)估計(jì)(parameterestimation)是根據(jù)從總體中抽取的樣本估計(jì)總體分布中包含的未知參數(shù)的方法。人們常常需要根據(jù)手中的數(shù)據(jù),分析或推斷數(shù)據(jù)反映的本質(zhì)規(guī)律。參數(shù)估計(jì)(parameterestimation)是根據(jù)從總體中抽取的樣本估計(jì)總體分布中包含的未知參數(shù)的方法。人們常常需要根據(jù)手中的數(shù)據(jù),分析或推斷數(shù)據(jù)反映的本質(zhì)規(guī)律。即根據(jù)樣本數(shù)據(jù)如何選擇統(tǒng)計(jì)量去推斷總體的分布或數(shù)字特征等。統(tǒng)計(jì)推斷是數(shù)理統(tǒng)計(jì)研究的核心問(wèn)題。所謂統(tǒng)計(jì)推斷是指根據(jù)樣本對(duì)總體分布或分布的數(shù)字特征等作出合理的推斷。它是統(tǒng)計(jì)推斷的一種基本形式,是數(shù)理統(tǒng)計(jì)學(xué)的一個(gè)重要分支,分為點(diǎn)估計(jì)和區(qū)間估計(jì)兩部分。當(dāng)估計(jì)值的數(shù)學(xué)期望等于參數(shù)真值時(shí),參數(shù)估計(jì)就是無(wú)偏估計(jì)。當(dāng)估計(jì)值是數(shù)據(jù)的線性函數(shù)時(shí),參數(shù)估計(jì)就是線性估計(jì)。當(dāng)估計(jì)值的均方差最小時(shí),參數(shù)估計(jì)為一致最小均方誤差估計(jì)。若線性估計(jì)又是一致最小均方誤差估計(jì),則稱為最優(yōu)線性無(wú)偏估計(jì)。如果無(wú)偏估計(jì)值的方差達(dá)到克拉默-堯不等式的下界,則稱為有效估計(jì)值。若,則稱為一致性估計(jì)值。在一定條件下,最小二乘估計(jì)是最優(yōu)線性無(wú)偏估計(jì),它的估計(jì)值是有效估計(jì),而且是一致性估計(jì)。極大似然估計(jì)在一定條件下漸近有效,而且是一致的。尋求最小二乘估計(jì)和極大似然估計(jì)的常用方法是將準(zhǔn)則對(duì)參數(shù)θ求導(dǎo)數(shù),計(jì)算梯度,因而要使用最優(yōu)化的方法:梯度法、變尺度法、單純形搜索法、牛頓-拉夫森法等。7.1.王松桂(線性統(tǒng)計(jì)模型)第一章,謝衷潔(時(shí)間序列分析)5-7頁(yè)。7.2教學(xué)單元二7.2.1教學(xué)日期:第二周周一、周四7.2.(1)了解并掌握符號(hào)檢驗(yàn)。本單元主要是學(xué)習(xí)成隊(duì)分組設(shè)計(jì)下兩種處理方法的比較,多種處理方法比較的Kruskal-Wallis檢驗(yàn)、分組設(shè)計(jì)下多種處理方法的比較,目標(biāo)是讓學(xué)生掌握這些方法,會(huì)處理實(shí)際問(wèn)題,最大似然法是一類完全基于統(tǒng)計(jì)的系統(tǒng)發(fā)生樹重建方法的代表。該方法在每組序列比對(duì)中考慮了每個(gè)核苷酸替換的概率。例如,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的三倍。(2)掌握Wilcoxon秩和檢驗(yàn)。在一個(gè)三條序列的比對(duì)中,如果發(fā)現(xiàn)其中有一列為一個(gè)C,一個(gè)T和一個(gè)G,我們有理由認(rèn)為,C和T所在的序列之間的關(guān)系很有可能更接近。由于被研究序列的共同祖先序列是未知的,概率的計(jì)算變得復(fù)雜;又由于可能在一個(gè)位點(diǎn)或多個(gè)位點(diǎn)發(fā)生多次替換,并且不是所有的位點(diǎn)都是相互獨(dú)立,概率計(jì)算的復(fù)雜度進(jìn)一步加大。(3)了解Friedman檢驗(yàn)。盡管如此,還是能用客觀標(biāo)準(zhǔn)來(lái)計(jì)算每個(gè)位點(diǎn)的概率,計(jì)算表示序列關(guān)系的每棵可能的樹的概率。然后,根據(jù)定義,概率總和最大的那棵樹最有可能是反映真實(shí)情況的系統(tǒng)發(fā)生樹。信號(hào)功率譜密度估計(jì)方法之一。其原理是讓信號(hào)通過(guò)一個(gè)最大似然法濾波器,選擇濾波器的參數(shù)使所關(guān)心的頻率的正弦波信號(hào)能夠不失真地通過(guò),同時(shí),使所有其他頻率的正弦波通過(guò)這個(gè)濾波器后輸出的均方值最小。在這個(gè)條件下,信號(hào)經(jīng)過(guò)這個(gè)濾波器后輸出的均方值就作為其最大似然法功率譜估值。7.2.(1)本單元重點(diǎn)是成隊(duì)分組設(shè)計(jì)下兩種處理方法的比較。是利用秩實(shí)現(xiàn)對(duì)多個(gè)總體分布是否存在顯著差異的非參數(shù)檢驗(yàn)方法,其原假設(shè)是:多個(gè)配對(duì)樣本來(lái)自的多個(gè)總體分布無(wú)顯著差異。Friedman檢驗(yàn)是利用秩實(shí)現(xiàn)對(duì)多個(gè)總體分布是否存在顯著差異的非參數(shù)檢驗(yàn)方法,其原假設(shè)是:多個(gè)配對(duì)樣本來(lái)自的多個(gè)總體分布無(wú)顯著差異。SPSS將自動(dòng)計(jì)算Friedman統(tǒng)計(jì)量和對(duì)應(yīng)的概率P值。基于上述基本思路,多配對(duì)樣本的Friedman檢驗(yàn)時(shí),首先以行為單位將數(shù)據(jù)按升序排序,并求得各變量值在各自行中的秩;然后,分別計(jì)算各組樣本下的秩總和與平均秩。Friedman檢驗(yàn)是利用秩實(shí)現(xiàn)對(duì)多個(gè)總體分布是否存在顯著差異的非參數(shù)檢驗(yàn)方法,其原假設(shè)是:多個(gè)配對(duì)樣本來(lái)自的多個(gè)總體分布無(wú)顯著差異。SPSS將自動(dòng)計(jì)算Friedman統(tǒng)計(jì)量和對(duì)應(yīng)的概率P值。如果概率P值小于給定的顯著性水平0.05,則拒絕原假設(shè),認(rèn)為各組樣本的秩存在顯著差異,多個(gè)配對(duì)樣本來(lái)自的多個(gè)總體的分布有顯著差異;反之,則不能拒絕原假設(shè),可以認(rèn)為各組樣本的秩不存在顯著性差異?;谏鲜龌舅悸罚嗯鋵?duì)樣本的Friedman檢驗(yàn)時(shí),首先以行為單位將數(shù)據(jù)按升序排序,并求得各變量值在各自行中的秩;然后,分別計(jì)算各組樣本下的秩總和與平均秩。多配對(duì)樣本的Friedman檢驗(yàn)適于對(duì)定距型數(shù)據(jù)的分析??ǚ椒植迹歉怕收撆c統(tǒng)計(jì)學(xué)中常用的一種概率分布。k個(gè)獨(dú)立的標(biāo)準(zhǔn)正態(tài)分布變量的平方和服從自由度為k的卡方分布??ǚ椒植际且环N特殊的伽瑪分布。假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算。由卡方分布延伸出來(lái)皮爾森卡方檢定常用于:(1)樣本某性質(zhì)的比例分布與總體理論分布的擬合優(yōu)度;(2)同一總體的兩個(gè)隨機(jī)變量是否獨(dú)立;(3)二或多個(gè)總體同一屬性的同素性檢定。若n個(gè)相互獨(dú)立的隨機(jī)變量ξ?、ξ?、……、ξn,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為χ2分布(chi-squaredistribution),其中參數(shù)n稱為自由度,自由度不同就是另一個(gè)χ2分布,正如正態(tài)分布中均值或方差不同就是另一個(gè)正態(tài)分布一樣。χ2分布的密度函數(shù)比較復(fù)雜這里就不給出了,同學(xué)們也不用去記了??ǚ椒植际怯烧龖B(tài)分布構(gòu)造而成的一個(gè)新的分布,這也正反映了前面所說(shuō)的正態(tài)分布的重要性。對(duì)于任意正整數(shù),自由度為的卡方分布是一個(gè)隨機(jī)變量的機(jī)率分布。χ2分布在一象限內(nèi),呈正偏態(tài)(右偏態(tài)),隨著參數(shù)n的增大,χ2分布趨近于正態(tài)分布。χ2分布的均值為自由度n,記為Eχ2=n,這里符號(hào)“E”表示對(duì)隨機(jī)變量求均值;χ2分布的方差為2倍的自由度(2n),記為Dχ2=2n,這里符號(hào)“D”表示對(duì)隨機(jī)變量求方差。從χ2分布的均值與方差可以看出,隨著自由度n的增大,χ2分布向正無(wú)窮方向延伸(因?yàn)榫祅越來(lái)越大),分布曲線也越來(lái)越低闊(因?yàn)榉讲?n越來(lái)越大)。χ2分布具有可加性:若有K個(gè)服從χ2分布且相互獨(dú)立的隨機(jī)變量,則它們之和仍是χ2分布,新的χ2分布的自由度為原來(lái)K個(gè)χ2分布自由度之和。表示為:χ2分布是連續(xù)分布,但有些離散分布也服從χ2分布,尤其在次數(shù)統(tǒng)計(jì)上非常廣泛。χ2分布不象正態(tài)分布那樣將所有正態(tài)分布的查表都轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布去查,在χ2分布中得對(duì)每個(gè)分布編制相應(yīng)的概率值,這通過(guò)χ2分布表中列出不同的自由度來(lái)表示,在χ2分布表中還需要如標(biāo)準(zhǔn)正態(tài)分布表中給出不同P值一樣,列出概率值,只不過(guò)這里的概率值是χ2值以上χ2分布曲線以下的概率。由于χ2分布概率表中要列出很多χ2分布的概率值,所以χ2分布中所給出的P值就不象標(biāo)準(zhǔn)正態(tài)分布中那樣給出了400個(gè)不同的P值,而只給出了有代表性的13個(gè)值,因此χ2分布概率表的精度就更差,不過(guò)給出了常用的幾個(gè)值,足夠在實(shí)際中使用了。查χ2分布概率表時(shí),按自由度及相應(yīng)的概率去找到對(duì)應(yīng)的χ2值。如上圖所示的單側(cè)概率χ20.05(7)=14.1的查表方法就是,在第一列找到自由度7這一行,在第一行中找到概率0.05這一列,行列的交叉處即是14.1。(2)難點(diǎn)是分組設(shè)計(jì)下多種處理方法的比較,僅做了解。7.2.主要以舉實(shí)例的方法進(jìn)行學(xué)習(xí),下面以符號(hào)檢驗(yàn)為例。符號(hào)檢驗(yàn)(SINGTEST)符號(hào)檢驗(yàn)(SINGTEST)是利用正號(hào)和負(fù)號(hào)的數(shù)目某假設(shè)做出判定的非參數(shù)方法。符號(hào)檢驗(yàn)雖然是最簡(jiǎn)單的非參數(shù)檢驗(yàn),但它體現(xiàn)了非參數(shù)統(tǒng)計(jì)的一些基本思路.首先看一個(gè)例子。聯(lián)合國(guó)人員在世界上66個(gè)大城市的生活花費(fèi)指數(shù)(以紐約市某年為100)按自小至大的次序排列如下(這里北京的指數(shù)為99):66757880818182838383838485858686868687878888888888898989899090919191919293939696969799100101102103103104104104105106109109110110110111113115116117118155192這個(gè)總體的中間水平是多少?北京使在該水平之上還是之下?(北京為99)可以假定這個(gè)樣本是從世界許多大城市中隨機(jī)抽樣而得的所有大城市的指數(shù)組成總體.可能出現(xiàn)的問(wèn)題是:這個(gè)總體的平均(或者中間)水平是多少?北京是在該水平之上還是之下?這里的平均(或中間)水平是一個(gè)位置參數(shù)。一般的統(tǒng)計(jì)書中的均值就是一個(gè)位置參數(shù)。中位數(shù)是另一個(gè)位置參數(shù)。它們都是數(shù)據(jù)總體中心位置的度量和位置參數(shù)相對(duì)的一個(gè)參數(shù)為尺度參數(shù);比如在標(biāo)準(zhǔn)統(tǒng)計(jì)課本中的描述數(shù)據(jù)集中和分散程度的方差或標(biāo)準(zhǔn)差。這個(gè)例子經(jīng)過(guò)簡(jiǎn)單計(jì)算,得到樣本均值為96.45,而樣本中位數(shù)為91;它們都可作為總體的中心的估計(jì),除此之外,眾數(shù)(頻率最大的點(diǎn),本例是88)可作為中間位置.通常在正態(tài)總體分布的假設(shè)下,關(guān)于總體均值的假設(shè)檢驗(yàn)和區(qū)間估計(jì)是用與t檢驗(yàn)有關(guān)的方法進(jìn)行的。然而,在本例中,總體分布是未知的為此首先看該數(shù)據(jù)的直方圖從圖中很難說(shuō)這是什么分布。在右邊的兩個(gè)點(diǎn)分別是東京和香港。假定用總體中位數(shù)來(lái)表示中間位置,著意味著樣本點(diǎn),取大于M的的概率應(yīng)該與取小于M的概率相等。所研究的問(wèn)題,可以看作是只有兩種可能“成功”或“失敗”。成功為“+”,即大于中位數(shù)M;失敗為“-”,即小于中位數(shù)M。令S+=得正符號(hào)的數(shù)目S—=得負(fù)符號(hào)得數(shù)目可以知道S+或S—均服從二項(xiàng)分布B(66,0.5)。則和可以用來(lái)作檢驗(yàn)的統(tǒng)計(jì)量。對(duì)于左側(cè)檢驗(yàn):;:,當(dāng)零假設(shè)為真的下,應(yīng)該不大不小。當(dāng)過(guò)小,即只有少數(shù)的觀測(cè)值大于,則可能太大,目前總體的中位數(shù)可能要小一些。如果,則拒絕原假設(shè)。對(duì)于右側(cè)檢驗(yàn):;:,當(dāng)零假設(shè)為真的下,應(yīng)該不大不小。當(dāng)過(guò)大,即有多數(shù)的觀測(cè)值大于,則可能太小,目前總體的中位數(shù)可能要大一些。如果,則拒絕原假設(shè)。雙側(cè)檢驗(yàn)對(duì)備擇假設(shè)H1來(lái)說(shuō)關(guān)心的是等于正的次數(shù)是否與等于負(fù)的次數(shù)有差異。所以當(dāng)小于顯著性水平則拒絕原假設(shè)。我們來(lái)看上面的例:備擇檢驗(yàn):M<99。一般來(lái)說(shuō),備擇假設(shè)采用我們覺(jué)得有道理的方向。因?yàn)橹挥幸稽c(diǎn)為99,舍去這一點(diǎn),于是從66減少到65。而=23,在零假設(shè)下(下面概率p=0.5),二項(xiàng)分布的概率:。如果很小就可以拒絕零假設(shè).上面這個(gè)概率就是該檢驗(yàn)的p—值。在這里的例子中n=65,k=23,p=0.5。查表p值為0.0124。也就是說(shuō),在零假設(shè)下,目前由該樣本所代表的事件的發(fā)生的概率僅為0.0124,所以不大可能。也就是說(shuō),北京的生活指數(shù)(99)不可能小于世界大城市的中間水準(zhǔn).對(duì)于雙邊假設(shè)檢驗(yàn),為計(jì)算方便,一般取相應(yīng)于和中較小的一個(gè)做檢驗(yàn)統(tǒng)計(jì)量;如用K表示,則K=min(,)。在本例子中,因?yàn)槭请p邊檢驗(yàn),這P值應(yīng)該二倍于單側(cè)檢驗(yàn)的。為0.0248。7.2.(1)主要以分析實(shí)例為主。表中所給值直接只能查單側(cè)概率值,可以變化一下來(lái)查雙側(cè)概率值。例如,要在自由度為章7的卡方分布中,得到雙側(cè)概率為0.05所對(duì)應(yīng)的上下端點(diǎn)可以這樣來(lái)考慮:雙側(cè)概率指的是在上端和下端各劃出概率相等的一部分,兩概率之和為給定的概率值,這里是0.05,因此實(shí)際上上端點(diǎn)以上的概率為0.05/2=0.025,用概率0.025查表得上端點(diǎn)的值為16,記為χ20.05/2(7)=16。下端點(diǎn)以下的概率也為0.025,因此可以用0.975查得下端點(diǎn)為1.69,記為χ21-0.05/2(7)=1.69。當(dāng)然也可以按自由度及χ2值去查對(duì)應(yīng)的概率值,不過(guò)這進(jìn)往往只能得到一個(gè)大概的結(jié)果,因?yàn)棣?分布概率表的精度有限,只給了13個(gè)不同的概率值進(jìn)行查表。例如,要在自由度為18的χ2分布查找χ2=30對(duì)應(yīng)的概率,則先在第一列找到自由度18,然后看這一行可以發(fā)現(xiàn)與30接近的有28.9與31.5,它們所在的列是0.05與0.025,所以要查的概率值應(yīng)于介于0.05與0.025之間,當(dāng)然這是單側(cè)概率值,它們的雙側(cè)概率值界于0.1與0.05之間。如果要更精確一些可以采用插值的方法得到,這在正態(tài)分布的查表中有介紹。(2)借助概率論的知識(shí)進(jìn)一步分析。為什么從正態(tài)總體中抽取出的樣本的方差服從χ2分布在抽樣分布理論一節(jié)里講到,從正態(tài)總體進(jìn)行一次抽樣就相當(dāng)于獨(dú)立同分布的n個(gè)正態(tài)隨機(jī)變量ξ1,ξ2,…,ξn的一次取值,將n個(gè)隨機(jī)變量針對(duì)總體均值與方差進(jìn)行標(biāo)準(zhǔn)化得(i=1,…,n),顯然每個(gè)都是服從標(biāo)準(zhǔn)正態(tài)分布的,因此按照χ2分布的定義,應(yīng)該服從參數(shù)為n的χ2分布。7.2.作業(yè)為第二章課后2.1-2.10,反思查閱資料,了解f分布,t分布,大數(shù)定律,中心極限定理,F(xiàn)檢驗(yàn)(F-test),最常用的別名叫做聯(lián)合假設(shè)檢驗(yàn),是一種在零假設(shè)之下,統(tǒng)計(jì)值服從F-分布的檢驗(yàn),通常用來(lái)分析用了超過(guò)一個(gè)參數(shù)的統(tǒng)計(jì)模型,以判斷該模型中的全部或一部參數(shù)是否適合用來(lái)估計(jì)母體。F檢驗(yàn)法是英國(guó)統(tǒng)計(jì)學(xué)家Fisher提出的,主要通過(guò)比較兩組數(shù)據(jù)的方差S^2,以確定他們的精密度是否有顯著性差異。至于兩組數(shù)據(jù)之間是否存在系統(tǒng)誤差,則在進(jìn)行F檢驗(yàn)并確定它們的精密度沒(méi)有顯著性差異之后,再進(jìn)行t檢驗(yàn)。t檢驗(yàn),亦稱學(xué)生t檢驗(yàn)(英語(yǔ):Student'st-test)是指零假設(shè)成立時(shí)的任一檢定統(tǒng)計(jì)有學(xué)生t-分布的統(tǒng)計(jì)假說(shuō)檢定,屬于母數(shù)統(tǒng)計(jì)。學(xué)生t檢驗(yàn)常作為檢驗(yàn)一群來(lái)自常態(tài)分配母體的獨(dú)立樣本之期望值的是否為某一實(shí)數(shù),或是二群來(lái)自常態(tài)分配母體的獨(dú)立樣本之期望值的差是否為某一實(shí)數(shù)。t檢驗(yàn)是用t分布理論來(lái)推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著。它與z檢驗(yàn)、卡方檢驗(yàn)并列。t檢驗(yàn)是戈斯特為了觀測(cè)釀酒質(zhì)量而發(fā)明的。戈斯特在位于都柏林的健力士釀酒廠擔(dān)任統(tǒng)計(jì)學(xué)家,基于ClaudeGuinness聘用從牛津大學(xué)和劍橋大學(xué)出來(lái)的最好的畢業(yè)生以將生物化學(xué)及統(tǒng)計(jì)學(xué)應(yīng)用到健力士工業(yè)程序的創(chuàng)新政策。戈斯特于1908年在Biometrika上公布t檢驗(yàn),但因其老板認(rèn)為其為商業(yè)機(jī)密而被迫使用筆名(學(xué)生)。實(shí)際上,跟他合作過(guò)的統(tǒng)計(jì)學(xué)家是知道“學(xué)生”的真實(shí)身份是戈斯特的。t檢驗(yàn)t檢驗(yàn)分為單總體檢驗(yàn)和雙總體檢驗(yàn)。單總體t檢驗(yàn)是檢驗(yàn)一個(gè)樣本平均數(shù)與一個(gè)已知的總體平均數(shù)的差異是否顯著。當(dāng)總體分布是正態(tài)分布,如總體標(biāo)準(zhǔn)差未知且樣本容量小于30,那么樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計(jì)量呈t分布。單總體t檢驗(yàn)統(tǒng)計(jì)量為:雙總體t檢驗(yàn)是檢驗(yàn)兩個(gè)樣本平均數(shù)與其各自所代表的總體的差異是否顯著。雙總體t檢驗(yàn)又分為兩種情況,一是獨(dú)立樣本t檢驗(yàn),一是配對(duì)樣本t檢驗(yàn)。獨(dú)立樣本t檢驗(yàn)統(tǒng)計(jì)量為:S1和S2為兩樣本方差;n1和n2為兩樣本容量。1/n1-1/n2的話無(wú)法計(jì)算相同的樣本空間配對(duì)樣本t檢驗(yàn)統(tǒng)計(jì)量為:t檢驗(yàn)的適用條件(1)已知一個(gè)總體均數(shù);(2)可得到一個(gè)樣本均數(shù)及該樣本標(biāo)準(zhǔn)差;(3)樣本來(lái)自正態(tài)或近似正態(tài)總體。t檢驗(yàn)步驟以單總體t檢驗(yàn)為例說(shuō)明:問(wèn)題:難產(chǎn)兒出生體重n=35,=3.42,S=0.40,一般嬰兒出生體重μ0=3.30(大規(guī)模調(diào)查獲得),問(wèn)相同否?解:1.建立假設(shè)、確定檢驗(yàn)水準(zhǔn)αH0:μ=μ0(無(wú)效假設(shè),nullhypothesis)H1:μ≠μ0(備擇假設(shè),alternativehypothesis,)雙側(cè)檢驗(yàn),檢驗(yàn)水準(zhǔn):α=0.052.計(jì)算檢驗(yàn)統(tǒng)計(jì)量3.查相應(yīng)界值表,確定P值,下結(jié)論查附表1,t0.05/2.34=2.032,t<t0.05/2.34,P>0.05,按α=0.05水準(zhǔn),不拒絕H0,t檢驗(yàn)的來(lái)歷當(dāng)總體呈正態(tài)分布。如果總體標(biāo)準(zhǔn)差未知,而且樣本容量<30,那么這時(shí)一切可能的樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計(jì)量呈分布。檢驗(yàn)是用分布理論來(lái)推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著。檢驗(yàn)分為單總體檢驗(yàn)和雙總體檢驗(yàn)。1.單總體檢驗(yàn)單總體檢驗(yàn)是檢驗(yàn)一個(gè)樣本平均數(shù)與一已知的總體平均數(shù)的差異是否顯著。當(dāng)總體分布是正態(tài)分布,如總體標(biāo)準(zhǔn)差未知且樣本容量<30,那么樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計(jì)量呈分布。如果樣本是屬于大樣本(>30)也可寫成:在這里,為樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計(jì)量;為樣本平均數(shù);為總體平均數(shù);為樣本標(biāo)準(zhǔn)差;為樣本容量。7.2.要求查閱資料,了解中心極限定理。中心極限定理(centrallimittheorem)是概率論中討論隨機(jī)變量序列部分和分布漸近于正態(tài)分布的一類定理。這組定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的理論基礎(chǔ),指出了大量隨機(jī)變量積累分布函數(shù)逐點(diǎn)收斂到正態(tài)分布的積累分布函數(shù)的條件。它是概率論中最重要的一類定理,有廣泛的實(shí)際應(yīng)用背景。中心極限定理就是從數(shù)學(xué)上證明了這一現(xiàn)象。最早的中心極限定理是討論n重伯努利試驗(yàn)中。1716年前后,A.棣莫弗對(duì)n重伯努利試驗(yàn)中每次試驗(yàn)事件A出現(xiàn)的概率為1/2的情況進(jìn)行了討論,隨后,P.-S.拉普拉斯和A.M.李亞普諾夫等進(jìn)行了推廣和改進(jìn)。自P.萊維在1919~1925年系統(tǒng)地建立了特征函數(shù)理論起,中心極限定理的研究得到了很快的發(fā)展,先后產(chǎn)生了普遍極限定理和局部極限定理等。中心極限定理有著有趣的歷史。這個(gè)定理的第一版被法國(guó)數(shù)學(xué)家棣莫弗發(fā)現(xiàn),他在1733年發(fā)表的卓越論文中使用正態(tài)分布去估計(jì)大量拋擲硬幣出現(xiàn)正面次數(shù)的分布。這個(gè)超越時(shí)代的成果險(xiǎn)些被歷史遺忘,所幸著名法國(guó)數(shù)學(xué)家拉普拉斯在1812年發(fā)表的巨著中拯救了這個(gè)默默無(wú)名的理論.拉普拉斯擴(kuò)展了棣莫弗的理論,指出二項(xiàng)分布可用正態(tài)分布逼近。但同棣莫弗一樣,拉普拉斯的發(fā)現(xiàn)在當(dāng)時(shí)并未引起很大反響。直到十九世紀(jì)末中心極限定理的重要性才被世人所知。1901年,俄國(guó)數(shù)學(xué)家里雅普諾夫用更普通的隨機(jī)變量定義中心極限定理并在數(shù)學(xué)上進(jìn)行了精確的證明。如今,中心極限定理被認(rèn)為是(非正式地)概率論中的首席定理。7.2.李賢平(概率論基礎(chǔ))第二章,張堯庭(定性資料的統(tǒng)計(jì)分析)第一章。7.3教學(xué)單元三7.3.1教學(xué)日期:第三周周一、周四7.3.2教學(xué)目標(biāo)(1)掌握線性回歸模型及其矩陣表示。這一單元主要講的是:線性回歸模型、逐步回歸法,要求學(xué)生遇到實(shí)際問(wèn)題,會(huì)基于觀測(cè)數(shù)據(jù)建立變量間適當(dāng)?shù)南嚓P(guān)關(guān)系,一分析數(shù)據(jù)的內(nèi)在規(guī)律,并可用于預(yù)報(bào)、控制等問(wèn)題。還有就是逐步回歸法,當(dāng)回歸函數(shù)的類型選定為線性函數(shù)后,一個(gè)重要的問(wèn)題就是自變量的選取問(wèn)題。逐步回歸的基本思想是:對(duì)全部因子按其對(duì)y影響程度大?。ㄆ貧w平方的大?。瑥拇蟮叫〉匾来沃饌€(gè)地引入回歸方程,并隨時(shí)對(duì)回歸方程當(dāng)時(shí)所含的全部變量進(jìn)行檢驗(yàn),看其是否仍然顯著,如不顯著就將其剔除,知道回歸方程中所含的所有變量對(duì)y的作用都顯著是,才考慮引入新的變量。再在剩下的未選因子中,選出對(duì)y作用最大者,檢驗(yàn)其顯著性,顯著著,引入方程,不顯著,則不引入。直到最后再?zèng)]有顯著因子可以引入,也沒(méi)有不顯著的變量需要剔除為止。(2)了解逐步回歸法。從方法上講,逐步回歸分析并沒(méi)有采用什么新的理論,其原理還只是多元線性回歸的內(nèi)容,只是在具體計(jì)算方面利用一些技巧,逐步回歸分析時(shí)在考慮的全部自變量中按其對(duì)y的貢獻(xiàn)程度大小,由大到小地逐個(gè)引入回歸方程,而對(duì)那些對(duì)y作用不顯著的變量可能是中不被引入回歸方程。另外,已被引入回歸方程的變量在引入新變量進(jìn)行F檢驗(yàn)后失去重要性時(shí),需要從回歸方程中剔除出去。7.3.3教學(xué)內(nèi)容(含重點(diǎn)、難點(diǎn))(1)本單元重點(diǎn)是線性回歸模型。(multivariablelinearregressionmodel)在實(shí)際經(jīng)濟(jì)問(wèn)題中,一個(gè)變量往往受到多個(gè)變量的影響。例如,家庭消費(fèi)支出,除了受家庭可支配收入的影響外,還受諸如家庭所有的財(cái)富、物價(jià)水平、金融機(jī)構(gòu)存款利息等多種因素的影響。多元線性回歸模型的一般形式為,如下表達(dá)式,有多個(gè)變量,Yi=β0+β1X1i+β2X2i+…+βkXki+μii=1,2,…,n其中k為解釋變量的數(shù)目,βj(j=1,2,…,k)稱為回歸系數(shù)(regressioncoefficient)。上式也被稱為總體回歸函數(shù)的隨機(jī)表達(dá)式。它的非隨機(jī)表達(dá)式為E(Y∣X1i,X2i,…Xki,)=β0+β1X1i+β2X2i+…+βkXkiβj也被稱為偏回歸系數(shù)(partialregressioncoefficient)一元線性回歸是一個(gè)主要影響因素作為自變量來(lái)解釋因變量的變化,在現(xiàn)實(shí)問(wèn)題研究中,因變量的變化往往受幾個(gè)重要因素的影響,此時(shí)就需要用兩個(gè)或兩個(gè)以上的影響因素作為自變量來(lái)解釋因變量的變化,這就是多元回歸亦稱多重回歸。當(dāng)多個(gè)自變量與因變量之間是線性關(guān)系時(shí),所進(jìn)行的回歸分析就是多元性回歸。設(shè)y為因變量X1,X2…Xk為自變量,并且自變量與因變量之間為線性關(guān)系時(shí),則多元線性回歸模型為:Y=b0+b1x1+…+bkxk+e其中,0為常數(shù)項(xiàng),b1,b2…bk為回歸系數(shù),1為X1,X2…Xk固定時(shí),1每增加一個(gè)單位對(duì)y的效應(yīng),即1對(duì)y的偏回歸系數(shù);同理2為X1,X2…Xk固定時(shí),2每增加一個(gè)單位對(duì)y的效應(yīng),即,2對(duì)y的偏回歸系數(shù),等等。如果兩個(gè)自變量1,2同一個(gè)因變量y呈線相關(guān)時(shí),可用二元線性回歸模型描述為:=0+11+22+建立多元性回歸模型時(shí),為了保證回歸模型具有優(yōu)良的解釋能力和預(yù)測(cè)效果,應(yīng)首先注意自變量的選擇,其準(zhǔn)則是:(1)自變量對(duì)因變量必須有顯著的影響,并呈密切的線性相關(guān)。自變量與因變量之間的線性相關(guān)必須是真實(shí)的,而不是形式上的;(3)自變量之彰應(yīng)具有一定的互斥性,即自變量之間的相關(guān)程度不應(yīng)高于自變量與因變量之因的相關(guān)程度;(4)自變量應(yīng)具有完整的統(tǒng)計(jì)數(shù)據(jù),其預(yù)測(cè)值容易確定。多元性回歸模型的參數(shù)估計(jì),同一元線性回歸方程一樣,也是在要求誤差平方和(Σe)為最小的前提下,用最小二乘法求解參數(shù)。以二線性回歸模型為例,求解回歸參數(shù)的標(biāo)準(zhǔn)方程組為,解此方程可求得0,1,2的數(shù)值。亦可用下列矩陣法求得,在研究多項(xiàng)式回歸問(wèn)題時(shí),自變量可能是一組不同的變量或某些組合的變量。但這些自變量對(duì)因變量y的影響不盡相同,有些自變量的作用可以忽略,而保留與y有顯著關(guān)系的適度“好”的那部分自變量,這就屬于多元回歸分析中變量篩選問(wèn)題。(2)難點(diǎn)是逐步回歸法。下面將介紹的逐步回歸法,在變量篩選上是行之有效的數(shù)學(xué)方法。逐步回歸的基本思想是,從當(dāng)前在圈外的全部變量中,挑選其偏回歸平方和貢獻(xiàn)最大的變量,用方差比進(jìn)行顯著性檢驗(yàn)的辦法,判別是否選入;而當(dāng)前在圈內(nèi)的全部變量中,尋找偏回歸平方和貢獻(xiàn)最小的變量,用方差比進(jìn)行顯著性檢驗(yàn)的辦法,判別是否從回歸方程中剔除。選入和剔除循環(huán)反復(fù)進(jìn)行,直至圈外無(wú)符合條件的選入項(xiàng),圈內(nèi)無(wú)符合條件的剔除項(xiàng)為止。在逐步回歸計(jì)算中需要用到線性代數(shù)中的消去變換法進(jìn)行變量的選入。對(duì)選入變量的回歸系數(shù)進(jìn)行顯著性檢驗(yàn),剔除變量仍進(jìn)行F-檢驗(yàn)。經(jīng)過(guò)若干次選入變量和剔除變量之后,所有變量再?zèng)]有可入選或剔除的,選擇變量的步驟停止,整理資料,得出回歸方程。逐步回歸法由于剔除了不重要的變量,因此,無(wú)需求解一個(gè)很大階數(shù)的回歸方程,顯著提高了計(jì)算效率;又由于忽略了不重要的變量,避免了回歸方程中出現(xiàn)系數(shù)很小的變量而導(dǎo)致的回歸方程計(jì)算時(shí)出現(xiàn)病態(tài),得不到正確的解。在解決實(shí)際問(wèn)題時(shí),逐步回歸法是常用的行之有效的數(shù)學(xué)方法。7.3.4教學(xué)過(guò)程線性回歸是利用稱為線性回歸方程的最小二乘函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。分析按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。在統(tǒng)計(jì)學(xué)中,線性回歸(LinearRegression)是利用稱為線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個(gè)自變量的情況稱為簡(jiǎn)單回歸,大于一個(gè)自變量情況的叫做多元回歸。(這反過(guò)來(lái)又應(yīng)當(dāng)由多個(gè)相關(guān)的因變量預(yù)測(cè)的多元線性回歸區(qū)別,[引文需要],而不是一個(gè)單一的標(biāo)量變量。)回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。在線性回歸中,數(shù)據(jù)使用線性預(yù)測(cè)函數(shù)來(lái)建模,并且未知的模型參數(shù)也是通過(guò)數(shù)據(jù)來(lái)估計(jì)。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數(shù)。不太一般的情況,線性回歸模型可以是一個(gè)中位數(shù)或一些其他的給定X的條件下y的條件分布的分位數(shù)作為X的線性函數(shù)表示。像所有形式的回歸分析一樣,線性回歸也把焦點(diǎn)放在給定X值的y的條件概率分布,而不是X和y的聯(lián)合概率分布(多元分析領(lǐng)域)。線性回歸是回歸分析中第一種經(jīng)過(guò)嚴(yán)格研究并在實(shí)際應(yīng)用中廣泛使用的類型。這是因?yàn)榫€性依賴于其未知參數(shù)的模型比非線性依賴于其位置參數(shù)的模型更容易擬合,而且產(chǎn)生的估計(jì)的統(tǒng)計(jì)特性也更容易確定。線性回歸有很多實(shí)際用途。分為以下兩大類:如果目標(biāo)是預(yù)測(cè)或者映射,線性回歸可以用來(lái)對(duì)觀測(cè)數(shù)據(jù)集的和X的值擬合出一個(gè)預(yù)測(cè)模型。當(dāng)完成這樣一個(gè)模型以后,對(duì)于一個(gè)新增的X值,在沒(méi)有給定與它相配對(duì)的y的情況下,可以用這個(gè)擬合過(guò)的模型預(yù)測(cè)出一個(gè)y值。給定一個(gè)變量y和一些變量X1,...,Xp,這些變量有可能與y相關(guān),線性回歸分析可以用來(lái)量化y與Xj之間相關(guān)性的強(qiáng)度,評(píng)估出與y不相關(guān)的Xj,并識(shí)別出哪些Xj的子集包含了關(guān)于y的冗余信息。線性回歸模型經(jīng)常用最小二乘逼近來(lái)擬合,但他們也可能用別的方法來(lái)擬合,比如用最小化“擬合缺陷”在一些其他規(guī)范里(比如最小絕對(duì)誤差回歸),或者在橋回歸中最小化最小二乘損失函數(shù)的懲罰.相反,最小二乘逼近可以用來(lái)擬合那些非線性的模型.因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號(hào)的。數(shù)據(jù)組說(shuō)明線性回歸以一簡(jiǎn)單數(shù)據(jù)組來(lái)說(shuō)明什么是線性回歸。假設(shè)有一組數(shù)據(jù)型態(tài)為y=y(x),其中x={0,1,2,3,4,5},y={0,20,60,68,77,110}如果要以一個(gè)最簡(jiǎn)單的方程式來(lái)近似這組數(shù)據(jù),則用一階的線性方程式最為適合。先將這組數(shù)據(jù)繪圖如下,圖中的斜線是隨意假設(shè)一階線性方程式y(tǒng)=20x,用以代表這些數(shù)據(jù)的一個(gè)方程式。以下將上述繪圖的MATLAB指令列出,并計(jì)算這個(gè)線性方程式的y值與原數(shù)據(jù)y值間誤差平方的總合。輸入及結(jié)果,>>x=[012345];>>y=[020606877110];>>y1=20*x;%一階線性方程式的y1值>>sum_sq=sum((y-y1).^2);%誤差平方總和為573>>axis([-1,6,-20,120])>>plot(x,y1,x,y,'o'),title('Linearestimate'),grid如此任意的假設(shè)一個(gè)線性方程式并無(wú)根據(jù),如果換成其它人來(lái)設(shè)定就可能采用不同的線性方程式;所以必須要有比較精確方式?jīng)Q定理想的線性方程式??梢砸笳`差平方的總和為最小,做為決定理想的線性方程式的準(zhǔn)則,這樣的方法就稱為最小平方誤差(leastsquareserror)或是線性回歸。MATLAB的polyfit函數(shù)提供了從一階到高階多項(xiàng)式的回歸法,其語(yǔ)法為polyfit(x,y,n),其中x,y為輸入數(shù)據(jù)組n為多項(xiàng)式的階數(shù),n=1就是一階的線性回歸法。polyfit函數(shù)所建立的多項(xiàng)式可以寫成,從polyfit函數(shù)得到的輸出值就是上述的各項(xiàng)系數(shù),以一階線性回歸為例n=1,所以只有二個(gè)輸出值。如果指令為coef=polyfit(x,y,n),則coef(1)=,coef(2)=,...,coef(n+1)=。注意上式對(duì)n階的多項(xiàng)式會(huì)有n+1項(xiàng)的系數(shù)。看以下的線性回歸的示范:>>x=[012345];>>y=[020606877110];>>coef=polyfit(x,y,1);%coef代表線性回歸的二個(gè)輸出值,>>a0=coef(1);a1=coef(2);>>ybest=a0*x+a1;%由線性回歸產(chǎn)生的一階方程式>>sum_sq=sum((y-ybest).^2);%誤差平方總合為356.82>>axis([-1,6,-20,120])>>plot(x,ybest,x,y,'o'),title('Linearregressionestimate'),grid最小二乘法,一般來(lái)說(shuō),線性回歸都可以通過(guò)最小二乘法求出其方程,可以計(jì)算出對(duì)于y=bx+a的直線。7.3.5教學(xué)方法(1)給出軟件運(yùn)行的結(jié)果并加以分析。主要通過(guò)分析結(jié)果達(dá)到對(duì)知識(shí)的進(jìn)一步鞏固。理解回歸分析的結(jié)果,雖然不同的統(tǒng)計(jì)軟件可能會(huì)用不同的格式給出回歸的結(jié)果,但是它們的基本內(nèi)容是一致的。以STATA的輸出為例來(lái)說(shuō)明如何理解回歸分析的結(jié)果。在這個(gè)例子中,測(cè)試讀者的性別(gender),年齡(age),知識(shí)程度(know)與文檔的次序(noofdoc)對(duì)他們所覺(jué)得的文檔質(zhì)量(relevance)的影響。輸出:Source|SSdfMSNumberofobs=242,Model|14.006985543.50174637Prob>F=0.0283,Residual|300.2791722371.26700072R-squared=0.0446Total|314.2861572411.30409194RootMSE=1.1256,relevance|Coef.Std.Err.tP>|t|Beta,gender|-.2111061.1627241-1.300.196-.0825009,age|-.1020986.0486324-2.100.037-.1341841,know|.0022537.05352430.040.966.0026877,noofdoc|-.3291053.1382645-2.380.018-.1513428,_cons|7.3347571.0722466.840.000.。(2)總結(jié)。輸出,這個(gè)輸出包括以下幾部分。左上角給出方差分析表,右上角是模型擬合綜合參數(shù)。下方的表給出了具體變量的回歸系數(shù)。方差分析表對(duì)大部分的行為研究者來(lái)講不是很重要,不做討論。在擬合綜合參數(shù)中,R-squared表示因變量中多大的一部分信息可以被自變量解釋。在這里是4.46%,相當(dāng)小。7.3.6作業(yè)安排及課后反思本單元作業(yè)為第三章課后習(xí)題3.1-3.4,反思要求查閱資料,了解大數(shù)定律。概率論歷史上第一個(gè)極限定理屬于伯努利,后人稱之為“大數(shù)定律”。概率論中討論隨機(jī)變量序列的算術(shù)平均值向常數(shù)收斂的定律。概率論與數(shù)理統(tǒng)計(jì)學(xué)的基本定律之一,又稱弱大數(shù)理論。大數(shù)定律(lawoflargenumbers),又稱大數(shù)定理,是一種描述當(dāng)試驗(yàn)次數(shù)很大時(shí)所呈現(xiàn)的概率性質(zhì)的定律。但是注意到,雖然通常最常見(jiàn)的稱呼是大數(shù)“定律”,但是大數(shù)定律并不是經(jīng)驗(yàn)規(guī)律,而是嚴(yán)格證明了的定理。有些隨機(jī)事件無(wú)規(guī)律可循,但不少是有規(guī)律的,這些“有規(guī)律的隨機(jī)事件”在大量重復(fù)出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計(jì)特性,這個(gè)規(guī)律就是大數(shù)定律。確切的說(shuō)大數(shù)定律是以確切的數(shù)學(xué)形式表達(dá)了大量重復(fù)出現(xiàn)的隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律性,即頻率的穩(wěn)定性和平均結(jié)果的穩(wěn)定性,并討論了它們成立的條件。簡(jiǎn)單地說(shuō),大數(shù)定理就是“當(dāng)試驗(yàn)次數(shù)足夠多時(shí),事件發(fā)生的頻率無(wú)窮接近于該事件發(fā)生的概率”。該描述即貝努利大數(shù)定律。在隨機(jī)事件的大量重復(fù)出現(xiàn)中,往往呈現(xiàn)幾乎必然的規(guī)律,這個(gè)規(guī)律就是大數(shù)定律。通俗地說(shuō),這個(gè)定理就是,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率。比如,我們向上拋一枚硬幣,硬幣落下后哪一面朝上本來(lái)是偶然的,但當(dāng)我們上拋硬幣的次數(shù)足夠多后,達(dá)到上萬(wàn)次甚至幾十萬(wàn)幾百萬(wàn)次以后,我們就會(huì)發(fā)現(xiàn),硬幣每一面向上的次數(shù)約占總次數(shù)的二分之一。偶然中包含著某種必然。1733年,德莫佛—拉普拉斯在分布的極限定理方面走出了根本性的一步,證明了二項(xiàng)分布的極限分布是正態(tài)分布。拉普拉斯改進(jìn)了他的證明并把二項(xiàng)分布推廣為更一般的分布。1900年,李雅普諾夫進(jìn)一步推廣了他們的結(jié)論,并創(chuàng)立了特征函數(shù)法。這類分布極限問(wèn)題是當(dāng)時(shí)概率論研究的中心問(wèn)題,卜里耶為之命名“中心極限定理”。20世紀(jì)初,主要探討使中心極限定理成立的最廣泛的條件,二三十年代的林德貝爾格條件和費(fèi)勒條件是獨(dú)立隨機(jī)變量序列情形下的顯著進(jìn)展。伯努利是第一個(gè)研究這一問(wèn)題的數(shù)學(xué)家,他于1713年首先提出后人稱之為“大數(shù)定律”的極限定理。大數(shù)定律有若干個(gè)表現(xiàn)形式。這里僅介紹高等大學(xué)概率論要求的常用的三個(gè)重要定律:設(shè)x_1,x_2,...,x_n是一列兩兩相互獨(dú)立的隨機(jī)變量,服從同一分布,且存在有限的數(shù)學(xué)期望a和方差σ2,則對(duì)任意小的正數(shù)ε,滿足公式一,該定律的含義是:當(dāng)n很大,服從同一分布的隨機(jī)變量的算術(shù)平均數(shù)將依概率接近于這些隨機(jī)變量的數(shù)學(xué)期望。將該定律應(yīng)用于抽樣調(diào)查,就會(huì)有如下結(jié)論:隨著樣本容量n的增加,樣本平均數(shù)將接近于總體平均數(shù)。從而為統(tǒng)計(jì)推斷中依據(jù)樣本平均數(shù)估計(jì)總體平均數(shù)提供了理論依據(jù)。設(shè)μ是n次獨(dú)立試驗(yàn)中事件A發(fā)生的次數(shù),且事件A在每次試驗(yàn)中發(fā)生的概率為P,則對(duì)任意正數(shù)ε,有公式二,該定律是切貝雪夫大數(shù)定律的特例,其含義是,當(dāng)n足夠大時(shí),事件A出現(xiàn)的頻率將幾乎接近于其發(fā)生的概率,即頻率的穩(wěn)定性。在抽樣調(diào)查中,用樣本成數(shù)去估計(jì)總體成數(shù),其理論依據(jù)即在于此。設(shè){ai,i>=1}為獨(dú)立同分布的隨機(jī)變量序列,若Ai的數(shù)學(xué)期望存在,則服從大數(shù)定律:即對(duì)任意的ε>0,公式三成立。大數(shù)定律通俗一點(diǎn)來(lái)講,就是樣本數(shù)量很大的時(shí)候,樣本均值和真實(shí)均值充分接近。這一結(jié)論與中心極限定理一起,成為現(xiàn)代概率論、統(tǒng)計(jì)學(xué)、理論科學(xué)和社會(huì)科學(xué)的基石之一,重要性在本人看來(lái)甚至不弱于微積分。(有趣的是,雖然大數(shù)定律的表述和證明都依賴現(xiàn)代數(shù)學(xué)知識(shí),但其結(jié)論最早出現(xiàn)在微積分出現(xiàn)之前。而且在生活中,即使沒(méi)有微積分的知識(shí)也可以應(yīng)用。例如,沒(méi)有學(xué)過(guò)微積分的學(xué)生也可以輕松利用excel或計(jì)算器計(jì)算樣本均值等統(tǒng)計(jì)量,從而應(yīng)用于社會(huì)科學(xué)。)7.3.7課前準(zhǔn)備情況及其他相關(guān)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論