《數(shù)據(jù)分析與處理》課程實施大綱_第1頁
《數(shù)據(jù)分析與處理》課程實施大綱_第2頁
《數(shù)據(jù)分析與處理》課程實施大綱_第3頁
《數(shù)據(jù)分析與處理》課程實施大綱_第4頁
《數(shù)據(jù)分析與處理》課程實施大綱_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《數(shù)據(jù)分析與處理》課程實施大綱1.教學(xué)理念20世紀以前在西方教育理論中占主導(dǎo)地位的教學(xué)觀是“教學(xué)是藝術(shù)”。但隨著20世紀以來科學(xué)思潮的影響,以及心理學(xué)特別是行為科學(xué)的發(fā)展,人們意識到,教學(xué)也是科學(xué)。即教學(xué)不僅有科學(xué)的基礎(chǔ),而且還可以用科學(xué)的方法來研究。于是,人們開始關(guān)注教學(xué)的哲學(xué)、心理學(xué)、社會學(xué)的理論基礎(chǔ),以及如何用觀察、實驗等科學(xué)的方法來研究教學(xué)問題。有效教學(xué)就是在這一背景下提出來的。有效教學(xué)的核心就是教學(xué)的效益,即什么樣的教學(xué)是有效的?是高效、低效還是無效?所謂“有效”,主要是指通過教師在一段時間的教學(xué)后,學(xué)生所獲得的具體進步或發(fā)展。教學(xué)有沒有效益,并不是指教師有沒有教完內(nèi)容或教得認不認真,而是指學(xué)生有沒有學(xué)到什么或?qū)W生學(xué)得好不好。如果學(xué)生不想學(xué)或者學(xué)了沒有收獲,即使教師教得再辛苦也是無效教學(xué)。同樣如果學(xué)生學(xué)得很辛苦,但沒有得到應(yīng)有的發(fā)展,也是無效或低效教學(xué)。2.課程介紹2.1課程的性質(zhì)數(shù)據(jù)分析是信息計算科學(xué)專業(yè)本科生重要的必修課,也適用于數(shù)理統(tǒng)計專業(yè)的本科生,主要內(nèi)容有:數(shù)據(jù)描述性分析、非參數(shù)方法、回歸分析、主成分分析、判別分析、聚類分析、時間序列分析、bayes統(tǒng)計分析和常用數(shù)據(jù)分析方法的sas,數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。在統(tǒng)計學(xué)領(lǐng)域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實或證偽。探索性數(shù)據(jù)分析是指為了形成值得假設(shè)的檢驗而對數(shù)據(jù)進行分析的一種方法,是對傳統(tǒng)統(tǒng)計學(xué)假設(shè)檢驗手段的補充。該方法由美國著名統(tǒng)計學(xué)家約翰·圖基(JohnTukey)命名。定性數(shù)據(jù)分析又稱為“定性資料分析”、“定性研究”或者“質(zhì)性研究資料分析”,是指對諸如詞語、照片、觀察結(jié)果之類的非數(shù)值型數(shù)據(jù)(或者說資料)的分析。excel作為常用的分析工具,可以實現(xiàn)基本的分析工作,在商業(yè)智能領(lǐng)域Cognos、Microstrategy、Brio、BO和Oracle以及國內(nèi)產(chǎn)品如北京永洪科技的YonghongZ-SuiteBI套件等。2.2課程在學(xué)科專業(yè)結(jié)構(gòu)中的地位、作用本課程主要是提高學(xué)生對統(tǒng)計方面的能力,和概率論可以結(jié)合在一起,數(shù)據(jù)分析行業(yè),在國外的發(fā)展已經(jīng)非常成熟,每年有上千億美元的市場份額。在國外,數(shù)據(jù)分析非常重要,在美國有專門的數(shù)據(jù)中心,為全國甚至全球的數(shù)據(jù)分析行業(yè)提供數(shù)據(jù)平臺,還有一些圖書館,專門設(shè)有數(shù)據(jù)分析,數(shù)據(jù)統(tǒng)計圖書收藏,為數(shù)據(jù)分析行業(yè)的從業(yè)人員提供查詢搜索平臺。在中國,數(shù)據(jù)分析工作正在被逐漸的受到重視,越來越多的人們意識到此項工作環(huán)節(jié)的重要性。08年4月份,經(jīng)中國資委審批、民政部備案后,中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會正式成立,這是數(shù)據(jù)分析行業(yè)內(nèi)唯一的協(xié)會,它的成立標志著中國數(shù)據(jù)分析行業(yè)在經(jīng)濟發(fā)展中的地位已經(jīng)被得到充分的認可,數(shù)據(jù)分析工作也會因此走向更加規(guī)范的發(fā)展軌道。在市場調(diào)查數(shù)據(jù)分析中,常用的分析方法有:描述性統(tǒng)計(包括集中趨勢分析、頻數(shù)分析、數(shù)據(jù)的分布、數(shù)據(jù)離散程度分析等)、回歸分析、主成分分析與因子分析、判別分析、聚類分析、時間序列分析以及常用數(shù)據(jù)分析方法。數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對收集來的大量一手和二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。綜上數(shù)據(jù)分析對于項目的實施具有重要的意義。2.3課程的前沿及發(fā)展趨勢這門課程的前沿是與計算機結(jié)合,實現(xiàn)更智能的電腦統(tǒng)計數(shù)據(jù),分析數(shù)據(jù),得出最合適的結(jié)果,在用統(tǒng)計分析方法研究多變量的課題時,變量個數(shù)太多就會增加課題的復(fù)雜性。人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個指標),重新組合成一組新的互相無關(guān)的綜合指標來代替原來的指標。主成分分析,是考察多個變量間相關(guān)性一種多元統(tǒng)計方法,研究如何通過少數(shù)幾個主成分來揭示多個變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān).通常數(shù)學(xué)上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經(jīng)典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個主成分。2.4學(xué)習(xí)本課程的必要性這門課程是概率論的后續(xù)之作,用更為精確的方法處理數(shù)據(jù),若果沒有了這門課程,學(xué)生將不知道如何真正分析數(shù)據(jù),處理數(shù)據(jù),數(shù)據(jù)分析是信息計算科學(xué)專業(yè)本科生重要的必修課,也適用于數(shù)理統(tǒng)計專業(yè)的本科生,主要內(nèi)容有:數(shù)據(jù)描述性分析、非參數(shù)方法、回歸分析、主成分分析、判別分析、聚類分析、時間序列分析、bayes統(tǒng)計分析和常用數(shù)據(jù)分析方法的sas,數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。在統(tǒng)計學(xué)領(lǐng)域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實或證偽。在市場調(diào)查數(shù)據(jù)分析中,常用的分析方法有:描述性統(tǒng)計(包括集中趨勢分析、頻數(shù)分析、數(shù)據(jù)的分布、數(shù)據(jù)離散程度分析等)、回歸分析、主成分分析與因子分析、判別分析、聚類分析、時間序列分析以及常用數(shù)據(jù)分析方法。數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對收集來的大量一手和二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。3.教師簡介4.先修課程概率論,高等代數(shù),數(shù)學(xué)分析5.課程目標5.1知識與技能方面主要是提高學(xué)生對于方法的掌握及運用,在遇到實際問題時會展開思考,統(tǒng)計,分析,處理,數(shù)理統(tǒng)計學(xué)的一個分支。如果在一個統(tǒng)計問題中,其總體分布不能用有限個實參數(shù)來刻畫,只能對它作一些諸如分布連續(xù)、有密度、具有某階矩等一般性的假定,則稱之為非參數(shù)統(tǒng)計問題。例如,檢驗“兩個總體有相同分布”這個假設(shè),若假定兩總體的分布分別為正態(tài)分布N(μ1,σ2)和N(μ2,σ2),則問題只涉及三個實參數(shù)μ1,μ2,σ2,這是參數(shù)統(tǒng)計問題。若只假定兩總體的分布為連續(xù),此外一無所知,問題涉及的分布不能用有限個實參數(shù)刻畫,則這是非參數(shù)統(tǒng)計問題。又如,估計總體分布的期望μ,若假定總體分布為正態(tài)N(μ,σ2),則問題是參數(shù)性的;若只假定總體分布的期望值存在,則問題是非參數(shù)性的。不過參數(shù)統(tǒng)計與非參數(shù)統(tǒng)計之間并沒有涇渭分明的界線。有的統(tǒng)計問題,從不同的角度,可以理解為參數(shù)性的,也可以理解為非參數(shù)性的。例如線性回歸(見回歸分析)問題,若關(guān)心的是估計回歸系數(shù),它只是有限個實參數(shù),因而可以看成是參數(shù)性的。但是,如果對隨機誤差的分布類型沒有作任何假定,則從問題的總體分布這個角度看,也可以看成是非參數(shù)性的。重要的非參數(shù)統(tǒng)計方法秩方法是基于秩統(tǒng)計量(見統(tǒng)計量)的一類重要的非參數(shù)統(tǒng)計方法。設(shè)有樣本X1,X2,…,Xn,把它們由小到大排列,若Xi在這個次序中占第Ri個位置(最小的占第1個位置),則稱Xi的秩為Ri(i=1,2,…,n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗"是一個有代表性的例子。5.2過程與方法方面次序統(tǒng)計量和U統(tǒng)計量在非參數(shù)統(tǒng)計中也有重要應(yīng)用。前者可用于估計總體分布的分位數(shù)(見概率分布)、檢驗兩總體有相同的分布及構(gòu)造連續(xù)總體分布的容忍限和容忍區(qū)間(見區(qū)間估計)等。后者主要用于構(gòu)造總體分布的數(shù)字特征的一致最小方差無偏估計(見點估計)及基于這種估計的假設(shè)檢驗。蘇聯(lián)數(shù)學(xué)家Α.Η.柯爾莫哥洛夫和Β.И.斯米爾諾夫在20世紀30年代的工作開辟了非參數(shù)統(tǒng)計的一個方面,他們的方法基于樣本X1,X2,…,Xn的經(jīng)驗分布函數(shù)Fn(x)(見樣本)。柯爾莫哥洛夫考察Fn(x)與理論分布F(x)的最大偏差墹n,當墹n超過一定限度時,否定這個理論分布F(x)。這就是柯爾莫哥洛夫檢驗。斯米爾諾夫則考察由兩個分布為F(x)和g(x)的總體中抽出的樣本X1,X2,…,Xm和Y1,Y2,…,Yn計算其經(jīng)驗分布Fm(x)和gn(x)的最大偏差墹mn,當墹mn超過一定限度時,否定“F與g相等”這個假設(shè)。這就是斯米爾諾夫檢驗。在非參數(shù)性估計方面,有關(guān)于估計分布的對稱中心、概率密度函數(shù)和回歸函數(shù)等比較重要的成果。非參數(shù)統(tǒng)計的特點非參數(shù)統(tǒng)計問題中對總體分布的假定要求的條件很寬,因而針對這種問題而構(gòu)造的非參數(shù)統(tǒng)計方法,不致因為對總體分布的假定不當而導(dǎo)致重大錯誤,所以它往往有較好的穩(wěn)健性(見穩(wěn)健統(tǒng)計),這是一個重要特點。但因為非參數(shù)統(tǒng)計方法需要照顧范圍很廣的分布,在某些情況下會導(dǎo)致其效率的降低。不過,近代理論證明了:一些重要的非參數(shù)統(tǒng)計方法。5.3情感、態(tài)度與價值觀方面我覺得對于學(xué)習(xí)數(shù)據(jù)分析與處理這門課程,需要足夠的勤奮,以及悟性,因為里面的內(nèi)容很多來源于數(shù)分分析,所以這門課是先修課,只有先學(xué)好了先修課,對這門課學(xué)起來才會輕松些,學(xué)好了這些專業(yè)課,對于提升自己是有很大幫助的,因為他們是很多工作的基礎(chǔ)。價值觀是指個人對客觀事物(包括人、物、事)及對自己的行為結(jié)果的意義、作用、效果和重要性的總體評價,是對什么是好的、是應(yīng)該的總看法,是推動并指引一個人采取決定和行動的原則、標準,是個性心理結(jié)構(gòu)的核心因素之一。它使人的行為帶有穩(wěn)定的傾向性。價值觀是人用于區(qū)別好壞,分辨是非及其重要性的心理傾向體系。它反映人對客觀事物的是非及重要性的評價,人不同于動物,動物只能被動適應(yīng)環(huán)境,人不僅能認識世界是什么、怎么樣和為什么,而且還知道應(yīng)該做什么、選擇什么,發(fā)現(xiàn)事物對自己的意義,設(shè)計自己,確定并實現(xiàn)奮斗目標。價值觀具有相對的穩(wěn)定性和持久性。在特定的時間、地點、條件下,人們的價值觀總是相對穩(wěn)定和持久的。比如,對某種事物的好壞總有一個看法和評價,在條件不變的情況下這種看法不會改變。但是,隨著人們的經(jīng)濟地位的改變,以及人生觀和世界觀的改變,這種價值觀也會隨之改變。6.課程內(nèi)容6.1課程的內(nèi)容概要本書主要介紹方法,處理數(shù)據(jù)的方法及手段,回歸分析(英語:RegressionAnalysis)是一種統(tǒng)計學(xué)上分析數(shù)據(jù)的方法,目的在于了解兩個或多個變量間是否相關(guān)、相關(guān)方向與強度,并建立數(shù)學(xué)模型以便觀察特定變量來預(yù)測研究者感興趣的變量?;貧w分析是建立因變量Y(或稱依變量,反應(yīng)變量)與自變量X(或稱獨變量,解釋變量)之間關(guān)系的模型。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。對具有相關(guān)關(guān)系的現(xiàn)象,擇一適當?shù)臄?shù)學(xué)關(guān)系式,用以說明一個或一組變量變動時,另一變量或一組變量平均變動的情況,這種關(guān)系式稱為回歸方程。關(guān)分析研究的是現(xiàn)象之間是否相關(guān)、相關(guān)的方向和密切程度,一般不區(qū)別自變量或因變量。而回歸分析則要分析現(xiàn)象之間相關(guān)的具體形式,確定其因果關(guān)系,并用數(shù)學(xué)模型來表現(xiàn)其具體關(guān)系。比如說,從相關(guān)分析中我們可以得知“質(zhì)量”和“用戶滿意度”變量密切相關(guān),但是這兩個變量之間到底是哪個變量受哪個變量的影響,影響程度如何,則需要通過回歸分析方法來確定。一般來說,回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實測數(shù)據(jù)來求解模型的各個參數(shù)。6.2教學(xué)重點、難點(1)本課程教學(xué)重點是因子分析,聚類分析,聚類分析(ClusterAnalysis),又稱群分析,是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計算機科學(xué),統(tǒng)計學(xué),生物學(xué)和經(jīng)濟學(xué)。將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。從統(tǒng)計學(xué)的觀點看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統(tǒng)計分析軟件包中,如SPSS、SAS等。從機器學(xué)習(xí)的角度講,簇相當于隱藏模式。聚類是搜索簇的無監(jiān)督學(xué)習(xí)過程。與分類不同,無監(jiān)督學(xué)習(xí)不依賴預(yù)先定義的類或帶類標記的訓(xùn)練實例,需要由聚類學(xué)習(xí)算法自動確定標記,而分類學(xué)習(xí)的實例或數(shù)據(jù)對象有類別標記。聚類是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。(2)教學(xué)難點是判別分析,判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。其基本原理是按照一定的判別準則,建立一個或多個判別函數(shù),用研究對象的大量資料確定判別函數(shù)中的待定系數(shù),并計算判別指標。據(jù)此即可確定某一樣本屬于何類。當?shù)玫揭粋€新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。6.3學(xué)時安排理論學(xué)時4第一周周一(數(shù)據(jù)的數(shù)字特征,數(shù)據(jù)的分布)周四(多元數(shù)據(jù)的數(shù)字特征與相關(guān)分析,兩種處理方法的秩檢驗)理論學(xué)時4第二周周一(成隊分組設(shè)計下兩種處理方法的比較,多種處理方法比較的Kruskal-Wallis檢驗)周四(分組設(shè)計下多種處理方法的比較)理論學(xué)時4第三周周一(線性回歸模型)周四(逐步回歸法)理論學(xué)時4第四周周一(Logistic回歸模型)周四(主成分分析)理論學(xué)時4第五周周一(因子分析)周四(距離判別)理論學(xué)時4第六周周一(Bayes判別)周四(第五章習(xí)題課)理論學(xué)時4第七周周一(距離與相似系數(shù))周四(譜系聚類法)理論學(xué)時4第八周周一(快速聚類法)周四(第六章習(xí)題課)7.課程實施7.1教學(xué)單元一7.1.1教學(xué)日期第一周周一、周四7.1.(1)掌握均值,方差,中位數(shù),極差。數(shù)據(jù)分析與處理這門學(xué)科主要是讓學(xué)生掌握處理分析數(shù)據(jù)的各種方法,本單元主要是學(xué)習(xí)數(shù)據(jù)的數(shù)字特征,數(shù)據(jù)的分布,多元數(shù)據(jù)的數(shù)字特征與相關(guān)分析,兩種處理方法的秩檢驗,威爾科克森符號秩檢驗(Wilcoxon'sSignRankTest)什么是威爾科克森符號秩檢驗它適用于T檢驗中的成對比較,但并不要求成對數(shù)據(jù)之差di服從正態(tài)分布,只要求對稱分布即可。(2)學(xué)會畫直方圖、莖葉圖、箱線圖。檢驗成對觀測數(shù)據(jù)之差是否來自均值為0的總體(產(chǎn)生數(shù)據(jù)的總體是否具有相同的均值)。威爾科克森符號秩檢驗的步驟正負符號檢驗和威爾科克森符號秩檢驗,都可看作是就成對觀察值而進行的參數(shù)方式的T檢驗的代用品,非參數(shù)檢驗具有無需對總體分布作假定的優(yōu)點,而就成對觀察值作的參數(shù)方式的T檢驗,必須假定有關(guān)的差別總體服從正態(tài)分布。(3)了解二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)。該方法具體步驟如下:第一步:求出成對觀測數(shù)據(jù)的差di,并將di的絕對值按大小順序編上等級(曼-惠特尼U檢驗)。第二步:等級編號完成以后恢復(fù)正負號,分別求出正等級之和T+和負等級之和T-,選擇T+和T-中較小的一個作為威爾科克森檢驗統(tǒng)計量T。第三步;作出判斷。根據(jù)顯著性水平α查附表,得到臨界值Tα,若T統(tǒng)計量T的均值和方差分別為:(n為成對觀測的個數(shù))(近似服從標準正態(tài)分布)若Z<-Zα(單側(cè))或Z<-Zα/2(雙側(cè)),則拒絕H0。7.1.(1)本單元的重點是均值,方差,極差,直方圖,莖葉圖,秩檢驗。莖葉圖(Stem-and-Leafdisplay)又稱“枝葉圖”,由統(tǒng)計學(xué)家約翰托奇(ArthurBowley)設(shè)計,它的思路是將數(shù)組中的數(shù)按位數(shù)進行比較,將數(shù)的大小基本不變或變化不大的位作為一個主干(莖),將變化大的位的數(shù)作為分枝(葉),列在主干的后面,這樣就可以清楚地看到每個主干后面的幾個數(shù),每個數(shù)具體是多少。莖葉圖是一個與直方圖相類似的特殊工具,但又與直方圖不同,莖葉圖保留原始資料的資訊,直方圖則失去原始資料的訊息。樣本中各數(shù)據(jù)與樣本平均數(shù)的差的平方和的平均數(shù)叫做樣本方差;樣本方差的算術(shù)平方根叫做樣本標準差。樣本方差和樣本標準差都是衡量一個樣本波動大小的量,樣本方差或樣本標準差越大,樣本數(shù)據(jù)的波動就越大。方差和標準差。方差和標準差是測算離散趨勢最重要、最常用的指標。方差是各變量值與其均值離差平方的平均數(shù),它是測算數(shù)值型數(shù)據(jù)離散程度的最重要的方法。標準差為方差的平方根,用S表示。標準差相應(yīng)的計算公式為標準差與方差不同的是,標準差和變量的計算單位相同,比方差清楚,因此很多時候我們分析的時候更多的使用的是標準差。全距(Range),又稱極差,是用來表示統(tǒng)計資料中的變異量數(shù)(measuresofvariation),其最大值與最小值之間的差距;即最大值減最小值后所得之數(shù)據(jù)。極差不能用作比較,單位不同;方差能用作比較,因為都是個比率。極差是指一組測量值內(nèi)最大值與最小值之差,又稱范圍誤差或全距,以R表示。它是標志值變動的最大范圍,它是測定標志變動的最簡單的指標。。移動極差(MovingRange)是其中的一種。極差沒有充分利用數(shù)據(jù)的信息,但計算十分簡單,僅適用樣本容量較?。╪<10)情況。直方圖(Histogram)又稱質(zhì)量分布圖、柱狀圖,是一種統(tǒng)計報告圖,也是表示資料變化情況的一種主要工具。直方圖由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。作直方圖的目的就是通過觀察圖的形狀,判斷生產(chǎn)過程是否穩(wěn)定,預(yù)測生產(chǎn)過程的質(zhì)量。威爾科克森符號秩檢驗(Wilcoxon'sSignRankTest)什么是威爾科克森符號秩檢驗它適用于T檢驗中的成對比較,但并不要求成對數(shù)據(jù)之差di服從正態(tài)分布,只要求對稱分布即可。檢驗成對觀測數(shù)據(jù)之差是否來自均值為0的總體(產(chǎn)生數(shù)據(jù)的總體是否具有相同的均值)。威爾科克森符號秩檢驗的步驟正負符號檢驗和威爾科克森符號秩檢驗,都可看作是就成對觀察值而進行的參數(shù)方式的T檢驗的代用品,非參數(shù)檢驗具有無需對總體分布作假定的優(yōu)點,而就成對觀察值作的參數(shù)方式的T檢驗,必須假定有關(guān)的差別總體服從正態(tài)分布。該方法具體步驟如下:第一步:求出成對觀測數(shù)據(jù)的差di,并將di的絕對值按大小順序編上等級(曼-惠特尼U檢驗)。第二步:等級編號完成以后恢復(fù)正負號,分別求出正等級之和T+和負等級之和T-,選擇T+和T-中較小的一個作為威爾科克森檢驗統(tǒng)計量T。第三步;作出判斷。根據(jù)顯著性水平α查附表,得到臨界值Tα,若T統(tǒng)計量T的均值和方差分別為:(n為成對觀測的個數(shù))(近似服從標準正態(tài)分布)若Z<-Zα(單側(cè))或Z<-Zα/2(雙側(cè)),則拒絕H0。比較標準正態(tài)分布、不同自由度的t分布和非對稱分布數(shù)據(jù)的箱線圖的特征,可以發(fā)現(xiàn):對于標準正態(tài)分布的大樣本,只有0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線圖的方盒關(guān)于中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對稱分布的例子進行分析,發(fā)現(xiàn)當卡方分布的自由度越小,異常值出現(xiàn)于一側(cè)的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強。異常值集中在較小值一側(cè),則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側(cè),則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線圖的特征(樣本數(shù)據(jù)由SAS的隨機數(shù)生成函數(shù)自動生成),驗證了上述規(guī)律。這個規(guī)律揭示了數(shù)據(jù)批分布偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計的依據(jù)。(2)難點是秩檢驗,它適用于T檢驗中的成對比較,但并不要求成對數(shù)據(jù)之差di服從正態(tài)分布,只要求對稱分布即可。檢驗成對觀測數(shù)據(jù)之差是否來自均值為0的總體(產(chǎn)生數(shù)據(jù)的總體是否具有相同的均值)。7.1.教學(xué)過程主要通過講解方法,如何計算,判別。通過講解實際問題來進行分析求解。種子發(fā)芽問題:設(shè)種子發(fā)芽率是80%,每穴播5粒,用X表示發(fā)芽的粒數(shù),求X的概率分布??赡苡械难ㄖ话l(fā)芽1粒,有的發(fā)芽3粒,有的發(fā)芽4?!此煞植?,葡萄干問題:在蛋糕中添加葡萄干。把所有葡萄干揉入面團中,按平均每塊蛋糕3粒葡萄干計算稱量面粉、葡萄干等原料后開始制作蛋糕。問制做成的蛋糕每塊含有的葡萄干數(shù)量的概率分布。有的蛋糕含有3粒葡萄干,有的可能含有5粒,有的可能只有一粒,有的可能沒有。這兩個分布有一定的相似性。有的穴只發(fā)芽1粒,有的蛋糕只有一粒葡萄干,有的穴只發(fā)芽3粒,有的蛋糕有3粒葡萄干……圖形在MATLAB命令控制臺輸入disttool可以打開交互式經(jīng)驗分布函數(shù)圖工具。當二項分布的參數(shù)p=0.5時,概率分布圖是對稱的發(fā)芽率為0.8時,圖形為:泊松分布只有一個參數(shù)λ,兩個分布,二項分布的np計算得到的數(shù)是個最有可能的平均數(shù),相當于泊松分布的平均數(shù)λ。但是從上面的圖形來看,控制二項分布的參數(shù)n和p得到的概率分布圖樣子不一樣。奇怪的是,泊松分布圖只受制于一個參數(shù)λ,這個λ越大圖形就越對稱越好看:λ=30看來參數(shù)比較極端時,都是向著正態(tài)分布看齊了。分布的檢驗,話說很多情形都是泊松分布。比如單位體積的空氣含有的某種微粒的數(shù)目、單位面積上壞人的數(shù)量的分布、單位時間內(nèi)來到公共汽車站的乘客數(shù)目、單位面積上某種細菌的數(shù)量、單位質(zhì)量的米粒中含有的雜質(zhì)的數(shù)量、單位人群中患有某種特殊疾病的人數(shù),等等。另外還有可以用泊松分布近似的二項分布的各種情況(當n很大,p很小,以至于np<4時可用泊松分布來近似二項分布)。盡管如此,有些時候也不能斷然認為某觀測的總體符合泊松分布或者二項分布(或者其他分布,比如正態(tài)分布)。假設(shè)已經(jīng)有一組觀測的數(shù)據(jù),如何根據(jù)這些數(shù)據(jù)檢驗是否符合某種分布?使用MATLAB的jbtest函數(shù)可以檢驗大樣本(觀測值有30個以上)是否符合正態(tài)分布,對于小樣本數(shù)據(jù)使用Lilliefors檢驗。其他的分布的檢驗,可以使用kstest函數(shù)來檢測。計算二項分布的累加概率的函數(shù)是:binocdf(X,N,P)泊松分布的累加分布函數(shù)是:poisscdf(X,LAMBDA)假設(shè)獲得的一組樣本觀測值為向量X,則檢驗此總體是否符合二項分布的方法是:H=kstest(X,[Xbinocdf(X,N,P)])如果H=0表示不能拒絕原假設(shè)(即符合二項分布的假設(shè)),如果H=1表示拒絕原假設(shè),不符合二項分布。至于檢驗泊松分布,則是:H=kstest(X,[Xpoisscdf(X,lambda)])仔細想想,會發(fā)現(xiàn)需要事先指定分布的參數(shù)。這個可能需要反復(fù)的試驗。比如,平均數(shù),可以直接用樣本的平均數(shù)來試試。這里又引出了參數(shù)估計的問題。最大似然估計的函數(shù):二項分布:[phat,pci]=mle('binomial',data,alpha,p1),p1為試驗次數(shù)。data為樣本觀測數(shù)據(jù)(向量),alpha為置信水平(一般是0.05)。'poisson'是泊松分布的參數(shù)估計。直接用函數(shù):[p,pci]=binofit(X,N,alpha)也可以。可以先求樣本的平均數(shù)再除以試驗次數(shù)N,就得到一個試驗用的P。泊松分布的參數(shù)估計:[lambda,lambdaci]=poissfit(X,alpha)??梢灾苯忧髽颖镜钠骄鶖?shù)當成參數(shù)λ,檢驗分布是否符合泊松分布。分布擬合檢驗要對一組樣本進行正態(tài)性檢驗,在MATLAB中,一種方法是用normplot畫出樣本,如果都分布在一條直線上,則表明樣本來自正態(tài)分布,否則是非正態(tài)分布。MATLAB中也提供了幾種更正式的檢驗方法:kstestKolmogorov-Smirnov正態(tài)性檢驗,將樣本與標準正態(tài)分布(均值為0,方差為1)進行對比,不符合正態(tài)分布返回1,否則返回0;該函數(shù)也可以用于其它分布類型的檢驗;lillietestLillieforstest。與kstest不同,檢驗?zāi)繕瞬皇菢藴收龖B(tài),而是具有與樣本相同均值和方差的正態(tài)分布。jbtestJarque-Beratest。與Lillieforstest類似,但不適用于小樣本的情況7.1.(1)教學(xué)方法主要是通過舉例,引進實例,然后把方法灌入,從而使學(xué)生知道該如何運用已學(xué)的知識解決實際問題,下面以箱線圖為例,箱線圖應(yīng)用舉例現(xiàn)有某直銷中心30名員工的工資測算數(shù)據(jù)兩批,第一批為工資調(diào)整前的數(shù)據(jù),第二批為工資調(diào)整后的數(shù)據(jù),繪出它們的箱線圖(如下圖),進行比較,可以很容易地得出:工資調(diào)整前,總體水平在752元左右,四分位距為307.5,沒有異常值。經(jīng)過調(diào)整后,箱線圖顯示,第2、29、10、24、27號為溫和的異常值,第26、30、28號為極端的異常值。為什么會出現(xiàn)異常值呢?經(jīng)過進一步分析知道,第2、29、10、24號員工由于技能強、工齡長、積累貢獻大、表現(xiàn)較好,勞苦功高,理應(yīng)得到較高的報酬;第27、26、30、28號職工則因為技能偏低、工齡短、積累貢獻小且表現(xiàn)較差,得到的工資較低,甚至連一般水平也難以達到。這體現(xiàn)了工資調(diào)整的獎優(yōu)罰劣原則。(2)對結(jié)果進行分析。另外,調(diào)整后工資總體水平比調(diào)整前高出270元,四分位距為106,工資分布比調(diào)整前更加集中,在合適的范圍內(nèi)既拉開了差距,又不至于差距太懸殊,還針對特殊情況進行了特殊處理。這種工資分布具有激勵作用,可以說工資調(diào)整達到預(yù)期目的。箱線圖美中不足之處在于它不能提供關(guān)于數(shù)據(jù)分布偏態(tài)和尾重程度的精確度量;對于批量較大的數(shù)據(jù)批,箱線圖反映的形狀信息更加模糊;用中位數(shù)代表總體平均水平有一定的局限性等等。所以,應(yīng)用箱線圖最好結(jié)合其它描述統(tǒng)計工具如均值、標準差、偏度、分布函數(shù)等來描述數(shù)據(jù)批的分布形狀。7.1.本單元課后習(xí)題是第一章全部。課后反思查閱資料,了解切比雪夫不等式,最大似然估計,切比雪夫(Chebyshev)不等式對于任一隨機變量X,若EX與DX均存在,則對任意ε>0,恒有P{|X-EX|>=ε}<=DX/ε^2或P{|X-EX|<ε}>=1-DX/ε^2切比雪夫不等式說明,DX越小,則P{|X-EX|>=ε}越小,P{|X-EX|<ε}越大,也就是說,隨機變量X取值基本上集中在EX附近,這進一步說明了方差的意義。同時當EX和DX已知時,切比雪夫不等式給出了概率P{|X-EX|>=ε}的一個上界,該上界并不涉及隨機變X的具體概率分布,而只與其方差DX和ε有關(guān),因此,切比雪夫不等式在理論和實際中都有相當廣泛的應(yīng)用。需要指出的是,雖然切比雪夫不等式應(yīng)用廣泛,但在一個具體問題中,由它給出的概率上界通常比較保守。切比雪夫不等式是指在任何數(shù)據(jù)集中,與平均數(shù)超過K倍標準差的數(shù)據(jù)占的比例至多是1/K^2。在概率論中,切比雪夫不等式顯示了隨機變數(shù)的「幾乎所有」值都會「接近」平均。這個不等式以數(shù)量化這方式來描述,究竟「幾乎所有」是多少,「接近」又有多接近:與平均相差2個標準差的值,數(shù)目不多於1/4與平均相差3個標準差的值,數(shù)目不多於1/9與平均相差4個標準差的值,數(shù)目不多於1/16……與平均相差k個標準差的值,數(shù)目不多於1/k2。舉例說,若一班有36個學(xué)生,而在一次考試中,平均分是80分,標準差是10分,我們便可得出結(jié)論:少於50分(與平均相差3個標準差以上)的人,數(shù)目不多於4個(=36*1/9)。測度論說法設(shè)(X,Σ,μ)為一測度空間,f為定義在X上的廣義實值可測函數(shù)。對於任意實數(shù)t>0,一般而言,若g是非負廣義實值可測函數(shù),在f的定義域非降,則有上面的陳述,可透過以|f|取代f,再取如下定義而得。最大似然法(MaximumLikelihood,ML)也稱為最大概似估計,是一種具有理論性的點估計法,此方法的基本思想是:當從模型總體隨機抽取n組樣本觀測值后,最合理的參數(shù)估計量應(yīng)該使得從模型中抽取該n組樣本觀測值的概率最大,而不是像最小二乘估計法旨在得到使得模型能最好地擬合樣本數(shù)據(jù)的參數(shù)估計量。該方法在每組序列比對中考慮了每個核苷酸替換的概率。最大似然估計是一種統(tǒng)計方法,它用來求一個樣本集的相關(guān)概率密度函數(shù)的參數(shù)。這個方法最早是遺傳學(xué)家以及統(tǒng)計學(xué)家羅納德·費雪爵士在1912年至1922年間開始使用的。最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產(chǎn)生觀察數(shù)據(jù)的系統(tǒng)發(fā)生樹。最大似然法是一類完全基于統(tǒng)計的系統(tǒng)發(fā)生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。例如,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的三倍。在一個三條序列的比對中,如果發(fā)現(xiàn)其中有一列為一個C,一個T和一個G,我們有理由認為,C和T所在的序列之間的關(guān)系很有可能更接近。由于被研究序列的共同祖先序列是未知的,概率的計算變得復(fù)雜;又由于可能在一個位點或多個位點發(fā)生多次替換,并且不是所有的位點都是相互獨立,概率計算的復(fù)雜度進一步加大。盡管如此,還是能用客觀標準來計算每個位點的概率,計算表示序列關(guān)系的每棵可能的樹的概率。然后,根據(jù)定義,概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。信號功率譜密度估計方法之一。其原理是讓信號通過一個最大似然法濾波器,選擇濾波器的參數(shù)使所關(guān)心的頻率的正弦波信號能夠不失真地通過,同時,使所有其他頻率的正弦波通過這個濾波器后輸出的均方值最小。在這個條件下,信號經(jīng)過這個濾波器后輸出的均方值就作為其最大似然法功率譜估值??梢宰C明,如果信號x是由一個確定性信號S加上一個高斯白噪聲n所組成,則上述濾波器的輸出是信號S的最大似然估值,因此,稱為最大似然法。如果n不是高斯噪聲,則上述濾波器的輸出是信號S的最小方差的線性的無偏估值。7.1.課前主要是查閱了資料,深入了解了參數(shù)估計,參數(shù)估計(parameterestimation)是根據(jù)從總體中抽取的樣本估計總體分布中包含的未知參數(shù)的方法。人們常常需要根據(jù)手中的數(shù)據(jù),分析或推斷數(shù)據(jù)反映的本質(zhì)規(guī)律。參數(shù)估計(parameterestimation)是根據(jù)從總體中抽取的樣本估計總體分布中包含的未知參數(shù)的方法。人們常常需要根據(jù)手中的數(shù)據(jù),分析或推斷數(shù)據(jù)反映的本質(zhì)規(guī)律。即根據(jù)樣本數(shù)據(jù)如何選擇統(tǒng)計量去推斷總體的分布或數(shù)字特征等。統(tǒng)計推斷是數(shù)理統(tǒng)計研究的核心問題。所謂統(tǒng)計推斷是指根據(jù)樣本對總體分布或分布的數(shù)字特征等作出合理的推斷。它是統(tǒng)計推斷的一種基本形式,是數(shù)理統(tǒng)計學(xué)的一個重要分支,分為點估計和區(qū)間估計兩部分。當估計值的數(shù)學(xué)期望等于參數(shù)真值時,參數(shù)估計就是無偏估計。當估計值是數(shù)據(jù)的線性函數(shù)時,參數(shù)估計就是線性估計。當估計值的均方差最小時,參數(shù)估計為一致最小均方誤差估計。若線性估計又是一致最小均方誤差估計,則稱為最優(yōu)線性無偏估計。如果無偏估計值的方差達到克拉默-堯不等式的下界,則稱為有效估計值。若,則稱為一致性估計值。在一定條件下,最小二乘估計是最優(yōu)線性無偏估計,它的估計值是有效估計,而且是一致性估計。極大似然估計在一定條件下漸近有效,而且是一致的。尋求最小二乘估計和極大似然估計的常用方法是將準則對參數(shù)θ求導(dǎo)數(shù),計算梯度,因而要使用最優(yōu)化的方法:梯度法、變尺度法、單純形搜索法、牛頓-拉夫森法等。7.1.王松桂(線性統(tǒng)計模型)第一章,謝衷潔(時間序列分析)5-7頁。7.2教學(xué)單元二7.2.1教學(xué)日期:第二周周一、周四7.2.(1)了解并掌握符號檢驗。本單元主要是學(xué)習(xí)成隊分組設(shè)計下兩種處理方法的比較,多種處理方法比較的Kruskal-Wallis檢驗、分組設(shè)計下多種處理方法的比較,目標是讓學(xué)生掌握這些方法,會處理實際問題,最大似然法是一類完全基于統(tǒng)計的系統(tǒng)發(fā)生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。例如,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的三倍。(2)掌握Wilcoxon秩和檢驗。在一個三條序列的比對中,如果發(fā)現(xiàn)其中有一列為一個C,一個T和一個G,我們有理由認為,C和T所在的序列之間的關(guān)系很有可能更接近。由于被研究序列的共同祖先序列是未知的,概率的計算變得復(fù)雜;又由于可能在一個位點或多個位點發(fā)生多次替換,并且不是所有的位點都是相互獨立,概率計算的復(fù)雜度進一步加大。(3)了解Friedman檢驗。盡管如此,還是能用客觀標準來計算每個位點的概率,計算表示序列關(guān)系的每棵可能的樹的概率。然后,根據(jù)定義,概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。信號功率譜密度估計方法之一。其原理是讓信號通過一個最大似然法濾波器,選擇濾波器的參數(shù)使所關(guān)心的頻率的正弦波信號能夠不失真地通過,同時,使所有其他頻率的正弦波通過這個濾波器后輸出的均方值最小。在這個條件下,信號經(jīng)過這個濾波器后輸出的均方值就作為其最大似然法功率譜估值。7.2.(1)本單元重點是成隊分組設(shè)計下兩種處理方法的比較。是利用秩實現(xiàn)對多個總體分布是否存在顯著差異的非參數(shù)檢驗方法,其原假設(shè)是:多個配對樣本來自的多個總體分布無顯著差異。Friedman檢驗是利用秩實現(xiàn)對多個總體分布是否存在顯著差異的非參數(shù)檢驗方法,其原假設(shè)是:多個配對樣本來自的多個總體分布無顯著差異。SPSS將自動計算Friedman統(tǒng)計量和對應(yīng)的概率P值?;谏鲜龌舅悸罚嗯鋵颖镜腇riedman檢驗時,首先以行為單位將數(shù)據(jù)按升序排序,并求得各變量值在各自行中的秩;然后,分別計算各組樣本下的秩總和與平均秩。Friedman檢驗是利用秩實現(xiàn)對多個總體分布是否存在顯著差異的非參數(shù)檢驗方法,其原假設(shè)是:多個配對樣本來自的多個總體分布無顯著差異。SPSS將自動計算Friedman統(tǒng)計量和對應(yīng)的概率P值。如果概率P值小于給定的顯著性水平0.05,則拒絕原假設(shè),認為各組樣本的秩存在顯著差異,多個配對樣本來自的多個總體的分布有顯著差異;反之,則不能拒絕原假設(shè),可以認為各組樣本的秩不存在顯著性差異。基于上述基本思路,多配對樣本的Friedman檢驗時,首先以行為單位將數(shù)據(jù)按升序排序,并求得各變量值在各自行中的秩;然后,分別計算各組樣本下的秩總和與平均秩。多配對樣本的Friedman檢驗適于對定距型數(shù)據(jù)的分析??ǚ椒植迹歉怕收撆c統(tǒng)計學(xué)中常用的一種概率分布。k個獨立的標準正態(tài)分布變量的平方和服從自由度為k的卡方分布??ǚ椒植际且环N特殊的伽瑪分布。假設(shè)檢驗和置信區(qū)間的計算。由卡方分布延伸出來皮爾森卡方檢定常用于:(1)樣本某性質(zhì)的比例分布與總體理論分布的擬合優(yōu)度;(2)同一總體的兩個隨機變量是否獨立;(3)二或多個總體同一屬性的同素性檢定。若n個相互獨立的隨機變量ξ?、ξ?、……、ξn,均服從標準正態(tài)分布(也稱獨立同分布于標準正態(tài)分布),則這n個服從標準正態(tài)分布的隨機變量的平方和構(gòu)成一新的隨機變量,其分布規(guī)律稱為χ2分布(chi-squaredistribution),其中參數(shù)n稱為自由度,自由度不同就是另一個χ2分布,正如正態(tài)分布中均值或方差不同就是另一個正態(tài)分布一樣。χ2分布的密度函數(shù)比較復(fù)雜這里就不給出了,同學(xué)們也不用去記了。卡方分布是由正態(tài)分布構(gòu)造而成的一個新的分布,這也正反映了前面所說的正態(tài)分布的重要性。對于任意正整數(shù),自由度為的卡方分布是一個隨機變量的機率分布。χ2分布在一象限內(nèi),呈正偏態(tài)(右偏態(tài)),隨著參數(shù)n的增大,χ2分布趨近于正態(tài)分布。χ2分布的均值為自由度n,記為Eχ2=n,這里符號“E”表示對隨機變量求均值;χ2分布的方差為2倍的自由度(2n),記為Dχ2=2n,這里符號“D”表示對隨機變量求方差。從χ2分布的均值與方差可以看出,隨著自由度n的增大,χ2分布向正無窮方向延伸(因為均值n越來越大),分布曲線也越來越低闊(因為方差2n越來越大)。χ2分布具有可加性:若有K個服從χ2分布且相互獨立的隨機變量,則它們之和仍是χ2分布,新的χ2分布的自由度為原來K個χ2分布自由度之和。表示為:χ2分布是連續(xù)分布,但有些離散分布也服從χ2分布,尤其在次數(shù)統(tǒng)計上非常廣泛。χ2分布不象正態(tài)分布那樣將所有正態(tài)分布的查表都轉(zhuǎn)化為標準正態(tài)分布去查,在χ2分布中得對每個分布編制相應(yīng)的概率值,這通過χ2分布表中列出不同的自由度來表示,在χ2分布表中還需要如標準正態(tài)分布表中給出不同P值一樣,列出概率值,只不過這里的概率值是χ2值以上χ2分布曲線以下的概率。由于χ2分布概率表中要列出很多χ2分布的概率值,所以χ2分布中所給出的P值就不象標準正態(tài)分布中那樣給出了400個不同的P值,而只給出了有代表性的13個值,因此χ2分布概率表的精度就更差,不過給出了常用的幾個值,足夠在實際中使用了。查χ2分布概率表時,按自由度及相應(yīng)的概率去找到對應(yīng)的χ2值。如上圖所示的單側(cè)概率χ20.05(7)=14.1的查表方法就是,在第一列找到自由度7這一行,在第一行中找到概率0.05這一列,行列的交叉處即是14.1。(2)難點是分組設(shè)計下多種處理方法的比較,僅做了解。7.2.主要以舉實例的方法進行學(xué)習(xí),下面以符號檢驗為例。符號檢驗(SINGTEST)符號檢驗(SINGTEST)是利用正號和負號的數(shù)目某假設(shè)做出判定的非參數(shù)方法。符號檢驗雖然是最簡單的非參數(shù)檢驗,但它體現(xiàn)了非參數(shù)統(tǒng)計的一些基本思路.首先看一個例子。聯(lián)合國人員在世界上66個大城市的生活花費指數(shù)(以紐約市某年為100)按自小至大的次序排列如下(這里北京的指數(shù)為99):66757880818182838383838485858686868687878888888888898989899090919191919293939696969799100101102103103104104104105106109109110110110111113115116117118155192這個總體的中間水平是多少?北京使在該水平之上還是之下?(北京為99)可以假定這個樣本是從世界許多大城市中隨機抽樣而得的所有大城市的指數(shù)組成總體.可能出現(xiàn)的問題是:這個總體的平均(或者中間)水平是多少?北京是在該水平之上還是之下?這里的平均(或中間)水平是一個位置參數(shù)。一般的統(tǒng)計書中的均值就是一個位置參數(shù)。中位數(shù)是另一個位置參數(shù)。它們都是數(shù)據(jù)總體中心位置的度量和位置參數(shù)相對的一個參數(shù)為尺度參數(shù);比如在標準統(tǒng)計課本中的描述數(shù)據(jù)集中和分散程度的方差或標準差。這個例子經(jīng)過簡單計算,得到樣本均值為96.45,而樣本中位數(shù)為91;它們都可作為總體的中心的估計,除此之外,眾數(shù)(頻率最大的點,本例是88)可作為中間位置.通常在正態(tài)總體分布的假設(shè)下,關(guān)于總體均值的假設(shè)檢驗和區(qū)間估計是用與t檢驗有關(guān)的方法進行的。然而,在本例中,總體分布是未知的為此首先看該數(shù)據(jù)的直方圖從圖中很難說這是什么分布。在右邊的兩個點分別是東京和香港。假定用總體中位數(shù)來表示中間位置,著意味著樣本點,取大于M的的概率應(yīng)該與取小于M的概率相等。所研究的問題,可以看作是只有兩種可能“成功”或“失敗”。成功為“+”,即大于中位數(shù)M;失敗為“-”,即小于中位數(shù)M。令S+=得正符號的數(shù)目S—=得負符號得數(shù)目可以知道S+或S—均服從二項分布B(66,0.5)。則和可以用來作檢驗的統(tǒng)計量。對于左側(cè)檢驗:;:,當零假設(shè)為真的下,應(yīng)該不大不小。當過小,即只有少數(shù)的觀測值大于,則可能太大,目前總體的中位數(shù)可能要小一些。如果,則拒絕原假設(shè)。對于右側(cè)檢驗:;:,當零假設(shè)為真的下,應(yīng)該不大不小。當過大,即有多數(shù)的觀測值大于,則可能太小,目前總體的中位數(shù)可能要大一些。如果,則拒絕原假設(shè)。雙側(cè)檢驗對備擇假設(shè)H1來說關(guān)心的是等于正的次數(shù)是否與等于負的次數(shù)有差異。所以當小于顯著性水平則拒絕原假設(shè)。我們來看上面的例:備擇檢驗:M<99。一般來說,備擇假設(shè)采用我們覺得有道理的方向。因為只有一點為99,舍去這一點,于是從66減少到65。而=23,在零假設(shè)下(下面概率p=0.5),二項分布的概率:。如果很小就可以拒絕零假設(shè).上面這個概率就是該檢驗的p—值。在這里的例子中n=65,k=23,p=0.5。查表p值為0.0124。也就是說,在零假設(shè)下,目前由該樣本所代表的事件的發(fā)生的概率僅為0.0124,所以不大可能。也就是說,北京的生活指數(shù)(99)不可能小于世界大城市的中間水準.對于雙邊假設(shè)檢驗,為計算方便,一般取相應(yīng)于和中較小的一個做檢驗統(tǒng)計量;如用K表示,則K=min(,)。在本例子中,因為是雙邊檢驗,這P值應(yīng)該二倍于單側(cè)檢驗的。為0.0248。7.2.(1)主要以分析實例為主。表中所給值直接只能查單側(cè)概率值,可以變化一下來查雙側(cè)概率值。例如,要在自由度為章7的卡方分布中,得到雙側(cè)概率為0.05所對應(yīng)的上下端點可以這樣來考慮:雙側(cè)概率指的是在上端和下端各劃出概率相等的一部分,兩概率之和為給定的概率值,這里是0.05,因此實際上上端點以上的概率為0.05/2=0.025,用概率0.025查表得上端點的值為16,記為χ20.05/2(7)=16。下端點以下的概率也為0.025,因此可以用0.975查得下端點為1.69,記為χ21-0.05/2(7)=1.69。當然也可以按自由度及χ2值去查對應(yīng)的概率值,不過這進往往只能得到一個大概的結(jié)果,因為χ2分布概率表的精度有限,只給了13個不同的概率值進行查表。例如,要在自由度為18的χ2分布查找χ2=30對應(yīng)的概率,則先在第一列找到自由度18,然后看這一行可以發(fā)現(xiàn)與30接近的有28.9與31.5,它們所在的列是0.05與0.025,所以要查的概率值應(yīng)于介于0.05與0.025之間,當然這是單側(cè)概率值,它們的雙側(cè)概率值界于0.1與0.05之間。如果要更精確一些可以采用插值的方法得到,這在正態(tài)分布的查表中有介紹。(2)借助概率論的知識進一步分析。為什么從正態(tài)總體中抽取出的樣本的方差服從χ2分布在抽樣分布理論一節(jié)里講到,從正態(tài)總體進行一次抽樣就相當于獨立同分布的n個正態(tài)隨機變量ξ1,ξ2,…,ξn的一次取值,將n個隨機變量針對總體均值與方差進行標準化得(i=1,…,n),顯然每個都是服從標準正態(tài)分布的,因此按照χ2分布的定義,應(yīng)該服從參數(shù)為n的χ2分布。7.2.作業(yè)為第二章課后2.1-2.10,反思查閱資料,了解f分布,t分布,大數(shù)定律,中心極限定理,F(xiàn)檢驗(F-test),最常用的別名叫做聯(lián)合假設(shè)檢驗,是一種在零假設(shè)之下,統(tǒng)計值服從F-分布的檢驗,通常用來分析用了超過一個參數(shù)的統(tǒng)計模型,以判斷該模型中的全部或一部參數(shù)是否適合用來估計母體。F檢驗法是英國統(tǒng)計學(xué)家Fisher提出的,主要通過比較兩組數(shù)據(jù)的方差S^2,以確定他們的精密度是否有顯著性差異。至于兩組數(shù)據(jù)之間是否存在系統(tǒng)誤差,則在進行F檢驗并確定它們的精密度沒有顯著性差異之后,再進行t檢驗。t檢驗,亦稱學(xué)生t檢驗(英語:Student'st-test)是指零假設(shè)成立時的任一檢定統(tǒng)計有學(xué)生t-分布的統(tǒng)計假說檢定,屬于母數(shù)統(tǒng)計。學(xué)生t檢驗常作為檢驗一群來自常態(tài)分配母體的獨立樣本之期望值的是否為某一實數(shù),或是二群來自常態(tài)分配母體的獨立樣本之期望值的差是否為某一實數(shù)。t檢驗是用t分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。它與z檢驗、卡方檢驗并列。t檢驗是戈斯特為了觀測釀酒質(zhì)量而發(fā)明的。戈斯特在位于都柏林的健力士釀酒廠擔任統(tǒng)計學(xué)家,基于ClaudeGuinness聘用從牛津大學(xué)和劍橋大學(xué)出來的最好的畢業(yè)生以將生物化學(xué)及統(tǒng)計學(xué)應(yīng)用到健力士工業(yè)程序的創(chuàng)新政策。戈斯特于1908年在Biometrika上公布t檢驗,但因其老板認為其為商業(yè)機密而被迫使用筆名(學(xué)生)。實際上,跟他合作過的統(tǒng)計學(xué)家是知道“學(xué)生”的真實身份是戈斯特的。t檢驗t檢驗分為單總體檢驗和雙總體檢驗。單總體t檢驗是檢驗一個樣本平均數(shù)與一個已知的總體平均數(shù)的差異是否顯著。當總體分布是正態(tài)分布,如總體標準差未知且樣本容量小于30,那么樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計量呈t分布。單總體t檢驗統(tǒng)計量為:雙總體t檢驗是檢驗兩個樣本平均數(shù)與其各自所代表的總體的差異是否顯著。雙總體t檢驗又分為兩種情況,一是獨立樣本t檢驗,一是配對樣本t檢驗。獨立樣本t檢驗統(tǒng)計量為:S1和S2為兩樣本方差;n1和n2為兩樣本容量。1/n1-1/n2的話無法計算相同的樣本空間配對樣本t檢驗統(tǒng)計量為:t檢驗的適用條件(1)已知一個總體均數(shù);(2)可得到一個樣本均數(shù)及該樣本標準差;(3)樣本來自正態(tài)或近似正態(tài)總體。t檢驗步驟以單總體t檢驗為例說明:問題:難產(chǎn)兒出生體重n=35,=3.42,S=0.40,一般嬰兒出生體重μ0=3.30(大規(guī)模調(diào)查獲得),問相同否?解:1.建立假設(shè)、確定檢驗水準αH0:μ=μ0(無效假設(shè),nullhypothesis)H1:μ≠μ0(備擇假設(shè),alternativehypothesis,)雙側(cè)檢驗,檢驗水準:α=0.052.計算檢驗統(tǒng)計量3.查相應(yīng)界值表,確定P值,下結(jié)論查附表1,t0.05/2.34=2.032,t<t0.05/2.34,P>0.05,按α=0.05水準,不拒絕H0,t檢驗的來歷當總體呈正態(tài)分布。如果總體標準差未知,而且樣本容量<30,那么這時一切可能的樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計量呈分布。檢驗是用分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。檢驗分為單總體檢驗和雙總體檢驗。1.單總體檢驗單總體檢驗是檢驗一個樣本平均數(shù)與一已知的總體平均數(shù)的差異是否顯著。當總體分布是正態(tài)分布,如總體標準差未知且樣本容量<30,那么樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計量呈分布。如果樣本是屬于大樣本(>30)也可寫成:在這里,為樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計量;為樣本平均數(shù);為總體平均數(shù);為樣本標準差;為樣本容量。7.2.要求查閱資料,了解中心極限定理。中心極限定理(centrallimittheorem)是概率論中討論隨機變量序列部分和分布漸近于正態(tài)分布的一類定理。這組定理是數(shù)理統(tǒng)計學(xué)和誤差分析的理論基礎(chǔ),指出了大量隨機變量積累分布函數(shù)逐點收斂到正態(tài)分布的積累分布函數(shù)的條件。它是概率論中最重要的一類定理,有廣泛的實際應(yīng)用背景。中心極限定理就是從數(shù)學(xué)上證明了這一現(xiàn)象。最早的中心極限定理是討論n重伯努利試驗中。1716年前后,A.棣莫弗對n重伯努利試驗中每次試驗事件A出現(xiàn)的概率為1/2的情況進行了討論,隨后,P.-S.拉普拉斯和A.M.李亞普諾夫等進行了推廣和改進。自P.萊維在1919~1925年系統(tǒng)地建立了特征函數(shù)理論起,中心極限定理的研究得到了很快的發(fā)展,先后產(chǎn)生了普遍極限定理和局部極限定理等。中心極限定理有著有趣的歷史。這個定理的第一版被法國數(shù)學(xué)家棣莫弗發(fā)現(xiàn),他在1733年發(fā)表的卓越論文中使用正態(tài)分布去估計大量拋擲硬幣出現(xiàn)正面次數(shù)的分布。這個超越時代的成果險些被歷史遺忘,所幸著名法國數(shù)學(xué)家拉普拉斯在1812年發(fā)表的巨著中拯救了這個默默無名的理論.拉普拉斯擴展了棣莫弗的理論,指出二項分布可用正態(tài)分布逼近。但同棣莫弗一樣,拉普拉斯的發(fā)現(xiàn)在當時并未引起很大反響。直到十九世紀末中心極限定理的重要性才被世人所知。1901年,俄國數(shù)學(xué)家里雅普諾夫用更普通的隨機變量定義中心極限定理并在數(shù)學(xué)上進行了精確的證明。如今,中心極限定理被認為是(非正式地)概率論中的首席定理。7.2.李賢平(概率論基礎(chǔ))第二章,張堯庭(定性資料的統(tǒng)計分析)第一章。7.3教學(xué)單元三7.3.1教學(xué)日期:第三周周一、周四7.3.2教學(xué)目標(1)掌握線性回歸模型及其矩陣表示。這一單元主要講的是:線性回歸模型、逐步回歸法,要求學(xué)生遇到實際問題,會基于觀測數(shù)據(jù)建立變量間適當?shù)南嚓P(guān)關(guān)系,一分析數(shù)據(jù)的內(nèi)在規(guī)律,并可用于預(yù)報、控制等問題。還有就是逐步回歸法,當回歸函數(shù)的類型選定為線性函數(shù)后,一個重要的問題就是自變量的選取問題。逐步回歸的基本思想是:對全部因子按其對y影響程度大?。ㄆ貧w平方的大?。?,從大到小地依次逐個地引入回歸方程,并隨時對回歸方程當時所含的全部變量進行檢驗,看其是否仍然顯著,如不顯著就將其剔除,知道回歸方程中所含的所有變量對y的作用都顯著是,才考慮引入新的變量。再在剩下的未選因子中,選出對y作用最大者,檢驗其顯著性,顯著著,引入方程,不顯著,則不引入。直到最后再沒有顯著因子可以引入,也沒有不顯著的變量需要剔除為止。(2)了解逐步回歸法。從方法上講,逐步回歸分析并沒有采用什么新的理論,其原理還只是多元線性回歸的內(nèi)容,只是在具體計算方面利用一些技巧,逐步回歸分析時在考慮的全部自變量中按其對y的貢獻程度大小,由大到小地逐個引入回歸方程,而對那些對y作用不顯著的變量可能是中不被引入回歸方程。另外,已被引入回歸方程的變量在引入新變量進行F檢驗后失去重要性時,需要從回歸方程中剔除出去。7.3.3教學(xué)內(nèi)容(含重點、難點)(1)本單元重點是線性回歸模型。(multivariablelinearregressionmodel)在實際經(jīng)濟問題中,一個變量往往受到多個變量的影響。例如,家庭消費支出,除了受家庭可支配收入的影響外,還受諸如家庭所有的財富、物價水平、金融機構(gòu)存款利息等多種因素的影響。多元線性回歸模型的一般形式為,如下表達式,有多個變量,Yi=β0+β1X1i+β2X2i+…+βkXki+μii=1,2,…,n其中k為解釋變量的數(shù)目,βj(j=1,2,…,k)稱為回歸系數(shù)(regressioncoefficient)。上式也被稱為總體回歸函數(shù)的隨機表達式。它的非隨機表達式為E(Y∣X1i,X2i,…Xki,)=β0+β1X1i+β2X2i+…+βkXkiβj也被稱為偏回歸系數(shù)(partialregressioncoefficient)一元線性回歸是一個主要影響因素作為自變量來解釋因變量的變化,在現(xiàn)實問題研究中,因變量的變化往往受幾個重要因素的影響,此時就需要用兩個或兩個以上的影響因素作為自變量來解釋因變量的變化,這就是多元回歸亦稱多重回歸。當多個自變量與因變量之間是線性關(guān)系時,所進行的回歸分析就是多元性回歸。設(shè)y為因變量X1,X2…Xk為自變量,并且自變量與因變量之間為線性關(guān)系時,則多元線性回歸模型為:Y=b0+b1x1+…+bkxk+e其中,0為常數(shù)項,b1,b2…bk為回歸系數(shù),1為X1,X2…Xk固定時,1每增加一個單位對y的效應(yīng),即1對y的偏回歸系數(shù);同理2為X1,X2…Xk固定時,2每增加一個單位對y的效應(yīng),即,2對y的偏回歸系數(shù),等等。如果兩個自變量1,2同一個因變量y呈線相關(guān)時,可用二元線性回歸模型描述為:=0+11+22+建立多元性回歸模型時,為了保證回歸模型具有優(yōu)良的解釋能力和預(yù)測效果,應(yīng)首先注意自變量的選擇,其準則是:(1)自變量對因變量必須有顯著的影響,并呈密切的線性相關(guān)。自變量與因變量之間的線性相關(guān)必須是真實的,而不是形式上的;(3)自變量之彰應(yīng)具有一定的互斥性,即自變量之間的相關(guān)程度不應(yīng)高于自變量與因變量之因的相關(guān)程度;(4)自變量應(yīng)具有完整的統(tǒng)計數(shù)據(jù),其預(yù)測值容易確定。多元性回歸模型的參數(shù)估計,同一元線性回歸方程一樣,也是在要求誤差平方和(Σe)為最小的前提下,用最小二乘法求解參數(shù)。以二線性回歸模型為例,求解回歸參數(shù)的標準方程組為,解此方程可求得0,1,2的數(shù)值。亦可用下列矩陣法求得,在研究多項式回歸問題時,自變量可能是一組不同的變量或某些組合的變量。但這些自變量對因變量y的影響不盡相同,有些自變量的作用可以忽略,而保留與y有顯著關(guān)系的適度“好”的那部分自變量,這就屬于多元回歸分析中變量篩選問題。(2)難點是逐步回歸法。下面將介紹的逐步回歸法,在變量篩選上是行之有效的數(shù)學(xué)方法。逐步回歸的基本思想是,從當前在圈外的全部變量中,挑選其偏回歸平方和貢獻最大的變量,用方差比進行顯著性檢驗的辦法,判別是否選入;而當前在圈內(nèi)的全部變量中,尋找偏回歸平方和貢獻最小的變量,用方差比進行顯著性檢驗的辦法,判別是否從回歸方程中剔除。選入和剔除循環(huán)反復(fù)進行,直至圈外無符合條件的選入項,圈內(nèi)無符合條件的剔除項為止。在逐步回歸計算中需要用到線性代數(shù)中的消去變換法進行變量的選入。對選入變量的回歸系數(shù)進行顯著性檢驗,剔除變量仍進行F-檢驗。經(jīng)過若干次選入變量和剔除變量之后,所有變量再沒有可入選或剔除的,選擇變量的步驟停止,整理資料,得出回歸方程。逐步回歸法由于剔除了不重要的變量,因此,無需求解一個很大階數(shù)的回歸方程,顯著提高了計算效率;又由于忽略了不重要的變量,避免了回歸方程中出現(xiàn)系數(shù)很小的變量而導(dǎo)致的回歸方程計算時出現(xiàn)病態(tài),得不到正確的解。在解決實際問題時,逐步回歸法是常用的行之有效的數(shù)學(xué)方法。7.3.4教學(xué)過程線性回歸是利用稱為線性回歸方程的最小二乘函數(shù)對一個或多個自變量和因變量之間關(guān)系進行建模的一種回歸分析。分析按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。在統(tǒng)計學(xué)中,線性回歸(LinearRegression)是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個自變量和因變量之間關(guān)系進行建模的一種回歸分析。這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個自變量的情況稱為簡單回歸,大于一個自變量情況的叫做多元回歸。(這反過來又應(yīng)當由多個相關(guān)的因變量預(yù)測的多元線性回歸區(qū)別,[引文需要],而不是一個單一的標量變量。)回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。在線性回歸中,數(shù)據(jù)使用線性預(yù)測函數(shù)來建模,并且未知的模型參數(shù)也是通過數(shù)據(jù)來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數(shù)。不太一般的情況,線性回歸模型可以是一個中位數(shù)或一些其他的給定X的條件下y的條件分布的分位數(shù)作為X的線性函數(shù)表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件概率分布,而不是X和y的聯(lián)合概率分布(多元分析領(lǐng)域)。線性回歸是回歸分析中第一種經(jīng)過嚴格研究并在實際應(yīng)用中廣泛使用的類型。這是因為線性依賴于其未知參數(shù)的模型比非線性依賴于其位置參數(shù)的模型更容易擬合,而且產(chǎn)生的估計的統(tǒng)計特性也更容易確定。線性回歸有很多實際用途。分為以下兩大類:如果目標是預(yù)測或者映射,線性回歸可以用來對觀測數(shù)據(jù)集的和X的值擬合出一個預(yù)測模型。當完成這樣一個模型以后,對于一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預(yù)測出一個y值。給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關(guān),線性回歸分析可以用來量化y與Xj之間相關(guān)性的強度,評估出與y不相關(guān)的Xj,并識別出哪些Xj的子集包含了關(guān)于y的冗余信息。線性回歸模型經(jīng)常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規(guī)范里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數(shù)的懲罰.相反,最小二乘逼近可以用來擬合那些非線性的模型.因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號的。數(shù)據(jù)組說明線性回歸以一簡單數(shù)據(jù)組來說明什么是線性回歸。假設(shè)有一組數(shù)據(jù)型態(tài)為y=y(x),其中x={0,1,2,3,4,5},y={0,20,60,68,77,110}如果要以一個最簡單的方程式來近似這組數(shù)據(jù),則用一階的線性方程式最為適合。先將這組數(shù)據(jù)繪圖如下,圖中的斜線是隨意假設(shè)一階線性方程式y(tǒng)=20x,用以代表這些數(shù)據(jù)的一個方程式。以下將上述繪圖的MATLAB指令列出,并計算這個線性方程式的y值與原數(shù)據(jù)y值間誤差平方的總合。輸入及結(jié)果,>>x=[012345];>>y=[020606877110];>>y1=20*x;%一階線性方程式的y1值>>sum_sq=sum((y-y1).^2);%誤差平方總和為573>>axis([-1,6,-20,120])>>plot(x,y1,x,y,'o'),title('Linearestimate'),grid如此任意的假設(shè)一個線性方程式并無根據(jù),如果換成其它人來設(shè)定就可能采用不同的線性方程式;所以必須要有比較精確方式?jīng)Q定理想的線性方程式??梢砸笳`差平方的總和為最小,做為決定理想的線性方程式的準則,這樣的方法就稱為最小平方誤差(leastsquareserror)或是線性回歸。MATLAB的polyfit函數(shù)提供了從一階到高階多項式的回歸法,其語法為polyfit(x,y,n),其中x,y為輸入數(shù)據(jù)組n為多項式的階數(shù),n=1就是一階的線性回歸法。polyfit函數(shù)所建立的多項式可以寫成,從polyfit函數(shù)得到的輸出值就是上述的各項系數(shù),以一階線性回歸為例n=1,所以只有二個輸出值。如果指令為coef=polyfit(x,y,n),則coef(1)=,coef(2)=,...,coef(n+1)=。注意上式對n階的多項式會有n+1項的系數(shù)??匆韵碌木€性回歸的示范:>>x=[012345];>>y=[020606877110];>>coef=polyfit(x,y,1);%coef代表線性回歸的二個輸出值,>>a0=coef(1);a1=coef(2);>>ybest=a0*x+a1;%由線性回歸產(chǎn)生的一階方程式>>sum_sq=sum((y-ybest).^2);%誤差平方總合為356.82>>axis([-1,6,-20,120])>>plot(x,ybest,x,y,'o'),title('Linearregressionestimate'),grid最小二乘法,一般來說,線性回歸都可以通過最小二乘法求出其方程,可以計算出對于y=bx+a的直線。7.3.5教學(xué)方法(1)給出軟件運行的結(jié)果并加以分析。主要通過分析結(jié)果達到對知識的進一步鞏固。理解回歸分析的結(jié)果,雖然不同的統(tǒng)計軟件可能會用不同的格式給出回歸的結(jié)果,但是它們的基本內(nèi)容是一致的。以STATA的輸出為例來說明如何理解回歸分析的結(jié)果。在這個例子中,測試讀者的性別(gender),年齡(age),知識程度(know)與文檔的次序(noofdoc)對他們所覺得的文檔質(zhì)量(relevance)的影響。輸出:Source|SSdfMSNumberofobs=242,Model|14.006985543.50174637Prob>F=0.0283,Residual|300.2791722371.26700072R-squared=0.0446Total|314.2861572411.30409194RootMSE=1.1256,relevance|Coef.Std.Err.tP>|t|Beta,gender|-.2111061.1627241-1.300.196-.0825009,age|-.1020986.0486324-2.100.037-.1341841,know|.0022537.05352430.040.966.0026877,noofdoc|-.3291053.1382645-2.380.018-.1513428,_cons|7.3347571.0722466.840.000.。(2)總結(jié)。輸出,這個輸出包括以下幾部分。左上角給出方差分析表,右上角是模型擬合綜合參數(shù)。下方的表給出了具體變量的回歸系數(shù)。方差分析表對大部分的行為研究者來講不是很重要,不做討論。在擬合綜合參數(shù)中,R-squared表示因變量中多大的一部分信息可以被自變量解釋。在這里是4.46%,相當小。7.3.6作業(yè)安排及課后反思本單元作業(yè)為第三章課后習(xí)題3.1-3.4,反思要求查閱資料,了解大數(shù)定律。概率論歷史上第一個極限定理屬于伯努利,后人稱之為“大數(shù)定律”。概率論中討論隨機變量序列的算術(shù)平均值向常數(shù)收斂的定律。概率論與數(shù)理統(tǒng)計學(xué)的基本定律之一,又稱弱大數(shù)理論。大數(shù)定律(lawoflargenumbers),又稱大數(shù)定理,是一種描述當試驗次數(shù)很大時所呈現(xiàn)的概率性質(zhì)的定律。但是注意到,雖然通常最常見的稱呼是大數(shù)“定律”,但是大數(shù)定律并不是經(jīng)驗規(guī)律,而是嚴格證明了的定理。有些隨機事件無規(guī)律可循,但不少是有規(guī)律的,這些“有規(guī)律的隨機事件”在大量重復(fù)出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計特性,這個規(guī)律就是大數(shù)定律。確切的說大數(shù)定律是以確切的數(shù)學(xué)形式表達了大量重復(fù)出現(xiàn)的隨機現(xiàn)象的統(tǒng)計規(guī)律性,即頻率的穩(wěn)定性和平均結(jié)果的穩(wěn)定性,并討論了它們成立的條件。簡單地說,大數(shù)定理就是“當試驗次數(shù)足夠多時,事件發(fā)生的頻率無窮接近于該事件發(fā)生的概率”。該描述即貝努利大數(shù)定律。在隨機事件的大量重復(fù)出現(xiàn)中,往往呈現(xiàn)幾乎必然的規(guī)律,這個規(guī)律就是大數(shù)定律。通俗地說,這個定理就是,在試驗不變的條件下,重復(fù)試驗多次,隨機事件的頻率近似于它的概率。比如,我們向上拋一枚硬幣,硬幣落下后哪一面朝上本來是偶然的,但當我們上拋硬幣的次數(shù)足夠多后,達到上萬次甚至幾十萬幾百萬次以后,我們就會發(fā)現(xiàn),硬幣每一面向上的次數(shù)約占總次數(shù)的二分之一。偶然中包含著某種必然。1733年,德莫佛—拉普拉斯在分布的極限定理方面走出了根本性的一步,證明了二項分布的極限分布是正態(tài)分布。拉普拉斯改進了他的證明并把二項分布推廣為更一般的分布。1900年,李雅普諾夫進一步推廣了他們的結(jié)論,并創(chuàng)立了特征函數(shù)法。這類分布極限問題是當時概率論研究的中心問題,卜里耶為之命名“中心極限定理”。20世紀初,主要探討使中心極限定理成立的最廣泛的條件,二三十年代的林德貝爾格條件和費勒條件是獨立隨機變量序列情形下的顯著進展。伯努利是第一個研究這一問題的數(shù)學(xué)家,他于1713年首先提出后人稱之為“大數(shù)定律”的極限定理。大數(shù)定律有若干個表現(xiàn)形式。這里僅介紹高等大學(xué)概率論要求的常用的三個重要定律:設(shè)x_1,x_2,...,x_n是一列兩兩相互獨立的隨機變量,服從同一分布,且存在有限的數(shù)學(xué)期望a和方差σ2,則對任意小的正數(shù)ε,滿足公式一,該定律的含義是:當n很大,服從同一分布的隨機變量的算術(shù)平均數(shù)將依概率接近于這些隨機變量的數(shù)學(xué)期望。將該定律應(yīng)用于抽樣調(diào)查,就會有如下結(jié)論:隨著樣本容量n的增加,樣本平均數(shù)將接近于總體平均數(shù)。從而為統(tǒng)計推斷中依據(jù)樣本平均數(shù)估計總體平均數(shù)提供了理論依據(jù)。設(shè)μ是n次獨立試驗中事件A發(fā)生的次數(shù),且事件A在每次試驗中發(fā)生的概率為P,則對任意正數(shù)ε,有公式二,該定律是切貝雪夫大數(shù)定律的特例,其含義是,當n足夠大時,事件A出現(xiàn)的頻率將幾乎接近于其發(fā)生的概率,即頻率的穩(wěn)定性。在抽樣調(diào)查中,用樣本成數(shù)去估計總體成數(shù),其理論依據(jù)即在于此。設(shè){ai,i>=1}為獨立同分布的隨機變量序列,若Ai的數(shù)學(xué)期望存在,則服從大數(shù)定律:即對任意的ε>0,公式三成立。大數(shù)定律通俗一點來講,就是樣本數(shù)量很大的時候,樣本均值和真實均值充分接近。這一結(jié)論與中心極限定理一起,成為現(xiàn)代概率論、統(tǒng)計學(xué)、理論科學(xué)和社會科學(xué)的基石之一,重要性在本人看來甚至不弱于微積分。(有趣的是,雖然大數(shù)定律的表述和證明都依賴現(xiàn)代數(shù)學(xué)知識,但其結(jié)論最早出現(xiàn)在微積分出現(xiàn)之前。而且在生活中,即使沒有微積分的知識也可以應(yīng)用。例如,沒有學(xué)過微積分的學(xué)生也可以輕松利用excel或計算器計算樣本均值等統(tǒng)計量,從而應(yīng)用于社會科學(xué)。)7.3.7課前準備情況及其他相關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論