版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
應用多元統(tǒng)計分析第一頁,共八十二頁,2022年,8月28日第一章緒論第二章多元正態(tài)分布及參數(shù)的估計第三章多元正態(tài)總體參數(shù)的假設檢驗第四章回歸分析--第五章判別分析第六章聚類分析第七章主成分分析第八章因子分析第九章對應分析方法第十章典型相關分析第十一章偏最小二乘回歸分析課程內(nèi)容多變量分析(數(shù)據(jù)結(jié)構(gòu)簡化)分類方法兩組變量的相關分析基礎理論兩組變量的相依分析第二頁,共八十二頁,2022年,8月28日普通高等教育”十一五”國家級教材北京大學數(shù)學教學系列叢書本科生數(shù)學基礎課教材
應用多元統(tǒng)計分析(北京大學出版社,高惠璇,2006)課程教材第三頁,共八十二頁,2022年,8月28日1.實用多元統(tǒng)計分析(方開泰,1989,見參考文獻[1])2.多元統(tǒng)計分析引論(張堯庭,方開泰,2003,見[2])3.實用多元統(tǒng)計分析(王學仁,1990,見[6])4.應用多元分析(王學民,1999,見[8])5.多元統(tǒng)計分析(于秀林,1999,見[9])6.多元統(tǒng)計方法(周光亞,1988,見[28])7.多元分析(英.M.肯德爾,1983,見[15])8.AnIntroductiontoMultivariateStatisticalAnalysis
(Anderson1984,見[22])9.
AppliedMultivariateStatisticalAnalysis(R.A.JohnsonandD.W.Wichern6thed)中譯本:實用多元統(tǒng)計分析(陸璇譯2008,見[5])參考書第四頁,共八十二頁,2022年,8月28日課程其它事項教學軟件:R課程主頁:課程評估:作業(yè):10%期中:40%期末:50%答疑時間:周二9:30—11:30第五頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言
在實際問題中,很多隨機現(xiàn)象涉及到的變量不止一個,而經(jīng)常是多個變量,而且這些變量間又存在一定的聯(lián)系。我們常常需要處理多個變量的觀測數(shù)據(jù)。例如考察學生的學習情況時,就需了解學生在幾個主要科目的考試成績。
下表給出從某年級隨機抽取的12名學生中5門主要課程期末考試成績。第六頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言序號政治語文外語數(shù)學物理
199949310010029988969997310098819610049388889996510091729678690788275977757388978989384836888987736076841095829062391176724367781285755034377第七頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容
上表提供的數(shù)據(jù),如果用一元統(tǒng)計方法,勢必要把多門課程分開分析,每次分析處理一門課的成績。這樣處理,由于忽視了課程之間可能存在的相關性,因此,一般說來,丟失信息太多。分析的結(jié)果不能客觀全面地反映某年級學生的學習情況。本課程要討論的多元分析方法,它同時對多門課程成績進行分析。這樣的分析對這些課程之間的相互關系、相互依賴性等都能提供有用的信息。第八頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容
由于大量實際問題都涉及到多個變量,這些變量又是隨機變化,如學生的學習成績隨著被抽取學生的不同成績也有變化(我們往往需要依據(jù)它們來推斷全年級的學習情況)。所以要討論多維隨機向量的統(tǒng)計規(guī)律性。
多元統(tǒng)計分析就是討論多維隨機向量的理論和統(tǒng)計方法的總稱。
多元統(tǒng)計分析研究的對象就是多維隨機向量.第九頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容
研究的內(nèi)容既包括一元統(tǒng)計學中某些方法的直接推廣,也包括多個隨機變量特有的一些問題。多元統(tǒng)計分析是一類范圍很廣的理論和方法。
第十頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容就以學生成績?yōu)槔?,我們可以研究很多問題:用各科成績的總和作為綜合指標來比較學生學習成績的好壞(如成績好的與成績差的,又如文科成績好的與理科成績好的);研究各科成績之間的關系(如物理與數(shù)學成績的關系,文科成績與理科成績的關系);……等等。所有這些都屬于多元統(tǒng)計分析的研究內(nèi)容。
第十一頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容
綜上所述,多元分析以p個變量的n次觀測數(shù)據(jù)組成的數(shù)據(jù)矩陣
x11
x12…x1p
x21
x22…x2p….….….….xn1
xn2…xnpX=為依據(jù)。根據(jù)實際問題的需要,給出種種方法。英國著名統(tǒng)計學家M.肯德爾(M.G.Kendall)在《多元分析》一書中把多元分析所研究的內(nèi)容和方法概括為以下幾個方面:第十二頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容
1.簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)
例如通過變量變換等方法使相互依賴的變量變成互不相關的;或把高維空間的數(shù)據(jù)投影到低維空間,使問題得到簡化而損失的信息又不太多.主成分分析,因子分析,對應分析等多元統(tǒng)計方法就是這樣的一類方法。2.分類與判別(歸類問題)
對所考查的對象(樣品點或變量)按相似程度進行分類(或歸類)。聚類分析和判別分析等方法是解決這類問題的統(tǒng)計方法。第十三頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容
3.變量間的相互聯(lián)系(1)相互依賴關系:分析一個或幾個變量的變化是否依賴于另一些變量的變化?如果是,建立變量間的定量關系式,并用于預測或控制---回歸分析.(2)變量間的相互關系:分析兩組變量間的相互關系---典型相關分析等.(3)兩組變量間的相互依賴關系---偏最小二乘回歸分析.第十四頁,共八十二頁,2022年,8月28日
第一章緒論
§1.1引言--多元分析的研究對象和內(nèi)容
5.多元統(tǒng)計分析的理論基礎
包括多維隨機向量及多維正態(tài)隨機向量,及由此定義的各種多元統(tǒng)計量,推導它們的分布并研究其性質(zhì),研究它們的抽樣分布理論。這些不僅是統(tǒng)計估計和假設檢驗的基礎,也是多元統(tǒng)計分析的理論基礎。
4.多元數(shù)據(jù)的統(tǒng)計推斷
參數(shù)估計和假設檢驗問題.特別是多元正態(tài)分布的均值向量和協(xié)差陣的估計和假設檢驗等問題。第十五頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的發(fā)展歷史
多元統(tǒng)計分析起源于二十世紀初,1928年Wishart發(fā)表論文《多元正態(tài)總體樣本協(xié)方差陣的精確分布》,可以說是多元分析的開端.之后R.A.Fisher、H.Hotelling、S.N.Roy、許寶碌等人作了一系列奠基的工作,使多元統(tǒng)計分析在理論上得到迅速的發(fā)展,在許多領域中也有了實際應用.由于用統(tǒng)計方法解決實際問題時需要的計算量很大,使其發(fā)展受到影響,甚至停滯了相當長的時間.第十六頁,共八十二頁,2022年,8月28日第一章緒論
§1.1引言--多元分析的的發(fā)展歷史
二十世紀50年代中期,隨著電子計算機的出現(xiàn)和發(fā)展,使得多元統(tǒng)計分析在地質(zhì)、氣象、醫(yī)學、社會學等方面得到廣泛的應用.60年代通過應用和實踐又完善和發(fā)展了理論,由于新理論、新方法的不斷出現(xiàn)又促使它的應用范圍更加擴大.多元統(tǒng)計的方法在我國至70年代初期才受到各個領域的極大關注,近30多年來我國在多元統(tǒng)計方法的理論研究和應用上也取得了很多顯著成績,有些研究工作已達到國際水平,并已形成一支科技隊伍,活躍在各條戰(zhàn)線上.第十七頁,共八十二頁,2022年,8月28日第一章緒論
§1.2多元統(tǒng)計分析的應用領域--教育學
多元統(tǒng)計分析是解決實際問題有效的數(shù)據(jù)處理方法。隨著電子計算機使用的日益普及,多元統(tǒng)計方法已廣泛地應用于自然科學,社會科學的各個方面。以下我們列舉多元分析的一些應用領域。從中可看到多元分析應用的廣度和深度。1.教育學
n個考生報考北大概率統(tǒng)計系.每個考生參加7門課(語文、數(shù)學、政治、外語、物理、化學、生物)的考試,各門課成績記為Yj1,Yj2,…,Yj7。又每個考生在高中學習期間,m門主要課程成績?yōu)閄j1,Xj2,…,Xjm(j=1,2,…,n
)。經(jīng)對這大量的資料作統(tǒng)計分析,我們能夠得出:
第十八頁,共八十二頁,2022年,8月28日第一章緒論
§1.2多元統(tǒng)計分析的應用領域--教育學
(1)高考成績和高中學習期間成績的關系,即給出兩組變量線性組合間的關系,從而可由考生在高中期間的學習成績來預報高考的綜合成績或某科目的成績.
(2)給出考生成績次序排隊的最佳方案(最佳組合).總分可以體現(xiàn)一個考生成績好壞,但對報考概率統(tǒng)計系的學生,按總分從高到低的順序錄取并不是最合適的.應按適當?shù)臋鄶?shù)加權求和.如數(shù)學、物理、外語的權數(shù)相對高些.
第十九頁,共八十二頁,2022年,8月28日第一章緒論
§1.2多元統(tǒng)計分析的應用領域--教育學
(3)利用n個學生在高中學習期間m門主科的考試成績,可對學生進行分類,如按文、理科成績分類,按總成績分類等。若準備給優(yōu)秀學生發(fā)獎,那么一等獎、二等獎的比例應該是多少?應用多元統(tǒng)計分析的方法可以給出公平合理地確定。第二十頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用 班主任經(jīng)常會遇到學校下達的評選三好生,評選學習獎等任務.另還有評選各種獎學金的工作,推薦研究生的工作都要求班主任提出意見.
如何利用全班學生在校幾年中主要課程的學習成績及各方面的表現(xiàn)更科學,更合理地進行評選?應用多元統(tǒng)計分析中的主成分方法可以給出公平合理地確定.第二十一頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用
比如全班有40名學生,本科生四年中主要課程包括基礎課,專業(yè)基礎課,本專業(yè)的限選課,設共有12門課.從教務可以得到全班40名學生這12門課的成績,組成的40行12列的數(shù)據(jù)陣X就是我們的原始數(shù)據(jù).
(1)全班學生綜合成績的排序
評選三好生,評選學習獎,推薦研究生的工作首先都要了解全班學生的學習情況.第二十二頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用
12門課的成績可看成12個變量,這是多指標(變量)系統(tǒng)的排序評估問題。這類問題在實際工作中經(jīng)常會遇到,比如對某類企業(yè)的經(jīng)濟效益進行評估比較,影響企業(yè)經(jīng)濟效益的指標有很多,如何更科學、更客觀地將一個多指標問題轉(zhuǎn)化為單個綜合變量的形式.
主成分分析方法為樣品排序或多指標系統(tǒng)評估提供可行的方法.
第二十三頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用
這里把12門課的成績看成12個變量,這些變量是相關的,有的相關性強些,有的相關性一般些。用主成分分析方法從12個相關的變量中可以綜合得出幾個互不相關的主成分--它們是原始變量的線性組合。其中第一主成分綜合原始變量的信息最多(一般在70%以上),我們就用第一主成分(即單個綜合指標)替代原來的12個變量;然后計算第一主成分的得分并進行排序。第二十四頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用最簡單最直觀地綜合變量就是12門課的成績總和。但這個最簡單的綜合變量并不是最科學地代表12門課綜合成績的指標,而用主成分分析得出的第一主成分(原始變量的線性組合)Z1是最科學地代表12門課綜合成績的指標。比如Z1是12個變量的線性組合,且系數(shù)都是正數(shù),數(shù)值有大有小。顯然數(shù)值大的變量對綜合指標(主成分)的貢獻大;數(shù)值小的變量對綜合指標(主成分)的貢獻小。第二十五頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用12個原始變量(課程)提供的信息各為多少?用什么量來表達?最經(jīng)典的方法是用變量的方差Var(Xi)為多少來表達。
如果某課程全班學生的成績都差不多,比如都是80分左右,則這門課程在學生成績的排序中不起什么作用。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應的系數(shù)會很?。ㄈ?.1025).
如果另一門課程全班學生的成績相差很大,有的100分,有的只有30多分,則這門課程在學生成績的排序中起的作用很大。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應的系數(shù)會很大(比如0.4525).第二十六頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用
接著把每個學生12門課程的成績代入第一主成分Z1中,計算出每個學生第一主成分Z1的得分值,然后按從大到小的次序?qū)θ鄬W生的第一主成分Z1的得分值進行排序。這個次序作為全班學生在大學本科4年中綜合學習成績的順序是更合理更科學的。
推薦研究生時可以根據(jù)這個次序來依次推薦;評選綜合學習獎時也可以根據(jù)這個次序來評選;評選三好生時這個次序也是很有力的依據(jù)。第二十七頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用(2)全班學生加權綜合成績的排序
因12門課程(變量)所得的學分不同,學分的多少反映該課程的重要性,在(1)中進行排序時沒有考慮課程的重要性。由學分的多少對變量的重要程度分別賦于不同的權數(shù).學分多權數(shù)大些,學分少權數(shù)小些。即設Xj為第j個變量(課程)的40名學生的成績(觀測向量),令
第二十八頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用其中Xj*表示第j門課程的40名學生的加權成績(觀測向量),可取其中N表示12門課程的總學分數(shù)(如N=50),nj表示第j門課程的學分數(shù)(如n1=6).
某課程若所得的學分多(即該課程重要),因乘上的權數(shù)大,則該門課程的加權成績變大.由此得出的新綜合指標(第一主成分)Z1*在該變量上的系數(shù)也會加大,該變量對第一主成分Z1*的得分貢獻加大.第二十九頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用把12門課程的成績代入第一主成分Z1*中,計算出每個學生第一主成分Z1
*的得分值,然后按從大到小的次序?qū)θ鄬W生的第一主成分Z1*的得分值進行排序。這個次序可作為全班學生在大學本科4年中加權綜合學習成績的順序。
加權綜合學習成績的順序與(1)中沒有加權的綜合學習成績的順序可能會稍有些差別.加權綜合學習成績的順序也許比沒加權得出的順序還更合理更科學的。第三十頁,共八十二頁,2022年,8月28日教育學--
主成分分析在學生學習成績排序中的應用
同樣地,推薦研究生時可以根據(jù)這個更科學的次序來依次推薦;評選綜合學習獎時也可以根據(jù)這個更科學的次序來評選;評選三好生時這個更科學的次序也是很有力的依據(jù)。
第三十一頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域
2.醫(yī)學
3.氣象學
(請參閱教材《應用多元統(tǒng)計分析》P5)第三十二頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--醫(yī)學
2.醫(yī)學
隨機抽取300名患有抑郁癥的病人,按照測量到的指標,可以將他們分為幾種類型---聚類問題.
醫(yī)生對病人的診斷是靠對病人觀測若干癥狀來綜合評定。如一個人發(fā)高燒,醫(yī)生根據(jù)他的體溫高低、白血球數(shù)目及其它癥狀來判斷他是得感冒、肺炎還是其它。再如某人發(fā)現(xiàn)腹部有腫瘤,醫(yī)生根據(jù)腫瘤的大小、生長的速度、邊界是否清楚,質(zhì)硬或軟等癥狀來判斷腫瘤是良性或惡性---判別問題.第三十三頁,共八十二頁,2022年,8月28日第一章緒論
§1.2多元統(tǒng)計分析的應用領域—氣象學
3.氣象學
全國各地建立了很多氣象站,在不同時間各氣象站都記錄了降雨量、氣溫、氣壓、濕度、風速、風向等氣象指標資料。對這些資料作統(tǒng)計分析,可以得出:(1)指標間的關系,如降雨與前一天的氣溫、氣壓、濕度等的關系,利用該關系可對降雨的可能性作預報。(2)不同地點、氣象指標的關系。如某地有氣象臺站,長期記錄各氣象指標的資料。今計劃在臺站附近建一大型化工廠;廠區(qū)氣象條件是我們關心的,重建臺站又不可能。采用的辦法是先在廠區(qū)臨時建個觀測站,與臺站同時測定氣象指標。然后利用這些資料用多元統(tǒng)計分析方法建立二地氣象指標的關系。以達到今后可由氣象臺站的氣象資料來預報廠區(qū)的氣象情況。第三十四頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--環(huán)境科學
4.環(huán)境科學
(1)大氣環(huán)境污染的評估及與職工健康的關系
湖南岳陽化工總廠建廠前沒有進行環(huán)境評估(因建在文化大革命期間).工廠投產(chǎn)幾年后,發(fā)現(xiàn)污染嚴重,如很多職工有明顯肝大的癥狀,到底“肝大”是大氣污染造成的,還是其它(如水污染)?故決定進行環(huán)境評估。具體工作有:
①定時定點測量大氣中多種污染氣體的濃度,同時測量氣象條件;第三十五頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
②現(xiàn)場試驗,如施放大量的海軍煙霧彈作為示蹤物,了解其擴散情況,記錄其軌跡。③調(diào)查并統(tǒng)計了大量的職工體檢資料;④風洞模擬試驗。
現(xiàn)場觀測試驗共用了兩個多月的時間,調(diào)用了很多的人力和物力,收集了大量的資料。其中使用了多元統(tǒng)計分析的多種方法進行數(shù)據(jù)分析處理。
以下是其中的部分工作:第三十六頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
(一)大氣污染的地區(qū)分類
為了了解化工廠對環(huán)境的污染程度,在廠區(qū)及鄰近地區(qū)有代表性的選25個監(jiān)測點(如廠區(qū),生活區(qū),醫(yī)院,學?!?,每天定時(2點,8點,14點,20點)同時抽取大氣樣品,測定其中6種污染氣體(二氧化硫,硫化氫,碳4,…)的濃度,前后4天共16次數(shù)據(jù),對每個監(jiān)測點,計算每種污染氣體16次實測值的平均值,得25行6列的數(shù)據(jù)陣X,以下由數(shù)據(jù)陣X出發(fā),進行分析處理.第三十七頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
用統(tǒng)計分析方法分析處理這些資料.具體地說,使用了系統(tǒng)聚類分析方法,主成分分析方法,因子分析方法等等.不同的統(tǒng)計方法分類的結(jié)果不完全一致,經(jīng)綜合匯總后,把25個取樣點按污染情況分為5類,如分為極嚴重污染,很嚴重污染,嚴重污染,一般污染和較輕污染五大類.
第三十八頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
若使用對應分析方法,不僅可得出分類結(jié)果,還可給出有污染的每一類主要的污染氣體(元素).這些分類結(jié)果將為今后監(jiān)測點的布局提供既合理又經(jīng)濟的方案.如果在25個監(jiān)測點以外的其它地方也同時定點測量了6種污染氣體的濃度,則由以上的分類結(jié)果用判別歸類的方法還可給出該地區(qū)的污染分類.第三十九頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
(二)職工體檢資料的統(tǒng)計分析
在23個監(jiān)測點附近各隨機地抽取40人的體檢資料,共920人.考查的指標(因變量)有:
Y1-78年肝大數(shù)量;Y2-78年的白血球;
Y3-78年血收縮壓;Y4-78年血舒張壓;
Y5至Y8為79年同Y1至Y4的指標;
Y-78年到79年的肝增大數(shù)量;
第四十頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
影響這些指標的因素(自變量)有:
X1-年齡;X2-工齡;
X3-性別;X4-所在地區(qū)的污染類別.我們的目的是找出職工肝大與所在地區(qū)的污染程度是否關系很顯著.1)用方差分析檢驗不同類別的污染地區(qū)一年之間肝增大量(Y)是否有顯著性差異?這是個單因素的方差分析模型,因變量(指標)為Y,因素為定性(屬性)變量X4.第四十一頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
問題可化為假設檢驗問題:假設即假設5類地區(qū)職工中肝的平均增大數(shù)量相等.用920人的觀測數(shù)據(jù)來檢驗這個假設是否成立.
分析計算的結(jié)果在=0.01的水平上否定這個假設.這表明五類不同地區(qū)的平均肝增大數(shù)量有顯著性差異.
類似地可以把性別(X1)作為因素,檢驗男女職工平均肝增大數(shù)量是否有顯著差異.結(jié)果是沒有明顯差異.第四十二頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
這說明職工肝大主要是由大氣污染引起的.與性別(或年齡,工齡)無關,也不是由有些人所說是由于水質(zhì)不好引起的.
2)用回歸分析方法建立Y(肝增大數(shù)量)與X1,X2,X3,X4的相關關系式.因為X3和X4為定性(屬性)變量,建立模型之前先把這兩個變量數(shù)量化.X3=0表示女性,X3=1表示男性.第四十三頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
由以上討論的大氣污染地區(qū)的分類結(jié)果知該地區(qū)的污染情況可分為五類.引入極嚴重很嚴重嚴重一般較輕第四十四頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
用逐步回歸分析方法計算得:第1,2,3類是污染嚴重的地區(qū),在這三類地區(qū)內(nèi),故
Y=0.4611說明住在污染嚴重地區(qū)的職工于78年至79年間肝平均增大0.4611(厘米);第四十五頁,共八十二頁,2022年,8月28日環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系住在第4類地區(qū)()的職工,這一年間肝平均增大數(shù)量為
0.4611-0.3486=0.1125;而住在第5類地區(qū)()的職工,在這一年間肝平均增大數(shù)量為
0.4611-0.2969=0.1642.總之,以上分析結(jié)果表明,肝大是由大氣污染引起的,與年齡,工齡,性別無顯著關系.
其它指標的分析結(jié)果這里省略了.
第四十六頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域
5.地質(zhì)學
6.考古學7.服裝工業(yè)--服裝的定型分類問題8.經(jīng)濟學(1)—(4)
9.農(nóng)業(yè)(請參閱教材《應用多元統(tǒng)計分析》P6-7)第四十七頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--地質(zhì)學
5.地質(zhì)學
隨著電子計算機的普及以及地質(zhì)科學向定量化發(fā)展,地質(zhì)學和數(shù)學(主要是多元統(tǒng)計方法)結(jié)合起來產(chǎn)生了邊緣學科--數(shù)學地質(zhì),多元分析是其主要內(nèi)容之一。王學仁在《地質(zhì)數(shù)據(jù)的多變量統(tǒng)計分析》一書中介紹了多元分析方法及在地質(zhì)學中的應用。應用多元統(tǒng)計方法處理各種地質(zhì)觀測數(shù)據(jù),對成礦規(guī)律的評價,礦產(chǎn)預測、構(gòu)造解釋推斷、勘探工程布署等等都得出了一些定量的依據(jù),獲得了一些找礦信息。第四十八頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--考古學
6.考古學
(1)考古學家根據(jù)一群墳墓中的陪葬品(特別是陶磁和珠寶),利用它們在式樣和裝飾上的差別,把它們按時間順序排列起來。
(2)考古學家對挖掘出來的人頭蓋骨可測得多種數(shù)據(jù)(如高,寬等),利用頭蓋骨的數(shù)據(jù)來判斷所屬的種族,或判別性別是男或是女。并研究最佳的測量法以及最少的測量數(shù)目。(3)考古學家根據(jù)挖掘出的動物牙齒的有關測試指標,判別它是屬于哪類動物牙齒,是哪一個時代的。第四十九頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--服裝工業(yè)
7.服裝工業(yè)--服裝的定型分類問題
一個服裝公司希望生產(chǎn)足夠多的成衣以適應大多數(shù)顧客的要求,而且使不合身的和賣不出去的服裝盡量少。這樣不盡可滿足社會需要且公司也才可能賺錢。為此目的,首先在各地做抽樣調(diào)查,對被調(diào)查人測量身體幾十個部位的尺寸,然后對龐大的調(diào)查資料用多元統(tǒng)計方法分析處理,確定一種服裝究竟要有幾種型號,每種型號服裝的比例是多少,由身體的那幾個主要部位的尺寸決定。第五十頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--經(jīng)濟學
8.經(jīng)濟學
(1)構(gòu)造中國國民收入的生產(chǎn)、分配與最終使用的計量經(jīng)濟模型。例如根據(jù)我國1952年~1981年財政收入與國民收入、工農(nóng)業(yè)總產(chǎn)值、人口、就業(yè)人口、固定投資等因素有關,用回歸方法建立預測模型,用予對今后的財政收入作預測。(2)在商業(yè)經(jīng)濟中,常常需要將很復雜的數(shù)據(jù)綜合成商業(yè)指數(shù)形式,如物價指數(shù)、貨幣工資比、生活費用指數(shù)、商業(yè)活動指數(shù)等,用主成分分析可以從多個變量中構(gòu)造出所需的商業(yè)指數(shù)。第五十一頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--經(jīng)濟學8.經(jīng)濟學
(3)為了研究不同地區(qū)農(nóng)民收支的分布規(guī)律,抽樣調(diào)查了全國28個省市自治區(qū)的農(nóng)民生活消費支出情況,如食品、衣著、燃料、住房、生活用品、文化生活等的消費。用聚類分析方法對28個地區(qū)分類,根據(jù)分類結(jié)果還可進一步研究各類地區(qū)農(nóng)民的生活水平、富裕程度、以便進一步研究經(jīng)濟發(fā)展對策。(4)在經(jīng)濟學中,根據(jù)人均國民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費水平等多種指標來判定一個國家的經(jīng)濟發(fā)展程度所屬類型。
第五十二頁,共八十二頁,2022年,8月28日第一章緒論
§1.2多元統(tǒng)計分析的應用領域--農(nóng)業(yè)
9.農(nóng)業(yè)
(1)有n個不同地區(qū),每個地區(qū)記錄多種農(nóng)作物的收獲量,用多元統(tǒng)計方法對各個地區(qū)的總生產(chǎn)效率進行比較,并對不同的農(nóng)業(yè)區(qū)域進行分類。(2)為了節(jié)省能源,對某地農(nóng)用的手扶拖拉機的能源消耗進行抽樣調(diào)查。調(diào)查的內(nèi)容為拖拉機在田間,運輸、排灌、加工等作業(yè)時的燃油耗,在冊月數(shù)、年平均更變零件數(shù)及平均燃油耗。通過對調(diào)查資料作統(tǒng)計分析,達到對拖拉機的平均燃油耗作預測并對拖拉機進行分類,劃分淘汰類、大修類、小修類和繼續(xù)使用類。第五十三頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2元統(tǒng)計分析的應用領域--社會科學
10.社會科學
青少年犯罪問題是一個很大的社會問題。對待青少年犯罪,我們采取“以防為主、防重干治”的原則。要預防犯罪,除了加強經(jīng)常性的教育外,還必然提出預測犯罪的問題。如能對青少年犯罪心理和行為傾向性在犯罪行為發(fā)生之前便預測到,爭取把它消滅在萌芽狀態(tài),才能做到實際預防。
第五十四頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--社會科學
為此目的,1981~1982年中央教育科學研究所等幾個單位協(xié)作進行了調(diào)查研究工作,調(diào)查對象為一般中學生及工讀學校、少管所、勞教農(nóng)場、和勞改農(nóng)場的青少年。第五十五頁,共八十二頁,2022年,8月28日社會科學-
青少年犯罪的防治與預測
具體地說,使用逐步判別分析方法.利用所調(diào)查的二大方面內(nèi)容:心理因素(如物質(zhì)追求感、隔離感、無目的感、團伙義氣感…)和外部因素(如性別、家庭平均收入、每月零花錢、住宅面積…)共25項指標.這些指標中有些是屬性指標,如性別、物質(zhì)追求感等,用于建立判別式之前,先把它們數(shù)量化.第五十六頁,共八十二頁,2022年,8月28日社會科學-
青少年犯罪的防治與預測性別Sex為0表示女,為1表示男;
若調(diào)查表中的物質(zhì)追求感有三種選擇:很強,一般和弱,那么可用二個變量V1,V2來表示:(V1,V2)=(1,0)表示很強,(V1,V2)=(0,1)表示一般,(V1,V2)=(0,0)表示弱.其它的屬性指標類似處理.
第五十七頁,共八十二頁,2022年,8月28日社會科學-
青少年犯罪的防治與預測把被調(diào)查的青少年分為幾類(根據(jù)所犯罪行),利用調(diào)查資料來逐步篩選出區(qū)分這幾個類的指標,然后用這幾個指標建立判別式,并用所得到的判別式對這些青少年進行歸類,檢驗判別式的有效性.
將來就是要應用由這批調(diào)查資料所得的判別式對另一些青少年進行歸類,及早發(fā)現(xiàn)有問題的青少年.
第五十八頁,共八十二頁,2022年,8月28日社會科學-
青少年犯罪的防治與預測如果只把青少年分為正常和有問題兩類,那么判別的效果是很滿意的.
如果有問題的這一類又細分為:小偷,打架斗毆,流氓,殺人等類,所建立的判別式的效果就很不理想了,如把打架斗毆被判為小偷,而小偷被判為流氓等等.但是好人,壞人基本上是分清了.
也就是有問題的青少年還是可以預測出來的.
第五十九頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--文學
11.文學
自從二十世紀30年代末英國著名的統(tǒng)計學家Yule把統(tǒng)計方法引入到文學詞匯的研究以來,這個領域已經(jīng)取得不少進展,最有名的是Mosteller與Wallace在60年代初對美國立國三大歷史文獻之一的《聯(lián)邦主義者》文集的研究.
第六十頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--文學
在1985,1986年我國復旦大學統(tǒng)計運籌系的李賢平教授對我國的名著《紅樓夢》的著作權進行研究.使用的統(tǒng)計方法主要是多元分析.先選定數(shù)十個與情節(jié)無關的虛詞(如:了,嗎,嘛,喱,呢,么,…等)作為變量,把《紅樓夢》一書中的120回作為120個樣品,統(tǒng)計每一回(即樣品)選定的這些虛詞(即變量)出現(xiàn)的頻數(shù).由此得到的120行m列的數(shù)據(jù)陣作為分析的依據(jù).第六十一頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--文學
在《紅樓夢》的著作權的研究中使用較多的方法是聚類分析,主成分分析,典型相關分析等方法,由輸出的大量圖形可以看出:(1)前80回和后40回截然地分為兩類;(2)第67回落入后40回的這一類中;(3)前80回廣泛散布,并有若干規(guī)律;(4)后40回依回目的先后可分為幾類.第六十二頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--文學
由以上分析結(jié)果可以證實:(1)前80回和后40回不是出于同一個人的手筆;(2)前80回是否為曹雪芹所寫?通過用曹雪芹的另一著作,做類似的分析,結(jié)果證實了用詞手法完全相同,斷定為曹雪芹一人手筆;(3)而后40回是否為高鶚寫的?結(jié)論推翻了后40回是高鶚一人所寫.后40回的成書比較復雜,既有殘稿也有外人筆墨,不是高鶚一人所續(xù).第六十三頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--文學
以上這些論證在紅學界引起轟動.他們用多元統(tǒng)計分析方法提出了關于《紅樓夢》作者和成書過程的新學說.
李賢平教授他們又把這類方法用于其他作家和作品,結(jié)果證明統(tǒng)計方法的分辯能力是很強的.
第六十四頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--文學
從有關資料中我還看到:1980年美國華人教授陳炳藻也用類似的統(tǒng)計方法研究了《紅樓夢》的作者.當時把前80回和后40回分開成為二部分,又另取《英雄兒女》一書.考慮的用詞有名詞,形容詞和虛詞等.計算這三部分的相關系數(shù),得出前80回和后40回的相關系數(shù)為0.7以上,而與《英雄兒女》的相關系數(shù)只有0.3.從而得出結(jié)論認為前80回和后40回的作者為同一人.第六十五頁,共八十二頁,2022年,8月28日
第一章緒論
§1.2多元統(tǒng)計分析的應用領域--其他
12.其他
體育科研軍事科學生物學心理學生態(tài)學保險科學火警預報地震預報
中醫(yī)陰陽學說研究
林業(yè)科學
…….第六十六頁,共八十二頁,2022年,8月28日
第一章緒論
§1.3多元統(tǒng)計數(shù)據(jù)的圖表示法
圖形有助于對所研究的數(shù)據(jù)的直觀了解,一維或二維數(shù)據(jù)的圖形容易得到,三維圖形雖也可以畫出,但并不方便.三維以上圖形如何表示?許多統(tǒng)計學家給出了多維數(shù)據(jù)的圖示方法,但這方面的研究還處于不成熟狀態(tài),目前尚未有公認的方法.下面介紹幾種國際上近幾十年來出現(xiàn)的方法,其中有一些依賴人工容易實現(xiàn),但是有一些要是沒有計算機的幫助,恐怕較難實現(xiàn).設變量個數(shù)為p,觀測次數(shù)為n,第k次觀測值記為
X(k)=(xk1
xk2…xkp)
(k=1,2,…,n)
第六十七頁,共八十二頁,2022年,8月28日
第一章緒論
§1.3多元統(tǒng)計數(shù)據(jù)的圖表示法--輪廓圖輪廓圖的作圖步驟為:
(1)作直角坐標系,橫坐標?。饌€點表示p個變量.(2)對給定的一次觀測值,在p個點上的縱坐標(即高度)和它對應的變量取值成正比.(3)連接p個高度的頂點得一折線.則一次觀測值的輪廓為一條多角折線形.
n次觀測值可畫出n條折線,構(gòu)成輪廓圖.
第六十八頁,共八十二頁,2022年,8月28日
第一章緒論
§1.3多元統(tǒng)計數(shù)據(jù)的圖表示法--輪廓圖
表1.1中12個學生學習成績的輪廓圖如下:政治語文外語數(shù)學物理100第六十九頁,共八十二頁,2022年,8月28日
第一章緒論
§1.3多元統(tǒng)計數(shù)據(jù)的圖表示法--輪廓圖
由輪廓圖可直觀看出,哪幾個學生成績相似,哪些屬優(yōu)秀、哪些中等、哪些較差,對幾門課程可直觀地看成績的好壞,分散情況等等.這種圖形在聚類分析中頗有幫助.
第七十頁,共八十二頁,2022年,8月28日
第一章緒論
§1.3多元統(tǒng)計數(shù)據(jù)的圖表示法--雷達圖雷達圖的作圖步驟是:
(1)作一圓,并把圓周分為p等分.(2)連接圓心和各分點,把這p條半徑依次定義為各變量的坐標軸,并標以適當?shù)目潭?(3)對給定的一次觀測值,把p個變量值分別點在相應的坐標軸上,然后連接成一個p邊形.n次觀測值可畫出n個p邊形.第七十一頁,共八十二頁,2022年,8月28日
第一章緒論
§1.3多元統(tǒng)計數(shù)據(jù)的圖表示法--雷達圖政治語文外語數(shù)學物理121第七十二頁,共八十二頁,2022年,8月28日
第一章緒論
§1.3多元統(tǒng)計數(shù)據(jù)的圖表示法--雷達圖
這種圖形既象雷達熒光屏上看到的圖象,也象個蜘蛛網(wǎng).因此有人稱為雷達圖,也有人稱為蜘蛛圖.以上圖形中畫出表1.1中第一個和第十二個學生的成績.各科都達到100分的學生對應著一個面積最大的正五邊形.第一個學生的圖形接近正五邊形,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年定向鉆井合同
- 2025年度委托反擔保合同范例:股權投資合作3篇
- 同學聚會祝酒詞15篇
- 公司財務實習報告匯編10篇
- 大學畢業(yè)生自我鑒定13篇
- 2024年版石油配送協(xié)議2篇
- 2024年外研銜接版八年級化學上冊月考試卷含答案
- 2024年華師大版九年級地理下冊階段測試試卷含答案
- 2025年北師大新版六年級語文上冊月考試卷
- 商業(yè)文案閱讀的策略性分析
- 2022年1月福建省高中學生學業(yè)基礎會考物理試卷及答案
- 信息系統(tǒng)運維服務方案
- 空調(diào)檢驗報告
- 陜西省西安市碑林區(qū)鐵一中學2020-2021學年七年級上學期期末數(shù)學試題(含答案解析)
- 簡支梁、懸臂梁撓度計算程序(自動版)
- 埋地鋼管結(jié)構(gòu)計算
- X-Y數(shù)控工作臺及其控制系統(tǒng)設計
- 統(tǒng)編版小學四年級語文上冊五六單元測試卷(附答案)
- 電工新技術介紹(課堂PPT)
- 我最喜歡的節(jié)日的小學英語作文我喜歡的節(jié)日英語作文.doc
- 機電設備維護保養(yǎng)技術
評論
0/150
提交評論