應(yīng)用統(tǒng)計補充專題_第1頁
應(yīng)用統(tǒng)計補充專題_第2頁
應(yīng)用統(tǒng)計補充專題_第3頁
應(yīng)用統(tǒng)計補充專題_第4頁
應(yīng)用統(tǒng)計補充專題_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、補充專題2:判別分析和聚類分析一、判別分析和聚類分析判別分析解決這樣的問題:事先知道研究對象分為幾個類別,而且有一些類別已知的樣品,從這些類別已知的樣品出發(fā),建立一種判別方法,對類別未知的樣品進行分類。聚類分析解決這樣的問題:有一些樣品需要分類,但是它們可以分為哪幾類,各是什么樣的類型,事先都不知道,也沒有已知類別的樣品可以作為參考,為此,只能根據(jù)“物以類聚”的原則,把特性比較接近的樣品聚集在一起,成為一類。這就是聚類分析。二、聚類分析問題舉例:1. 動植物的分類采集了一大批動物或植物的標本,事先不知道它們可以分為幾類,只是根據(jù)從標本測得的各種數(shù)據(jù)(如動物的各種體形特征,植物的各種外形尺寸),

2、考慮把特征相近的標本聚集在一起,分成幾類,這就是一個聚類分析問題。2. 上市股票的分類股市中有成百上千只股票,每只股票都有大批數(shù)據(jù)(如股票價格、成交量、市盈率、公司資本、負債、產(chǎn)值、利潤等),根據(jù)這些數(shù)據(jù)把特征相近的股票聚集在一起,分成幾類,這也是一個聚類分析問題。3. 不同情況氣象年份的分類對某地積累了許多年的氣象資料,每一年都有一大批數(shù)據(jù)(如該年各個月份的平均氣溫、降水量、年最高氣溫、年最低氣溫等),要求把氣象情況相近的年份聚集在一起,分成幾類,這也是一個聚類分析問題。4. 教學(xué)評估后,依照各項指標得分對高校辦學(xué)水平的等級進行分類;世界杯結(jié)束后,依進球數(shù)和失球數(shù)對參賽球隊的水平進行分類等,

3、都可用聚類分析的方法解決。三、聚類分析的方法方法很多,最常用也比較成熟的一種方法是系統(tǒng)聚類法(Hierarchical Clustering Method),也稱譜系聚類法。1. 相似度的測量1)樣品間的距離:常見的有絕對值距離、歐氏距離等。設(shè)有p個指標X1,X2,Xp, 進行了n次觀測,得到樣本觀測值為xi=(xi1, xi2, , xip),i=1,2, ,n. 第i個與第j個樣品之間的歐氏距離定義為2)類與類之間的距離:常見的有最短距離、最長距離、重心距離等。其中最短距離定義為類Gi與類Gj中兩個最近元素之間的距離為這兩類之間的最短距離。計算公式為D1(i, j)=mindijiGi,

4、jGj2. 系統(tǒng)聚類法的基本思路和計算流程:1)將n個樣品分為n類,每類一個樣本。2)選擇樣品間距離的計算方法,如歐氏距離。3)選擇類與類之間距離的計算方法,如最短距離。4)選擇距離最小的兩類合并為一個新類,原來n類減少為n-1類。5)重復(fù)第4)步,直到合并為一大類為止。6)畫出分類圖, 并做出分析。四、系統(tǒng)聚類法實例【例1】有8個樣本,每個樣本2個指標,數(shù)據(jù)如表1所示。樣品之間的距離用歐氏距離,類與類之間的距離用最短距離,使用系統(tǒng)聚類法對這8個樣本進行分類。樣本編號12345678指標12244-4-2-3-1指標25343322-3解:系統(tǒng)聚類過程如下。1)將8個樣品分為8類。2)計算類與

5、類之間的距離矩陣3)由D0看出,最小元素為1.0,是G3和G4、G6和G7間的距離,將G3和G4合并為新類G9,將合G3和G4并為新類G10 .4)重新計算新類之間的距離矩陣5)由D1看出,最小元素為1.4,是G5和G10間的距離,將G5和G10合并為新類G11 .6)重新計算新類之間的距離矩陣7)由D2看出,最小元素為2,是G1和G2、G2和G9間的距離,將G1 、G2和G9合并為新類G12 .8)重新計算新類之間的距離矩陣9)由D3看出,最小元素為4.1,是G11和G12間的距離,將G11和G12合并為新類G13 .最后將G8和G13合并為一類.10)畫出分類圖:(此例只考慮兩個指標,故可

6、畫出指標1、指標2觀察值的散點圖,與分類圖與相對照)G12G9G9G13G12G11G106758342110 / 10文檔可自由編輯打印11)從聚類圖可以看出,當(dāng)樣品分為兩類時,第一類為樣品8,第二類為樣品1,2,3,4, 5,6,7,;當(dāng)樣品分為三類時,第一類為樣品8,第二類為樣品5,6,7;第三類為樣品1,2, 3,4。依次類推,可以分出不同數(shù)量類別時,各類所包含的樣品?!纠?】2002年世界杯足球賽中,前16名的球隊在此前的小組賽中的進球數(shù)和失球數(shù)統(tǒng)計如表2所示。樣本點之間的距離用歐氏距離,類與類之間的距離用最短距離,使用系統(tǒng)聚類法對這16個球隊進行分類。球隊編號球隊名稱進球數(shù)失球數(shù)1丹麥522塞內(nèi)加爾543西班牙944巴拉圭665巴西1136土耳其537韓國418美國569德國11110愛爾蘭5211瑞典4312英格蘭2113墨西哥4214意大利4315日

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論