數(shù)據(jù)處理1課件_第1頁
數(shù)據(jù)處理1課件_第2頁
數(shù)據(jù)處理1課件_第3頁
數(shù)據(jù)處理1課件_第4頁
數(shù)據(jù)處理1課件_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)處理專題 數(shù)據(jù)處理是指用簡明而嚴(yán)格的方法把獲得的實(shí)驗數(shù)據(jù)所代表的事物內(nèi)在的規(guī)律提煉出來,得出結(jié)果的加工過程,包括數(shù)據(jù)記錄、描繪曲線,從帶有誤差的數(shù)據(jù)中提取參數(shù),驗證和尋找經(jīng)驗規(guī)律,外推實(shí)驗數(shù)據(jù)等等。本章介紹一些最基本的數(shù)據(jù)處理方法。 數(shù)據(jù)處理的內(nèi)容:1、數(shù)據(jù)預(yù)處理 1.1、數(shù)據(jù)標(biāo)準(zhǔn)化處理。1.2、數(shù)據(jù)光滑化處理。2、數(shù)據(jù)分類 -聚類分析。3、主要影響因素的提取- 主成分分析。4、數(shù)據(jù)具體分析 1、回歸分析。2、相關(guān)性分析。3.因子分析。一、數(shù)據(jù)預(yù)處理1.1、數(shù)據(jù)標(biāo)準(zhǔn)化處理 在數(shù)據(jù)分析之前,我們通常需要先將數(shù)據(jù)標(biāo)準(zhǔn)化(normalization),利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化也

2、就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。數(shù)據(jù)標(biāo)準(zhǔn)化的方法有很多種,常用的有“最小最大標(biāo)準(zhǔn)化”、“Z-score標(biāo)準(zhǔn)化”和“按小數(shù)定標(biāo)標(biāo)準(zhǔn)化”等。經(jīng)過上述標(biāo)準(zhǔn)化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個數(shù)量級別上,可以進(jìn)行綜合測評分析。 二、數(shù)據(jù)處理的一般方法表:31個主要城市空氣質(zhì)量指標(biāo)(2003年) 單位:毫克

3、/立方米 城 市可吸入顆粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空氣質(zhì)量達(dá)到及好于二級的天數(shù)x(天)北 京0.1410.0610.072224天 津0.1330.0740.052264石 家 莊0.1750.1520.044211太 原0.1720.0990.031181呼和浩特0.1160.0390.046286沈 陽0.1350.0520.036298長 春0.0980.0120.022342哈 爾 濱0.1210.0430.065297城 市可吸入顆粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空氣質(zhì)量達(dá)到及好于二級的天數(shù)x1(天)北 京0.1410.0610.0721

4、18天 津0.1330.0740.05278石 家 莊0.1750.1520.044 131太 原0.1720.0990.031 161呼和浩特0.1160.0390.046 56沈 陽0.1350.0520.036 44長 春0.0980.0120.0220哈 爾 濱0.1210.0430.065 45極大轉(zhuǎn)極小型 x1=M-x城 市可吸入顆粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空氣質(zhì)量達(dá)到及好于二級的天數(shù)(天)北 京天 津石 家 莊太 原呼和浩特2、數(shù)據(jù)光滑化處理。1、移動平均法 由于實(shí)際數(shù)據(jù)有時受到隨機(jī)現(xiàn)象的干擾,而出現(xiàn)隨機(jī)波動,這樣導(dǎo)致我的數(shù)據(jù)不光滑,我們可以采取一些數(shù)學(xué)

5、手段對其進(jìn)行光滑化處理,便于我們進(jìn)行后期分析。2、指數(shù)平滑法其中xk 為原始數(shù)據(jù),Yk 為平滑后的數(shù)據(jù),n為數(shù)據(jù)個數(shù),b為平滑權(quán)數(shù)。其他聚類方法1、模糊聚類2、灰色聚類3、神經(jīng)網(wǎng)絡(luò)聚類4、圖論聚類法綜合人口承載力研究 經(jīng)濟(jì)承載力 環(huán)境承載力 資源承載力1、間隔尺度:變量是用連續(xù)量來表示,如長度、重量等。2、有序尺度:用一些等級來表示。如上中下三等。3、名義尺度:既沒有數(shù)量表示也沒有次序表示。如 紅、黃、 藍(lán)三色等。實(shí)際問題的三種數(shù)量尺度:類間的連接方法x21x12x22x11x11x21最短距離最長距離平均距離Q分類距離的選擇 距離有:明氏距離、歐氏距離,馬氏距離,蘭氏距離等具體如下。(1)明

6、氏距離明氏距離歐氏距離明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計量單位的選擇。 明氏距離的定義沒有考慮各個變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進(jìn)行了綜合。 這是印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(PCMahalanobis)所定義的一種距離,其計算公式為:(3)馬氏距離協(xié)方差陣的逆矩陣 馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏

7、距離考慮了觀測變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關(guān)性,而且也考慮到了各個觀測指標(biāo)取值的差異程度,消除了各個觀測指標(biāo)不同量綱的影響。這表明,馬氏距離對任何非奇異線性變換都具有不變性。協(xié)方差及協(xié)方差矩陣的定義協(xié)方差的定義 R分類相似度選擇1、數(shù)量積法2、夾角余弦法3、相關(guān)系數(shù)法最短距離法步驟如下:【1】定義樣品之間的距離,計算樣品兩兩距離,得一距離記為D(0) 開始每個樣品自成一類,顯然這時Dij =dij。其中D表示類Group之間的距離

8、,distance表示樣品之間的距離?!?】找出D(0) 的非對角線最小元素,設(shè)為Dpq,則將Gp和Gq合并為一新類,記為Gr ?!?】給出計算新類與其他的類的距離公式: 距離公式有:歐氏距離,馬氏距離,蘭氏距離等。 Dkr=minDkp,Dkq將D(0)中的第p、q行及p、q列用上面公式并成一個新行新列,新行新列對應(yīng)Gr,所得到得矩陣記為D(1)【4】對D(1)重復(fù)上述對D(0)的(2)(3)兩步得D(2);如此下去,直到所有的元素并為一類。注意:如果某一步中非對角線最小的元素不止一個,則對應(yīng)這些最小元素的類可以同時合并。為了大家便于掌握我們舉例如下: 例:設(shè)抽取五個樣品,每個樣品只測一個指

9、標(biāo),它們是1,2,3.5,7,9,試用最短距離法對這五個樣品進(jìn)行分類。D0G1=X1G2=X2G3=X3G4=X4G5=X5G1=X10G2=X210G3=X32.51.50G4=X4653.50G5=X5875.520樣品樣品1樣品2樣品3樣品4樣品5指標(biāo)1123.579解:我們距離選用我們所熟悉的絕對值距離。|x1-x2|D1G6=X1,x2G3=X3G4=X4G5=X5G6=X1,x20G3=X31.50G4=X453.50G5=X575.520D2G6=X1,x2,x3G4=X4G5=X5G6=X1,x2,x30G4=X43.50G5=X55.520D3G6=X1,x2,x3G7=x4

10、,X5G6=X1,x2,x30G7=x4,X53.50最終我們分為兩類比較合適,x1,x2,x3與x4,x5樣品指標(biāo)1樣品11樣品22樣品33.5樣品47樣品59X1X2X3X4X5樣品指標(biāo)1樣品11樣品22樣品33.5樣品47樣品59Step1 尋找變量之間的相似性用pdist函數(shù)計算相似矩陣,有多種方法可以計算距離,進(jìn)行計算之前最好先將數(shù)據(jù)用zscore函數(shù)進(jìn)行標(biāo)準(zhǔn)化。X=1,2,3.5,7,9X2=zscore(X); %標(biāo)準(zhǔn)化數(shù)據(jù)Y2=pdist(X2, euclidean); %計算距離(歐氏距離)Step2 定義變量之間的連接Z2=linkage(Y2, single);%最短距離

11、法Step3 評價聚類信息C2=cophenet(Z2,Y2); Step4 創(chuàng)建聚類,并作出譜系圖T=cluster(Z2,2);%表示將將X分成2類H=dendrogram(Z2);%畫出聚類樹形圖matlab做聚類分析聚類步棸:(1)找到數(shù)據(jù)集合中變量兩兩之間的相似性和非相似性,用pdist函數(shù)計算變量之間的距離;(2)用 linkage函數(shù)定義變量之間的連接;(3)用 cophenetic函數(shù)評價聚類信息;(4)用cluster函數(shù)創(chuàng)建聚類。zscore函數(shù)調(diào)用格式:Z = ZSCORE(D) 說明:目的是標(biāo)準(zhǔn)化數(shù)據(jù),它所采取的標(biāo)準(zhǔn)話原理是標(biāo)準(zhǔn)化變換 pdist函數(shù)調(diào)用格式:Y=pdi

12、st(X,metric)說明:用 metric指定的方法計算 X 數(shù)據(jù)矩陣中對象之間的距離。X:一個mn的矩陣,它是由m個對象組成的數(shù)據(jù)集,每個對象的大小為n。metric取值如下:euclidean:歐氏距離(默認(rèn));seuclidean:標(biāo)準(zhǔn)化歐氏距離;mahalanobis:馬氏距離;cityblock:布洛克距離;minkowski:明可夫斯基距離;cosine:cos距離 (計算相似度)chebychev:Chebychev距離。linkage函數(shù)調(diào)用格式:Z=linkage(Y,method)說 明:用method參數(shù)指定的算法計算系統(tǒng)聚類樹。 Y:pdist函數(shù)返回的距離向量;

13、method:可取值如下: single:最短距離法(默認(rèn)); complete:最長距離法;average:未加權(quán)平均距離法; weighted: 加權(quán)平均法;centroid:質(zhì)心距離法; median:加權(quán)質(zhì)心距離法;ward:內(nèi)平方距離法(最小方差算法)cophenet函數(shù) 調(diào)用格式:c=cophenetic(Z,Y)說 明:利用pdist函數(shù)生成的Y和linkage函數(shù)生成的Z計算ecophene相關(guān)系數(shù).cophene檢驗一定算法下產(chǎn)生的二叉聚類樹和實(shí)際情況的相符程度,就是檢測二叉聚類樹中各元素間的距離和pdist計算產(chǎn)生的實(shí)際的距離之間有多大的相關(guān)性,另外也可以用inconsis

14、tent表示量化某個層次的聚類上的節(jié)點(diǎn)間的差異性。dendrogram函數(shù)調(diào)用格式:H,T=dendrogram(Z,n)說明:產(chǎn)生的聚類樹是一個n型樹,最下邊表示樣本,然后一級一級往上聚類,最終成為最頂端的一類。縱軸高度代表距離列 。另外,還可以設(shè)置聚類數(shù)最下端的樣本數(shù),默認(rèn)為30,可以根據(jù)修改dendrogram(Z,n)參數(shù)n來實(shí)現(xiàn),1nM。dendrogram(Z,0)則表n=M的情況,顯示所有葉節(jié)點(diǎn)。cluster 函數(shù)調(diào)用格式:T=cluster(Z,cutoff,C) , T=cluster(Z,n) 說明:根據(jù)linkage函數(shù)的輸出Z 創(chuàng)建分類,C表示聚類的 門限值,n表示分

15、成n類。例 為了更深入了解我國人口的文化程度狀況,現(xiàn)利用1990年全國人口普查數(shù)據(jù)對全國30個省、直轄市、自治區(qū)進(jìn)行聚類分析。分析選用了三個指標(biāo):(1)大學(xué)以上文化程度的人口占全部人口的比例(DXBL);(2)初中文化程度的人口占全部人口的比例(CZBL);(3)文盲半文盲人口占全部人口的比例(WMBL)、分別用來反映較高、中等、較低文化程度人口的狀況,原始數(shù)據(jù)如附件:地區(qū)序 號DXBLCZBLWMBL北 京19.3030.558.70天 津24.6729.388.92河 北30.9624.6915.21山 西41.3829.2411.30內(nèi) 蒙51.4825.4715.39遼 寧62.603

16、2.328.81吉 林72.1526.3110.49解:程序如下clearclcdata1=load(data1.txt)X=zscore(data1)Y2=pdist(X, mahalanobis);%計算樣本間距離Z2=linkage(Y2,single);%根據(jù)最短距離法分類C2=cophenet(Z2,Y2); T=cluster(Z2,5);%分成三類H=dendrogram(Z2);%畫出聚類圖根據(jù)聚類圖把30個樣品分為四類能更好地反映我國實(shí)際情況。第一類:北京、天津、上海。文化較發(fā)達(dá)的地區(qū)。第二類:安徽、寧夏、青海、甘肅、云南、貴州。其中大多是西部經(jīng)濟(jì)、文化發(fā)展較慢的地區(qū)。第三類

17、:西藏。經(jīng)濟(jì)、文化較落后的地區(qū)。第四類:湖南、湖北,廣東、廣西等大多是東部地區(qū)。文化在全國處于中等偏上水平。第五類:山西、遼寧、吉林、黑龍江文化在全國處于中等水平。 根據(jù)指標(biāo)X1,X2,X3,X4,X5,X6,對下面的大學(xué)進(jìn)行分類。 其中X1至X6變量分別表示新生的SAT得分,新生中在高中時期名列班上前10%的人數(shù)百分比,報名者被接受入學(xué)的百分比,學(xué)生與教師的比例,估計的年費(fèi)用,畢業(yè)比例。 練 習(xí) 題SAT,全稱Scholastic Assessment Test,中文名稱為學(xué)術(shù)能力評估測試。由美國大學(xué)委員會(College Board)主辦,SAT成績是世界各國高中生申請美國名校學(xué)習(xí)及獎學(xué)金的重要參考 。大學(xué)X1X2X3X4X5X6哈佛大學(xué)14.0091141139.52597普林斯頓大學(xué)13.759114830.22095耶魯大學(xué)13.7595191143.51496斯坦福大學(xué)13.6090201236.45093麻省理工學(xué)院13.8094301034.87091杜克大學(xué)13.1590301231.58595加州理工學(xué)院14.1510025663.57581達(dá)特茅斯大學(xué)13.4089231032.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論