多元統(tǒng)計學(xué)DOC_第1頁
多元統(tǒng)計學(xué)DOC_第2頁
多元統(tǒng)計學(xué)DOC_第3頁
多元統(tǒng)計學(xué)DOC_第4頁
多元統(tǒng)計學(xué)DOC_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、利用主成分分析法對廢水污染物進行分析摘要:主成分分析法是統(tǒng)計學(xué)中常用的統(tǒng)計分析方法,主要是利用降維的思想,在損失很少信息的前提下把多個指標(biāo)轉(zhuǎn)化為幾個綜合指標(biāo).此文中我們利用SPSS軟件對主要城市的廢水污染物的排放情況,通過主成分分析的方法進行統(tǒng)計分析,進而再通過聚類,根據(jù)主要城市的廢水污染物對城市進行分類.關(guān)鍵字:主成分分析,聚類,廢水污染物,SPSSAbstract: Principal component analysis is a statistical method commonly used in the statistical analysis, which makes many

2、indexes be less ones with a few information lost. In this paper, we use SPSS software for wastewater pollutant emissions in major cities, applying statistical analysis by using principal component analysis, and then clustering cities into several groups according to the city's main water polluta

3、nts.Key Words: Principal component analysis, Clustering, Wastewater pollutants, SPSS1引言主成分分析(principal component analysis)也稱主分量分析,由霍特林( Hotelling )于1933年首先提出.主成分分析是利用降維的思想,在損失很少信息的前提下把多個指標(biāo)轉(zhuǎn)化為幾個綜合指標(biāo)的多元統(tǒng)計方法.通常把轉(zhuǎn)化后的綜合指標(biāo)稱之為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關(guān),這就使得主成分比原始變量具有某些更優(yōu)越的性能.這樣在研究復(fù)雜問題時就可以只考慮少數(shù)幾個主成

4、分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示事物內(nèi)部變量之間的規(guī)律性,同時使問題得到簡化,提高分析效率.由于主成分分析的這些優(yōu)勢,在實際問題中遇到指標(biāo)較多且各指標(biāo)相關(guān)關(guān)系較大時,人們??紤]應(yīng)用主成分分析的方法.河流中污染物的含量一直是環(huán)境資源問題的研究熱點,本文正是通過多元統(tǒng)計學(xué)中的主成分分析的分析方法來對廢水中的污染物的排放情況進行分析,然后通過聚類分析對這些主要城市進行分類.2. 基本原理2.1主成分分析的基本原理在對某一事物進行實例研究中,為了更全面的、更準(zhǔn)確地反應(yīng)事物的特征及其發(fā)展規(guī)律,人們往往要考慮其有關(guān)系的多個指標(biāo),一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標(biāo),而另

5、一方面隨著考慮指標(biāo)的增多增加了問題的復(fù)雜性.由于各指標(biāo)是對同一事物的反映,不可避免地造成信息地大量重疊,基于此,主成分分析研究通過原來變量地少數(shù)幾個線性組合來反應(yīng)原理指標(biāo)的信息,相互之間又盡可能不含重復(fù)信息. 主成分的求法設(shè)總體 現(xiàn)在尋求新的綜合指標(biāo).其基本思想是:找出個分量的一個線性組合,為使盡可能的反映的變化情況,就是要使具有最大的方差.繼而找出的各分量的第二個線性組合,為使和相互之間盡可能不含重復(fù)信息,又能盡可能多的反映的信息,就要是在與不相關(guān)的條件下具有最大的方差,如此繼續(xù)下去,直到的信息基本提取完畢為止.這些新的綜合指標(biāo),等就稱為的主成分.由協(xié)方差陣是一個非負定矩陣,現(xiàn)在尋求使得的方

6、差達到最大,且.這是一個條件極值問題:利用拉格朗日乘數(shù)法,令得,可見是長度為1的特征值.此時,所以應(yīng)取為的最大特征根,且應(yīng)取為相應(yīng)于的單位化的特征向量,因此為的第一主成分.同樣要求達到最大,其中且,問題歸結(jié)為求解與前面類似,求得應(yīng)取為相應(yīng)于的第二大特征根所對應(yīng)的單位特征向量,從而求得的第二主成分.以此類推,求得的k個主成分.2.1.2 主成分求解步驟(1) 求的協(xié)方差陣的特征根,記為(2) 求對應(yīng)的單位特征向量(因為對稱陣,故不同特征根對應(yīng)的特征向量比正交).(3) 取即為的第個主成分,.注意,若,則可得的個主成分,當(dāng)有重根時,主成分不惟一.值得注意的是,的主成分是由的分量的特殊線性組合而得,

7、如果各分量的單位(即量綱)不同,那么這種線性組合要解釋其含義就很困難了,而且當(dāng)某一個變量改變其計算單位后,協(xié)方差陣就會改變,自然相應(yīng)的的特征根、特征向量也隨之改變,最后導(dǎo)致主成分的改變.為了清除變量間不同單位的影響,通常是先把各變量標(biāo)準(zhǔn)化,即坐如下變換,令其中,.注意到的協(xié)方差陣實際上是的相關(guān)矩陣,即,其中,為變量與的相關(guān)系數(shù).對實行求主成分的步驟(1)(3),所得的主成分成為標(biāo)準(zhǔn)主成分.需要指出的是,從和分別算出的主成分有時有很大的不同,這意味著變量的標(biāo)準(zhǔn)化并不是無關(guān)緊要的.一般來說,當(dāng)變量取值范圍彼此差異很大或度量單位不同時,應(yīng)考慮標(biāo)準(zhǔn)化,不過當(dāng)?shù)闹鲗蔷€上的各元素相差不大時,為了簡單,也

8、可以直接求的主成分進行分析.在實際問題中,所研究的總體的均值、協(xié)方差陣和相關(guān)矩陣大多是未知的,所以這時我們應(yīng)以樣本觀測陣中的數(shù)據(jù),求出它們的樣本均值、樣本協(xié)方差陣和樣本相關(guān)矩陣,再根據(jù)相應(yīng)的計算運用主成分分析法求解出樣本主成分. 貢獻率和主成分的實際意義主成分分析的目的之一,是用可能少的不相關(guān)的主成分來代替?zhèn)€相關(guān)變量 ,且能描述的統(tǒng)計特征,并對的實際意義作出合理解釋.以下以表示的協(xié)方差陣,記那么中主對角線上的元素分別表示的各分量的方差,因而的“總方差”為對于非負定矩陣,有,而的“總方差”為,從而有,.上式說明的“總方差”等于的“總方差”,其中具有最大的方差,次之具有方差,具有最小的方差,為此表

9、明了主成分的方差在全部方差中的比值,則稱第個主成分的貢獻率.這個值越大,表明綜合反映的能力越強,反之越弱.則稱為前m個主成分的累計貢獻率.在實際應(yīng)用中常略去那些貢獻率小的主成分.相關(guān)經(jīng)驗指出,一般來說,若這m個主成分的方差已占“總方差”的85%以上,則只需這m個主成分就夠了.當(dāng)然這并不是一個絕對不變的標(biāo)準(zhǔn),要根據(jù)實際效果做取舍.2.2 聚類分析聚類分析是研究物以類聚的一種方法.分類問題在科學(xué)研究、生產(chǎn)實踐、社會生活中到處存在,人們可以依靠相關(guān)經(jīng)驗和專業(yè)知識對事物實現(xiàn)分類,但當(dāng)反映實物的性質(zhì)、特性的指標(biāo)較多,且對分類要求較高時,僅憑經(jīng)驗和專業(yè)知識就不能達到確切的分類目的.用聚類分析解決實際問題時

10、,我們總把每個分類對象稱為樣品,并根據(jù)對象的性質(zhì)和分類的目的選定若干指標(biāo),對每一個樣品測出所有的指標(biāo)值,將得到的結(jié)果列成一個數(shù)據(jù)矩陣,這個樣本資料陣就是聚類分析的出發(fā)點,然后根據(jù)相應(yīng)的聚類方法對樣本進行聚類分析.3. 實例分析3.1 數(shù)據(jù)選取本文所選取的數(shù)據(jù)來自中國統(tǒng)計年鑒2013中2012年主要城市廢水中主要污染物的排放情況.表1:2012年主要城市廢水中主要污染物的排放情況編號城市化學(xué)需氧量(萬噸)氨氮(萬噸)石油類(噸)鉛(千克)鎘(千克)砷(千克)六價鉻(千克)1北 京18.652.0551.46215.9117.9021.34325.842天 津22.942.54138.211004

11、.649.6419.37169.283石 家 莊22.911.57147.5815.170.911.523.694太 原2.580.4627.7791.2113.3332.48154.655呼和浩特13.240.481.517.542.006沈 陽26.052.2560.5239.531.091.4487.057長 春18.331.3926.3615.480.030.0888.468哈 爾 濱31.472.2838.4220.801.0141.489上 海24.264.74649.74321.2515.3499.861010.9710南 京10.891.75204.2720.328.9551.

12、79328.7111杭 州10.481.3840.6332.340.311.002318.1412合 肥12.531.0925.2120.032.702.856.6913福 州10.681.5926.0427.492.477.01454.4414南 昌8.871.1276.7751.638.585.1616869.5915濟 南11.580.9678.006.571.5443.2585.9916鄭 州9.811.30177.8220.726.1927.2944.0617武 漢15.911.86111.50122.894.30209.461193.8418長 沙12.301.3914.7863.

13、9911.571.98133.0919廣 州17.912.3994.71105.9815.4032.171669.5520南 寧12.371.326.3516.913.6624.0917.2521海 口1.690.463.320.280.110.470.0022重 慶40.285.34354.4888.432.651362.39204.8423成 都19.842.3034.9116.322.3197.70100.1724貴 陽4.360.5160.962.710.880.703.7925昆 明2.820.7276.364933.121063.343641.000.4526拉 薩0.990.12

14、0.272.570.5127西 安11.831.38273.3749.215.738.2493.5828蘭 州4.960.8669.028.741.242.972.0529西 寧4.290.4638.83291.5878.37209.627.2630銀 川5.100.6553.5711.030.3136.976.7431烏魯木齊3.130.6355.8428.2142.46122.08129.583.2 主成分分析在spss中的具體操作步驟運用SPSS統(tǒng)計軟件的分析過程,對31個主要城市廢水中主要的污染物的排放情況進行主成分分析,具體步驟為:1. 分析-描述-數(shù)據(jù)標(biāo)準(zhǔn)化,選中7個原始指標(biāo),并在

15、對話框中勾選將標(biāo)準(zhǔn)化后的數(shù)據(jù)存在變量;2. 分析-降維-因子分析,彈出因子分析對話框;3. 把標(biāo)準(zhǔn)化后的7個指標(biāo)選入變量框里;4. 在描述里面的相關(guān)矩陣框組里選中 系數(shù),然后點擊繼續(xù)返回因子分析對話框;5. 點擊確定.表2:KMO 和 Bartlett 的檢驗取樣足夠度的 Kaiser-Meyer-Olkin 度量.558Bartlett 的球形度檢驗近似卡方233.012df21Sig.000表3:相關(guān)矩陣Z化學(xué)需氧量(萬噸)Z氨氮(萬噸)Z石油類(噸)Z鉛(千克)Z 鎘(千克)Z 砷(千克)Z總鉻(千克)Z化學(xué)需氧量(萬噸)1.000.859.447-.152-.226-.015-.004

16、Z氨氮(萬噸).8591.000.743-.059-.138.099.063Z石油類(噸).447.7431.000.028-.028.115.105Z鉛(千克)-.152-.059.0281.000.979.916-.060Z鎘(千克)-.226-.138-.028.9791.000.933-.063Z砷(千克)-.015.099.115.916.9331.000-.075Z總鉻(千克)-.004.063.105-.060-.063-.0751.000表4:解釋的總方差成份初始特征值提取平方和載入旋轉(zhuǎn)平方和載入合計方差的 %累積 %合計方差的 %累積 %合計方差的 %累積 %12.94442

17、.06342.0632.94442.06342.0632.90641.51341.51322.37733.95176.0142.37733.95176.0142.40634.37975.89131.00614.37690.3901.00614.37690.3901.01514.49990.3904.5287.54397.9325.0831.18599.1176.051.72999.8467.011.154100.000提取方法:主成份分析.表5:成份矩陣a成份123Z化學(xué)需氧量(萬噸)-.338.807-.160Z氨氮(萬噸)-.255.947-.040Z石油類(噸)-.127.809.112

18、Z鉛(千克).963.199.031Z鎘(千克).987.125.037Z砷(千克).914.340-.007Z總鉻(千克)-.111.070.982提取方法:主成分分析.已提取3個主成分.表2中KMO值為0.558,Sig值為0可知選取的數(shù)據(jù)指標(biāo)之間有高度的共線性,適合做主成分分析.由表3可知廢水中的化學(xué)需氧量排放物與氨氮和石油類有很大的關(guān)系,鉛與鎘、砷兩個指標(biāo)有極其顯著的關(guān)系,所以我們可知許多變量之間直接的相關(guān)性比較強,在信息上有重疊,所以我們可以利用主成分分析法,利用降維把上述7個指標(biāo)利用較少的幾個綜合指標(biāo)來反映廢水中污染物的排放情況.主成分個數(shù)提取的原則為主成分的特征值大于1的前m個元

19、素,并且貢獻率最好達到85%以上,根據(jù)表4我們可以得知,在這個實例中,我們可以提取3個主成分.從表5可知鉛、鎘和砷在第一主成分中有較高的載荷,所以我們可以說第一主成分基本反映了這些指標(biāo)的信息,由于這三個指標(biāo)都是重金屬,故我們可以定義第一主成分反映了廢水中重金屬的排放情況.化學(xué)需氧量、氨氮和石油類在第二個主成分中占有較高的載荷,故第二主成反映了廢水中非重金屬排放物的情況.總鉻在第三主成分中占有比重最大,鉻是劇毒性物質(zhì),所以第三主成分反映了廢水污染物的強毒性.所以我們提取三個主成分是可以反應(yīng)全部7個指標(biāo)的信息的,故現(xiàn)用三個新變量代替原來的7個變量,但是這三個新變量的表達還不能從輸出窗口中直接得到,因為成分矩陣中,每一個載荷量表示主成分與對應(yīng)變量的相關(guān)系數(shù).用表4中的數(shù)據(jù)除以主成分相對應(yīng)的特征值開平方便可得到三個主成分中每個指

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論