多元統(tǒng)計(jì)學(xué)DOC_第1頁(yè)
多元統(tǒng)計(jì)學(xué)DOC_第2頁(yè)
多元統(tǒng)計(jì)學(xué)DOC_第3頁(yè)
多元統(tǒng)計(jì)學(xué)DOC_第4頁(yè)
多元統(tǒng)計(jì)學(xué)DOC_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、利用主成分分析法對(duì)廢水污染物進(jìn)行分析摘要:主成分分析法是統(tǒng)計(jì)學(xué)中常用的統(tǒng)計(jì)分析方法,主要是利用降維的思想,在損失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo).此文中我們利用SPSS軟件對(duì)主要城市的廢水污染物的排放情況,通過(guò)主成分分析的方法進(jìn)行統(tǒng)計(jì)分析,進(jìn)而再通過(guò)聚類,根據(jù)主要城市的廢水污染物對(duì)城市進(jìn)行分類.關(guān)鍵字:主成分分析,聚類,廢水污染物,SPSSAbstract: Principal component analysis is a statistical method commonly used in the statistical analysis, which makes many

2、indexes be less ones with a few information lost. In this paper, we use SPSS software for wastewater pollutant emissions in major cities, applying statistical analysis by using principal component analysis, and then clustering cities into several groups according to the city's main water polluta

3、nts.Key Words: Principal component analysis, Clustering, Wastewater pollutants, SPSS1引言主成分分析(principal component analysis)也稱主分量分析,由霍特林( Hotelling )于1933年首先提出.主成分分析是利用降維的思想,在損失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)的多元統(tǒng)計(jì)方法.通常把轉(zhuǎn)化后的綜合指標(biāo)稱之為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān),這就使得主成分比原始變量具有某些更優(yōu)越的性能.這樣在研究復(fù)雜問(wèn)題時(shí)就可以只考慮少數(shù)幾個(gè)主成

4、分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示事物內(nèi)部變量之間的規(guī)律性,同時(shí)使問(wèn)題得到簡(jiǎn)化,提高分析效率.由于主成分分析的這些優(yōu)勢(shì),在實(shí)際問(wèn)題中遇到指標(biāo)較多且各指標(biāo)相關(guān)關(guān)系較大時(shí),人們??紤]應(yīng)用主成分分析的方法.河流中污染物的含量一直是環(huán)境資源問(wèn)題的研究熱點(diǎn),本文正是通過(guò)多元統(tǒng)計(jì)學(xué)中的主成分分析的分析方法來(lái)對(duì)廢水中的污染物的排放情況進(jìn)行分析,然后通過(guò)聚類分析對(duì)這些主要城市進(jìn)行分類.2. 基本原理2.1主成分分析的基本原理在對(duì)某一事物進(jìn)行實(shí)例研究中,為了更全面的、更準(zhǔn)確地反應(yīng)事物的特征及其發(fā)展規(guī)律,人們往往要考慮其有關(guān)系的多個(gè)指標(biāo),一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標(biāo),而另

5、一方面隨著考慮指標(biāo)的增多增加了問(wèn)題的復(fù)雜性.由于各指標(biāo)是對(duì)同一事物的反映,不可避免地造成信息地大量重疊,基于此,主成分分析研究通過(guò)原來(lái)變量地少數(shù)幾個(gè)線性組合來(lái)反應(yīng)原理指標(biāo)的信息,相互之間又盡可能不含重復(fù)信息. 主成分的求法設(shè)總體 現(xiàn)在尋求新的綜合指標(biāo).其基本思想是:找出個(gè)分量的一個(gè)線性組合,為使盡可能的反映的變化情況,就是要使具有最大的方差.繼而找出的各分量的第二個(gè)線性組合,為使和相互之間盡可能不含重復(fù)信息,又能盡可能多的反映的信息,就要是在與不相關(guān)的條件下具有最大的方差,如此繼續(xù)下去,直到的信息基本提取完畢為止.這些新的綜合指標(biāo),等就稱為的主成分.由協(xié)方差陣是一個(gè)非負(fù)定矩陣,現(xiàn)在尋求使得的方

6、差達(dá)到最大,且.這是一個(gè)條件極值問(wèn)題:利用拉格朗日乘數(shù)法,令得,可見(jiàn)是長(zhǎng)度為1的特征值.此時(shí),所以應(yīng)取為的最大特征根,且應(yīng)取為相應(yīng)于的單位化的特征向量,因此為的第一主成分.同樣要求達(dá)到最大,其中且,問(wèn)題歸結(jié)為求解與前面類似,求得應(yīng)取為相應(yīng)于的第二大特征根所對(duì)應(yīng)的單位特征向量,從而求得的第二主成分.以此類推,求得的k個(gè)主成分.2.1.2 主成分求解步驟(1) 求的協(xié)方差陣的特征根,記為(2) 求對(duì)應(yīng)的單位特征向量(因?yàn)閷?duì)稱陣,故不同特征根對(duì)應(yīng)的特征向量比正交).(3) 取即為的第個(gè)主成分,.注意,若,則可得的個(gè)主成分,當(dāng)有重根時(shí),主成分不惟一.值得注意的是,的主成分是由的分量的特殊線性組合而得,

7、如果各分量的單位(即量綱)不同,那么這種線性組合要解釋其含義就很困難了,而且當(dāng)某一個(gè)變量改變其計(jì)算單位后,協(xié)方差陣就會(huì)改變,自然相應(yīng)的的特征根、特征向量也隨之改變,最后導(dǎo)致主成分的改變.為了清除變量間不同單位的影響,通常是先把各變量標(biāo)準(zhǔn)化,即坐如下變換,令其中,.注意到的協(xié)方差陣實(shí)際上是的相關(guān)矩陣,即,其中,為變量與的相關(guān)系數(shù).對(duì)實(shí)行求主成分的步驟(1)(3),所得的主成分成為標(biāo)準(zhǔn)主成分.需要指出的是,從和分別算出的主成分有時(shí)有很大的不同,這意味著變量的標(biāo)準(zhǔn)化并不是無(wú)關(guān)緊要的.一般來(lái)說(shuō),當(dāng)變量取值范圍彼此差異很大或度量單位不同時(shí),應(yīng)考慮標(biāo)準(zhǔn)化,不過(guò)當(dāng)?shù)闹鲗?duì)角線上的各元素相差不大時(shí),為了簡(jiǎn)單,也

8、可以直接求的主成分進(jìn)行分析.在實(shí)際問(wèn)題中,所研究的總體的均值、協(xié)方差陣和相關(guān)矩陣大多是未知的,所以這時(shí)我們應(yīng)以樣本觀測(cè)陣中的數(shù)據(jù),求出它們的樣本均值、樣本協(xié)方差陣和樣本相關(guān)矩陣,再根據(jù)相應(yīng)的計(jì)算運(yùn)用主成分分析法求解出樣本主成分. 貢獻(xiàn)率和主成分的實(shí)際意義主成分分析的目的之一,是用可能少的不相關(guān)的主成分來(lái)代替?zhèn)€相關(guān)變量 ,且能描述的統(tǒng)計(jì)特征,并對(duì)的實(shí)際意義作出合理解釋.以下以表示的協(xié)方差陣,記那么中主對(duì)角線上的元素分別表示的各分量的方差,因而的“總方差”為對(duì)于非負(fù)定矩陣,有,而的“總方差”為,從而有,.上式說(shuō)明的“總方差”等于的“總方差”,其中具有最大的方差,次之具有方差,具有最小的方差,為此表

9、明了主成分的方差在全部方差中的比值,則稱第個(gè)主成分的貢獻(xiàn)率.這個(gè)值越大,表明綜合反映的能力越強(qiáng),反之越弱.則稱為前m個(gè)主成分的累計(jì)貢獻(xiàn)率.在實(shí)際應(yīng)用中常略去那些貢獻(xiàn)率小的主成分.相關(guān)經(jīng)驗(yàn)指出,一般來(lái)說(shuō),若這m個(gè)主成分的方差已占“總方差”的85%以上,則只需這m個(gè)主成分就夠了.當(dāng)然這并不是一個(gè)絕對(duì)不變的標(biāo)準(zhǔn),要根據(jù)實(shí)際效果做取舍.2.2 聚類分析聚類分析是研究物以類聚的一種方法.分類問(wèn)題在科學(xué)研究、生產(chǎn)實(shí)踐、社會(huì)生活中到處存在,人們可以依靠相關(guān)經(jīng)驗(yàn)和專業(yè)知識(shí)對(duì)事物實(shí)現(xiàn)分類,但當(dāng)反映實(shí)物的性質(zhì)、特性的指標(biāo)較多,且對(duì)分類要求較高時(shí),僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)就不能達(dá)到確切的分類目的.用聚類分析解決實(shí)際問(wèn)題時(shí)

10、,我們總把每個(gè)分類對(duì)象稱為樣品,并根據(jù)對(duì)象的性質(zhì)和分類的目的選定若干指標(biāo),對(duì)每一個(gè)樣品測(cè)出所有的指標(biāo)值,將得到的結(jié)果列成一個(gè)數(shù)據(jù)矩陣,這個(gè)樣本資料陣就是聚類分析的出發(fā)點(diǎn),然后根據(jù)相應(yīng)的聚類方法對(duì)樣本進(jìn)行聚類分析.3. 實(shí)例分析3.1 數(shù)據(jù)選取本文所選取的數(shù)據(jù)來(lái)自中國(guó)統(tǒng)計(jì)年鑒2013中2012年主要城市廢水中主要污染物的排放情況.表1:2012年主要城市廢水中主要污染物的排放情況編號(hào)城市化學(xué)需氧量(萬(wàn)噸)氨氮(萬(wàn)噸)石油類(噸)鉛(千克)鎘(千克)砷(千克)六價(jià)鉻(千克)1北 京18.652.0551.46215.9117.9021.34325.842天 津22.942.54138.211004

11、.649.6419.37169.283石 家 莊22.911.57147.5815.170.911.523.694太 原2.580.4627.7791.2113.3332.48154.655呼和浩特13.240.481.517.542.006沈 陽(yáng)26.052.2560.5239.531.091.4487.057長(zhǎng) 春18.331.3926.3615.480.030.0888.468哈 爾 濱31.472.2838.4220.801.0141.489上 海24.264.74649.74321.2515.3499.861010.9710南 京10.891.75204.2720.328.9551.

12、79328.7111杭 州10.481.3840.6332.340.311.002318.1412合 肥12.531.0925.2120.032.702.856.6913福 州10.681.5926.0427.492.477.01454.4414南 昌8.871.1276.7751.638.585.1616869.5915濟(jì) 南11.580.9678.006.571.5443.2585.9916鄭 州9.811.30177.8220.726.1927.2944.0617武 漢15.911.86111.50122.894.30209.461193.8418長(zhǎng) 沙12.301.3914.7863.

13、9911.571.98133.0919廣 州17.912.3994.71105.9815.4032.171669.5520南 寧12.371.326.3516.913.6624.0917.2521海 口1.690.463.320.280.110.470.0022重 慶40.285.34354.4888.432.651362.39204.8423成 都19.842.3034.9116.322.3197.70100.1724貴 陽(yáng)4.360.5160.962.710.880.703.7925昆 明2.820.7276.364933.121063.343641.000.4526拉 薩0.990.12

14、0.272.570.5127西 安11.831.38273.3749.215.738.2493.5828蘭 州4.960.8669.028.741.242.972.0529西 寧4.290.4638.83291.5878.37209.627.2630銀 川5.100.6553.5711.030.3136.976.7431烏魯木齊3.130.6355.8428.2142.46122.08129.583.2 主成分分析在spss中的具體操作步驟運(yùn)用SPSS統(tǒng)計(jì)軟件的分析過(guò)程,對(duì)31個(gè)主要城市廢水中主要的污染物的排放情況進(jìn)行主成分分析,具體步驟為:1. 分析-描述-數(shù)據(jù)標(biāo)準(zhǔn)化,選中7個(gè)原始指標(biāo),并在

15、對(duì)話框中勾選將標(biāo)準(zhǔn)化后的數(shù)據(jù)存在變量;2. 分析-降維-因子分析,彈出因子分析對(duì)話框;3. 把標(biāo)準(zhǔn)化后的7個(gè)指標(biāo)選入變量框里;4. 在描述里面的相關(guān)矩陣框組里選中 系數(shù),然后點(diǎn)擊繼續(xù)返回因子分析對(duì)話框;5. 點(diǎn)擊確定.表2:KMO 和 Bartlett 的檢驗(yàn)取樣足夠度的 Kaiser-Meyer-Olkin 度量.558Bartlett 的球形度檢驗(yàn)近似卡方233.012df21Sig.000表3:相關(guān)矩陣Z化學(xué)需氧量(萬(wàn)噸)Z氨氮(萬(wàn)噸)Z石油類(噸)Z鉛(千克)Z 鎘(千克)Z 砷(千克)Z總鉻(千克)Z化學(xué)需氧量(萬(wàn)噸)1.000.859.447-.152-.226-.015-.004

16、Z氨氮(萬(wàn)噸).8591.000.743-.059-.138.099.063Z石油類(噸).447.7431.000.028-.028.115.105Z鉛(千克)-.152-.059.0281.000.979.916-.060Z鎘(千克)-.226-.138-.028.9791.000.933-.063Z砷(千克)-.015.099.115.916.9331.000-.075Z總鉻(千克)-.004.063.105-.060-.063-.0751.000表4:解釋的總方差成份初始特征值提取平方和載入旋轉(zhuǎn)平方和載入合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %12.94442

17、.06342.0632.94442.06342.0632.90641.51341.51322.37733.95176.0142.37733.95176.0142.40634.37975.89131.00614.37690.3901.00614.37690.3901.01514.49990.3904.5287.54397.9325.0831.18599.1176.051.72999.8467.011.154100.000提取方法:主成份分析.表5:成份矩陣a成份123Z化學(xué)需氧量(萬(wàn)噸)-.338.807-.160Z氨氮(萬(wàn)噸)-.255.947-.040Z石油類(噸)-.127.809.112

18、Z鉛(千克).963.199.031Z鎘(千克).987.125.037Z砷(千克).914.340-.007Z總鉻(千克)-.111.070.982提取方法:主成分分析.已提取3個(gè)主成分.表2中KMO值為0.558,Sig值為0可知選取的數(shù)據(jù)指標(biāo)之間有高度的共線性,適合做主成分分析.由表3可知廢水中的化學(xué)需氧量排放物與氨氮和石油類有很大的關(guān)系,鉛與鎘、砷兩個(gè)指標(biāo)有極其顯著的關(guān)系,所以我們可知許多變量之間直接的相關(guān)性比較強(qiáng),在信息上有重疊,所以我們可以利用主成分分析法,利用降維把上述7個(gè)指標(biāo)利用較少的幾個(gè)綜合指標(biāo)來(lái)反映廢水中污染物的排放情況.主成分個(gè)數(shù)提取的原則為主成分的特征值大于1的前m個(gè)元

19、素,并且貢獻(xiàn)率最好達(dá)到85%以上,根據(jù)表4我們可以得知,在這個(gè)實(shí)例中,我們可以提取3個(gè)主成分.從表5可知鉛、鎘和砷在第一主成分中有較高的載荷,所以我們可以說(shuō)第一主成分基本反映了這些指標(biāo)的信息,由于這三個(gè)指標(biāo)都是重金屬,故我們可以定義第一主成分反映了廢水中重金屬的排放情況.化學(xué)需氧量、氨氮和石油類在第二個(gè)主成分中占有較高的載荷,故第二主成反映了廢水中非重金屬排放物的情況.總鉻在第三主成分中占有比重最大,鉻是劇毒性物質(zhì),所以第三主成分反映了廢水污染物的強(qiáng)毒性.所以我們提取三個(gè)主成分是可以反應(yīng)全部7個(gè)指標(biāo)的信息的,故現(xiàn)用三個(gè)新變量代替原來(lái)的7個(gè)變量,但是這三個(gè)新變量的表達(dá)還不能從輸出窗口中直接得到,因?yàn)槌煞志仃囍校恳粋€(gè)載荷量表示主成分與對(duì)應(yīng)變量的相關(guān)系數(shù).用表4中的數(shù)據(jù)除以主成分相對(duì)應(yīng)的特征值開(kāi)平方便可得到三個(gè)主成分中每個(gè)指

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論