




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第3章地理學(xué)中的經(jīng)典
統(tǒng)計分析方法本章主要內(nèi)容相關(guān)分析回歸分析時間序列分析系統(tǒng)聚類分析主成分分析趨勢面分析方法馬爾可夫預(yù)測方法第1節(jié)相關(guān)分析相關(guān)分析的任務(wù),是揭示地理要素之間相互關(guān)系的密切程度。而地理要素之間相互關(guān)系密切程度的測定,主要是通過對相關(guān)系數(shù)的計算與檢驗來完成的。本節(jié)主要內(nèi)容:兩要素之間相關(guān)程度的測定多要素間相關(guān)程度的測定一、兩要素之間相關(guān)程度的測定相關(guān)系數(shù)的計算與檢驗秩相關(guān)系數(shù)的計算與檢驗
相關(guān)系數(shù)的計算
①
定義:
和為兩要素的平均值。(3.1.1)(一)相關(guān)系數(shù)的計算與檢驗②說明:-1<=<=1,大于0時正相關(guān),小于0時負(fù)相關(guān)。的絕對值越接近于1,兩要素的關(guān)系越密切;越接近于0,兩要素的關(guān)系越不密切。③簡化:記
公式〔〕可簡化為(3.1.2)表3.1.1倫敦的月平均氣溫與降水量資料來源:
相關(guān)分析實例(1)根據(jù)表中的數(shù)據(jù),我們可以利用公式〔〕,計算倫敦市月平均氣溫〔t〕與降水量(p)之間的相關(guān)系數(shù)(2)計算結(jié)果說明,倫敦市的月平均氣溫〔t〕與降水量(p)之間呈負(fù)相關(guān),即異向相關(guān)。又如:根據(jù)甘肅省53個氣象臺站的多年平均數(shù)據(jù)〔見教材表〕,可以利用公式〔〕對降水量〔p〕和緯度〔y〕之間的相關(guān)系數(shù)以及蒸發(fā)量〔v〕和緯度〔y〕之間的相關(guān)系數(shù)進(jìn)行計算,結(jié)果如下==計算結(jié)果說明,降水量〔p〕和緯度〔y〕之間異向相關(guān),而蒸發(fā)量〔v〕與緯度〔y〕之間同向相關(guān)。相關(guān)系數(shù)的檢驗
相關(guān)系數(shù)是根據(jù)要素之間的樣本值計算出來,它隨著樣本數(shù)的多少或取樣方式的不同而不同,因此它只是要素之間的樣本相關(guān)系數(shù),只有通過檢驗,才能知道它的可信度。檢驗是通過在給定的置信水平下,查相關(guān)系數(shù)檢驗的臨界值表來實現(xiàn)的。f
0.100.050.020.010.0011234567891011120.987690.900000.80540.72930.66940.62150.58220.54940.52140.49730.47620.45750.996920.950000.87830.81140.75450.70670.66640.63190.60210.57600.55290.5324
0.9995070.980000.934330.88220.83290.78870.74930.71550.68510.65810.63390.6120
0.9998770.990000.958730.917200.87450.83430.79770.76460.73480.70790.68350.66140.9999980.9990000.9911600.974060.950740.924930.89820.87210.84710.82330.80100.7800表3.1.3檢驗相關(guān)系數(shù)的臨界值〔〕表在表中,f稱為自由度,其數(shù)值為f=n-2,n為樣本數(shù);上方的代表不同的置信水平;表內(nèi)的數(shù)值代表不同的置信水平下相關(guān)系數(shù)的臨界值,即;公式的意思是當(dāng)所計算的相關(guān)系數(shù)的絕對值大于在水平下的臨界值rα?xí)r,兩要素不相關(guān)〔即〕的可能性只有。對倫敦市月平均氣溫〔t〕與降水量(p)之間的相關(guān)系數(shù),f=12-2=10,在顯著性水平上,查表,得知:。因為,所以,倫敦市月平均氣溫〔t〕與降水量(p)之間的相關(guān)性并不顯著。對于甘肅省53個氣象臺站降水量〔p〕和緯度〔y〕之間的相關(guān)系數(shù),以及蒸發(fā)量〔v〕和緯度〔y〕之間的相關(guān)系數(shù),f=53-2=51,表中沒有給出相應(yīng)樣本個數(shù)下的臨界值,但是我們發(fā)現(xiàn),在同一顯著水平下,隨著樣本數(shù)的增大,臨界值減少。在顯著性水平α=0.001上,取f=50,查表得知:=0.4433。顯然,和的絕對值都遠(yuǎn)遠(yuǎn)大于=0.4433,這說明甘肅省53個氣象臺站降水量〔p〕和緯度〔y〕之間,以及蒸發(fā)量〔v〕和緯度〔y〕之間都是高度相關(guān)的。秩相關(guān)系數(shù)又稱等級相關(guān)系數(shù),或順序相關(guān)系數(shù),是將兩要素的樣本值按數(shù)據(jù)的大小順序排列位次,以各要素樣本值的位次代替實際數(shù)據(jù)而求得的一種統(tǒng)計量。
〔〕〔二〕秩相關(guān)系數(shù)的計算與檢驗教材中表給出了2003年中國大陸各省〔直轄市、自治區(qū)〕的GDP〔x〕和總?cè)丝凇瞴〕數(shù)據(jù)及其位次,將數(shù)據(jù)代入公式〔〕,就可以計算它們之間的秩相關(guān)系數(shù)即:GDP〔x〕與總?cè)丝凇瞴〕之間的等級相關(guān)系數(shù)為0.7847。例如:n顯著水平α
n顯著水平α
0.05
0.01
0.050.0141.000--
160.4250.60150.9001.000180.3990.56460.8290.943200.3770.53470.7140.893220.3590.50880.6430.833240.3430.48590.6000.783260.3290.465100.5640.746280.3170.448120.4560.712300.3060.432140.4560.645------注:n代表樣本個數(shù),α代表不同的置信水平,也稱顯著水平,表中的數(shù)值為臨界值。
秩相關(guān)系數(shù)的檢驗
表3.1.5秩相關(guān)系數(shù)檢驗的臨界值在上例中,n=31,表中沒有給出相應(yīng)的樣本個數(shù)下的臨界值,但是同一顯著水平下,隨著樣本數(shù)的增大,臨界值減少。在n=30時,查表得:=0.432,由于=0.7847>=0.432,所以在α=0.01的置信水平上來看,中國大陸各省〔直轄市、自治區(qū)〕人口規(guī)模與GDP是等級相關(guān)的。二、多要素間相關(guān)程度的測定偏相關(guān)系數(shù)的計算與檢驗復(fù)相關(guān)系數(shù)的計算與檢驗〔一〕偏相關(guān)系數(shù)的計算與檢驗①定義:在多要素所構(gòu)成的地理系統(tǒng)中,先不考慮其他要素的影響,而單獨研究兩個要素之間的相互關(guān)系的密切程度,這稱為偏相關(guān)。用以度量偏相關(guān)程度的統(tǒng)計量,稱為偏相關(guān)系數(shù)。偏相關(guān)系數(shù)的計算②計算:3個要素的偏相關(guān)系數(shù)(3.1.5)
(3.1.6)
(3.1.7)
4個要素的偏相關(guān)系數(shù)〔〕〔〕〔〕〔〕例如:對于某4個地理要素x1,x2,x3,x4的23個樣本數(shù)據(jù),經(jīng)過計算得到了如下的單相關(guān)系數(shù)矩陣:
利用公式計算一級偏向關(guān)系數(shù),如表所示:r12·34r13·24r14·23r23·14r24·13r34·12-0.1700.8020.635-0.1870.821-0.337r12·3r13·2r14·2r14·3r23·1r24·1r24·3r24·1r34·20.8210.8080.6470.895-0.8630.9560.945-0.8750.371利用公式計算二級偏相關(guān)系數(shù),如表所示:4個要素的一級偏相關(guān)系數(shù)有12個,這里給出了9個;二級偏相關(guān)系數(shù)有6個,這里全部給出來了。表3.1.6一級偏相關(guān)系數(shù)
表3.1.7二級偏相關(guān)系數(shù)
偏相關(guān)系數(shù)的性質(zhì)
①偏相關(guān)系數(shù)分布的范圍在-1到1之間;②偏相關(guān)系數(shù)的絕對值越大,表示其偏相關(guān)程度越大;③偏相關(guān)系數(shù)的絕對值必小于或最多等于由同一系列資料所求得的復(fù)相關(guān)系數(shù),即R1·23≥|r12·3|。偏相關(guān)系數(shù)的顯著性檢驗
偏相關(guān)系數(shù)的顯著性檢驗,一般采用t檢驗法。其統(tǒng)計量計算公式為式中:為偏相關(guān)系數(shù);n為樣本數(shù);m為自變量個數(shù)。
(3.1.14)
查t分布表,在自由度為23-3-1=19時,t0.001=3.883,顯然,這說明在置信度水平=0.001上,偏相關(guān)系數(shù)r24·13是顯著的。譬如,對于上例計算得到的偏相關(guān)系數(shù)
,由于n=23,m=3,故〔二〕復(fù)相關(guān)系數(shù)的計算與檢驗復(fù)相關(guān)系數(shù):反映幾個要素與某一個要素之間的復(fù)相關(guān)程度。復(fù)相關(guān)系數(shù)的計算當(dāng)有兩個自變量時當(dāng)有三個自變量時〔〕〔3.1.16〕當(dāng)有k個自變量時〔3.1.17〕復(fù)相關(guān)系數(shù)的性質(zhì)
①復(fù)相關(guān)系數(shù)介于0到1之間,即②復(fù)相關(guān)系數(shù)越大,那么說明要素〔變量〕之間的相關(guān)程度越密切。復(fù)相關(guān)系數(shù)為1,表示完全相關(guān);復(fù)相關(guān)系數(shù)為0,表示完全無關(guān)。③復(fù)相關(guān)系數(shù)必大于或至少等于單相關(guān)系數(shù)的絕對值。復(fù)相關(guān)系數(shù)的顯著性檢驗F檢驗法。其統(tǒng)計量計算公式為(3.1.18)例題:在上例中,假設(shè)以x4為因變量,x1,x2,x3為自變量,試計算x4與x1,x2,x3之間的復(fù)相關(guān)系數(shù)。解:按照公式〔〕計算檢驗:,故復(fù)相關(guān)到達(dá)了極顯著水平。第2節(jié)回歸分析一元線性回歸模型多元線性回歸模型非線性回歸模型一、一元線性回歸模型定義:假設(shè)有兩個地理要素〔變量〕x和y,x為自變量,y為因變量。那么一元線性回歸模型的根本結(jié)構(gòu)形式為式中:a和b為待定參數(shù);為各組觀測數(shù)據(jù)的下標(biāo);為隨機變量?!病秤浐头謩e為參數(shù)a與b的擬合值,那么一元線性回歸模型為〔〕式代表x與y之間相關(guān)關(guān)系的擬合直線,稱為回歸直線;是y的估計值,亦稱回歸值?!病尝賲?shù)a與b的最小二乘擬合原那么要求yi與的誤差ei的平方和到達(dá)最小,即②根據(jù)取極值的必要條件,有(3.2.4)
(一)參數(shù)a、b的最小二乘估計
〔〕〔〕〔〕③解上述正規(guī)方程組〔〕式,得到參數(shù)a與b的擬合值〔二〕一元線性回歸模型的顯著性檢驗①方法:F檢驗法。②總的離差平方和:在回歸分析中,表示y的n次觀測值之間的差異,記為
可以證明〔3.2.9〕〔3.2.8〕在式〔〕中,Q稱為誤差平方和,或剩余平方和而
稱為回歸平方和。③統(tǒng)計量F
④F越大,模型的效果越佳。統(tǒng)計量F~F〔1,n-2〕。在顯著水平α下,假設(shè)F>Fα,那么認(rèn)為回歸方程效果在此水平下顯著。一般地,當(dāng)F<F0.10(1,n-2)時,那么認(rèn)為方程效果不明顯?!病扯?、多元線性回歸模型回歸模型的建立
①多元線性回歸模型的結(jié)構(gòu)形式為
〔〕式中:為待定參數(shù);為隨機變量。②回歸方程:如果分別為式〔〕中的擬和值,那么回歸方程為
在〔〕式中,b0為常數(shù),b1,b2,…bk稱為偏回歸系數(shù)。偏回歸系數(shù)的意義是,當(dāng)其他自變量都固定時,自變量每變化一個單位而使因變量平均改變的數(shù)值。(3.2.12)
③偏回歸系數(shù)的推導(dǎo)過程:根據(jù)最小二乘法原理,的估計值應(yīng)該使由求極值的必要條件得方程組〔〕式經(jīng)展開整理后得〔〕〔〕方程組〔〕式稱為正規(guī)方程組。引入矩陣〔3.2.15)那么正規(guī)方程組〔〕式可以進(jìn)一步寫成矩陣形式求解得引入記號〔〕正規(guī)方程組也可以寫成回歸模型的顯著性檢驗
①回歸平方和U與剩余平方和Q:②回歸平方和③剩余平方和為④
F統(tǒng)計量為計算出來F之后,可以查F分布表對模型進(jìn)行顯著性檢驗。非線性關(guān)系線性化的幾種情況對于指數(shù)曲線,令,可以將其轉(zhuǎn)化為直線形式:,其中,;
對于對數(shù)曲線,令,,可以將其轉(zhuǎn)化為直線形式:;對于冪函數(shù)曲線,令,,可以將其轉(zhuǎn)化為直線形式:其中,;三、非線性回歸模型
對于雙曲線,令,轉(zhuǎn)化為直線形式:;對于S型曲線,可轉(zhuǎn)化為直線形式:;對于冪乘積,只要令,就可以將其轉(zhuǎn)化為線性形式其中,;對于對數(shù)函數(shù)和只要令,就可以將其化為線性形式例:表給出了某地區(qū)林地景觀斑塊面積〔area〕與周長〔perimeter〕的數(shù)據(jù)。下面我們建立林地景觀斑塊面積A與周長P之間的非線性回歸模型。
序號面積A周長P序號面積A周長P110447.370625.39242232844.3004282.043215974.730612.286434054.660289.307330976.770775.7124430833.840895.98049442.902530.202451823.355205.131510858.9201906.1034626270.300968.060621532.9101297.9624713573.9601045.07276891.680417.0584865590.0802250.43583695.195243.90749157270.4002407.54992260.180197.239502086.426266.54110334.33299.729513109.070261.8181111749.080558.921522038.617320.396122372.105199.667533432.137253.335138390.633592.893541600.391230.030146003.719459.467553867.586419.406表3.2.1某地區(qū)各個林地景觀斑塊面積〔m2〕與周長〔m〕15527620.2006545.291561946.184198.66116179686.2002960.4755777.30556.9021714196.460597.993587977.719715.7521822809.1801103.0705919271.8201011.1271971195.9401154.118608263.480680.710203064.242245.0496114697.1301234.11421469416.7008226.009624519.867326.317225738.953498.6566313157.6601172.916238359.465415.151646617.270609.801246205.016414.790654064.137437.3552560619.0201549.871665645.820432.3552614517.740791.943676993.355503.7842731020.1001700.965684304.281267.9512826447.1601246.977696336.383347.136297985.926918.312702651.414292.235303638.766399.725712656.824298.47331585425.10011474.770721846.988179.8663235220.6401877.476731616.684172.8083310067.820497.394741730.563172.1433427422.5701934.5967511303.970881.0423543071.5501171.4137614019.790638.1763657585.9402275.389779277.172862.0883728254.1301322.7957813684.750712.78738497261.0009581.298791949.164228.4033924255.030994.906804846.016324.481401837.699229.40181521457.4007393.938411608.625225.84282564370.80012212.410解:〔1〕作變量替換,令:,,將表中的原始數(shù)據(jù)進(jìn)行對數(shù)變換,變換后得到的各新變量對應(yīng)的觀測數(shù)據(jù)如表所示。序號y=lnAx=LnP序號y=lnAx=LnP19.2541066.4383794212.358138.36218629.6787636.4172438.3076225.667487310.340996.6537824410.336376.79791849.1530196.273258457.5084335.3236559.2927427.5528164610.176196.87529469.9773387.168551479.5159096.95184178.838076.0332264811.091187.71887988.2147895.4967894911.965727.78636497.72325.284414507.6432085.585528105.8121354.602457518.0420795.567651119.371536.326008527.6200275.769558表3.2.2經(jīng)對數(shù)變換后的數(shù)據(jù)127.7715335.296653538.1409385.534711139.0348716.385013547.3780035.438211148.7001346.130066558.2603866.0388391513.176138.786501567.5736265.2915971612.098977.993105574.3477554.041328179.5607486.393579588.9844086.5733341810.034927.005852599.8663996.9188211911.173197.051092609.0196016.523136208.0275565.501457619.5954087.1181092113.059259.015056628.4162385.787871228.6550326.211917639.4847597.067248239.031156.028643648.7974386.413133248.7331136.027773658.3099576.0807442511.012367.345927668.6386716.069247269.5831276.67449678.8527166.2221472710.342397.438951688.3673655.5908062810.18297.128478698.7540635.849717298.9854366.822537707.8828485.67756308.19945.990776717.8848875.6986783113.280099.347906727.5213115.1922133210.469397.537684737.3881325.152181339.2170996.209381747.4562025.1483263410.219127.567654759.3329096.7811053510.670627.065966769.5482256.4586143610.961037.729906779.1353126.7593583710.248997.187502789.5240376.5691823813.116879.167568797.5751565.4311123910.096386.902648808.4859125.782227407.516275.4354718113.164388.908416417.3831355.4198378213.243479.410208〔2〕以x為橫坐標(biāo)、y為縱坐標(biāo),在平面直角坐標(biāo)系中作出散點圖。很明顯,y與x呈線性關(guān)系。圖3.2.2林地景觀斑塊面積〔A〕與周長〔P〕之間的雙對數(shù)關(guān)系〔3〕根據(jù)所得表中的數(shù)據(jù),運用建立線性回歸模型的方法,建立y與x之間的線性回歸模型,得到
對應(yīng)于〔〕式,x與y的相關(guān)系數(shù)高達(dá)=0.9665?!?〕將〔〕復(fù)原成雙對數(shù)曲線,即
〔3.2.19〕〔〕第3節(jié)時間序列分析時間序列分析的根本原理趨勢擬合方法季節(jié)變動預(yù)測一、時間序列分析的根本原理〔一〕時間序列的組合成份長期趨勢〔T〕是指時間序列隨時間的變化而逐漸增加或減少的長期變化的趨勢。季節(jié)變動〔S〕是指時間序列在一年中或固定時間內(nèi),呈現(xiàn)出的固定規(guī)那么的變動。循環(huán)變動〔C〕是指沿著趨勢線如鐘擺般地循環(huán)變動,又稱景氣循環(huán)變動(businesscyclemovement)。不規(guī)那么變動〔I〕是指在時間序列中由于隨機因素影響所引起的變動?!捕硶r間序列的組合模型加法模型假定時間序列是基于4種成份相加而成的。長期趨勢并不影響季節(jié)變動。假設(shè)以Y表示時間序列,那么加法模型為Y=T+S+C+I乘法模型假定時間序列是基于4種成份相乘而成的。假定季節(jié)變動與循環(huán)變動為長期趨勢的函數(shù)。該模型的方程式為〔〕〔〕二、趨勢擬合方法時間序列分析的平滑法主要有三類:移動平均法設(shè)某一時間序列為y1,y2,…,yt,那么t+1時刻的預(yù)測值為式中:為t點的移動平均值;n稱為移動時距?!惨弧称交ā病郴瑒悠骄ㄆ溆嬎愎綖槭街?為t點的滑動平均值;l為單側(cè)平滑時距。假設(shè)l=1,那么〔〕式稱為三點滑動平均,其計算公式為
假設(shè)l=2,那么〔〕式稱為五點滑動平均,其計算公式為(3.3.4)
(3.3.5)
〔〕指數(shù)平滑法①一次指數(shù)平滑
α為平滑系數(shù)。一般時間序列較平穩(wěn),α取值可小一些,一般取α∈〔0.05,0.3〕;假設(shè)時間序列數(shù)據(jù)起伏波動比較大,那么α應(yīng)取較大的值,一般取α∈〔0.7,0.95〕?!病?/p>
②
高次指數(shù)平滑法二次指數(shù)平滑法的預(yù)測公式為
三次指數(shù)平滑法的預(yù)測公式為
〔〕〔〕三種最常用的趨勢線直線型趨勢線指數(shù)型趨勢線
拋物線型趨勢線
〔二〕趨勢線法自相關(guān)性判斷①時間序列的自相關(guān),是指序列前后期數(shù)值之間的相關(guān)關(guān)系,對這種相關(guān)關(guān)系程度的測定便是自相關(guān)系數(shù)。②測度:設(shè)y1,y2,…,yt,…,yn,共有n個觀察值。把前后相鄰兩期的觀察值一一成對,便有〔n-1〕對數(shù)據(jù),即(y1,y2),(y2,y3),…,(yt,yt+1),…,(yn-1,yn)?!踩匙曰貧w模型其一階自相關(guān)系數(shù)r1為二階自相關(guān)系數(shù)r2為k階自相關(guān)系數(shù)為
自回歸模型的建立
常見的線性自回歸模型:①一階線性自回歸預(yù)測模型為②二階線性自回歸預(yù)測模型為③一般地,p階線性自回歸模型為在以上各式中,為待估計的參數(shù)值,它們可以通過最小二乘法估計獲得。根本步驟〔1〕對原時間序列求移動平均,以消除季節(jié)變動和不規(guī)那么變動,保存長期趨勢;(2〕將原序列y除以其對應(yīng)的趨勢方程值〔或平滑值〕,別離出季節(jié)變動〔含不規(guī)那么變動〕,即三、季節(jié)性預(yù)測法季節(jié)系數(shù)=TSCI/趨勢方程值〔TC或平滑值〕=SI〔3〕將月度〔或季度〕的季節(jié)指標(biāo)加總,以由計算誤差導(dǎo)致的值去除理論加總值,得到一個校正系數(shù),并以該校正系數(shù)乘以季節(jié)性指標(biāo)從而獲得調(diào)整后季節(jié)性指標(biāo)?!?〕求預(yù)測模型,假設(shè)求下一年度的預(yù)測值,延長趨勢線即可;假設(shè)求各月〔季〕的預(yù)測值,需以趨勢值乘以各月份〔季度〕的季節(jié)性指標(biāo)。求季節(jié)變動預(yù)測的數(shù)學(xué)模型〔以直線為例〕為式中:是t+k時的預(yù)測值;at、bt為方程系數(shù);為季節(jié)性指標(biāo)。
例題:如表所示,下面我們用上述步驟,預(yù)測該旅游景點2005年各季度的客流量。
表3.3.3某旅游景點2002—2004年各季度客流量解題步驟:〔1〕求時間序列的三次滑動平均值,見表第5列?!?〕求季節(jié)性指標(biāo):將表中第4列數(shù)據(jù)分別除以第5列各對應(yīng)元素,得相應(yīng)的季節(jié)系數(shù)。然后再把各季度的季節(jié)系數(shù)平均得到季節(jié)性指標(biāo),見表。季節(jié)性指標(biāo)之和理論上應(yīng)等于4?,F(xiàn)等于3.9515,需要進(jìn)行校正。校正方法是:先求校正系數(shù):θ=4/3.9515=1.0123。然后將表中的第5行,分別乘以θ,即得校正后的季節(jié)性指標(biāo)〔見表第6行〕。表3.3.4季節(jié)性指標(biāo)及其校正值
〔3〕用二次指數(shù)平滑法,求預(yù)測模型系數(shù):取平滑指數(shù),分別計算一次指數(shù)平滑值和二次指數(shù)平滑值,然后再分別計算趨勢預(yù)測模型的系數(shù)和,結(jié)果如表所示。由表可知,預(yù)測模型為式中:為校正后的季節(jié)性指標(biāo)。表3.3.5預(yù)測模型系數(shù)
〔4〕求預(yù)測值。以2004年第4季度為基期,套用步驟〔3〕中所得預(yù)測模型,計算預(yù)測2005年各季度的客流量第1季度:=301.7746〔104人次〕第2季度:=400.27〔104人次〕第3季度:=371.07〔104人次〕第4季度:=283.17〔104人次〕由此可以計算出2005年全年度的客流量預(yù)測值為301.7746+400.27+371.07+283.17=1356.28〔104人次〕第4節(jié)系統(tǒng)聚類分析聚類要素的數(shù)據(jù)處理距離的計算直接聚類法最短距離聚類法最遠(yuǎn)距離聚類法系統(tǒng)聚類法計算類之間距離的統(tǒng)一公式系統(tǒng)聚類分析實例一、聚類要素的數(shù)據(jù)處理
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準(zhǔn)確性和可靠性。在地理分類和分區(qū)研究中,被聚類的對象常常是多個要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結(jié)果產(chǎn)生影響。因此當(dāng)分類要素的對象確定之后,在進(jìn)行聚類分析之前,首先要對聚類要素進(jìn)行數(shù)據(jù)處理。
假設(shè)有m個聚類的對象,每一個聚類對象都有n個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用表給出。
表3.4.1聚類對象與要素數(shù)據(jù)
在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種:
①
總和標(biāo)準(zhǔn)化。分別求出各聚類要素所對應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的總和,即這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足〔〕②
標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即由這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù),各要素的平均值為0,標(biāo)準(zhǔn)差為1,即有〔〕
③極大值標(biāo)準(zhǔn)化,即經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。
④極差的標(biāo)準(zhǔn)化,即
經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。
〔〕〔〕例題:表給出了某地區(qū)9個農(nóng)業(yè)區(qū)的7項指標(biāo),它們經(jīng)過極差標(biāo)準(zhǔn)化處理后,如表所示。表3.4.2某地區(qū)9個農(nóng)業(yè)區(qū)的7項經(jīng)濟(jì)指標(biāo)數(shù)據(jù)
區(qū)代號人均耕地X1/(hm2·人-1)勞均耕地X2/(hm2·個-1)水田比重X3/%復(fù)種指數(shù)x4/%糧食單產(chǎn)x5/(kg·hm-2)人均糧食x6/(kg·人-1
)稻谷占糧食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17表3.4.3極差標(biāo)準(zhǔn)化處理后的數(shù)據(jù)x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00二、距離的計算
常見的距離有
①絕對值距離
②歐氏距離
③明科夫斯基距離〔〕〔〕〔〕④切比雪夫距離。當(dāng)明科夫斯基距時,有據(jù)表中的數(shù)據(jù),用公式〔〕式計算可得9個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣如下〔〕〔〕三、直接聚類法
原理先把各個分類對象單獨視為一類,然后根據(jù)距離最小的原那么,依次選出一對分類對象,并成新類。如果其中一個分類對象已歸于一類,那么把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,那么把這兩類并為一類。每一次歸并,都劃去該對象所在的列與列序相同的行。經(jīng)過m-1次就可以把全局部類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。例題:根據(jù)距離矩陣式〔〕,用直接聚類法對某地區(qū)的9個農(nóng)業(yè)區(qū)進(jìn)行聚類分析,步驟如下:(1)在距離矩陣D中,除去對角線元素以外,d49=d94=0.51為最小者,故將第4區(qū)與第9區(qū)并為一類,劃去第9行和第9列;(2)在余下的元素中,除對角線元素以外,d75=d57=0.83為最小者,故將第5區(qū)與第7區(qū)并為一類,劃掉第7行和第7列;(3)在第2步之后余下的元素之中,除對角線元素以外,d82=d28=0.88為最小者,故將第2區(qū)與第8區(qū)并為一類,劃去第8行和第8列;(4)在第3步之后余下的元素中,除對角線元素以外,d43=d34=1.23為最小者,故將第3區(qū)與第4區(qū)并為一類,劃去第4行和第4列,此時,第3、4、9區(qū)已歸并為一類;(5)在第4步之后余下的元素中,除對角線元素以外,d21=d12=1.52為最小者,故將第1區(qū)與第2區(qū)并為一類,劃去第2行和第2列,此時,第1、2、8區(qū)已歸并為一類;
(6)在第5步之后余下的元素中,除對角線元素以外,d65=d56=1.78為最小者,故將第5區(qū)與第6區(qū)并為一類,劃去第6行和第6列,此時,第5、6、7區(qū)已歸并為一類;(7)在第6步之后余下的元素中,除對角線元素以外,d31=d13=3.10為最小者,故將第1區(qū)與第3區(qū)并為一類,劃去第3行和第3列,此時,第1、2、3、4、8、9區(qū)已歸并為一類;
(8)在第7步之后余下的元素中,除去對角線元素以外,只有d51=d15=5.86,故將第1區(qū)與第5區(qū)并為一類,劃去第5行和第5列,此時,第1、2、3、4、5、6、7、8、9區(qū)均歸并為一類。
根據(jù)上述步驟,可以作出聚類過程的譜系圖。圖3.4.1直接聚類譜系圖
四、最短距離聚類法
原理最短距離聚類法,是在原來的m×m距離矩陣的非對角元素中找出,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式計算原來各類與新類之間的距離,這樣就得到一個新的〔m-1〕階的距離矩陣;再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止?!病忱}:以下根據(jù)式〔〕中的距離矩陣,用最短距離聚類法對某地區(qū)的9個農(nóng)業(yè)區(qū)進(jìn)行聚類分析。(1)在9×9階距離矩陣D中,非對角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類,記為G10={G4,G9}。按照公式〔〕式分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離得
d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29(2)這樣就得到G1,G2,G3,G5,G6,G7,G8,G10上的一個新的8×8階距離矩陣
(3)在上一步驟中所得到的8×8階距離矩陣中,非對角元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。
按照公式〔〕式分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個新的7×7階距離矩陣(4)在第2步所得到的7×7階距離矩陣中,非對角元素中最小者為d28=0.88,故將G2與G8歸并為一類,記為G12,即G12={G2,G8}。再按照公式〔〕分別計算G1,G3,G6,G10,G11與G12之間的距離,可得到一個新的6×6階距離矩陣(5)在第3步所得的6×6階距離矩陣中,非對角元素中最小者為d6,11=1.07,故將G6與G11歸并為一類,記為G13,即G13={G6,G11}={G6,〔G5,G7〕}。再按照公式〔〕計算G1,G3,G10,G12與G13之間的距離,可得到一個新的5×5階距離矩陣(6)在第4步所得的5×5階距離矩陣中,非對角線元素中最小者為d3,10=1.20,故將G3與G10歸并為一類,記為G14,即G14={G3,G10}={G3,〔G4,G9〕}。再按照公式〔〕計算G1,G12,G13與G14之間的距離,可得一個新的4×4階距離矩陣(7)在第5步所得到的4×4階距離矩陣中,非對角線元素中最小者為d12,14=1.29,故將G12與G14歸并為一類,記為G15,即G15={G12,G14}={〔G2,G8〕,〔G3,〔G4,G9〕〕}。再按照公式〔〕計算G1,G13與G15之間的距離,可得一個新的3×3階距離矩陣(8)在第6步所得的3×3階距離矩陣中,非對角線元素中最小者為d1,15=1.32,故將G1與G15歸并為一類,記為G16,即G16={G1,G15}={〔G1,〔G2,G8〕,〔G3,〔G4,G9〕〕}。再按照公式〔〕計算G13與G16之間的距離,可得一個新的2×2階距離矩陣(9)將G13與G16歸并為一類。此時,所有分類對象均被歸并為一類。綜合上述聚類過程,可以作出最短距離聚類譜系圖〔圖〕。圖3.4.2最短距離聚類譜系圖五、最遠(yuǎn)距離聚類法
最遠(yuǎn)距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離時采用的公式不同。最遠(yuǎn)距離聚類法的計算公式是〔〕例題:對于前面的例子,最遠(yuǎn)距離聚類法的聚類過程如下:(1)在9×9階距離矩陣中,非對角元素中最小者是d94=0.51,將第4區(qū)與第9區(qū)并為一類,記為G10,即G10={G4,G9}。按照公式〔〕分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離,得到一個新的8×8階距離矩陣(2)在第1步所得到的8×8階距離矩陣中,非對角線元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。按照公式〔〕式分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,得到一個新的7×7階距離矩陣如下(3)在第2步所得到的7×7階距離矩陣中,非對角線元素中最小者為d28=0.88,故將G2與G8歸并為一類,記為G12,即G12={G2,G8}。再按照公式〔〕分別計算G1,G3,G6,G10,G11與G12之間的距離,得到一個新的6×6階距離矩陣如下(4)在第3步所得的6×6階距離矩陣中,非對角元素中最小者為d3,10=1.23,故將G3與G10歸并為一類,記為G13,即G13={G3,G10}={G3,〔G4,G9〕}。再按照公式〔〕計算G1,G6,G11,G12與G13之間的距離,得到一個新的5×5階距離矩陣如下(5)在第4步所得的5×5階距離矩陣中,非對角線元素中最小者為d1,12=1.52,故將G1與G12歸并為一類,記為G14,即G14={G1,G12}={G1,〔G2,G8〕}。再按照公式〔〕分別計算G6,G11,G13與G14之間的距離,得到一個新的4×4階距離矩陣如下(6)在第5步所得的4×4階距離矩陣中,非對角線元素中最小者為d6,11=1.78,故將G6與G11歸并為一類,記為G15,即G15={G6,G11}={G6,〔G5,G7〕}。再按照公式〔〕分別計算G13,G14和G15之間的距離,得到一個新的3×3階距離矩陣如下(7)在第6步所得的3×3階距離矩陣中,非對角線元素中最小者為d13,14=3.10,故將G13與G14歸并為一類,記為G16,即G16={G13,G14}={〔G3,〔G4,G9〕〕,〔G1,〔G2,G8〕〕}。再按照公式〔〕計算G15與G16之間的距離,可得一個新的2×2階距離矩陣如下(8)將G15與G16歸并為一類。此時,各個分類對象均已歸并為一類。綜合上述聚類過程,可以作出最遠(yuǎn)距離聚類譜系圖〔圖〕。圖3.4.3最遠(yuǎn)距離聚類譜系圖G1G2G8G3G4G9G5G7G6六、計算類之間距離的統(tǒng)一公式最短距離和最遠(yuǎn)距離可以用一個公式表示
用圖表示二者關(guān)系:〔〕最短距離最遠(yuǎn)距離圖3.4.4兩種不同的空間距離a1Ab1b2Ba2當(dāng)α、β、γ三個參數(shù)取不同的值時,就形成了不同的聚類方法〔表〕,在表中,np是p類中單元的個數(shù),nq是q類中單元的個數(shù),nr=np+nq;β一般取負(fù)值。表3.4.48種系統(tǒng)聚類方法的距離參數(shù)值
系統(tǒng)聚類其他方法的公式〔〕方法名稱參數(shù)D矩陣要求空間性質(zhì)apaq
βγ最短距離1/21/20-1/2各種D壓縮最遠(yuǎn)距離1/21/201/2各種D擴(kuò)張中線法1/21/2-1/4≤β≤00歐氏距離保持重心法0歐氏距離保持組平均法
00各種D保持距離平方和法0歐氏距離壓縮可變數(shù)平均法<10各種D不定可變法
<1
0各種D擴(kuò)張七、實例分析
表給出了某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)各個區(qū)域單元的有關(guān)數(shù)據(jù),下面我們運用系統(tǒng)聚類法,對該農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)進(jìn)行聚類分析,步驟如下:(1)用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法,對9項指標(biāo)的原始數(shù)據(jù)進(jìn)行處理;(2)采用歐氏距離測度21個區(qū)域單元之間的距離;(3)選用組平均法,計算類間的距離,依據(jù)不同的聚類標(biāo)準(zhǔn)〔距離〕,對各樣本〔各區(qū)域單元〕進(jìn)行聚類,并作出聚類譜系圖。表3.4.5某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù)
圖3.4.5某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)區(qū)域單元的系統(tǒng)聚類〔組平均法〕譜系圖從聚類分析譜系圖〔圖〕可以看出,在不同的聚類標(biāo)準(zhǔn)〔距離〕下,聚類結(jié)果不同,當(dāng)距離標(biāo)準(zhǔn)逐漸放大時,21個區(qū)域單元被依次聚類。當(dāng)距離為0時,每個樣本為單獨的一類;當(dāng)距離為5,那么21個區(qū)域單元被聚為16類;當(dāng)距離為10,那么21個區(qū)域單元被聚為9類;當(dāng)距離為15,那么21個區(qū)域單元被聚為5類;當(dāng)距離為20,那么21個區(qū)域單元被聚為3類;最終,當(dāng)聚類標(biāo)準(zhǔn)〔距離〕擴(kuò)大到25時,21個區(qū)域單元被聚為1類。第5節(jié)主成分分析
主成分分析的根本原理主成分分析的計算步驟主成分分析方法應(yīng)用實例地理系統(tǒng)是多要素的復(fù)雜系統(tǒng)。在地理學(xué)研究中,多變量問題是經(jīng)常會遇到的。變量太多,無疑會增加分析問題的難度與復(fù)雜性,而且在許多實際問題中,多個變量之間是具有一定的相關(guān)關(guān)系的。因此,人們會很自然地想到,能否在相關(guān)分析的根底上,用較少的新變量代替原來較多的舊變量,而且使這些較少的新變量盡可能多地保存原來變量所反映的信息?問題的提出:事實上,這種想法是可以實現(xiàn)的,主成分分析方法就是綜合處理這種問題的一種強有力的工具。主成分分析是把原來多個變量劃為少數(shù)幾個綜合指標(biāo)的一種統(tǒng)計分析方法。從數(shù)學(xué)角度來看,這是一種降維處理技術(shù)。
一、主成分分析的根本原理假定有n個地理樣本,每個樣本共有p個變量,構(gòu)成一個n×p階的地理數(shù)據(jù)矩陣〔〕當(dāng)p較大時,在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進(jìn)行降維處理,即用較少的幾個綜合指標(biāo)代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多變量指標(biāo)所反映的信息,同時它們之間又是彼此獨立的。定義:記x1,x2,…,xP為原變量指標(biāo),z1,z2,…,zm〔m≤p〕為新變量指標(biāo)(3.5.2)
系數(shù)lij確實定原那么:①zi與zj〔i≠j;i,j=1,2,…,m〕相互無關(guān);②z1是x1,x2,…,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,…,xP的所有線性組合中方差最大者;…;zm是與z1,z2,……,zm-1都不相關(guān)的x1,x2,…xP,的所有線性組合中方差最大者。
那么新變量指標(biāo)z1,z2,…,zm分別稱為原變量指標(biāo)x1,x2,…,xP的第1,第2,…,第m主成分。
從以上的分析可以看出,主成分分析的實質(zhì)就是確定原來變量xj〔j=1,2,…,p〕在諸主成分zi〔i=1,2,…,m〕上的荷載lij〔i=1,2,…,m;j=1,2,…,p〕。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個較大的特征值所對應(yīng)的特征向量。二、主成分分析的計算步驟
〔一〕計算相關(guān)系數(shù)矩陣
rij〔i,j=1,2,…,p〕為原變量xi與xj的相關(guān)系數(shù),rij=rji,其計算公式為〔〕〔〕〔二〕計算特征值與特征向量①解特征方程,常用雅可比法〔Jacobi〕求出特征值,并使其按大小順序排列;
②分別求出對應(yīng)于特征值的特征向量,要求=1,即,其中表示向量的第j個分量。③計算主成分奉獻(xiàn)率及累計奉獻(xiàn)率奉獻(xiàn)率累計奉獻(xiàn)率一般取累計奉獻(xiàn)率達(dá)85%~95%的特征值所對應(yīng)的第1、第2、…、第m〔m≤p〕個主成分。
④計算主成分載荷
⑤各主成分的得分
〔〕〔〕三、主成分分析方法應(yīng)用實例
下面,我們根據(jù)表給出的數(shù)據(jù),對某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)做主成分分析。
表3.5.1某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù)
步驟如下:〔1〕將表中的數(shù)據(jù)作標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,然后將它們代入公式〔〕計算相關(guān)系數(shù)矩陣〔表〕。表相關(guān)系數(shù)矩陣
〔2〕由相關(guān)系數(shù)矩陣計算特征值,以及各個主成分的奉獻(xiàn)率與累計奉獻(xiàn)率〔表〕。由表可知,第1,第2,第3主成分的累計奉獻(xiàn)率已高達(dá)86.596%〔大于85%〕,故只需要求出第1、第2、第3主成分z1,z2,z3即可。表特征值及主成分奉獻(xiàn)率〔3〕對于特征值=4.6610,=2.0890,=1.0430分別求出其特征向量e1,e2,e3,再用公式〔〕計算各變量x1,x2,…,x9在主成分z1,z2,z3上的載荷〔表〕。表3.5.4主成分載荷
上述計算過程,可以借助于SPSS或Matlab軟件系統(tǒng)實現(xiàn)。(1)第1主成分z1與x1,x5,x6,x7,x9呈現(xiàn)出較強的正相關(guān),與x3呈現(xiàn)出較強的負(fù)相關(guān),而這幾個變量那么綜合反映了生態(tài)經(jīng)濟(jì)結(jié)構(gòu)狀況,因此可以認(rèn)為第1主成分z1是生態(tài)經(jīng)濟(jì)結(jié)構(gòu)的代表。(2)第2主成分z2與x2,x4,x5呈現(xiàn)出較強的正相關(guān),與x1呈現(xiàn)出較強的負(fù)相關(guān),其中,除了x1為人口總數(shù)外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認(rèn)為第2主成分z2代表了人均資源量。
分析:顯然,用3個主成分z1、z2、z3代替原來9個變量〔x1,x2,…,x9〕描述農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng),可以使問題更進(jìn)一步簡化、明了。(3)第3主成分z3與x8呈現(xiàn)出的正相關(guān)程度最高,其次是x6,而與x7呈負(fù)相關(guān),因此可以認(rèn)為第3主成分在一定程度上代表了農(nóng)業(yè)經(jīng)濟(jì)結(jié)構(gòu)。(4)另外,表中最后一列〔占方差的百分?jǐn)?shù)〕,在一定程度上反映了3個主成分z1、z2、z3包含原變量〔x1,x2,…,x9〕的信息量多少。第6節(jié)趨勢面分析方法
趨勢面分析的一般原理
趨勢面模型的適度檢驗
趨勢面分析應(yīng)用實例
一、趨勢面分析的一般原理
趨勢面分析,是利用數(shù)學(xué)曲面模擬地理系統(tǒng)要素在空間上的分布及變化趨勢的一種數(shù)學(xué)方法。它實質(zhì)上是通過回歸分析原理,運用最小二乘法擬合一個二維非線性函數(shù),模擬地理要素在空間上的分布規(guī)律,展示地理要素在地域空間上的變化趨勢。
趨勢面分析方法常常被用來模擬資源、環(huán)境、人口及經(jīng)濟(jì)要素在空間上的分布規(guī)律,它在空間分析方面具有重要的應(yīng)用價值。
趨勢面是一種抽象的數(shù)學(xué)曲面,它抽象并過濾掉了一些局域隨機因素的影響,使地理要素的空間分布規(guī)律明顯化。
通常把實際的地理曲面分解為趨勢面和剩余面兩局部,前者反映地理要素的宏觀分布規(guī)律,屬于確定性因素作用的結(jié)果;而后者那么對應(yīng)于微觀局域,是隨機因素影響的結(jié)果。趨勢面分析的一個根本要求,就是所選擇的趨勢面模型應(yīng)該是剩余值最小,而趨勢值最大,這樣擬合度精度才能到達(dá)足夠的準(zhǔn)確性??臻g趨勢面分析,正是從地理要素分布的實際數(shù)據(jù)中分解出趨勢值和剩余值,從而揭示地理要素空間分布的趨勢與規(guī)律?!惨弧辰②厔菝婺P驮O(shè)某地理要素的實際觀測數(shù)據(jù)為,趨勢面擬合值為,那么有式中:εi即為剩余值〔殘差值〕。顯然,當(dāng)〔xi,yi〕在空間上變動時,〔〕式就刻畫了地理要素的實際分布曲面、趨勢面和剩余面之間的互動關(guān)系?!病弛厔菝娣治龅暮诵膹膶嶋H觀測值出發(fā)推算趨勢面,一般采用回歸分析方法,使得殘差平方和趨于最小,即這就是在最小二乘法意義下的趨勢面擬合。
用來計算趨勢面的數(shù)學(xué)方程式有多項式函數(shù)和傅立葉級數(shù),其中最為常用的是多項式函數(shù)形式。因為任何一個函數(shù)都可以在一個適當(dāng)?shù)姆秶鷥?nèi)用多項式來逼近,而且調(diào)整多項式的次數(shù),可使所求的回歸方程適合實際問題的需要。
多項式趨勢面的形式①一次趨勢面模型②二次趨勢面模型③三次趨勢面模型〔〕〔〕〔〕〔二〕估計趨勢面模型的參數(shù)實質(zhì)根據(jù)觀測值zi,xi,yi〔i=1,2,…,n〕確定多項式的系數(shù)a0,a1,…,ap,使殘差平方和最小。過程①將多項式回歸〔非線性模型〕模型轉(zhuǎn)化為多元線性回歸模型。令
那么②其殘差平方和為
〔〕③求Q對a0,a1,…,ap的偏導(dǎo)數(shù),并令其等于0,得正規(guī)方程組(式中為p+1個未知量〕〔〕④用矩陣形式表示那么〔〕式變?yōu)椤病尝?/p>
對于二元二次多項式有
其正規(guī)方程組為
由式〔〕求解,可得〔〕二、趨勢面模型的適度檢驗
趨勢面擬適宜度的R2檢驗趨勢面擬適宜度的顯著性F檢驗趨勢面適度的逐次檢驗趨勢面分析擬合程度與回歸模型的效果直接相關(guān),因此,對趨勢面分析進(jìn)行適度性檢驗是一個關(guān)系到趨勢面能否在實際研究中加以應(yīng)用的關(guān)鍵問題,也是趨勢面分析中不可缺少的重要環(huán)節(jié)。這可以通過以下檢驗來完成:〔一〕趨勢面擬適宜度的R2檢驗趨勢面與實際面的擬合度系數(shù)R2是測定回歸模型擬合優(yōu)度的重要指標(biāo)。一般用變量z的總離差平方和中回歸平方和所占的比重表示回歸模型的擬合優(yōu)度??傠x差平方和等于回歸平方和與剩余平方和之和。即
越大〔或越小〕就表示因變量與自變量的關(guān)系越密切,回歸的規(guī)律性越強、效果越好。記越大,趨勢面的擬合度就越高。為剩余平方和,它表示隨機因素對離差的影響,為回歸平方和,它表示自變量對因變量的離差的總影響。
(3.6.9)
〔二〕趨勢面擬適宜度的顯著性F檢驗趨勢面適度的F檢驗,是對趨勢面回歸模型整體的顯著性檢驗。方法:是利用變量z的總離差平方和中剩余平方和與回歸平方和的比值,確定變量z與自變量x、y之間的回歸關(guān)系是否顯著。即結(jié)果分析:在顯著性水平α下,查F分布表得Fα,假設(shè)計算的F值大于臨界值Fα,那么認(rèn)為趨勢面方程顯著;反之那么不顯著?!病场踩弛厔菝孢m度的逐次檢驗方法(1)求出較高次多項式方程的回歸平方和與較低次多項式方程的回歸平方和之差;(2)將此差除以回歸平方和的自由度之差,得出由于多項式次數(shù)增高所產(chǎn)生的回歸均方差;(3)將此均方差除以較高次多項式的剩余均方差,得出相繼兩個階次趨勢面模型的適度性比較檢驗值F。假設(shè)所得的F值是顯著的,那么較高次多項式對回歸作出了新奉獻(xiàn),假設(shè)F值不顯著,那么較高次多項式對于回歸并無新奉獻(xiàn)。相應(yīng)的方差分析表見表。表3.6.1多項式趨勢面由K次增高至〔K+1〕次的回歸顯著性檢驗離差來源平方和自由度均方差F檢驗(K+1)次回歸
p
(K+1)次剩余
n–p–1K次回歸
qK次剩余
n–q–1由K次增高至(K+1)次的回歸p–q總離差SST需要注意的是,在實際應(yīng)用中,往往用次數(shù)低的趨勢面逼近變化比較小的地理要素數(shù)據(jù),用次數(shù)高的趨勢面逼近起伏變化比較復(fù)雜的地理要素數(shù)據(jù)。次數(shù)低的趨勢面使用起來比較方便,但具體到某點擬合較差;次數(shù)較高的趨勢面只在觀測點附近效果較好,而在外推和內(nèi)插時那么效果較差。三、趨勢面分析應(yīng)用實例
某流域1月份降水量與各觀測點的坐標(biāo)位置數(shù)據(jù)如表所示。下面,我們以降水量為因變量z,地理位置的橫坐標(biāo)和縱坐標(biāo)分別為自變量x、y,進(jìn)行趨勢面分析,并對趨勢面方程進(jìn)行適度F檢驗。
表3.6.2流域降水量及觀測點的地理位置數(shù)據(jù)序號降水量Z/mm橫坐標(biāo)x/104m縱坐標(biāo)y/104m12345678910111227.638.42424.73255.540.437.53131.75344.901.11.82.953.41.80.70.20.851.652.653.6510.6000.21.71.323.353.153.12.55建立趨勢面模型
(1)
首先采用二次多項式進(jìn)行趨勢面擬合,用最小二乘法求得擬合方程為
解題步驟圖3.6.1某流域降水量的二次多項式趨勢面
(2)再采用三次趨勢面進(jìn)行擬合,用最小二乘法求得擬合方程為
圖3.6.2某流域降水量的三次多項式趨勢面
(1)趨勢面擬適宜度的R2檢驗:根據(jù)R2檢驗方法計算,結(jié)果說明,二次趨勢面的判定系數(shù)為R22=0.839,三次趨勢面的判定系數(shù)為R32=0.965,可見二次趨勢面回歸模型和三次趨勢面回歸模型的顯著性都較高,而且三次趨勢面較二次趨勢面具有更高的擬合程度。模型檢驗(2)趨勢面適度的顯著性F檢驗:根據(jù)F檢驗方法計算,結(jié)果說明,二次趨勢面和三次趨勢面的F值分別為F2=6.236和F3=6.054。在置信水平α=0.05下,查F分布表得F3α=。顯然,,故二次趨勢面的回歸方程顯著而三次趨勢面不顯著。因此,F(xiàn)檢驗的結(jié)果說明,用二次趨勢面進(jìn)行擬合比較合理。。趨勢面比較:在二次和三次趨勢面檢驗中,對兩個階次趨勢面模型的適度進(jìn)行比較,相應(yīng)的方差分析計算結(jié)果見表。(3)趨勢面適度的逐次檢驗:
離差來源平方和自由度均方差F檢驗三次回歸三次剩余二次回歸二次剩余由二次增高至三次的回歸
1129.78941.474982.244189.018147.545912-9-1512-5-14125.53220.737196.44931.50336.8866.0546.2361.779表3.6.3二次和三次趨勢面回歸模型的逐次檢驗方差分析表分析:從二次趨勢面增加到三次趨勢面,F(xiàn)3→2=1.779。在置信度水平α=0.05下,查F分布表得F0.05(4,2)=6.94,由于F3→2<F0.05(4,2)=6.94,故將趨勢面擬合次數(shù)由二次增高至三次,對回歸方程并無新奉獻(xiàn),因而選取二次趨勢面比較適宜。這也進(jìn)一步驗證了趨勢面擬適宜度的顯著性F檢驗的結(jié)論。
第7節(jié)馬爾可夫預(yù)測方法
幾個根本概念馬爾可夫預(yù)測法
對事件的全面預(yù)測,不僅要能夠指出事件發(fā)生的各種可能結(jié)果,而且還必須給出每一種結(jié)果出現(xiàn)的概率。馬爾可夫〔Markov〕預(yù)測方法,就是一種預(yù)測事件發(fā)生的概率的方法。它是基于馬爾可夫鏈,根據(jù)事件的目前狀況預(yù)測其將來各個時刻〔或時期〕變動狀況的一種預(yù)測方法。馬爾可夫預(yù)測法是對地理事件進(jìn)行預(yù)測的根本方法,它是地理預(yù)測中常用的重要方法之一。狀態(tài)指某一事件在某個時刻〔或時期〕出現(xiàn)的某種結(jié)果。狀態(tài)轉(zhuǎn)移過程事件的開展,從一種狀態(tài)轉(zhuǎn)變?yōu)榱硪环N狀態(tài),稱為狀態(tài)轉(zhuǎn)移。馬爾可夫過程在事件的開展過程中,假設(shè)每次狀態(tài)的轉(zhuǎn)移都僅與前一時刻的狀態(tài)有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語文-福建省漳州市2025屆高三畢業(yè)班第三次教學(xué)質(zhì)量檢測(漳州三檢)試題和答案
- 《探索與發(fā)現(xiàn):三角形邊的關(guān)系》(教學(xué)設(shè)計)-2023-2024學(xué)年四年級下冊數(shù)學(xué)北師大版
- 鄉(xiāng)村公路養(yǎng)護(hù)合同范例
- 幼兒園小班角色游戲與社會認(rèn)知計劃
- 賣車正規(guī)交易合同范例
- 高中教師工作計劃
- 如何在變化中保持年度目標(biāo)的穩(wěn)定計劃
- 加強行業(yè)知識的學(xué)習(xí)目標(biāo)計劃
- 信貸行業(yè)月度個人工作計劃
- 社團(tuán)資源整合優(yōu)化計劃
- 化學(xué)-江蘇省鎮(zhèn)江市2024-2025學(xué)年高三下學(xué)期期初質(zhì)量監(jiān)測試題和答案
- 2025年中考語文一輪復(fù)習(xí):民俗類散文閱讀 講義(含練習(xí)題及答案)
- 【正版授權(quán)】 IEC 63310:2025 EN Functional performance criteria for AAL robots used in connected home environment
- 2025屆新高考政治沖刺備考復(fù)習(xí)把握高考趨勢+科學(xué)高效命題
- 最終版附件1:“跨學(xué)科主題學(xué)習(xí)”教學(xué)設(shè)計(2025年版)
- 2025年春季安全教育主題班會教育記錄
- 2024年春季學(xué)期低年級學(xué)雷鋒講奉獻(xiàn)主題班會
- 2025年度環(huán)保咨詢與評估服務(wù)合同范本模板
- 機電一體化??飘厴I(yè)論文范文
- 2025至2030年中國煙用接裝紙數(shù)據(jù)監(jiān)測研究報告
- 2024年呼和浩特職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
評論
0/150
提交評論