版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄TOC\o"1-3"\h\u31022一、理論依據(jù) 115110§1.1距離 132214§1.1.1絕對(duì)值距離 114418§1.1.2平方和距離 127718§1.1.3明可夫斯基距離 28610§1.1.4切比雪夫距離 223446§1.2系統(tǒng)聚類法 330353二、問題提出 31616三、問題解答 417265四、結(jié)論 623461五、參考文獻(xiàn) 8摘要針對(duì)所研究的問題是對(duì)各個(gè)省份的稅收進(jìn)行聚類分析,本文以絕對(duì)值距離(又稱Blook或Manhattan)為前提,利用最短距離法的系統(tǒng)聚類法,針對(duì)來自14個(gè)省的稅收數(shù)據(jù)編寫Matlab程序?qū)崿F(xiàn)對(duì)這14個(gè)省份稅收的聚類分析,得到與預(yù)期貼合的聚類結(jié)果。在不同距離下對(duì)14個(gè)省份稅收的分類是不同的,并且其分類結(jié)果符合我們所知道的各省份的發(fā)展情況,在選擇合適的分類距離時(shí),雖不能夠準(zhǔn)確地劃分成符合我國經(jīng)濟(jì)發(fā)展現(xiàn)狀的三類地區(qū),但結(jié)果偏差不大。分析得出,偏差可能來自于數(shù)據(jù)的單一性,或者事實(shí)上東部發(fā)達(dá)地區(qū)內(nèi)部差異的確很大。關(guān)鍵字:絕對(duì)值距離、系統(tǒng)聚類法、最短距離法聚類分析在稅收中的應(yīng)用一、理論依據(jù)聚類分析又稱集群分析。是“物以類聚”的一種統(tǒng)計(jì)方法。判別分析是根據(jù)已知類別的一批樣品。按某一準(zhǔn)則建立判別函數(shù)和判別規(guī)則,并依此判別新樣品的類別。聚類分析則是把性質(zhì)相近或相似的對(duì)象歸成類。而事先并不清楚對(duì)象的類別,甚至并不清楚應(yīng)分成幾類。和多元分析的其它方法相比,聚類分析的方法是很粗糙的,但是它的應(yīng)用已取得了很大成功。聚類的對(duì)象有兩種:對(duì)變量(觀測(cè)指標(biāo))聚類。常用變量間的相似系數(shù)進(jìn)行聚類。而最常用的相似系數(shù)為方向余弦和相關(guān)系數(shù)。對(duì)樣品(觀測(cè)單位)聚類,常用樣品間的距離進(jìn)行聚類。最常用的距離是絕對(duì)距離和歐氏距離。本文應(yīng)用的是對(duì)樣品的聚類分析,而對(duì)樣品進(jìn)行聚類分析,首先要引進(jìn)聚類統(tǒng)計(jì)量。常用的聚類統(tǒng)計(jì)量有三種:匹配系數(shù)、距離和相似系數(shù)。本文采用的是距離的統(tǒng)計(jì)量?!?.1距離兩個(gè)樣品之間的相似程度可以用P維空間的距離來度量,距離越小,相似程度越高,兩樣品越應(yīng)該劃為一類?!?.1.1絕對(duì)值距離絕對(duì)值距離也稱Blook或Manhattan,其計(jì)算公式為:§1.1.2平方和距離平方和距離即普通歐氏距離之平方,計(jì)算公式如下:或§1.1.3明可夫斯基距離其中,k=1,…,p為各指標(biāo)之權(quán)系數(shù)。特別=1,k=1,…,p時(shí),若q=1,則明可夫斯基距離即為絕對(duì)值距離;q=2時(shí),則明可夫斯基距離即為普通歐氏距離?!?.1.4切比雪夫距離上述幾種距離,其數(shù)值均與指標(biāo)的量綱有關(guān),當(dāng)各指標(biāo)量綱不盡相同,觀測(cè)數(shù)字相差懸殊時(shí),將對(duì)極端數(shù)字很敏感,從而突出了某些數(shù)字特別大的指標(biāo)而掩蓋了其他指標(biāo)的作用。為了消除量綱的影響,可先將指標(biāo)觀測(cè)值進(jìn)行標(biāo)準(zhǔn)化:其中:,為第k個(gè)指標(biāo)樣本均值;為第k個(gè)指標(biāo)樣本標(biāo)準(zhǔn)差。經(jīng)過變換后,各個(gè)指標(biāo)樣本均值均為0,標(biāo)準(zhǔn)差均為1,其數(shù)值不再受量綱的影響。本文采用的距離是絕對(duì)值距離,由于題目較為簡(jiǎn)單,故不需要標(biāo)準(zhǔn)化,但當(dāng)需要標(biāo)準(zhǔn)化的問題時(shí),大家也應(yīng)該會(huì)用。§1.2系統(tǒng)聚類法聚類分析的系統(tǒng)聚類法共有8種,它們分別是:最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法(亦稱Ward法)。下面簡(jiǎn)述最短距離法的原理:任給兩類,,規(guī)定其兩類之間的距離為兩類樣品之間的最短距離,即,若兩類,合并為一新類,則與任一類的距離為:其中分別是與,與之間的距離。由于本文僅用了最短距離法,限于本文篇幅有限,故不再贅述另外七種系統(tǒng)聚類法。本文以最短距離法為代表,對(duì)各個(gè)城市稅收進(jìn)行了聚類分析,若讀者有興趣可舉一反三,自行推導(dǎo)另外七種系統(tǒng)聚類法,并應(yīng)用于本題。二、問題提出以2009年版的《中國統(tǒng)計(jì)年鑒》為資料來源,使用了2008年各地區(qū)稅收收入為樣本區(qū)間(為了使計(jì)算上方便些,本題只采用了部分省份的數(shù)據(jù)),對(duì)我國各地區(qū)稅收做聚類分析。表一中國北京至新疆地區(qū)有關(guān)的基本數(shù)據(jù)(單位:億元)序號(hào)地區(qū)稅收收入(Y)Y1北京1775.58Y2天津546.26Y3河北748.89Y4山西566.49Y5內(nèi)蒙古464.45Y6遼寧1017.1Y7吉林311.07Y8黑龍江420.21Y9上海2223.43Y10江蘇2278.71Y11浙江1792.09Y12安徽527.93Y13福建704.45Y14江西357.96三、問題解答利用Matlab對(duì)各個(gè)省份稅收進(jìn)行聚類分析:將14各省份各分為一類分別是Y1,Y2,…,Y14,并對(duì)這是四類求距離,其Matlab程序如下:Y=[1775.58,546.26,748.89,566.49,464.45,1017.1,311.07,420.21,2223.43,2278.71,1792.09,527.93,704.45,357.96];fori=2:14;forj=1:i-1;A(i,j)=abs(Y(i)-Y(j));endenda=10000;fori=2:14;forj=1:i-1;ifA(i,j)<aa=A(i,j);p=i;q=j;endendendfori=2:14;forj=1:i-1;ifA(i,j)==ap=i,q=j,endendenda運(yùn)行結(jié)果為p=11,q=1,a=16.51,即在距離為16.51處,將Y1與Y11聚為一類Y15。并且,我們得到距離陣:表二距離陣1234567891011121314121229.3231026.69202.6341209.0920.23182.451311.1381.81284.44102.046758.48470.84268.21450.61552.6571464.51235.19437.82255.42153.38706.0381355.37126.05328.68146.2844.24596.89109.149447.851677.171474.541656.941758.981206.331912.361803.2210503.131732.451529.821712.221814.261261.611967.641858.555.281116.511245.831043.21225.61327.64774.991481.021371.88431.34486.62121247.6518.33220.9638.5663.48489.17216.86107.721695.51750.781264.16131071.13158.1944.44137.96240312.65393.38284.241518.981574.261087.64176.52141417.62188.3390.93208.53106.49659.1446.8962.251865.471920.751434.13169.97346.49現(xiàn)在用Matlab程序?qū)2,Y3,…,Y10,Y12,…,Y15進(jìn)行聚類:b=a;a=10000;fori=2:14;forj=1:i-1;ifA(i,j)<a&A(i,j)>ba=A(i,j);p=i;q=j;endendendfori=2:14;forj=1:i-1;ifA(i,j)==ap=i,q=j,endendenda運(yùn)行結(jié)果為p=12,q=2,a=18.33,即在距離為18.33處,將Y2與Y12聚為一類Y16。以此類推進(jìn)行聚類分析第三步聚類是將Y4與Y16聚為一類Y17(Y2,Y4,Y12),距離為20.23,第四步將Y5與Y8在距離為44.24處聚為一類Y18(Y5,Y8),第四步在44.44處將Y3和Y13聚為一類Y19(Y3,Y13),第五步在46.89處將Y7和Y14聚為一類Y20(Y7,Y14),第六步在在55.28處將Y9和Y10聚為一類Y21(Y9,Y10),第七步在62.25處將Y18與Y20聚為一類Y22(Y5,Y7,Y8,Y14),第八步在在63.48處將Y17和Y22聚為一類Y23(Y2,Y4,Y5,Y7,Y8,Y12,Y14),第九步在在137.96處將Y19和Y23聚為一類Y24(Y2,Y3,Y4,Y5,Y7,Y8,Y12,Y13,Y14),第十步在在268.21處將Y6與Y24聚為一類Y25(Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y12,Y13,Y14),第十一步在431.34處將Y15與Y21聚為一類Y26(Y1,Y9,Y10,Y11),第十二步在在758.48處將Y25與Y26聚為一類Y27(Y1,Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9,Y10,Y11,Y12,Y13,Y14)。四、結(jié)論由上述結(jié)果我們對(duì)本次分類結(jié)果進(jìn)行歸納,為了直觀,用表格來表示:表三分類表1分類分為1類所有省份分為2類北京、上海、江蘇、浙江天津、河北、山西、黑龍江、吉林、遼寧、內(nèi)蒙古、安徽、福建、江西分為3類北京、浙江上海、江蘇同于分兩類時(shí)第二類分為4類北京、浙江上海、江蘇遼寧余下省份分為5類北京、浙江上海、江蘇遼寧河北、福建余下省份分為6類北京、浙江上海、江蘇遼寧河北、福建天津、山西、安徽余下省份分為7類北京、浙江上海、江蘇遼寧河北、福建天津、山西、安徽內(nèi)蒙古、黑龍江吉林、江西分為8類北京、浙江上海江蘇遼寧河北、福建天津、山西、安徽內(nèi)蒙古、黑龍江吉林、江西分為9類北京、浙江上海江蘇遼寧河北、福建天津、山西、安徽內(nèi)蒙古、黑龍江吉林江西分為10類北京、浙江上海江蘇遼寧河北福建天津、山西、安徽內(nèi)蒙古、黑龍江吉林江西分為11類北京、浙江上海江蘇遼寧河北福建天津、山西、安徽內(nèi)蒙古黑龍江吉林江西分為12類北京、浙江江蘇遼寧河北福建上海山西天津、安徽內(nèi)蒙古黑龍江吉林江西分為13類北京、浙江江蘇遼寧河北福建上海山西天津安徽吉林內(nèi)蒙古黑龍江江西分為14類各個(gè)省份獨(dú)自成類結(jié)合圖表和數(shù)據(jù)我們可以很輕松地得看出聚類的結(jié)果,在不同的聚類距離,我們可以得到不同的聚類結(jié)果,而這些結(jié)果和我們所預(yù)期的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上??苿?chuàng)職業(yè)技術(shù)學(xué)院《建筑照明技術(shù)A》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海健康醫(yī)學(xué)院《園林工程項(xiàng)目管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海建設(shè)管理職業(yè)技術(shù)學(xué)院《建筑工程制圖與識(shí)圖》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海行健職業(yè)學(xué)院《醫(yī)學(xué)微生物學(xué)C》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海海事大學(xué)《數(shù)字系統(tǒng)設(shè)計(jì)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海海關(guān)學(xué)院《圖案構(gòu)成設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 六年級(jí)語文上冊(cè) 第八單元 26《我的伯父魯迅先生》教學(xué)實(shí)錄 新人教版
- 2024年中國按摩博士市場(chǎng)調(diào)查研究報(bào)告
- 水稻節(jié)肥技術(shù)培訓(xùn)課件
- 上海工商職業(yè)技術(shù)學(xué)院《軟件工程專業(yè)學(xué)科前沿講座雙語》2023-2024學(xué)年第一學(xué)期期末試卷
- 一元二次方程基礎(chǔ)練習(xí)50題含詳細(xì)答案
- 李白杜甫酒詩
- 古代詩人作家人物介紹-蘇東坡
- 現(xiàn)代藥物制劑與新藥研發(fā)智慧樹知到答案2024年蘇州大學(xué)
- 湖南省郴州市2023-2024學(xué)年三年級(jí)上學(xué)期期末考試科學(xué)試題
- 《智慧體育競(jìng)技科技助力新突破》演講課件
- 《登岳陽樓》課件+2023-2024學(xué)年統(tǒng)編版高中語文必修下冊(cè)
- 新進(jìn)高校教師工作計(jì)劃
- 2024年人教版初一生物(上冊(cè))期末試卷及答案(各版本)
- 中考英語688高頻詞大綱詞頻表
- 《馬克思主義發(fā)展史》題集
評(píng)論
0/150
提交評(píng)論