




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
.z.----.可修編.學(xué)科110**科技大學(xué)本科學(xué)生畢業(yè)論文聚類分析方法在全國(guó)各省農(nóng)民平均收入水平分類中的應(yīng)用學(xué)號(hào)院(系)指導(dǎo)教師20-.z.摘要“社會(huì)主義新農(nóng)村建設(shè)”是我國(guó)目前社會(huì)主義建設(shè)的一項(xiàng)重要內(nèi)容,增加農(nóng)民收入、提高農(nóng)村地區(qū)人民生活水平也是我們國(guó)家的當(dāng)務(wù)之急。研究農(nóng)民平均收入水平可以有效的減弱城鄉(xiāng)二元結(jié)構(gòu),縮小城鄉(xiāng)差距,為努力建設(shè)城鄉(xiāng)一體化體制建設(shè)提供科學(xué)的方法。利用科學(xué)的方法分析和指導(dǎo)“新農(nóng)村”建設(shè)是我們科技人員面臨的一項(xiàng)神圣使命。本文主要簡(jiǎn)述了中國(guó)農(nóng)村的現(xiàn)狀,并應(yīng)用系統(tǒng)聚類分析方法和模糊聚類分析方法對(duì)全國(guó)農(nóng)民平均收入水平進(jìn)行分類,介紹了系統(tǒng)聚類和模糊聚類的原理和方法,并比較了兩種方法在這個(gè)課題中的優(yōu)勢(shì)與劣勢(shì),系統(tǒng)聚類法運(yùn)用簡(jiǎn)單,結(jié)果比較明了,但是運(yùn)用不靈活,模糊聚類法運(yùn)用靈活,可以控制分類的粗細(xì)程度,但操作復(fù)雜。通過本文聚類顯示,將全國(guó)農(nóng)民平均收入水平分為5類比較合適,其中**、**、**、**、**、**、**、**、**、**、**、**為一類,**、**、**、**為一類,**、**、**、**、**、**、**、**、**、**為一類,、**為一類,**、**、**為一類。通過聚類結(jié)果,了解了全國(guó)農(nóng)民平均收入的狀況,具體分析各省的經(jīng)濟(jì)狀況,制定相應(yīng)的策略,減小這種經(jīng)濟(jì)水平的不平衡,抑制兩極分化程度。關(guān)鍵詞農(nóng)民平均收入系統(tǒng)聚類模糊聚類Abstract"Buildinganewsocialistcountryside"iscurrentlyoneofChina'ssocialistconstructionimportantcontent,increasetheirineandimprovethelivingstandardsofpeopleinruralareasisapriorityinourcountry.Studyontheaverageineleveloffarmerscaneffectivelyweakentheurban-ruraldualstructure,narrowingthegapbetweenurbanandruralareas,providescientificinstitution-buildingeffortstobuildurban-ruralintegrationmethod.Usescientificmethodstoanalyzeandguidethe"newcountryside"constructionisasacredmissionfacedbyourscienceandtechnology.ThispaperoutlinesthecurrentsituationinruralChina,andtheapplicationsystemclusteranalysisandfuzzyclusteringanalysisofthenationalfarmers'averageinelevelclassificationsystemintroducedclusteringandfuzzyclusteringtheoryandmethods,andparethetwowaysinthisissueofthestrengthsandweaknessesofthesystemclusterMethodissimple,relativelyclear,buttheuseisnotfle*ible,fle*ibleuseoffuzzyclusteringmethod,youcancontrolthethicknessofthedegreeofclassification,butplicatedtooperate.Throughthisclustershowsthatthenationalaverageineleveloffarmersintofivecategoriesisappropriate,whereJiang*i,Hubei,Hebei,Jilin,Heilongjiang,Henan,Hunan,InnerMongolia,Hainan,Anhui,Sichuan,Chongqing,asaclass,Liaoning,ShandongFujian,Guangdong,asaclass,Guang*i,Ning*ia,*injiang,Shan*i,Guizhou,Gansu,Yunnan,Qinghai,Tibet,Shaan*i,asaclass,Beijing,Shanghaiasaclass,Tianjin,Zhejiang,Jiangsu,asaclass.Byclusteringresults,tounderstandthesituationofthenationalfarmers'averageine,detailedanalysisoftheeconomicsituationintheprovinces,developappropriatestrategiestoreducethislevelofeconomicimbalances,suppresspolarizationdegree.KeywordsAverageineresidentsClusteranalysisFuzzyClustering-.z.-.可修編.目錄TC"ChapterIILearnedReview"\l1TC"2.1Clusteranalysis"\l2TC"2.1.1ConceptualClusteringAnalysis"\l3TC"2.1.2Clusteranalysismethodsandprinciples"\l3TC"2.2Similaritymeasure"\l2TC"2.2.1Definethedistance"\l3TC"2.2.2monlyuseddistance"\l3TC"2.2.3Fromtheselectionprinciple"\l3TC"2.2.4Variablemeasureofsimilarity"\l3TC"2.3Systemclusteringmethod"\l2TC"2.3.1ThebasicideaofClusterAnalysis"\l3TC"2.3.2StepClusterAnalysis"\l3TC"ChapterIIIClusteringanalysisoftheaverageineoffarmers"\l1TC"3.1IndustryStatistics"\l2TC"3.2Clusteranalysisoftheaverageineleveloffarmers"\l2TC"3.3StepClusterAnalysis"\l2TC"3.4ClusteranalysisConclusion"\l2TC"ChapterIVConclusionsandOutlook"\l1TC"4.1Findings"\l2TC"4.2Outlook"\l2TCReferences\l1TCThanks\l1摘要IAbstractII第1章緒論11.1論文背景和意義11.2國(guó)內(nèi)外研究狀況21.3數(shù)據(jù)來源31.4本文的主要工作4第二章學(xué)術(shù)回顧52.1聚類分析52.1.1聚類分析概念5聚類分析方法原理52.2相似度的測(cè)量52.2.1.定義距離52.2.2.常用距離6距離選擇原則7變量相似性的度量72.3系統(tǒng)聚類法92.3.1系統(tǒng)聚類的基本思想9系統(tǒng)聚類法步驟:132.4模糊聚類分析法13第三章農(nóng)民平均收入的聚類算法分析213.1行業(yè)數(shù)據(jù)統(tǒng)計(jì)213.2系統(tǒng)聚類法在農(nóng)民平均收入水平的應(yīng)用223.2.1系統(tǒng)聚類法分析步驟233.2.2系統(tǒng)聚類法分析結(jié)果283.3模糊聚類法在農(nóng)民平均收入水平的應(yīng)用283.3.1模糊聚類發(fā)的分析步驟283.3.2模糊聚類法分析結(jié)果30結(jié)論32致謝34參考文獻(xiàn)35ContentsTOC\f\h\z\uAbstractIAbstractIIChapter1Introduction11.1Paperbackgroundandsignificance11.2Domesticandforeignresearchstatus21.3Datasources31.4Themainworkofthisarticle4ChapterIILearnedReview52.1Clusteranalysis52.1.1ConceptualClusteringAnalysis52.1.2Clusteranalysismethodsandprinciples52.2Similaritymeasure52.2.1Definethedistance52.2.2monlyuseddistance62.2.3Fromtheselectionprinciple72.2.4Variablemeasureofsimilarity72.3Systemclusteringmethod92.3.1ThebasicideaofClusterAnalysis92.3.2StepClusterAnalysis132.4Fuzzyclusteringanalysis13ChapterIIIClusteringanalysisoftheaverageineoffarmers213.1IndustryStatistics213.2Applicationofsystemclusteringmethodinfarmers'averageinelevel-.z.-.可修編.223.2.1Hierarchicalclusteranalysisstep233.2.2Hierarchicalclusteranalysisresults283.3Applicationoffuzzyclusteringmethodinfarmers'averageinelevels283.3.1Fuzzyclusteringanalysisstephair283.3.2Fuzzyclusteringanalysisresults30Conclusions32Acknowledgements34References35TCAbstract\l1TCAbstract\l1TC"Chapter1Introduction"\l1TC"1.1Paperbackgroundandsignificance"\l2TC"1.2Domesticandforeignresearchstatus"\l2TC"1.3Datasources"\l2TC"1.4Themainworkofthisarticle"\l2.z.第1章緒論1.1論文背景和意義自改革開放以來,我國(guó)農(nóng)村經(jīng)濟(jì)一直保持著平穩(wěn)較快發(fā)展。但是,與此同時(shí),也出現(xiàn)了一些新的問題。發(fā)展中的不平衡、不協(xié)調(diào)、不可持續(xù)問題逐漸突出,城鄉(xiāng)發(fā)展差距和居民收入分配差距越來越明顯,全國(guó)各個(gè)地區(qū)不平衡及居民收入分配差距較大是人民群眾比較關(guān)心的問題。農(nóng)民增收關(guān)乎社會(huì)的穩(wěn)定和**久安。在農(nóng)民收入高速增長(zhǎng)時(shí)期,盡管農(nóng)村同樣存在一些矛盾和問題,但是比較容易得到彌合和解決。但在收入增加緩慢甚至下降時(shí)期,由于收入預(yù)期不好,收入差距拉大,往往容易導(dǎo)致一些地方干群關(guān)系緊*,社會(huì)治安下降等等事件的上升。因此農(nóng)民增收不僅是個(gè)經(jīng)濟(jì)問題,而且是個(gè)社會(huì)政治問題,增加農(nóng)民收入意義重大。目前理論界廣泛采用的衡量收入差距的評(píng)價(jià)主要有基尼系數(shù)、泰爾指數(shù)、人口收入份額度量指標(biāo)三大類?;嵯禂?shù)由于給出了反映居民之間貧富差異程度的數(shù)量界線,可以較客觀、直觀地反映和監(jiān)測(cè)居民之間的貧富差距,預(yù)報(bào)、預(yù)警和防止居民之間出現(xiàn)貧富兩極分化。因此得到世界各國(guó)的廣泛認(rèn)同和普遍采用。但是沒有顯示出來在哪里存在分配不公。國(guó)際間,并無制定基尼系數(shù)的準(zhǔn)則,一些問題如應(yīng)否除稅項(xiàng),應(yīng)否剔除公共援助受益者,應(yīng)否剔除非本地居民,或應(yīng)否加入政府的福利,并沒有一致性,以至沒有比較的準(zhǔn)則。泰爾熵指數(shù)和基尼系數(shù)之間具有一定的互補(bǔ)性?;嵯禂?shù)對(duì)中等收入水平的變化特別敏感。泰爾熵T指數(shù)對(duì)上層收入水平的變化很明顯,而泰爾熵L和V指數(shù)對(duì)底層收入水平的變化敏感。聚類分析是根據(jù)研究對(duì)象的特征對(duì)研究對(duì)象進(jìn)行分類的多元分析技術(shù)的總稱。它的優(yōu)勢(shì)是把性質(zhì)相近的個(gè)體歸為一類,使得同一類的個(gè)體具有高度的同質(zhì)性,而不同類的個(gè)體差異很大,應(yīng)用聚類分析模型分析農(nóng)民平均收入水平的優(yōu)點(diǎn)是直觀,結(jié)論形式簡(jiǎn)明,可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分類,分類結(jié)果是直觀的,聚類譜系圖非常清楚地表現(xiàn)其數(shù)值分類結(jié)果,所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。通過聚類分析將全國(guó)31個(gè)省市的農(nóng)民平均收入狀況進(jìn)行分類,分為發(fā)達(dá)地區(qū),較發(fā)達(dá)地區(qū)和不發(fā)達(dá)地區(qū)。通過這次分類了解全國(guó)各地農(nóng)民平均收入不平衡的現(xiàn)象,我們也應(yīng)當(dāng)針對(duì)各種問題認(rèn)真的進(jìn)行考慮,找出解決的辦法,加強(qiáng)對(duì)較發(fā)達(dá)地區(qū)和不發(fā)達(dá)的確的經(jīng)濟(jì)建設(shè),讓發(fā)達(dá)地區(qū)帶動(dòng)不發(fā)達(dá)地區(qū)的發(fā)展,讓我過各個(gè)地區(qū)的農(nóng)民人均差距逐漸縮小,可以有效的減弱城鄉(xiāng)二元結(jié)構(gòu),縮小城鄉(xiāng)差距,為努力建設(shè)城鄉(xiāng)一體化體制建設(shè)做出理論貢獻(xiàn),最終達(dá)到共同富裕。1.2國(guó)內(nèi)外研究狀況目前理論界廣泛采用的衡量收入差距的評(píng)價(jià)主要有基尼系數(shù)、泰爾指數(shù)、人口收入份額度量指標(biāo)三大類?;嵯禂?shù),是20世紀(jì)初意大利經(jīng)濟(jì)學(xué)家基尼,根據(jù)勞倫茨曲線所定義的判斷收入分配公平程度的指標(biāo),是比例數(shù)值,在0和1之間,是國(guó)際上用來綜合考察居民內(nèi)部收入分配差異狀況的一個(gè)重要分析指標(biāo)。夏華在“泰爾指數(shù)及我國(guó)行業(yè)收入差距中的應(yīng)用中”指出:泰爾指數(shù)是測(cè)量收入差距的一種指標(biāo),最大的優(yōu)點(diǎn)是可以做群體分割分析,可將收入依據(jù)*種特性分成若干單位,從而得出造成收入差距大小的事哪一個(gè)單位。系統(tǒng)聚類分析法在各個(gè)行業(yè)有很大的用途。趙珊珊在《基于SPSS中系統(tǒng)聚類的CPI分析》中主要研究八大類商品的價(jià)格,以2013年1月全國(guó)31個(gè)省市自治區(qū)居民消費(fèi)價(jià)格指數(shù)為研究對(duì)象,通過用SPSS軟件進(jìn)行實(shí)例操作,其使用的簡(jiǎn)便性和信息反饋的迅捷度名副其實(shí),從分析結(jié)果中得到了每種聚類過程的狀態(tài)凝聚表、形象的冰柱圖和樹形圖,以及得到不同聚類方法的不同結(jié)果的比照情況。在數(shù)據(jù)挖掘中有很好的應(yīng)用,在數(shù)據(jù)挖掘中,系統(tǒng)聚類分析法的主要應(yīng)用有:一是做為其他算法的預(yù)處理步驟,如可作為特征和分類算法的預(yù)處理步驟,也可將聚類結(jié)果進(jìn)一步關(guān)聯(lián)分析。二是作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況集中對(duì)特定簇做進(jìn)一步分析。如可用在市場(chǎng)細(xì)分、目標(biāo)顧客定位、業(yè)績(jī)?cè)u(píng)估等方面。三是完成孤立點(diǎn)挖掘。系統(tǒng)聚類法分析在客戶細(xì)分中的應(yīng)用:消費(fèi)同一種類的商品或服務(wù)時(shí),不同的客戶有不同的消費(fèi)特點(diǎn),通過研究這些特點(diǎn),企業(yè)可以制定出不同的營(yíng)銷組合,從而獲取最大的消費(fèi)者剩余,這就是客戶細(xì)分的主要目的。常用的客戶分類方法主要有三類:經(jīng)驗(yàn)描述法,由決策者根據(jù)經(jīng)驗(yàn)對(duì)客戶進(jìn)行類別劃分;傳統(tǒng)統(tǒng)計(jì)法,根據(jù)客戶屬性特征的簡(jiǎn)單統(tǒng)計(jì)來劃分客戶類別;非傳統(tǒng)統(tǒng)計(jì)方法,即基于人工智能技術(shù)的非數(shù)值方法。聚類分析法兼有后兩類方法的特點(diǎn),能夠有效完成客戶細(xì)分的過程。聚類分析在證券投資方面的研究有很大的發(fā)掘空間。筆者將聚類分析方法引入到證券投資分析中,對(duì)股票的行業(yè)因素、公司因素、收益性、成長(zhǎng)性等基本層面進(jìn)行考察,建立了較為全面的綜合評(píng)價(jià)指標(biāo)體系,衡量樣本股票的相似程度。然后通過聚類分析模型來確定投資*圍和投資價(jià)值。結(jié)果表明該方法能幫助投資者準(zhǔn)確地了解和把握股票的總體特性,預(yù)測(cè)股票的發(fā)展?jié)摿?并通過類的總體價(jià)格水平來預(yù)測(cè)股票價(jià)格的變動(dòng)趨勢(shì),選擇有利的投資時(shí)機(jī)。模糊聚類在國(guó)內(nèi)和國(guó)外應(yīng)用也相當(dāng)廣泛。**交通大學(xué)姚曉紅姚曉紅在《模糊聚類方法在**農(nóng)業(yè)經(jīng)濟(jì)類型劃分中的應(yīng)用》中,采用主成分分析的方法來確定權(quán)值,將模糊C均值聚類算法目標(biāo)函數(shù)中的歐氏距離用加權(quán)歐氏距離來定義,從而可以體現(xiàn)各指標(biāo)在**省農(nóng)業(yè)經(jīng)濟(jì)發(fā)展中的影響比例,使模糊聚類結(jié)果更符合**省農(nóng)業(yè)經(jīng)濟(jì)的實(shí)際情況.**大學(xué)*小峰在《基于模糊聚類算法的醫(yī)學(xué)圖像分割技術(shù)研究》中,提出了基于分層技術(shù)的圖像分割技術(shù),提高分割算法的運(yùn)行效率.研究了醫(yī)學(xué)圖像分割的實(shí)時(shí)分割技術(shù)。針對(duì)FCM算法效率低下以及相關(guān)改進(jìn)算法分割效果不理想的問題進(jìn)行了改進(jìn)。1.3數(shù)據(jù)來源2012年,農(nóng)村居民人均純收入達(dá)到7917元,比上年增加940元,名義增長(zhǎng)13.5%,實(shí)際增長(zhǎng)10.7%。農(nóng)村居民人均純收入實(shí)際增速比城鎮(zhèn)居民人均可支配收入高1.1個(gè)百分點(diǎn)。城鄉(xiāng)居民收入之比連續(xù)三年下降,由2009年的3.33∶1下降到3.10∶1。農(nóng)民的家庭經(jīng)營(yíng)收入份額占農(nóng)村居民人均純收入的比重降至44.6%,下降1.6個(gè)百分點(diǎn);工資性收入增至43.5%,提高1.1個(gè)百分點(diǎn)。2013年,農(nóng)戶的人均工資收入很可能首次超過家庭經(jīng)營(yíng)收入,而成為農(nóng)戶收入的主要來源。農(nóng)民收入增幅保持在7.5%以上,并有可能躍上9000元臺(tái)階。國(guó)家統(tǒng)計(jì)局局長(zhǎng)馬建堂20日在國(guó)新辦發(fā)布會(huì)上說,根據(jù)城鄉(xiāng)一體化住戶調(diào)查,2014年全國(guó)居民人均可支配收入20167元,比上年名義增長(zhǎng)10.1%,扣除價(jià)格因素實(shí)際增長(zhǎng)8.0%。按常住地分,城鎮(zhèn)居民人均可支配收入28844元,比上年增長(zhǎng)9.0%,扣除價(jià)格因素實(shí)際增長(zhǎng)6.8%;農(nóng)村居民人均可支配收入10489元,比上年增長(zhǎng)11.2%,扣除價(jià)格因素實(shí)際增長(zhǎng)9.2%。全國(guó)居民人均可支配收入中位數(shù)17570元,比上年名義增長(zhǎng)12.4%。2014年全國(guó)居民收入基尼系數(shù)為0.469。數(shù)據(jù)顯示,2014年城鄉(xiāng)居民收入差距進(jìn)一步縮小。全年農(nóng)村居民人均可支配收入實(shí)際增速快于城鎮(zhèn)居民人均可支配收入2.4個(gè)百分點(diǎn),城鄉(xiāng)居民人均可支配收入倍差2.75,比上年縮小0.06。2014年農(nóng)村居民人均純收入為9892元,扣除價(jià)格因素實(shí)際增長(zhǎng)9.2%。全年農(nóng)民工總量27395萬人,比上年增加501萬人,增長(zhǎng)1.9%,其中,本地農(nóng)民工10574萬人,增長(zhǎng)2.8%,外出農(nóng)民工16821萬人,增長(zhǎng)1.3%。農(nóng)民工月均收入水平2864元,比上年增長(zhǎng)9.8%。1.4本文的主要工作介紹聚類分析的起源與定義,聚類分析的發(fā)展過程,聚類分析的優(yōu)勢(shì),聚類分析的大致分析過程。本文主要應(yīng)用系統(tǒng)聚類方法和模糊聚類方法結(jié)合全國(guó)31個(gè)省市農(nóng)民平均收入的數(shù)據(jù)對(duì)全國(guó)31個(gè)省市進(jìn)行分類,分類完成之后將對(duì)比兩種方法的優(yōu)缺點(diǎn),并對(duì)全國(guó)各省市的農(nóng)民收入水平做全面的分析。認(rèn)真分析各省市的農(nóng)業(yè)的發(fā)展?fàn)顩r和限制因素,仔細(xì)研究是什么因素導(dǎo)致這些地區(qū)農(nóng)民經(jīng)濟(jì)發(fā)展的不平衡。最后總結(jié)個(gè)方面的分析,爭(zhēng)取找出關(guān)鍵因素來減緩這種發(fā)展不平衡。第二章學(xué)術(shù)回顧2.1聚類分析聚類分析概念聚類分析(ClusterAnalysis),又稱群分析,是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析法是根據(jù)研究對(duì)象特征對(duì)研究對(duì)象進(jìn)行分類的一種多元統(tǒng)計(jì)分析技術(shù)方法,在區(qū)域分類中得到普遍運(yùn)用。聚類分析通過辨別事物在*些特性上的相似或相異處,按照這些特性將事物劃分成幾個(gè)類別,在同一類中的事物具有高度的同構(gòu)型,不同類間的事物具有高度的異質(zhì)性。用聚類分析法對(duì)**農(nóng)村居民收入?yún)^(qū)域劃分,可以將農(nóng)民收入水平及相關(guān)因素相近的區(qū)域劃分為一類,有利于更好的分析不同類型區(qū)域間差異和反映同種類型區(qū)域內(nèi)情況。聚類分析的內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。在本論文中主要介紹系統(tǒng)聚類法和-均值聚類法。2.2相似度的測(cè)量2.2.1.定義距離設(shè)有n個(gè)樣品,p個(gè)指標(biāo),每個(gè)樣品都有這p個(gè)指標(biāo)的觀察值,設(shè)第i個(gè)樣品的第j個(gè)指標(biāo)的觀察值為,把n個(gè)樣品看成是P維空間的n個(gè)點(diǎn),則兩個(gè)樣品間親疏程度可用P維空間的兩點(diǎn)距離來度量。令QUOTE表示樣品QUOTE與的距離。即,表示第i個(gè)樣品與第j個(gè)樣品之間的距離。一般滿足一下四個(gè)條件時(shí),就稱為距離:,對(duì)一切i,j;,等價(jià)于i,j;,對(duì)一切i,j;,對(duì)一切i,j,k;2.2.2.常用距離(1)明氏距離Minkowski距離:;當(dāng)q=1時(shí),,稱為絕對(duì)距離,稱為絕對(duì)距離(Block);當(dāng)q=2時(shí),,稱為歐氏距離(Eudidem);當(dāng)q=時(shí),,稱為切比雪夫距離。(2)馬氏距離設(shè)與是來自均值向量為,協(xié)方差為的總體G中的p維樣品則兩個(gè)樣品見的馬氏距離為馬氏距離又稱為廣義歐幾里得距離。顯然,馬氏距離與上述各種距離的主要不同時(shí)它考慮了觀測(cè)變量之間的關(guān)聯(lián)性。如果各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為加權(quán)數(shù)的加權(quán)歐幾里得距離。馬氏距離還考慮了觀測(cè)變量之間的變異性,不再受各指標(biāo)量綱的影響。將原始數(shù)據(jù)做線性變換后,馬氏距離不變。距離選擇原則一般來說,同一批數(shù)據(jù)采用不同的距離公式,會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式的側(cè)重點(diǎn)和實(shí)際意義都有不同。因此,我們?cè)谶M(jìn)行聚類分析時(shí),應(yīng)該注意距離公式的選擇。通常選擇距離公式應(yīng)注意遵守以下的基本原則:1)要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐幾里得距離就有非常明確的空間距離概念,馬氏距離有消除量綱影響的作用。2)要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對(duì)變量作了標(biāo)準(zhǔn)化處理,通常就可采用歐幾里得距離。3)要考慮研究對(duì)象的特點(diǎn)及計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)不同作出具體分析。實(shí)際中,聚類分析前不妨試探性的多選擇幾個(gè)距離公式分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定最適合的距離測(cè)度方法。變量相似性的度量多元數(shù)據(jù)中的變量表現(xiàn)形式為向量形式,在幾何上可用多維空間中的一個(gè)有向線段表示。在對(duì)多元數(shù)據(jù)進(jìn)行分析時(shí),相對(duì)于數(shù)據(jù)的大小,我們更多地對(duì)變量的變化趨勢(shì)或者方向感興趣。因此,變量間的相似性,我們可以從他們的方向趨同性或“相關(guān)性”進(jìn)行考察,從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。(1)夾角余弦兩變量與看成是p維空間的兩個(gè)向量,這兩個(gè)向量間的夾角余弦可用下式進(jìn)行計(jì)算顯然。(2)相關(guān)系數(shù)相關(guān)系數(shù)經(jīng)常用來度量變量間的相似性。變量QUOTE與的相關(guān)系數(shù)定義為顯然也有。無論是夾角余弦還是相關(guān)系數(shù),他們的絕對(duì)值都小于1,作為變量近相似新的度量工具,我們把它統(tǒng)計(jì)為,當(dāng)時(shí),說明變量與完全相似;當(dāng)趨近于1的時(shí),說明與非常密切;當(dāng)時(shí),說明與完全不一樣;當(dāng)趨近于0的時(shí),說明與差別很大;據(jù)此,我們把比較相似的變量聚為一類,把不太相似的變量歸到不同的類內(nèi)。在實(shí)際聚類過程中,為了計(jì)算方便,我們把變量間相似性的度量公式作一個(gè)變換為或者用表示變量見的遠(yuǎn)近距離,小則與先聚成一類,這比較符合人們的一般思維習(xí)慣。2.3系統(tǒng)聚類法系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設(shè)總共有n個(gè)樣品(或變量),第一步將每個(gè)樣品(或變量)獨(dú)自聚成一類,共有n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個(gè)樣品(或變量)聚合成一類,其他的樣品(或變量)仍各自聚為一類,共聚成n-1類;第三步將“距離”最近的兩個(gè)類進(jìn)一步聚成一類,共聚成n-2類;……以上步驟一直進(jìn)行下去,最后將所有的樣品(或變量)聚成一類。為了直觀地反映以上的系統(tǒng)聚類過程,可以把整個(gè)分類系統(tǒng)地畫成一*譜系圖。所以有時(shí)系統(tǒng)聚類也稱為譜系分析。在進(jìn)行系統(tǒng)聚類之前,我們首先要定義類與類之間的距離,由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。常用的類間距離定義有8種之多,與之相應(yīng)的系統(tǒng)聚類法也有8種,分別為最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。他們的歸類步驟基本上是一致的,主要差異是類間距離的計(jì)算方法不同。用表示樣品與之間的距離,表示類與之間的距離。(1)最短距離法——NearestNeighbor定義類與之間的距離為兩類最近樣品的距離,即為設(shè)類與合并成一個(gè)新類記為,則任一類與之間的距離為最短距離法進(jìn)行聚類分析的步驟如下:定義樣品之間的距離,計(jì)算樣品的兩兩距離,得一距離陣記為,開始每個(gè)樣品自成一類,顯然這時(shí)=。找出距離最小元素記為,則將與合并成一個(gè)新類,記為,即=。按照上式計(jì)算新類與其他類之間的距離。重復(fù)(2)、(3)兩步,知道所有元素并成一類為止。如果*一步距離最小的元素不止一個(gè),則對(duì)應(yīng)這些最小元素的類可以同時(shí)合并。(2)最長(zhǎng)距離法——FurthestNeighbor定義類與之間的距離為兩類最遠(yuǎn)樣品的距離,即為。最長(zhǎng)距離法與最短距離法的并類步驟完全一樣,也是將個(gè)各樣品先自成一類,然后將距離最小的兩類合并。類與合并成一個(gè)新類記為,則任一類與之間的距離為再找距離最小兩類并類,直至所有的樣品全歸為一類為止??梢钥闯?,最長(zhǎng)距離法與最短距離法只有兩點(diǎn)不同:一是類之間的距離定義不同;另一是計(jì)算新類與其他類的距離所用的公式不同。(3)中間距離法最短、最長(zhǎng)距離定義表示都是極端情況,我們定義類間距離可以既不采用兩類之間最近的距離也不采用兩類之間最遠(yuǎn)的距離,而是采用介于兩者之間的距離,稱為中間距離法。中間距離將類與合并成一個(gè)新類記為,則任一類與之間的距離為,設(shè),如果采用最短距離法,則,如果采用最長(zhǎng)距離法,則。(4)重心法重心法定義類間距離為兩類重心(各類樣品的均值)的距離。中心指標(biāo)對(duì)類有很好的代表性,但利用各樣本的信息不充分。設(shè)QUOTE與分別有樣品和個(gè),其重心分別為和,則與之間的距離定義為與之間的距離,這里我們用歐幾里得距離來表示,即設(shè)將QUOTE與合并為,則內(nèi)樣品個(gè)數(shù)為,它的重心是,類的重心是,則依據(jù)上式它與新類的距離是(5)類平均法類平均法定義類間距離平方為這兩類元素兩兩之間距離平方的平均數(shù),即為(6)可變類平均法由于類平均法沒有反映出和之間的距離的影響,因此將類平均法進(jìn)一步推廣,如果將和合并為類與新并類的距離公式為(7)離差平方和法該方法是Ward提出來的,所以又稱為Ward法。該方法的基本思想來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)該較小,類與類的離差平方和較大。具體做法是先將n個(gè)樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。設(shè)將n個(gè)樣品分為k類…,用表示中的第i個(gè)樣本,表示中樣本的個(gè)數(shù),是的重心,則的樣品離差平方和為如果與合并成新的類,類內(nèi)離差平方和分別為它反應(yīng)了各類內(nèi)樣品的分散程度,如果與兩個(gè)類相距比較近,則合并后所增加的離差平方和應(yīng)較小,否則,應(yīng)較大。于是定義與之間的平方距離為其中,可以證明類間的距離公式為系統(tǒng)聚類法步驟:根據(jù)實(shí)際情況,確定類和類的個(gè)數(shù)根據(jù)實(shí)際情況,確定類和類的個(gè)數(shù)可選擇適當(dāng)?shù)木嚯x,計(jì)算距離把每個(gè)樣品看成一類,制造n個(gè)類計(jì)算新類與當(dāng)前各類距離畫聚類圖合并最近的兩類為一新類判斷不是僅有一個(gè)類僅有一個(gè)類2.4模糊聚類分析法模糊聚類分析法的一般步驟1、第一步:數(shù)據(jù)標(biāo)準(zhǔn)化(1)數(shù)據(jù)矩陣設(shè)論域?yàn)楸环诸悓?duì)象,每個(gè)對(duì)象又有個(gè)指標(biāo)表示其性狀,即,于是,得到原始數(shù)據(jù)矩陣為。其中表示第個(gè)分類對(duì)象的第個(gè)指標(biāo)的原始數(shù)據(jù)。(2)數(shù)據(jù)標(biāo)準(zhǔn)化在實(shí)際問題中,不同的數(shù)據(jù)一般有不同的量綱,為了使不同的量綱也能進(jìn)行比較,通常需要對(duì)數(shù)據(jù)做適當(dāng)?shù)淖儞Q。但是,即使這樣,得到的數(shù)據(jù)也不一定在區(qū)間上。因此,這里說的數(shù)據(jù)標(biāo)準(zhǔn)化,就是要根據(jù)模糊矩陣的要求,將數(shù)據(jù)壓縮到區(qū)間上。通常有以下幾種變換:①平移·標(biāo)準(zhǔn)差變換其中,。經(jīng)過變換后,每個(gè)變量的均值為0,標(biāo)準(zhǔn)差為1,且消除了量綱的影響。但是,再用得到的還不一定在區(qū)間上。②平移·極差變換,顯然有,而且也消除了量綱的影響。③對(duì)數(shù)變換取對(duì)數(shù)以縮小變量間的數(shù)量級(jí)。2、第二步:標(biāo)定(建立模糊相似矩陣)設(shè)論域,,依照傳統(tǒng)聚類方法確定相似系數(shù),建立模糊相似矩陣,與的相似程度。確定的方法主要借用傳統(tǒng)聚類的相似系數(shù)法、距離法以及其他方法。具體用什么方法,可根據(jù)問題的性質(zhì),選取下列公式之一計(jì)算。(1)相似系數(shù)法①夾角余弦法。②最大最小法。③算術(shù)平均最小法。④幾何平均最小法。以上3種方法中要求,否則也要做適當(dāng)變換。⑤數(shù)量積法,其中。⑥相關(guān)系數(shù)法,其中,。⑦指數(shù)相似系數(shù)法,其中,而。(2)距離法①直接距離法,其中為適當(dāng)選取的參數(shù),使得,表示他們之間的距離。經(jīng)常用的距離有●海明距離?!駳W幾里得距離。●切比雪夫距離。②倒數(shù)距離法。其中為適當(dāng)選取的參數(shù),使得。③指數(shù)距離法。3、第三步:聚類(求動(dòng)態(tài)聚類圖)(1)基于模糊等價(jià)矩陣聚類方法①傳遞閉包法根據(jù)標(biāo)定所得的模糊矩陣還要將其改造稱模糊等價(jià)矩陣。用二次方法求的傳遞閉包,即=。再讓由大變小,就可形成動(dòng)態(tài)聚類圖。②布爾矩陣法[10]布爾矩陣法的理論依據(jù)是下面的定理:定理設(shè)是上的一個(gè)相似的布爾矩陣,則具有傳遞性(當(dāng)是等價(jià)布爾矩陣時(shí))矩陣在任一排列下的矩陣都沒有形如的特殊子矩陣。布爾矩陣法的具體步驟如下:①求模糊相似矩陣的截矩陣.②若按定理判定為等價(jià)的,則由可得在水平上的分類,若判定為不等價(jià),則在*一排列下有上述形式的特殊子矩陣,此時(shí)只要將其中特殊子矩陣的0一律改成1直到不再產(chǎn)生上述形式的子矩陣即可。如此得到的為等價(jià)矩陣。因此,由可得水平上的分類(2)直接聚類法所謂直接聚類法,是指在建立模糊相似矩陣之后,不去求傳遞閉包,也不用布爾矩陣法,而是直接從模糊相似矩陣出發(fā)求得聚類圖。其步驟如下:①?。ㄗ畲笾担瑢?duì)每個(gè)作相似類,且=,即將滿足的與放在一類,構(gòu)成相似類。相似類與等價(jià)類的不同之處是,不同的相似類可能有公共元素,即可出現(xiàn),,.此時(shí)只要將有公共元素的相似類合并,即可得水平上的等價(jià)分類。②取為次大值,從中直接找出相似度為的元素對(duì)(即),將對(duì)應(yīng)于的等價(jià)分類中所在的類與所在的類合并,將所有的這些情況合并后,即得到對(duì)應(yīng)于的等價(jià)分類。③取為第三大值,從中直接找出相似度為的元素對(duì)(即),將對(duì)應(yīng)于的等價(jià)分類中所在的類與所在的類合并,將所有的這些情況合并后,即得到對(duì)應(yīng)于的等價(jià)分類。④以此類推,直到合并到成為一類為止。、最佳閾值的確定在模糊聚類分析中對(duì)于各個(gè)不同的,可得到不同的分類,許多實(shí)際問題需要選擇*個(gè)閾值,確定樣本的一個(gè)具體分類,這就提出了如何確定閾值的問題。一般有以下兩個(gè)方法:=1\*GB3①按實(shí)際需要,在動(dòng)態(tài)聚類圖中,調(diào)整的值以得到適當(dāng)?shù)姆诸?,而不需要事先?zhǔn)確地估計(jì)好樣本應(yīng)分成幾類。當(dāng)然,也可由具有豐富經(jīng)驗(yàn)的專家結(jié)合專業(yè)知識(shí)確定閾值,從而得出在水平上的等價(jià)分類=2\*GB3②用F統(tǒng)計(jì)量確定最佳值。設(shè)論域?yàn)闃颖究臻g(樣本總數(shù)為),而每個(gè)樣本有個(gè)特征:,。于是得到原始數(shù)據(jù)矩陣,如下表所示,其中,稱為總體樣本的中心向量。樣本指標(biāo)12km設(shè)對(duì)應(yīng)于值的分類數(shù)為,第類的樣本數(shù)為,第類的樣本記為:,第類的聚類中心為向量,其中為第個(gè)特征的平均值,即,,作統(tǒng)計(jì)量,其中為與間的距離,為第類中第個(gè)樣本與其中心間的距離。稱為統(tǒng)計(jì)量,它是遵從自由度為,的分布。它的分子表征類與類之間的距離,分母表征類內(nèi)樣本間的距離。因此,值越大,說明類與類之間的距離越大;類與類間的差異越大,分類就越好。第三章農(nóng)民平均收入的聚類算法分析3.1行業(yè)數(shù)據(jù)統(tǒng)計(jì)本文的研究對(duì)象是2006~20113年全國(guó)各省農(nóng)民平均收入水平的數(shù)據(jù)統(tǒng)計(jì)。我們大家都知道,我國(guó)是農(nóng)業(yè)大國(guó),農(nóng)民的收入水平是我國(guó)經(jīng)濟(jì)發(fā)展的關(guān)鍵。抓好農(nóng)民的發(fā)展,國(guó)家才能平穩(wěn)的發(fā)展。本文的研究對(duì)象是中國(guó)31個(gè)省份的農(nóng)民平均收入統(tǒng)計(jì)數(shù)據(jù)的聚類分析。本文是針對(duì)31個(gè)省份的平均收入水平,對(duì)31個(gè)省份進(jìn)行分類,建立聚類分析模型。以下表格是全國(guó)31個(gè)省市在2006至2013年的農(nóng)民水平收入水平:地區(qū)20062007200820092010201120122013全國(guó)總計(jì)35874140476151535919697779178896北京82759440106621166913262147361647618337天津622870107911868810075123211402615841河北38024293479551505958712080819102山西31813666409742444736560163577154內(nèi)蒙古33423953465649385530664276118596遼寧409047735576595869088297938410523吉林36414191493352666237751085989621黑龍江35524132485652076211759186049634上海913910145114401248313978160541780419595江蘇58136561735680049118108051220213598浙江7335826592581000711303130711455216106安徽29693556420245045285623271608098福建483554676196668074278779996711184江西34604045469750755789689278298781山東436849855641611969908342944610620河南32613852445448075524660475258475湖北34193997465650355832689878528867湖南33903904451249095622656774408372廣東5080562464006907789093721054311669廣西27703224369039804543523160086791海南32563791439047445275644674088343重慶28743509412644785277648073838332四川30023547412144625087612970017895貴州19852374279730053472414547535434云南22502634310333693952472254176141西藏24352788317635324139490457196578陜西22602645313634384105502857636503甘肅21342329272429803425390945075108青海23582684306133463863460853646196寧夏27603181368140484675541061806931新疆27373183350338834643544263947296本文主要運(yùn)用的是系統(tǒng)聚類法,該方法的思想是先將31個(gè)省份劃分為31類,選擇距離公式,計(jì)算各個(gè)類之間的距離,將最近的類聚合為一類,重新計(jì)算各類之間的距離,知道所有的省份劃分為一類。3.2系統(tǒng)聚類法在農(nóng)民平均收入水平的應(yīng)用從統(tǒng)計(jì)數(shù)據(jù)來看,可以看出歷年來我國(guó)農(nóng)民平均收入水平的發(fā)展?fàn)顩r。針對(duì)農(nóng)民平均收入水平進(jìn)行聚類分析。使用的軟件是SPSS軟件,首先錄入數(shù)據(jù):在SPSS軟件中有數(shù)據(jù)視圖和變量視圖。數(shù)據(jù)視圖是將實(shí)際數(shù)據(jù)錄入SPSS中后顯示的實(shí)際數(shù)據(jù),而變量數(shù)據(jù)是對(duì)數(shù)據(jù)對(duì)象的屬性變量的定義,包括名稱、類型、寬帶、小數(shù)、數(shù)值等相關(guān)信息。在統(tǒng)計(jì)數(shù)據(jù)中有9個(gè)變量,分別對(duì)應(yīng)各個(gè)省份每年的平均收入水平。系統(tǒng)聚類法分析步驟本小節(jié)中,根據(jù)農(nóng)民平均收入水平數(shù)據(jù),使用SPSS軟件中的系統(tǒng)聚類分析,將數(shù)據(jù)錄入SPSS中,進(jìn)行聚類分析,本文采用系統(tǒng)聚類法中的Ward法,度量標(biāo)準(zhǔn)區(qū)間選擇平方Euclidean距離:通過系統(tǒng)聚類法分類之后,我們得到了Ward聯(lián)結(jié)表、群集數(shù)和樹狀圖,如圖所示:系統(tǒng)聚類法分析結(jié)果通過樹狀圖可以得到,可以分為5大類:第一類:**、**、**、**、**、**、**、**、**、**、**、**;這些省份經(jīng)濟(jì)相對(duì)來說比較不發(fā)達(dá),科技也同其他省份來說也有一定的差距,其收入水平相差不大,因此歸為一類。第二類:**、**、**、**;這些地區(qū)科技較先進(jìn),土壤相對(duì)來說也比較肥沃,相對(duì)經(jīng)濟(jì)水平趨于較高的相近水平,因此劃分為一類。第三類:**、**、**、**、**、**、**、**、**、**;這些地區(qū)由于地理因素問題,大部分在西部或者邊疆地區(qū),經(jīng)濟(jì)水平發(fā)展相對(duì)落后,生產(chǎn)設(shè)備也相對(duì)缺乏,因此劃分為一類。第四類:、**;這兩個(gè)地區(qū)經(jīng)濟(jì)水平比較發(fā)達(dá),科技也非常發(fā)達(dá),生產(chǎn)設(shè)備充足,人們勞動(dòng)能力和意識(shí)也相對(duì)較強(qiáng),因此劃分為一類。第五大類:**、**、**;這些地區(qū)相對(duì)于第四類經(jīng)濟(jì)水平來說稍微遜色一點(diǎn),但也有相當(dāng)高的經(jīng)濟(jì)水平,科技、文化素質(zhì)都相對(duì)較高,高于前三類水平,因此劃分為一類。3.3模糊聚類法在農(nóng)民平均收入水平的應(yīng)用模糊聚類法主要是應(yīng)用matlab軟件計(jì)算出等價(jià)矩陣,然后選擇合適的值對(duì)等價(jià)矩陣進(jìn)行切割,得到相應(yīng)的分類結(jié)果。模糊聚類發(fā)的分析步驟第一步,模糊聚類主要應(yīng)用matlab軟件,首先構(gòu)建數(shù)據(jù)矩陣(見附錄1),表示各省農(nóng)民平均收入水平指標(biāo)。第二步,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)矩陣(見附錄2),進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化時(shí)使用的是平移極差變換,進(jìn)行標(biāo)準(zhǔn)化的算法如下:[n,m]=size(*);forj=1:ma(j)=sum(*(:,j))/n;ends=zeros(1,m);forj=1:mfori=1:ns(j)=s(j)+(*(i,j)-a(j))^2;endsigma(j)=(s(j)/(n-1)).^0.5;endfori=1:nforj=1:m*(i,j)=(*(i,j)-a(j))/sigma(j);endend[n,m]=size(*);min*=min(*);%每列最小值ma**=ma*(*);%每列最大值fori=1:nforj=1:m%進(jìn)行極差標(biāo)準(zhǔn)化Z(i,j)=(*(i,j)-min*(j))./(ma**(j)-min*(j));endend第三步,對(duì)得到的標(biāo)準(zhǔn)矩陣建立模糊相似矩陣(見附錄3),進(jìn)行模糊相似矩陣時(shí)使用的是最大最小法,其算法如下:[n,m]=size(Z);%求出行屬和列數(shù)I=ones(n,n);fori=1:nforj=1:na=0;fork=1:m%運(yùn)用絕對(duì)值指數(shù)法轉(zhuǎn)化為相似矩陣Y(i,j)=abs(Z(i,k)-Z(j,k))+a;a=Y(i,j);endendendR=(e*p(-0.01*Y)*100)/100;第四步,應(yīng)用傳遞閉包法得到等價(jià)矩陣(見附錄4),得到等價(jià)矩陣的算法如下:n,m]=size(R);flag=0;C=R;whileflag==0%求矩陣的傳遞閉包fori=1:nforj=1:nb=0;fork=1:nB(i,j)=ma*(min(C(i,k),C(k,j)),b);b=B(i,j);endendendifB==Cflag=1;elseC=B;endend第五步,進(jìn)行聚類,使用的是布爾矩陣法。選擇適當(dāng)?shù)闹担瑢?duì)整體進(jìn)行分類。當(dāng)?shù)葍r(jià)矩陣元素大于等于值時(shí)值變?yōu)?,否則變?yōu)?,這樣得到布爾矩陣,選擇其行元素都相等的聚為一類,這樣得到其相應(yīng)的分類情況。模糊聚類法分析結(jié)果選擇相應(yīng)的值對(duì)等價(jià)矩陣進(jìn)行切割,得到相應(yīng)的分類結(jié)果如下:1.當(dāng)=0.99758時(shí),總共可以分成9類:第一類:第二類:**第三類:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四類:**、**;第五類:**;第六類:**;第七類:**;第八類:**、**、**、**;第九類:**,**;第十類:**;2.當(dāng)=0.99468時(shí),總共可以分為8類:第一類:;第二類:**;第三類:**、**、內(nèi)蒙、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四類:**;第五類:**;第六類:**;第七類:**;第八類:**、**、**;3.當(dāng)=0.99244,總共可以分為6類:第一類:;第二類:**;第三類:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四類:**;第五類:**;第六類:**;4.當(dāng)=0.99065時(shí),總共可以分為5類:第一類:;第二類:**;第三類:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四類:**;第五類:**、**;5.當(dāng)=0.98769時(shí),總共可以分為2類:第一類:,**;第二類:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;結(jié)論本文首先利用系統(tǒng)聚類法對(duì)全國(guó)各省份農(nóng)民平均收入水平進(jìn)行聚類分析,利用系統(tǒng)聚類法中的ward聚類法,采用歐式平方距離,得到聚類表、樹狀圖。通過分析樹狀圖可以得出分類結(jié)果如下:**、**、**、**、**、**、**、**、**、**為一類,這些地區(qū)屬于不發(fā)達(dá)地區(qū),由于地理因素決定,發(fā)展經(jīng)濟(jì)落后,屬于不發(fā)達(dá)地區(qū);**、**、**、**、**、**、**、**、**、**、**、**為一類,這些地區(qū)相對(duì)來說經(jīng)濟(jì)水平較落后,科技不怎么發(fā)達(dá),發(fā)展相對(duì)緩慢,屬于中等地區(qū);**、**、**、**為一類,這些省份是我國(guó)的經(jīng)濟(jì)大省,經(jīng)濟(jì)發(fā)展水平相當(dāng)快速,屬于中上等地區(qū);**、**、**為一類,這些地區(qū)經(jīng)濟(jì)水平相當(dāng)發(fā)達(dá),科技發(fā)展水平也在我國(guó)的前列,人民素質(zhì)水平也相當(dāng)高,屬于較發(fā)達(dá)地區(qū);、**兩地是我國(guó)最發(fā)達(dá)的地區(qū),無論經(jīng)濟(jì)、科技、文化都在我國(guó)的最前列,屬于發(fā)達(dá)地區(qū)。接著使用模糊聚類方法對(duì)全國(guó)農(nóng)民平均收入進(jìn)行聚類,聚類結(jié)果顯示,使用不同的值得到的聚類結(jié)果不同,可以選擇的值來控制分類的個(gè)數(shù)。本文采用=0.99758時(shí)可分為9類,當(dāng)=0.99468時(shí),總共可以分為8類,當(dāng)=0.99244,總共可以分為6類,當(dāng)=0.99065時(shí),總共可以分為5類,當(dāng)=0.98769時(shí),總共可以分為2類。使用迷糊聚類可以更明顯的看出、**農(nóng)民平均收入水平在全國(guó)中的優(yōu)勢(shì),更能體現(xiàn)出全國(guó)農(nóng)民平均收入的兩極分化。通過使用系統(tǒng)聚類法和模糊聚類法對(duì)全國(guó)農(nóng)民平均收入水平的聚類分析,可以得到兩種方法的優(yōu)勢(shì)和劣勢(shì)。使用系統(tǒng)聚類法可以簡(jiǎn)化一些運(yùn)算,應(yīng)用SPSS軟件可以很容易得到聚類分布表和樹狀圖,可以很詳細(xì)的得到每一步的聚類過程,使聚類過程更加直白,對(duì)于一些對(duì)問題不是很了解的一些人來說比較適用,但系統(tǒng)聚類法不能很容易的控制分類的個(gè)數(shù),而模糊聚類可以控制的值,來控制分類的個(gè)數(shù),使用起來更加靈活,對(duì)于一些資深比較高的專家來說,對(duì)問題比較理解,能夠找到適合的值進(jìn)行分類,但模糊聚類法使用matlab軟件,編寫算法進(jìn)行矩陣運(yùn)算,要得出等價(jià)矩陣,運(yùn)算量比較大,應(yīng)用起來比較繁瑣。通過本文的具體分析,充分認(rèn)識(shí)到我國(guó)經(jīng)濟(jì)發(fā)展的不平衡,雖然部分省份所處的發(fā)展條件相似,但由于各省的地理?xiàng)l件、經(jīng)濟(jì)發(fā)展政策的影響,出現(xiàn)農(nóng)村收入水平兩極分化嚴(yán)重的現(xiàn)象,還受到當(dāng)?shù)剞r(nóng)村經(jīng)濟(jì)發(fā)展政策的影響。隨著經(jīng)濟(jì)、科技的不斷發(fā)展,收入水平的差距將會(huì)逐步擴(kuò)大,將會(huì)嚴(yán)重阻礙經(jīng)濟(jì)發(fā)展和影響社會(huì)穩(wěn)定,。因此如何防止這種差距的進(jìn)一步擴(kuò)大將是我們?nèi)缃裱芯康囊粋€(gè)重要課題。致謝大學(xué)生活一晃而過,回首走過的歲月,心中倍感充實(shí),當(dāng)我寫完這篇畢業(yè)論文的時(shí)候,有一種如釋重負(fù)的感覺,感慨良多。誠(chéng)摯的感謝我的論文指導(dǎo)老師*老師。他在忙碌的教學(xué)工作中擠出時(shí)間來審查、修改我的論文。還有教過我的所有老師們,你們嚴(yán)謹(jǐn)細(xì)致、一絲不茍的作風(fēng)一直是我工作、學(xué)習(xí)中的榜樣;他們循循善誘的教導(dǎo)和不拘一格的思路給予我無盡的啟迪。感謝四年中陪伴在我身邊的同學(xué)、朋友,感謝他們?yōu)槲姨岢龅挠幸娴慕ㄗh和意見,有了他們的支持、鼓勵(lì)和幫助,我才能充實(shí)的度過了四年的學(xué)習(xí)生活。從論文選題到搜集資料,從寫稿到反復(fù)修改,期間經(jīng)歷了喜悅、聒噪、痛苦和彷徨,在寫作論文的過程中心情是如此復(fù)雜。如今,伴隨著這篇畢業(yè)論文的最終成稿,復(fù)雜的心情煙消云散,自己甚至還有一點(diǎn)成就感。那種感覺就宛如在一場(chǎng)盛大的頒獎(jiǎng)晚會(huì)上,我在晚會(huì)現(xiàn)場(chǎng)看著其他人一個(gè)接著一個(gè)上臺(tái)領(lǐng)獎(jiǎng),自己卻始終未能被念到名字,經(jīng)過了很長(zhǎng)很長(zhǎng)的時(shí)間后,終于有位嘉賓高喊我的大名,這時(shí)我忘記了先前漫長(zhǎng)的無聊的等待時(shí)間,欣喜萬分地走向舞臺(tái),然后迫不及待地開始抒發(fā)自己的心情,發(fā)表自己的感想。這篇畢業(yè)論文的就是我的舞臺(tái),以下的言語便是有點(diǎn)成就感后在舞臺(tái)上發(fā)表的發(fā)自肺腑的誠(chéng)摯謝意與感想:我要感謝,非常感謝我的導(dǎo)師*華南老師。他為人隨和熱情,治學(xué)嚴(yán)謹(jǐn)細(xì)心。在閑聊中他總是能像知心朋友一樣鼓勵(lì)你,在論文的寫作和措辭等方面他也總會(huì)以“專業(yè)標(biāo)準(zhǔn)”嚴(yán)格要求你,從選題、定題開始,一直到最后論文的反復(fù)修改、潤(rùn)色,*老師始終認(rèn)真負(fù)責(zé)地給予我深刻而細(xì)致地指導(dǎo),幫助我開拓研究思路,精心點(diǎn)撥、熱忱鼓勵(lì)。正是*老師的無私幫助與熱忱鼓勵(lì),我的畢業(yè)論文才能夠得以順利完成,謝謝*老師。參考文獻(xiàn):1高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].:大學(xué),2005.2郝黎仁.SPSS實(shí)用統(tǒng)計(jì)分析[M].:中國(guó)水利水電,2002.3管琳,李春蘭,*博.基于主成分分析法的我國(guó)農(nóng)村居民消費(fèi)結(jié)構(gòu)的綜合評(píng)價(jià)[J],**農(nóng)業(yè)科學(xué),2011(14):23-264李雙杰,顧六寶.用聚類分析法評(píng)估區(qū)域經(jīng)濟(jì)[J].中國(guó)農(nóng)村觀察,2001(3),52-56.5盧文岱.SPSSforwindows統(tǒng)計(jì)分析[M].:電子工業(yè),2002.6何曉群.多元統(tǒng)計(jì)分析(第三版)[M].:中國(guó)人民大學(xué)2011:123-1497何曉群,*文卿.應(yīng)用回歸分析(第三版)[M].:中國(guó)人民大學(xué)2011:220-2268王雅鵬.有關(guān)農(nóng)民收入問題的理論淺析2011.059唐功爽.基于SPSS的主成分分析與因子分析的辨析[M].**:**大學(xué),2007:89-12110Landgrebe,J.Wurst,W.&Weizi,G.GenomeBiol.RESEARCH0019(2002)11*學(xué)工.模式識(shí)別[M]:清華大學(xué),2010,122-12812耿明齋.我國(guó)農(nóng)民收入水平變動(dòng)趨勢(shì)分析《經(jīng)濟(jì)學(xué)家》2002.513Li,C.M.&Klevecz,R.R.Proc.Natl.Acad.Sci..USA103,16254-16259(2006)14王國(guó)生.增加農(nóng)民收入問題討論綜述[J];經(jīng)濟(jì)理論與經(jīng)濟(jì)管理;2005.15*建杰.農(nóng)戶收入結(jié)構(gòu)變遷及其成因研究[D];**大學(xué);2005年16朱振亞.我國(guó)農(nóng)民保健因素和激勵(lì)因素的分析研究[D];**大學(xué);2007年17陳希孺.數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史[M];**:**教育,2002.18姚曉紅.模糊聚類分析方法在**農(nóng)業(yè)經(jīng)濟(jì)類型劃分中的應(yīng)用[J];**大學(xué),2014.19姚曉紅.基于模糊聚類算法的醫(yī)學(xué)圖像分割技術(shù)研究[J];**大學(xué),2014.20施建中.基于模糊類的非線性系統(tǒng)辨識(shí)研究[J];華北電力大學(xué),2012.21李偉地.基于GIS和模糊聚類分析法的農(nóng)用地定級(jí)研究[J];**大學(xué),2013.22楊發(fā)全.基于聚類與神經(jīng)網(wǎng)絡(luò)的無線通信聯(lián)合調(diào)制識(shí)別新方法[D],**大學(xué),2015.23趙珊珊.基于SPSS中系統(tǒng)聚類的CPI分析[D],**大學(xué),2015年附錄1:Z=0.87920.90980.91070.91430.93220.89150.90010.91320.59310.59890.59510.60070.63020.69260.71590.74090.25400.25130.23760.22830.24000.26440.26880.27570.16720.17110.15750.13300.12420.13930.13910.14120.18970.20780.22170.20600.19950.22500.23340.24080.29420.31270.32720.31340.33000.36130.36680.37380.23150.23820.25340.24060.26650.29650.30770.31150.21900.23070.24460.23430.26400.30320.30810.31241.00001.00001.00001.00001.00001.00001.00001.00000.53510.54150.53140.52870.53950.56780.57870.58600.74780.75950.74970.73950.74650.75440.75540.75920.13750.15700.16960.16040.17630.19130.19950.20640.39840.40150.39830.38940.37920.40100.41060.41940.20620.21950.22640.22050.22400.24560.24980.25350.33310.33980.33470.33030.33780.36500.37140.38050.17840.19490.19850.19230.19890.22190.22700.23240.20040.21340.22170.21620.22810.24610.25160.25950.19640.20150.20510.20300.20820.21890.22060.22530.43260.42160.42180.41320.42310.44980.45390.45290.10970.11450.11080.10520.10590.10890.11290.11620.17770.18710.19110.18560.17530.20890.21820.22330.12430.15100.16090.15760.17550.21170.21630.22250.14220.15580.16030.15600.15750.18280.18760.192400.00580.00840.00260.00450.01940.01850.02250.03700.03900.04350.04090.04990.06690.06840.07130.06290.05870.05190.05810.06770.08190.09110.10150.03840.04040.04730.04820.06440.09210.09450.09630.020800000000.05210.04540.03870.03850.04150.05760.06450.07510.10830.10900.10980.11240.11840.12360.12580.12580.10510.10930.08940.09500.11540.12620.14190.1510附錄2:R=1 0.97938 0.94904 0.94103 0.94623 0.95531 0.95023 0.94995 0.99254 0.97198 0.98769 0.94315 0.96028 0.94738 0.9564 0.94547 0.9473 0.9458 0.96289 0.93832 0.94475 0.94335 0.94255 0.93082 0.93394 0.93541 0.93492 0.93025 0.93391 0.93878 0.938780.97938 1 0.96902 0.96084 0.96615 0.97543 0.97024 0.96995 0.97207 0.99244 0.99159 0.96301 0.9805 0.96733 0.97653 0.96538 0.96725 0.96572 0.98316 0.95807 0.96464 0.96322 0.9624 0.95042 0.95361 0.9551 0.95461 0.94984 0.95357 0.95854 0.958540.94904 0.96902 1 0.99156 0.99704 0.99343 0.99803 0.99793 0.94195 0.9764 0.96087 0.9938 0.98829 0.99826 0.9923 0.99625 0.99817 0.99659 0.98562 0.9887 0.99548 0.99401 0.99317 0.9808 0.9841 0.98564 0.98513 0.98021 0.98406 0.98919 0.989190.94103 0.96084 0.99156 1 0.9945 0.98505 0.99032 0.99061 0.93401 0.96816 0.95276 0.99688 0.97995 0.99329 0.98393 0.9953 0.99338 0.99495 0.9773 0.99712 0.99606 0.99628 0.99758 0.98915 0.99247 0.99403 0.99351 0.98855 0.99244 0.99761 0.997360.94623 0.96615 0.99704 0.9945 1 0.99049 0.99579 0.99608 0.93917 0.97351 0.95803 0.99675 0.98537 0.99878 0.98937 0.9992 0.99887 0.99924 0.9827 0.99164 0.99843 0.99696 0.99611 0.98371 0.98702 0.98856 0.98805 0.98311 0.98698 0.99212 0.992130.95531 0.97543 0.99343 0.98505 0.99049 1 0.99468 0.99439 0.94818 0.98286 0.96722 0.98727 0.99483 0.9917 0.99887 0.9897 0.99161 0.99005 0.99214 0.98221 0.98894 0.98748 0.98664 0.97436 0.97763 0.97916 0.97865 0.97376 0.97759 0.98269 0.982690.95023 0.97024 0.99803 0.99032 0.99579 0.99468 1 0.99954 0.94314 0.97763 0.96208 0.99255 0.98954 0.997 0.99355 0.995 0.99692 0.99534 0.98686 0.98746 0.99423 0.99277 0.99192 0.97957 0.98286 0.9844 0.98389 0.97897 0.98282 0.98795 0.987950.94995 0.96995 0.99793 0.99061 0.99608 0.99439 0.99954 1 0.94286 0.97734 0.96179 0.99284 0.98924 0.9973 0.99326 0.99529 0.99721 0.99564 0.98657 0.98775 0.99452 0.99306 0.99221 0.97986 0.98315 0.98469 0.98418 0.97926 0.98311 0.98824 0.988240.99254 0.97207 0.94195 0.93401 0.93917 0.94818 0.94314 0.94286 1 0.96472 0.98032 0.93611 0.95311 0.94031 0.94926 0.93842 0.94023 0.93875 0.9557 0.93131 0.9377 0.93632 0.93552 0.92387 0.92697 0.92843 0.92794 0.92331 0.92694 0.93177 0.931770.97198 0.99244 0.9764 0.96816 0.97351 0.98286 0.97763 0.97734 0.96472 1 0.9841 0.97034 0.98796 0.97469 0.98397 0.97273 0.97461 0.97307 0.99065 0.96537 0.97198 0.97055 0.96973 0.95765 0.96087 0.96238 0.96188 0.95707 0.96083 0.96584 0.965840.98769 0.99159 0.96087 0.95276 0.95803 0.96722 0.96208 0.96179 0.98032 0.9841 1 0.95491 0.97225 0.95919 0.96832 0.95726 0.95911 0.9576 0.97489 0.95001 0.95653 0.95512 0.9543 0.94242 0.94559 0.94707 0.94658 0.94185 0.94555 0.95048 0.950480.94315 0.96301 0.9938 0.99688 0.99675 0.98727 0.99255 0.99284 0.93611 0.97034 0.95491 1 0.98216 0.99553 0.98615 0.9
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年水利設(shè)施開發(fā)管理服務(wù)項(xiàng)目資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- 世衛(wèi)組織接觸者追蹤指南 2024.12
- Brand KPIs for health insurance:KKH Kaufm?nnische Krankenkasse in Germany-英文培訓(xùn)課件2025.4
- 基于影像組學(xué)和深度學(xué)習(xí)鑒別膠質(zhì)母細(xì)胞瘤與孤立性腦轉(zhuǎn)移瘤的研究
- 汽車傳感器與檢測(cè)技術(shù)電子教案:電控柴油發(fā)動(dòng)機(jī)冷卻液溫度傳感器
- 倉儲(chǔ)公司營(yíng)銷策劃方案
- 仙居橫溪非遺活動(dòng)方案
- 代辦祭祖活動(dòng)方案
- 代理職務(wù)活動(dòng)方案
- 代賬公司博覽會(huì)策劃方案
- 《橋梁安全檢測(cè)》課件
- 校園劇本殺創(chuàng)業(yè)計(jì)劃書
- 《燃?xì)獍踩[患排查導(dǎo)則-天然氣(試行)》知識(shí)培訓(xùn)
- 2025年中國(guó)國(guó)新基金管理有限公司招聘筆試參考題庫含答案解析
- 中藥調(diào)劑技術(shù)模塊二 中藥飲片調(diào)劑
- RoHS及REACH培訓(xùn)材料課件
- 新產(chǎn)品研發(fā)與實(shí)施進(jìn)度表
- 商務(wù)領(lǐng)域安全生產(chǎn)隱患排查培訓(xùn)
- 2024年江蘇省《輔警招聘考試必刷500題》考試題庫附答案(能力提升)
- 園林綠化養(yǎng)護(hù)精細(xì)化管理
- 建筑工程公司安全生產(chǎn)管理實(shí)施細(xì)則(2篇)
評(píng)論
0/150
提交評(píng)論