《溫度區(qū)劃分問題研究(論文)11000字》_第1頁
《溫度區(qū)劃分問題研究(論文)11000字》_第2頁
《溫度區(qū)劃分問題研究(論文)11000字》_第3頁
《溫度區(qū)劃分問題研究(論文)11000字》_第4頁
《溫度區(qū)劃分問題研究(論文)11000字》_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類分析方法在中國溫度區(qū)劃分中的應(yīng)用摘要:根據(jù)1961-2010年我國512個(gè)氣象臺(tái)站的日平均氣溫觀測(cè)資料,將日平均氣溫穩(wěn)定在10°C以內(nèi)的天數(shù)(10°C日)作為劃分溫度分布的指標(biāo)然后通過旋轉(zhuǎn)經(jīng)驗(yàn)正交函數(shù)(REOF)方法分析找出時(shí)間演化中類似變化的區(qū)域。在此基礎(chǔ)上,對(duì)全國氣溫變化區(qū)采用快速樣本聚類法(K-means法),層次聚類法(Ward法)和聚類統(tǒng)計(jì)學(xué)檢驗(yàn)法(CAST法)三種聚類分析方法。差異被客觀地分割。因此,國家溫度變化區(qū)域分為10個(gè)區(qū)域,9個(gè)區(qū)域和13個(gè)區(qū)域。不同地區(qū)之間的界限與中國的地形分布非常吻合。研究表明,K-means方法簡(jiǎn)單快速,結(jié)果將不斷修正至最佳;Ward方法聚類過程清晰明了,可以選擇需要分類的類別數(shù)量;CAST方法使樣本通過顯著性檢驗(yàn),不僅有助于氣候變化的客觀分工,而且在溫度帶客觀上也被認(rèn)為是氣候變化對(duì)分區(qū)結(jié)果的影響也是非常重要的。關(guān)鍵詞:聚類分析;溫度劃分;應(yīng)用1緒論1.1研究背景和意義隨著信息技術(shù)的發(fā)展,數(shù)據(jù)一直在生成。因此,所有的行業(yè)和行業(yè)都將積累大量的數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)可以用來提取人們感興趣的信息,隱含地,以前未知的,并且有決定。了解潛在價(jià)值。使用計(jì)算機(jī)程序從數(shù)據(jù)中學(xué)習(xí)以獲取隱含信息一直是人工智能(AI)研究的重要領(lǐng)域。它節(jié)省了人力資源,提高了知識(shí)獲取的效率。傳統(tǒng)的數(shù)據(jù)挖掘方法施加了諸如數(shù)據(jù)獨(dú)立和相同分布的約束,并且關(guān)注平面數(shù)據(jù)的處理。這些方法只適用于分析較簡(jiǎn)單的對(duì)象。但是,現(xiàn)實(shí)世界中的數(shù)據(jù)并不相同。數(shù)據(jù)由許多類型的實(shí)體組成。各實(shí)體的屬性不盡相同,實(shí)體通過多重關(guān)系要求彼此相關(guān),分配并不完全相同。為了處理這些復(fù)雜的數(shù)據(jù),有必要解決處理多個(gè)數(shù)據(jù)關(guān)系的問題。多關(guān)系數(shù)據(jù)挖掘已成為當(dāng)前受到廣泛關(guān)注的研究領(lǐng)域之一。在生物信息學(xué),系統(tǒng)生物學(xué),Web導(dǎo)航,社交網(wǎng)絡(luò),可能性模型的獲取和使用,地理信息系統(tǒng)以及Bairan語言理解等方面有很多領(lǐng)域。廣泛的應(yīng)用。本文重點(diǎn)研究多關(guān)系數(shù)據(jù)挖掘中的多關(guān)系聚類分析,并進(jìn)行了深入的研究和應(yīng)用工作。1.2數(shù)據(jù)挖掘隨著信息技術(shù)的發(fā)展,數(shù)據(jù)一直在生成。所以各行各業(yè)都會(huì)積累大量的數(shù)據(jù)。事實(shí)上,數(shù)據(jù)只是人們?cè)诳陀^世界中觀察到的原始材料。它本身沒有多大意義。它只是描述了發(fā)生的事情,并不構(gòu)成決策的可靠基礎(chǔ);它分析數(shù)據(jù)以找出它們之間的關(guān)系,并給出一些數(shù)據(jù)意義上的所謂信息的形成。雖然這些信息提供了一些在數(shù)據(jù)中有一定含義的東西,但它往往與人們需要完成的任務(wù)沒有直接關(guān)系,也不能作為決策的基礎(chǔ);在獲得信息之前,需要對(duì)信息進(jìn)行更深入的分析。更有用的信息是知識(shí)。因此,從數(shù)據(jù)到信息到知識(shí),這是一個(gè)需要分析和處理的過程。然而,數(shù)據(jù)量的爆炸性增長(zhǎng)使得當(dāng)前用戶難以依靠經(jīng)驗(yàn),大量計(jì)算和人類大腦命令手動(dòng)找到更全面的數(shù)據(jù)知識(shí)。許多知識(shí)仍然隱藏在數(shù)據(jù)中,無法發(fā)現(xiàn)。并利用,造成數(shù)據(jù)資源的浪費(fèi)。正如JohnNaisbett所說:“我們已經(jīng)被信息所淹沒,但我們正因缺乏知識(shí)而苦惱?!币虼耍惹行枰环N新技術(shù)和白色工具,使我們能夠使用智能技術(shù)幫助我們將這一龐大的數(shù)據(jù)資源轉(zhuǎn)化為有用的知識(shí)和信息資源。這種技術(shù)不僅要獲得數(shù)據(jù)的表面信息,還要能夠在充分理解數(shù)據(jù)的基礎(chǔ)上獲得數(shù)據(jù)屬性的內(nèi)部關(guān)系和隱含信息,即獲取重要知識(shí),調(diào)動(dòng)智能化將數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識(shí)提供了強(qiáng)大的工具。在1989年8月在美國底特律召開的第11屆人工智能國際會(huì)議研討會(huì)上,首次提出了知識(shí)發(fā)現(xiàn)數(shù)據(jù)庫(KDD)的概念。1995年,在美國計(jì)算機(jī)會(huì)議(ACM)上,提出了數(shù)據(jù)挖掘CDM概念-數(shù)據(jù)挖掘,即從大量原始數(shù)據(jù)中發(fā)現(xiàn)隱含的,未知的和潛在有用的知識(shí)的過程。為了解決這個(gè)問題,這兩個(gè)概念和相關(guān)技術(shù)得到了迅速發(fā)展和發(fā)展。數(shù)據(jù)挖掘涉及機(jī)器學(xué)習(xí),模式識(shí)別,統(tǒng)計(jì)學(xué),數(shù)據(jù)庫,人工智能,數(shù)學(xué)和可視化技術(shù)等多個(gè)學(xué)科,是一個(gè)由多學(xué)科相互融合形成的具有廣泛應(yīng)用前景的研究領(lǐng)域。在20世紀(jì)90年代,數(shù)據(jù)挖掘成為數(shù)據(jù)庫社區(qū)的熱門話題。在1991年,1993年和1994年,它繼續(xù)舉辦數(shù)據(jù)挖掘研討會(huì)。隨著參加人數(shù)的增加,自1995年以來每年舉行一次關(guān)于數(shù)據(jù)挖掘技術(shù)的國際會(huì)議。此外,從1997年初開始,數(shù)據(jù)挖掘還有一個(gè)白皮書“知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘”。oACM還成立了SIGKDD專業(yè)團(tuán)隊(duì)。盡管數(shù)據(jù)挖掘只有數(shù)年的歷史,但由于數(shù)據(jù)挖掘技術(shù)潛在的巨大應(yīng)用價(jià)值,已經(jīng)滲透到許多領(lǐng)域,許多成功的產(chǎn)品已經(jīng)開發(fā)出來,在業(yè)界得到了廣泛的關(guān)注。最具代表性的數(shù)據(jù)挖掘工具是:由美國堪薩斯大學(xué)開發(fā)的LERS系統(tǒng);Clementine,美國SPSS著名的數(shù)據(jù)挖掘工具箱;加拿大SimonFraser大學(xué)的DBMiner;IBM的QUEST系統(tǒng);SASSAS礦工SAS系統(tǒng)等獎(jiǎng))系統(tǒng)等。UFayyad等人提出了一個(gè)眾所周知的數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘從大數(shù)據(jù)集中提取人們的興趣(可能不完整,嘈雜,不確定,各種形式的存儲(chǔ))。隱含的,以前未知的知識(shí)對(duì)決策具有潛在的價(jià)值,所提取的知識(shí)以概念,規(guī)則,法律和模式的形式表達(dá)。對(duì)于數(shù)據(jù)挖掘與KDD之間的關(guān)系,有許多不同的觀點(diǎn):C1)KDD是數(shù)據(jù)挖掘的特例。這種觀點(diǎn)認(rèn)為,由于數(shù)據(jù)挖掘系統(tǒng)可以發(fā)現(xiàn)關(guān)系數(shù)據(jù)庫,交易數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,文本數(shù)據(jù)以及各種形式的數(shù)據(jù)組織(如Web)的知識(shí),因此數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)只是數(shù)據(jù)挖掘之一。方面。這是一個(gè)較早和更流行的觀點(diǎn),可以在許多文件中看到。這個(gè)描述強(qiáng)調(diào)了數(shù)據(jù)挖掘的多樣性。(2)數(shù)據(jù)挖掘是KDD過程的一個(gè)步驟。其核心思想是:KDD是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的全過程,數(shù)據(jù)挖掘是整個(gè)過程中的一個(gè)具體關(guān)鍵步驟。這種觀點(diǎn)認(rèn)為,盡管知識(shí)可以從數(shù)據(jù)倉庫,網(wǎng)站等開采,但這些數(shù)據(jù)都與數(shù)據(jù)庫技術(shù)有關(guān)。因此,KDD是一個(gè)更廣泛的類別,其中包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)挖掘,模式生成和評(píng)估等一系列步驟。考慮到數(shù)據(jù)挖掘是KDD的一個(gè)重要步驟,可以使我們更容易專注于研究并有效地解決問題。目前,在數(shù)據(jù)挖掘算法的研究中,人們基本屬于這一類。有人認(rèn)為KDD和數(shù)據(jù)挖掘是不同的名稱,其含義基本相同。實(shí)際上,這兩個(gè)術(shù)語在許多文獻(xiàn)和技術(shù)評(píng)論等許多場(chǎng)合都被不加區(qū)分地使用。本文不分青紅皂白地使用。1.3多關(guān)系數(shù)據(jù)挖掘的方法多關(guān)系數(shù)據(jù)挖掘方法可以分為兩類:一類是將多個(gè)關(guān)系數(shù)據(jù)轉(zhuǎn)換為單關(guān)系數(shù)據(jù),然后應(yīng)用傳統(tǒng)的數(shù)據(jù)挖掘方法。將多關(guān)系數(shù)據(jù)轉(zhuǎn)換為單關(guān)系(單表)數(shù)據(jù)有兩種方法:一種是建立全名關(guān)系,將所有數(shù)據(jù)添加到表中,然后形成單關(guān)系數(shù)據(jù);另一個(gè)是通過中心。在關(guān)系中創(chuàng)建新的屬性并形成一個(gè)表。這種方法的優(yōu)點(diǎn)是可以直接應(yīng)用現(xiàn)有的數(shù)據(jù)挖掘方法;然而,問題在于,在將多個(gè)關(guān)系轉(zhuǎn)換為單一關(guān)系期間,可能會(huì)出現(xiàn)諸如數(shù)據(jù)量增大,數(shù)據(jù)丟失和數(shù)據(jù)重復(fù)等問題。另一種是直接處理多個(gè)關(guān)系數(shù)據(jù)的方法。該方法由似然關(guān)系模型和學(xué)習(xí)算法組成。通過使用不同的概率表示和推理機(jī)制,例如貝葉斯網(wǎng)絡(luò),(隱藏)馬爾科夫模型,隨機(jī)文法,馬爾可夫網(wǎng)絡(luò)等,關(guān)系或一階,可能性關(guān)系模型是關(guān)系的似然表示。邏輯表達(dá)式的組合被獲得。學(xué)習(xí)是指根據(jù)數(shù)據(jù)調(diào)整可能性關(guān)系模型的過程,包括參數(shù)估計(jì)和結(jié)構(gòu)學(xué)習(xí)(或模型選擇)兩個(gè)任務(wù)。參數(shù)估計(jì)是在模型結(jié)構(gòu)已知或固定的前提下估計(jì)參數(shù),結(jié)構(gòu)學(xué)習(xí)意味著模型和參數(shù)是未知的,這兩者都需要學(xué)習(xí)?;诟怕时硎竞屯评頇C(jī)制之間的差異,我們進(jìn)一步將方法分為:(A)基于貝葉斯網(wǎng)絡(luò)的方法基于傳統(tǒng)貝葉斯網(wǎng)絡(luò)的擴(kuò)展多關(guān)系數(shù)據(jù)挖掘方法是一種非常重要的方法。研究人員從不同角度提出了許多方法,并采用不同的擴(kuò)展方法。根據(jù)不同的代表形式,我們可以將其分為兩類。一種方法由圖結(jié)構(gòu)表示,另一種由邏輯句子結(jié)構(gòu)表示。代表性的方法分別是可能性關(guān)系模型和貝葉斯邏輯程序模型。(B)基于馬爾可夫網(wǎng)絡(luò)的方法馬爾可夫網(wǎng)絡(luò)擴(kuò)展的多關(guān)系數(shù)據(jù)挖掘方法主要有兩種:Taska2002等人提出的Marsk網(wǎng)絡(luò)(RMN)之間的關(guān)系。和Richardson等人提出的馬爾可夫邏輯網(wǎng)絡(luò)(MLN)。路徑的存在可以比基于貝葉斯網(wǎng)絡(luò)的方法更靈活。這些模型基本上定義了一個(gè)馬爾科夫網(wǎng)絡(luò)模板,因此它們?yōu)樵摻M實(shí)例定義了一致的概率分布。(三)基于隨機(jī)語法的方法基于隨機(jī)文法的多關(guān)系數(shù)據(jù)挖掘方法是將隨機(jī)文法升級(jí)為一階邏輯的一種方法,主要包括隨機(jī)邏輯程序和統(tǒng)計(jì)建模程序設(shè)計(jì)。這種類型的方法通過向邏輯組件添加概率來處理概率。關(guān)系和不確定性:這種類型的方法使用邏輯程序來描述模型結(jié)構(gòu),因此具有很強(qiáng)的表達(dá)能力。2相關(guān)理論和方法2.1聚類分析技術(shù)到目前為止,聚類分析還沒有被學(xué)術(shù)界定義。以下是1974年Everitt聚類分析的定義:聚類中的實(shí)體類似,不同聚類中的實(shí)體不相似,聚類是測(cè)試空間中點(diǎn)的聚合。聚類中任意兩點(diǎn)之間的距離小于不同聚類中任意兩點(diǎn)之間的距離;簇可以被描述為包含相對(duì)高密度的點(diǎn)集的多維空間中的連通區(qū),其通過包含密度彼此相關(guān)。低點(diǎn)集合的區(qū)域與其他區(qū)域(集群)分開。通過聚類,人們可以識(shí)別數(shù)據(jù)對(duì)象的密集和稀疏區(qū)域,從而發(fā)現(xiàn)全局對(duì)象分布模式和數(shù)據(jù)屬性之間的相互關(guān)系。事實(shí)上,聚類是一個(gè)無監(jiān)督的分類,它沒有任何先驗(yàn)知識(shí)可用。聚類的形式描述如下:令表示一個(gè)模式(實(shí)體)集合,表示第個(gè)模式,其中,第1個(gè)下標(biāo)表示模式所屬的類,第2個(gè)下標(biāo)表示某類中某一模式,函數(shù)用來刻畫模式的相似性距離。若諸類,為聚類之結(jié)果,則諸,需滿足如下條件:(1);(2)對(duì)于有(僅限于剛性聚類);典型的聚類過程主要包括以下步驟:數(shù)據(jù)準(zhǔn)備(或稱為樣本或模式)準(zhǔn)備,特征選擇和特征提取,鄰近計(jì)算,聚類(或分組),以及聚類結(jié)果的有效性評(píng)估。1)數(shù)據(jù)準(zhǔn)備:包括特征標(biāo)準(zhǔn)化和降維;2)特征選擇:從原始特征中選擇最有效的特征并將其存儲(chǔ)在矢量中;3)特征提?。和ㄟ^轉(zhuǎn)換選擇的特征形成新的顯著特征;4)聚類(或分組):首先為適當(dāng)?shù)奶卣黝愋瓦x擇一定的距離函數(shù)(或構(gòu)造一個(gè)新的距離函數(shù))來度量鄰近程度,然后執(zhí)行聚類或分組;5)聚類結(jié)果評(píng)估:指聚類結(jié)果的評(píng)估。有三種主要的評(píng)估類型:外部有效性評(píng)估,內(nèi)部有效性評(píng)估和相關(guān)性測(cè)試評(píng)估。2.2聚類分析的方法沒有一種聚類技術(shù)(聚類算法)可以普遍應(yīng)用于揭示各種立方體呈現(xiàn)的各種結(jié)構(gòu)。根據(jù)聚類數(shù)據(jù)的聚集規(guī)則和應(yīng)用這些規(guī)則的方法,聚類算法很多。聚類算法有多種分類方法。根據(jù)本文的分類方法,聚類算法大致分為層次聚類算法,分割聚類算法,基于密度和基于網(wǎng)格的聚類算法等聚類算法。2.2.1層次聚類算法分層聚類算法也稱為樹聚類算法,它使用數(shù)據(jù)連接規(guī)則通過分層體系結(jié)構(gòu)重復(fù)分割或聚合數(shù)據(jù),形成聚類問題解決方案的分層次序列。根據(jù)層次分解的過程,傳統(tǒng)的分層聚類方法可以分為聚集和分裂兩種類型。拆分方法(也稱為白色自頂向下方法)最初將所有對(duì)象放入一個(gè)集群中,并且在迭代的每個(gè)步驟中,將每個(gè)集群拆分為更小的集群,直到每個(gè)對(duì)象單獨(dú)處于集群中或達(dá)到終止條件。凝聚方法(也稱為白化方法)最初將每個(gè)對(duì)象視為單個(gè)集群,然后依次合并相似的對(duì)象或集群,直到所有集群合并為一個(gè),或達(dá)到終止條件。傳統(tǒng)的層次聚類方法的缺點(diǎn)是一旦完成一個(gè)步驟(合并或分解),它就不能被撤銷;此外,傳統(tǒng)的層次聚類算法的計(jì)算復(fù)雜度是。僅適用于小數(shù)據(jù)集的聚類。2007年,Gelbard等人提出了一種新的層次聚合算法,稱為inary-positive方法。該方法將要分類的數(shù)據(jù)以二進(jìn)制格式存儲(chǔ)在二維矩陣中,其中行表示記錄(對(duì)象),列表示其屬性的可能值。記錄的相應(yīng)值為1或0,表示該記錄具有相應(yīng)的屬性值或者沒有相應(yīng)的屬性值。因此,相似距離計(jì)算僅在比較的二進(jìn)制向量中的正位上執(zhí)行,也就是僅在具有值1的記錄(對(duì)象)上執(zhí)行。2007年,Kumar等人。提出了一種基于粗連接不可區(qū)分的連續(xù)數(shù)據(jù)的分層聚類算法RCOSD。在該算法中,不可區(qū)分關(guān)系擴(kuò)展到具有非嚴(yán)格傳輸特性的容差關(guān)系。使用相似性的上近似形成初始類別,而使用約束相似性的上近似概念形成后續(xù)類別,其中之一相對(duì)相似。這些條件被用作合并標(biāo)準(zhǔn)。RCOSD的關(guān)鍵思想是找到一個(gè)能夠捕獲數(shù)據(jù)序列的連續(xù)信息和內(nèi)容信息的特征集,并將這些特征集映射到較高的近似空間。應(yīng)用近似技術(shù)應(yīng)用相似近似近似技術(shù)獲得粗糙集的上近似。一個(gè)元素可以屬于多個(gè)集群。2.2.2劃分式聚類算法劃分式聚類算法需要預(yù)先指定聚類數(shù)目或聚類中心,通過反復(fù)迭代運(yùn)算,逐步降低目標(biāo)函數(shù)的誤差值,當(dāng)目標(biāo)函數(shù)值收斂時(shí),得到最終聚類結(jié)果。1967年,MacQueen}34}首次提出了K均值聚類算法((K-means算法)。該算法是代表性的劃分式聚類算法。其核心思想是找出K個(gè)聚類中心C1,C2,...,CK,使得每一個(gè)數(shù)據(jù)點(diǎn)x,和與其最近的聚類中心c二的平方距離和被最小化(該平方距離和被稱為偏差算法的優(yōu)點(diǎn)是能對(duì)大型數(shù)據(jù)集進(jìn)行高效聚類,在對(duì)大型數(shù)據(jù)集聚類時(shí),K-means算法比層次聚類算法快得多。該算法的不足有:通常會(huì)在獲得一個(gè)局部最優(yōu)值時(shí)終止;僅適合數(shù)值數(shù)據(jù)的聚類;僅適用于聚類結(jié)果為凸的數(shù)據(jù)集(即聚類為凸)。基于經(jīng)典的K-means算法,研究人員提出了許多新的基于分區(qū)的聚類算法。其中一些介紹如下。1969年,Ruspini首次將模糊集理論應(yīng)用于聚類分析,并提出了一種模糊聚類算法(FCM)01998.Huang等人克服了僅適用于數(shù)值屬性數(shù)據(jù)聚類的K-means算法。局限性,提出了適用于屬性數(shù)據(jù)聚類的K模式算法。1999年,Jain等人。指出了著名的圖論分裂聚類算法。它的主要思想是在數(shù)據(jù)上構(gòu)建最小生成樹(MST),并通過刪除最小生成樹的最長(zhǎng)邊形成一個(gè)類。。基于圖的分割聚類算法主要包括:RandomWalk,CHAMELEON,AUTOCLUST等。2001年,Chaturvedi等人提出了一種名為K-modes-CGC的分類屬性數(shù)據(jù)(名義尺度數(shù)據(jù))的非參數(shù)聚類方法,類似于數(shù)值數(shù)據(jù)(尺度間數(shù)據(jù))的傳統(tǒng)K-means算法。與大多數(shù)現(xiàn)有的用于分類屬性數(shù)據(jù)的聚類方法不同,K-modes-CGC算法基于規(guī)范的L.損失函數(shù)明確地優(yōu)化了一個(gè)。2004年,丁等人。提出了K-means-CP(K-means-CP)算法。他們將最近鄰居一致性的概念擴(kuò)展到數(shù)據(jù)聚類。它需要一個(gè)類中的任何數(shù)據(jù)點(diǎn)。k-近鄰和k-最近鄰都必須在這個(gè)類中研究該類的k-最近最近一致性質(zhì),提出kNN和kMN一致性和改進(jìn)算法,并提出k類最近鄰或k類。相互最近鄰一致性是數(shù)據(jù)聚類的重要質(zhì)量度量方法。2006年,李杰等人提出了一種基于特征加權(quán)的新型模糊聚類算法(NFWFCAo2007)。蔡等人。結(jié)合局部空間和灰色信息。在FGFCMo2007中提出了一種快速通用的FCM聚類算法。提出了一種基于最大距離樹的聚類算法MDSCLUSTER。使用剪枝修剪,最小生成樹中的所有長(zhǎng)度≥e。從而生成最大的電子距離樹集合,其中距離樹的頂點(diǎn)集合的每個(gè)最大e距離形成一個(gè)類別。2.2.3基于密度和網(wǎng)格的聚類算法基于網(wǎng)格和密度的聚類方法是一種重要的聚類方法。它們廣泛用于以空間信息處理為代表的許多領(lǐng)域。與傳統(tǒng)的聚類算法不同:基于密度的聚類算法,通過數(shù)據(jù)密度(單位面積內(nèi)的實(shí)例數(shù))來查找任意形狀的聚類;基于網(wǎng)格的聚類算法,采用網(wǎng)格結(jié)構(gòu),圍繞模式組織,由矩形塊劃分的值空間,基于塊的分布信息實(shí)現(xiàn)模式聚類。基于網(wǎng)格的聚類算法通常與其他方法結(jié)合使用,特別是基于密度的聚類方法。在2001年,查和宋給出了網(wǎng)格密度等值線聚類算法GDILC。其核心思想是使用密度等高線圖來描述數(shù)據(jù)樣本的分布,并使用基于網(wǎng)格的方法來計(jì)算每個(gè)數(shù)據(jù)樣本的密度,并找出相對(duì)密集區(qū)域是一對(duì)一(或稱為聚類)。GDILC有能力消除奇異值并找到各種形式的類,具有很高的聚類精度和快速聚類。2004年,Ma提出了一種基于移位網(wǎng)格概念的新的基于密度網(wǎng)格的聚類算法。SGC是一種非參數(shù)類型的算法,不需要用戶輸入?yún)?shù)來對(duì)每個(gè)維度的數(shù)據(jù)進(jìn)行間隔。劃分一些問題以形成數(shù)據(jù)空間網(wǎng)格。SGC的主要優(yōu)點(diǎn)可概括如下:計(jì)算時(shí)間與數(shù)據(jù)集樣本的數(shù)量無關(guān);它在處理任意形狀的簇時(shí)表現(xiàn)出色的性能;不需要用戶輸入?yún)?shù);處理大型數(shù)據(jù)集時(shí)很少遇到內(nèi)存限制問題。2005年,Pileva等人。針對(duì)大規(guī)模高維空間數(shù)據(jù)庫,提出了一種網(wǎng)格聚類算法GCHLoGCHL,將一種新的基于密度和網(wǎng)格的聚類算法與平行軸分配策略相結(jié)合,確定輸入數(shù)據(jù)。空間密度高的地區(qū)-集群。實(shí)驗(yàn)結(jié)果表明,該算法獲得的聚類結(jié)果質(zhì)量較高,能夠找到凹/較深,凸/較高區(qū)域,對(duì)奇異值和噪聲的魯棒性以及優(yōu)良的二次收縮,這使得它可以很好地應(yīng)用于醫(yī)療和地理領(lǐng)域。2006年,Micro等人。專注于移動(dòng)對(duì)象的軌跡數(shù)據(jù)處理領(lǐng)域?;诤?jiǎn)單的軌跡距離概念,提出了一種基于密度的白色自適應(yīng)聚類方法TFCTMO,以進(jìn)一步考慮時(shí)態(tài)內(nèi)在語義并給出時(shí)間聚焦方法。改善軌跡聚集效應(yīng)。2007年,Derya等人。在DBSCAN上進(jìn)行了三個(gè)與核物體,噪聲對(duì)象和相鄰簇識(shí)別有關(guān)的邊緣擴(kuò)展,然后提出了一種新的基于密度的聚類算法ST-DBSCANCspatial-temporalDBSCAN和現(xiàn)有的算法。與基于密度的聚類算法相比,該算法具有基于非空,空間和時(shí)間值發(fā)現(xiàn)聚類的能力。2.2.4其它聚類算法除了上述聚類算法之外,許多研究人員還將應(yīng)用其他領(lǐng)域的技術(shù)來解決聚類問題。2004年,Tsai等人提出了一種具有不同偏好的新型蟻群系統(tǒng)ACODF來解決數(shù)據(jù)聚類問題。3聚類分析方法在溫度區(qū)劃分中的應(yīng)用3.1資料與方法本文利用中國氣象局國家氣象信息中心從1961年到2010年提供的512個(gè)日溫度站(本文不包括海拔3000米以上的站點(diǎn))的數(shù)據(jù),計(jì)算了5d平均滑動(dòng)溫度(T)穩(wěn)定通過10°C多年。。采用REOF方法提取T≥10°C天的空間場(chǎng)??臻g場(chǎng)表示每個(gè)區(qū)域溫度變化的特征,不受時(shí)間的限制,然后采用三種聚類分析方法進(jìn)行劃分。三種聚類方法的步驟如下。3.1.1快速聚類法步驟(1)選取K個(gè)樣本為初始的類中心;(2)計(jì)算每個(gè)樣本與各中心的歐幾里得距離,將每個(gè)樣本賦給最近的類;(3)計(jì)算每一類的平均值,以其為中心,計(jì)算每個(gè)樣本與中心的距離,將每個(gè)樣本重新賦給距離最小的類;(4)重復(fù)步驟,直到方差不再發(fā)生變化。3.1.2分層聚類法步驟(1)各樣本序列先各自為一類;(2)計(jì)算各樣本兩兩間的離差平方和,將合并后離差平方和最小的兩類歸并為一個(gè)新類;(3)計(jì)算新類的平均序列,計(jì)算各類之間的離差平方和,再將合并后增加的離差平方和最小的類進(jìn)行合并;(4)重復(fù)步驟,直到達(dá)到希望的類別數(shù)。3.1.3 統(tǒng)計(jì)檢驗(yàn)聚類分析法步驟(1)選取中心,計(jì)算各樣本與中心之間的相關(guān)系數(shù);(2)從相關(guān)系數(shù)最大的樣本開始,按照構(gòu)造出的服從分布的公式計(jì)算,檢驗(yàn)其能否通過顯著性檢驗(yàn);(3)通過檢驗(yàn),則該樣本能與中心合并為一類;(4)逐漸擴(kuò)大合并的范圍,直到檢驗(yàn)不顯著為止。3.2溫度區(qū)劃分近年來,REOF已被用于分析區(qū)域氣候變化類型。雖然EOF能夠分離氣象變量場(chǎng)的時(shí)空變化,盡可能少地表達(dá)其時(shí)間變化的空間一致性,但它過分強(qiáng)調(diào)了變量的整體相關(guān)結(jié)構(gòu),掩蓋了重要的局部相關(guān)結(jié)構(gòu)(吳宏寶和吳磊,2005)。REOF克服了這個(gè)缺點(diǎn)。在EOF的基礎(chǔ)上,它被旋轉(zhuǎn)了一個(gè)最大方差,使得??高負(fù)荷集中在幾個(gè)變量上,其余的接近于零,從而使空間結(jié)構(gòu)更加清晰,突出了氣候變化的區(qū)域一致性特征。本文對(duì)T≥10℃的日間數(shù)據(jù)進(jìn)行REOF,前10個(gè)主成分的累積貢獻(xiàn)率大于60%。表1列出了EOF和REOF前10種模式的方差貢獻(xiàn)率和累積方差貢獻(xiàn)率??梢钥闯觯琑EOF對(duì)場(chǎng)的總方差貢獻(xiàn)沒有變化,而單個(gè)空間類則盡可能反映場(chǎng)的局部相關(guān)結(jié)構(gòu)。表11961?2010年我國512個(gè)臺(tái)站1961?2010年標(biāo)準(zhǔn)差異常情況下前10個(gè)模態(tài)EOF和REOF的方差貢獻(xiàn)率。從前十種模式的空間分布(圖1)可以看出,前十種空間模式幾乎覆蓋了整個(gè)國家。根據(jù)REOF的第一種模式(圖1a)的發(fā)展,第一種模式在長(zhǎng)江中下游地區(qū)的空間格局顯著,中心值為0.89,占總數(shù)的79.21%面積的變化,所以它可以在長(zhǎng)江中使用。下游的氣候分為一類。從REOF的第二種形式(圖1b)可以看出,第二種形式的空間格局在東北地區(qū)是顯著的,其中心值為0.85,占該區(qū)域方差貢獻(xiàn)的72.25%,所以東北地區(qū)可以分為一類。第三種模式的空間格局(圖1c)在西北中部和東部地區(qū)顯著,中心值為0.86,占該區(qū)域方差貢獻(xiàn)的73.96%。第四種模式(圖1d)的空間格局在華南沿海地區(qū)顯著,絕對(duì)中心值為0.82,占區(qū)域方差貢獻(xiàn)的67.54%。第五種形式的空間格局(圖1e)沿著北回歸線顯著,絕對(duì)中心值為0.80,占區(qū)域方差貢獻(xiàn)的64%。新疆準(zhǔn)噶爾盆地第六模式(圖1f)的空間格局顯著,絕對(duì)中心值為0.69,表示該地區(qū)方差貢獻(xiàn)率為47.61%。第七模式的空間格局(圖1g)位于新疆塔里木盆地地區(qū),絕對(duì)中心值為0.79,占該區(qū)域方差貢獻(xiàn)的62.41%。第八模式(圖1h)的空間格局在華北平原和遼東半島顯著,中心值為0.80,占區(qū)域方差貢獻(xiàn)的64%。第九種模式(圖1i)在黃淮地區(qū)的空間格局顯著,絕對(duì)中心值為0.72,表示該地區(qū)方差貢獻(xiàn)率為51.84%。內(nèi)蒙古中部和東部地區(qū)第十種形式(圖1j)的空間格局顯著,中心值為0.73,占該地區(qū)貢獻(xiàn)率的53.29%。在原始數(shù)據(jù)REOF之后,前10個(gè)模態(tài)可以反映原始場(chǎng)的時(shí)空變化。前10個(gè)模態(tài)空間域被提取用于統(tǒng)計(jì)聚類,并且三個(gè)不同的聚類分析方法被用于分割。3.2.1快速聚類法(K-means法)基于迭代思想的快速聚類首先任意地將給定聚類數(shù)K作為初始類中心,并根據(jù)與每個(gè)中心的歐幾里德距離將每個(gè)對(duì)象分配到最近的類,計(jì)算每個(gè)類。平均值居中,每個(gè)對(duì)象重新應(yīng)用到最相似的類別。重復(fù)此過程并逐漸修改分類,直至方差不再變化。該算法原理簡(jiǎn)單,易于處理大量數(shù)據(jù),因此得到了廣泛的應(yīng)用(ZhangJijiaetal。,1984,LiuWeidongetal。,2013)。在K-means算法運(yùn)行之前,必須指定K個(gè)簇。本文刪除高原數(shù)據(jù)。當(dāng)K值為7時(shí),得到的結(jié)果更合理。聚類結(jié)果如圖2所示。圖中不同顏色的點(diǎn)代表不同類別,紅線代表各種類型的邊界。從圖中可以看出,分區(qū)的大小具有明顯的區(qū)域特征。國家溫帶分為10個(gè)地區(qū):青藏高原,華南沿海地區(qū),云貴高原,長(zhǎng)江中下游,黃淮地區(qū),內(nèi)蒙古中東部地區(qū)蒙古與東北,西北中東部地區(qū),新疆塔里木盆地,新疆。準(zhǔn)噶爾盆地地區(qū),大興安嶺北部。分界線沿中國地形分布,部分小區(qū)不分。青藏高原周圍的地形復(fù)雜,因此青藏高原分開劃分。由于受五指山和海洋的影響,海南島造成海南島與華南沿海地區(qū)出現(xiàn)了不同類型的氣候變化。由于青藏高原的影響和云貴高原西側(cè)的復(fù)雜地形,南北兩側(cè)是不同的類型。由于山地和河流等地形的影響,分區(qū)內(nèi)各個(gè)地點(diǎn)的氣候變化類型不同。例如,西北地區(qū)青藏高原沿線地區(qū)的類型并不統(tǒng)一。由于新疆準(zhǔn)噶爾盆地和塔里木盆地的存在,現(xiàn)場(chǎng)分布不均勻,但塔里木盆地沿線的氣候與準(zhǔn)格爾盆地一致。大興安嶺北側(cè)有一個(gè)特殊的博克圖位置,氣候變化類型不同,比周邊地區(qū)溫暖。這可能是該網(wǎng)站位于大興安嶺山區(qū)的原因。1512161210T10°CF展開前十個(gè)模態(tài)空間型圖2K-means法對(duì)中國溫度區(qū)劃分(1961~2010年)K-means方法是一種經(jīng)典的聚類方法。該算法效率高,被廣泛應(yīng)用于大規(guī)模數(shù)據(jù)的聚類。在本文中,K的值等于7,除了青藏高原以外的整個(gè)國家分為7類。可以看出,用K-means方法劃分的區(qū)域與用傳統(tǒng)方法劃分的區(qū)域相似。這種方法的缺點(diǎn)是可供選擇的內(nèi)容較少,需要事先給出最重要的K值,人的經(jīng)驗(yàn)和判斷將起到重要的作用。3.2.2 分層聚類法分層聚類方法(HierarchicalClusteringMethods)是目前實(shí)踐中最常用的方法。這種方法的基本思想是首先定義樣本之間的距離(或相似系數(shù))以及班級(jí)和班級(jí)之間的距離。在開始時(shí),n個(gè)樣本中的每一個(gè)被分成一個(gè)類。此時(shí),班級(jí)與班級(jí)之間的距離相當(dāng)于樣本之間的距離。然后將這兩個(gè)類合并,重新計(jì)算新類和其他類之間的距離。按最小距離分類。這樣可以減少每個(gè)班級(jí)的規(guī)模,直到所有樣本都在一個(gè)班級(jí)中(Huang,Huang,2000)。本文采用Pearson相關(guān)系數(shù)進(jìn)行組間距離度量,采用平方和方法進(jìn)行合并。(沃德方法)。該方法基于方差分析的思想。類似樣本之間偏差的平方和很小,班級(jí)與班級(jí)之間的偏差平方較大(方開泰,1978)。為了與K-means方法進(jìn)行比較,選擇了聚類成7個(gè)類別的結(jié)果,如圖5所示。3。層次聚類方法的順序是自下而上的。本文采用Ward方法逐步聚類,將中國的溫度區(qū)劃分為青藏高原,南海沿岸和滇南地區(qū)等9個(gè)地區(qū)。長(zhǎng)江中下游,云貴高原北部,黃淮地區(qū),東北地區(qū),西北中東部地區(qū),新疆地區(qū),內(nèi)蒙古中東部地區(qū)。不同類型的分界線與中國的地形分布也很吻合。青藏高原分為單一類別。受海南島五指山和海洋的影響,氣候變化的類型與中國南方沿海地區(qū)的氣候變化類型不同。云貴高原北部受青藏高原和四川盆地的影響,滇南高原是另一類。西北中東部與新疆地區(qū),內(nèi)蒙古中東部邊界沿祁連山,黃土高原,太行山,陰山山分界。在分散地區(qū)的單個(gè)站點(diǎn)有不同類型的氣候變化,這些地區(qū)受到當(dāng)?shù)氐匦位虻攸c(diǎn)重新安置的影響。例如,在黃淮地區(qū),沿黃河有兩處紅色地帶,該地區(qū)有不同類型的地點(diǎn),即泰山和華山地區(qū)。用Ward方法劃分的區(qū)域與前一個(gè)分區(qū)的結(jié)果非常吻合。Ward聚類具有良好的統(tǒng)計(jì)特性并被廣泛使用。雖然不需要確定分類數(shù)量,但一旦進(jìn)行合并,就無法糾正,聚類質(zhì)量也受到限制(Michelangelietal.1995)。3.2.3 統(tǒng)計(jì)檢驗(yàn)聚類分析法(CAST法)傳統(tǒng)的聚類分析是一種常用的重要數(shù)值分類方法,但該方法缺乏顯著性檢驗(yàn)。姚振生(1994)提出了基于氣候統(tǒng)計(jì)理論的氣候分類和區(qū)域化的新統(tǒng)計(jì)檢驗(yàn)聚類分析(CAST)。該方法改進(jìn)了傳統(tǒng)聚類細(xì)分測(cè)試的結(jié)果。邊界過渡區(qū)或交叉混合區(qū)仍然需要人工分化。4 結(jié)論與討論采用REOF方法提取時(shí)間演變過程中溫度變化的特征,然后采用三種聚類統(tǒng)計(jì)方法對(duì)我國1961?2010年間溫度變化進(jìn)行客觀分區(qū),得出如下結(jié)論:(1)K均值法將全國溫度區(qū)劃分為10個(gè)區(qū)域。分工的結(jié)果比較合理。這些地區(qū)可以代表中國的溫度變化。該算法效率高,操作簡(jiǎn)單快捷。因此,它被廣泛用于聚類大規(guī)模數(shù)據(jù)。在計(jì)算過程中不斷修改此方法,直到方差穩(wěn)定,作為分析方法。使用距離系數(shù)cij和rij代表兩個(gè)變化,因此可以獲得好的結(jié)果。但是最重??要的類別數(shù)量的相關(guān)系數(shù),這種方法在表示樣本之間相似程度時(shí)使得距離和相關(guān)系數(shù)相互一致。所謂集群統(tǒng)計(jì)檢驗(yàn)分析是從統(tǒng)計(jì)理論上推導(dǎo)出具有統(tǒng)計(jì)顯著性的集群方法。cij通常分布在其平均值周圍,構(gòu)建分布之后的函數(shù)。CAST通常可以有兩種計(jì)算方案:統(tǒng)一的聚類和中心聚類。對(duì)于地理空間氣候區(qū)劃,使用中心聚類方案可以大大減少計(jì)算量,并可以確定更合適的氣候區(qū)(趙春雨等,2009)。選擇中心站后,計(jì)算該值,當(dāng)其小于0.05的顯著性水平時(shí),測(cè)試通過。CAST存在不確定性問題:即如何選擇集群中心站點(diǎn)沒有客??觀的標(biāo)準(zhǔn)。因此,本文結(jié)合CAST和REOF方法確定中心站(丁玉國等,2007)。選擇負(fù)荷矢量的高值區(qū)作為中心,在此基礎(chǔ)上對(duì)中國的溫度區(qū)進(jìn)行劃分。結(jié)果如圖4所示。由于選擇了前十種模式,即選擇了10個(gè)中心站,因此中國溫度區(qū)可以分為10類。分界線沿中國地形分布,將中國分為13個(gè)地區(qū):青藏高原,華南沿海地區(qū),華南丘陵地區(qū),云貴高原地區(qū),四川盆地地區(qū),江南地區(qū),黃淮地區(qū),華北北部和遼東半島。內(nèi)蒙古地區(qū),東北部,中部和東部,西北中東部地區(qū),新疆塔里木盆地和新疆準(zhǔn)格爾盆地。圖中的黑色網(wǎng)站是不重要的網(wǎng)站,并沒有被歸類為任何一個(gè)。雖然云貴高原地區(qū)尚未通過重大試驗(yàn),但根據(jù)地形和前人的劃分結(jié)果進(jìn)行劃分是合理的。CAST方法對(duì)中國的溫度變化區(qū)域進(jìn)行了非常仔細(xì)和合理的分類,并通過了顯著性檢驗(yàn)。雖然聚類統(tǒng)計(jì)檢驗(yàn)具有較好的統(tǒng)計(jì)學(xué)意義,但大規(guī)模地區(qū)聚類K的價(jià)值需要事先給定,人類的經(jīng)驗(yàn)和判斷將起到重要的作用。本文中的K值在多次嘗試后也是合理的選擇。(2)Ward方法將中國的溫度區(qū)域劃分為9個(gè)區(qū)域。這種方法分類的結(jié)果不是非常詳細(xì),但整體劃分結(jié)果仍然合理。Ward聚類具有良好的統(tǒng)計(jì)特性,類似樣本間偏差的平方和小,類與類之間的平方偏差較大。聚類的每一步都可以在樹形圖中清楚地看到,并且在世界上被廣泛使用。所有樣本最終都?xì)w入一個(gè)類別,因此您可以在群集過程中選擇適當(dāng)數(shù)量的類別。盡管不需要確定分類的數(shù)量,但是一旦將樣本合并到一個(gè)類別中,就無法糾正,并且聚類質(zhì)量有限。(3)CAST方法將中國的溫度區(qū)劃分為13個(gè)區(qū)域。該方法的劃分是最詳細(xì)和合理的,并且可以表達(dá)一些特殊的地形。CAST聚類的統(tǒng)計(jì)檢驗(yàn)具有非常好的統(tǒng)計(jì)學(xué)意義。分為一類的網(wǎng)站通過重要性測(cè)試,使結(jié)果更可信。在數(shù)據(jù)REOF之后,高負(fù)荷區(qū)域是該模式最具代表性的站點(diǎn),并且選擇中心站點(diǎn)是合理的。使用中央集群進(jìn)行氣候區(qū)劃不僅大大減少了計(jì)算量,而且還可以確定更合適的氣候區(qū)。但是,當(dāng)這種方法用于處理大面積時(shí),會(huì)有一些不重要的地點(diǎn),以及一些通過這兩種檢查的地點(diǎn)。在檢查之后,不可能客觀地分類所有的網(wǎng)站。邊界過渡區(qū)或混合區(qū)仍然需要人為分離。這種方法更適合劃分為一個(gè)省或一個(gè)較小的區(qū)域。圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論