空間數(shù)據(jù)挖掘_第1頁(yè)
空間數(shù)據(jù)挖掘_第2頁(yè)
空間數(shù)據(jù)挖掘_第3頁(yè)
空間數(shù)據(jù)挖掘_第4頁(yè)
空間數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第八章空間挖掘

內(nèi)容提要引言

空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/311空間挖掘技術(shù)概述大量的空間數(shù)據(jù)是從遙感、地理信息系統(tǒng)(GIS)、多媒體系統(tǒng)、醫(yī)學(xué)和衛(wèi)星圖像等多種應(yīng)用中收集而來(lái),收集到的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)了人腦分析的能力。日益發(fā)展的空間數(shù)據(jù)基礎(chǔ)設(shè)施為空間數(shù)據(jù)的自動(dòng)化處理提出了新的課題??臻g數(shù)據(jù)的最常用的數(shù)據(jù)組織形式是空間數(shù)據(jù)庫(kù)??臻g數(shù)據(jù)庫(kù)必須保存空間實(shí)體,這些空間實(shí)體是用空間數(shù)據(jù)類(lèi)型和實(shí)體的空間關(guān)系來(lái)表示出來(lái)的??臻g數(shù)據(jù)庫(kù),不同于關(guān)系數(shù)據(jù)庫(kù),它一般具有空間拓?fù)浠蚓嚯x信息,通常需要以復(fù)雜的多維空間索引結(jié)構(gòu)組織??臻g挖掘(SpatialMining)或被稱(chēng)作空間數(shù)據(jù)挖掘/空間數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn),是數(shù)據(jù)挖掘技術(shù)在空間數(shù)據(jù)方面的應(yīng)用。簡(jiǎn)言之,空間數(shù)據(jù)挖掘,就是從空間數(shù)據(jù)庫(kù)中抽取隱含的知識(shí)、空間關(guān)系或非顯式地存儲(chǔ)在空間數(shù)據(jù)庫(kù)中的其他模式,用于理解空間數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)間(空間或非空間)的關(guān)系。由于空間數(shù)據(jù)的復(fù)雜性及其應(yīng)用的專(zhuān)業(yè)性,在一般的數(shù)據(jù)挖掘的基本概念的基礎(chǔ)上,需要研究空間數(shù)據(jù)挖掘特有的理論、方法和應(yīng)用。2023/1/312第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/313空間數(shù)據(jù)的主要特點(diǎn)空間數(shù)據(jù)是指與二維、三維或更高維空間的空間坐標(biāo)及空間范圍相關(guān)的數(shù)據(jù),例如地圖上的經(jīng)緯度、湖泊、城市等。訪問(wèn)空間數(shù)據(jù)要比訪問(wèn)非空間數(shù)據(jù)更復(fù)雜。對(duì)空間數(shù)據(jù)的訪問(wèn)要使用專(zhuān)門(mén)的操作和數(shù)據(jù)結(jié)構(gòu)??臻g數(shù)據(jù)可以用包含著諸如“接近、南、北、包含于”等空間操作符的查詢(xún)來(lái)訪問(wèn)。空間數(shù)據(jù)存放在記錄著實(shí)體的空間性數(shù)據(jù)和非空間性數(shù)據(jù)的空間數(shù)據(jù)庫(kù)里。由于空間數(shù)據(jù)關(guān)聯(lián)著距離信息,所以空間數(shù)據(jù)庫(kù)通常用使用距離或拓?fù)湫畔⒌目臻g數(shù)據(jù)結(jié)構(gòu)或者索引來(lái)存儲(chǔ)。就數(shù)據(jù)挖掘而論,這些距離信息提供了所需的相似性度量的基礎(chǔ)。2023/1/314空間數(shù)據(jù)的復(fù)雜性特征空間數(shù)據(jù)的復(fù)雜性特征主要表現(xiàn)在以下幾個(gè)方面:空間屬性之間的非線性關(guān)系:空間屬性之間的非線性關(guān)系是空間系統(tǒng)復(fù)雜性的重要標(biāo)志,被作為空間數(shù)據(jù)挖掘的主要任務(wù)之一。空間數(shù)據(jù)的多尺度特征:空間數(shù)據(jù)的多尺度性是指空間數(shù)據(jù)在不同觀察層次上所遵循的規(guī)律以及體現(xiàn)出的特征不盡相同。多尺度特征是空間數(shù)據(jù)復(fù)雜性的又一表現(xiàn)形式??臻g信息的模糊性:模糊性幾乎存在于各種類(lèi)型的空間信息中,如空間位置的模糊性、空間相關(guān)性的模糊性以及模糊的屬性值等等??臻g維數(shù)的增高:空間數(shù)據(jù)的屬性增加極為迅速,如在遙感領(lǐng)域,由于傳感器技術(shù)的飛速發(fā)展,波段的數(shù)目也由幾個(gè)增加到幾十甚至上百個(gè),如何從幾十甚至幾百維空間中提取信息、發(fā)現(xiàn)知識(shí)則成為研究中的又一難題??臻g數(shù)據(jù)的缺值:數(shù)據(jù)的缺值現(xiàn)象源自由于某種不可抗拒的外力而使數(shù)據(jù)無(wú)法獲得或發(fā)生丟失。如何對(duì)丟失數(shù)據(jù)進(jìn)行恢復(fù)并估計(jì)數(shù)據(jù)的固有分布參數(shù),成為解決數(shù)據(jù)復(fù)雜性的難點(diǎn)。2023/1/315空間查詢(xún)問(wèn)題查詢(xún)是挖掘的技術(shù),空間查詢(xún)及其操作的主要特點(diǎn)有:空間操作相對(duì)復(fù)雜和不精確:傳統(tǒng)的訪問(wèn)非空間數(shù)據(jù)的選擇查詢(xún)使用的是標(biāo)準(zhǔn)的比較操作符:>,<,≤,≥,≠。而空間選擇是一種在空間數(shù)據(jù)上的選擇查詢(xún),要用到空間操作符,包括接近、東、西、南、北、包含、重疊或相交等。下面是幾個(gè)空間選擇查詢(xún)的例子:例如,“查找北海公園附近的房子”??臻g連接(SpatialJoin)問(wèn)題:在兩個(gè)空間關(guān)系上的一個(gè)空間性連接操作被稱(chēng)為空間連接(SpatialJoin)。在空間連接中,關(guān)系都是空間性的,需要與空間連接對(duì)應(yīng)的條件描述。例如,“相交”關(guān)系用于多邊形;“相鄰”關(guān)系用于點(diǎn)。相同的地理區(qū)域經(jīng)常有不同的視圖:一個(gè)區(qū)域不同的視圖(如基礎(chǔ)設(shè)施、城市規(guī)劃、綠化等)保存在單獨(dú)的GIS文件中,融合這些數(shù)據(jù),通常需要一個(gè)稱(chēng)為“地圖覆蓋”(MapOverlay)的操作來(lái)實(shí)現(xiàn)。

一個(gè)空間實(shí)體可用空間和非空間的屬性來(lái)描述。當(dāng)其空間屬性用一些空間數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)起來(lái)之后,非空間屬性就可以存儲(chǔ)在一個(gè)關(guān)系數(shù)據(jù)庫(kù)里。對(duì)空間數(shù)據(jù)庫(kù)來(lái)說(shuō),不同的空間實(shí)體經(jīng)常是和不同的位置相關(guān)聯(lián)的,而且在不同的實(shí)體之間進(jìn)行空間性操作的時(shí)候,經(jīng)常需要在屬性之間進(jìn)行一些轉(zhuǎn)換。2023/1/316空間數(shù)據(jù)結(jié)構(gòu)由于空間數(shù)據(jù)的獨(dú)特性質(zhì),有很多數(shù)據(jù)結(jié)構(gòu)專(zhuān)門(mén)被設(shè)計(jì)用來(lái)存儲(chǔ)或索引空間數(shù)據(jù)。這些結(jié)構(gòu)有的考慮的是空間實(shí)體的輪廓表示,有的是空間數(shù)據(jù)的索引方法。空間實(shí)體表示的最常用方法是“最小包圍矩形”??臻g索引技術(shù)大多是基于對(duì)空間目標(biāo)的近似技術(shù),例如,空間映射法(1)采用低維空間向高維空間映射的方式:k維空間具有n個(gè)頂點(diǎn)的目標(biāo)可以映射成n*k維空間的點(diǎn)。映射后,可以直接采用點(diǎn)索引技術(shù)。(2)直接向一維空間映射:通常數(shù)據(jù)空間被劃分成大小相同的網(wǎng)格單元,通過(guò)給這些網(wǎng)格單元編碼形成一維目標(biāo),用傳統(tǒng)的一維的索引結(jié)構(gòu)(如B+樹(shù)等)索引。分割方法(1)采用不允許空間重疊的索引方法:將所在的數(shù)據(jù)空間按某種方法(如二叉樹(shù)劃分、四叉樹(shù)劃分、格網(wǎng)劃分等)劃分成彼此不相交的子空間。(2)采用允許空間重疊的索引法:將索引空間劃分為多級(jí)的子空間,這些子空間允許重疊,但是一個(gè)空間實(shí)體完全包含在某一子空間中。2023/1/317最小包圍矩形通過(guò)完整包含一個(gè)空間實(shí)體的最小包圍矩形(MBR:MinimumBoundingRectangle)來(lái)表示該空間實(shí)體。例如,下圖顯示一湖泊的MBR:如果用傳統(tǒng)坐標(biāo)系統(tǒng)來(lái)對(duì)這個(gè)湖定向,水平軸表示東西方向,垂直軸表示南北方向,那么就可以把這個(gè)湖放在一個(gè)矩形里(中間圖所示)還可以通過(guò)一系列更小的矩形來(lái)表現(xiàn)這個(gè)湖(右圖所示)另一種更簡(jiǎn)單的方法是用一對(duì)不相鄰的頂點(diǎn)坐標(biāo)來(lái)表示一個(gè)MBR,如用{(x1,y1),(x2,y2)}來(lái)表示(中間圖所示)。2023/1/318空間索引技術(shù)空間索引是指依據(jù)空間實(shí)體的位置和形狀或空間實(shí)體之間的某種空間關(guān)系,按一定順序排列的一種數(shù)據(jù)結(jié)構(gòu),其中包含空間實(shí)體的概要信息??臻g索引的性能優(yōu)劣直接影響空間數(shù)據(jù)庫(kù)和地理信息系統(tǒng)的整體性能,也對(duì)空間數(shù)據(jù)挖掘的效率有影響。幾種比較有代表性的空間數(shù)據(jù)索引結(jié)構(gòu)技術(shù):網(wǎng)格文件四叉樹(shù)R-樹(shù)k-D樹(shù)2023/1/319網(wǎng)格文件根據(jù)正交的網(wǎng)格劃分k維的數(shù)據(jù)空間。k維數(shù)據(jù)空間的網(wǎng)格由k個(gè)一維數(shù)組表示,這些數(shù)組稱(chēng)為刻度,將其保存在主存??潭鹊拿恳贿吔鐦?gòu)成k-1維的超平面。整個(gè)數(shù)據(jù)空間被所有的邊界劃分成許多k維的矩形子空間,這些矩形子空間稱(chēng)為網(wǎng)格目錄,用k維的數(shù)組表示,將其保存在硬盤(pán)上。網(wǎng)格目錄的每一網(wǎng)格單元包含一外存頁(yè)的地址,這一外存頁(yè)存儲(chǔ)了該網(wǎng)格單元內(nèi)的數(shù)據(jù)目標(biāo),稱(chēng)為數(shù)據(jù)頁(yè)。一數(shù)據(jù)頁(yè)允許存儲(chǔ)多個(gè)相鄰網(wǎng)格單元的目標(biāo)。網(wǎng)格文件的查找簡(jiǎn)單,查找效率較高,適用于點(diǎn)目標(biāo)的索引。2023/1/3110四叉樹(shù)四叉樹(shù)通過(guò)把空間按等級(jí)分解成為區(qū)域(單元)來(lái)表示空間實(shí)體。四叉樹(shù)實(shí)際上每一節(jié)點(diǎn)有4個(gè)子樹(shù),用于對(duì)空間點(diǎn)的表示與索引。如二維空間的四叉樹(shù),每個(gè)子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)矩形,用四種方位西北(NW),東北(NE),西南(SW),東南(SE)表示空間區(qū)域被分為n層,四叉樹(shù)中的每級(jí)對(duì)應(yīng)一個(gè)層次級(jí)別,層的數(shù)量n是依賴(lài)于所需要的精確度的。例如,2023/1/3111R-樹(shù)R-樹(shù)是B-樹(shù)在多維空間的擴(kuò)展其葉子節(jié)點(diǎn)包含多個(gè)形式為(OI,MBR)的實(shí)體,OI為空間目標(biāo)標(biāo)志,MBR為該目標(biāo)在k維空間中的最小包圍矩形。非葉子節(jié)點(diǎn)包含多個(gè)形式為(CP,MBR)的實(shí)體。CP為指向子樹(shù)根節(jié)點(diǎn)的指針,MBR為包圍其子節(jié)點(diǎn)中所有MBR的最小包圍矩形。R-樹(shù)必須滿(mǎn)足如下特性:若根節(jié)點(diǎn)不是葉子節(jié)點(diǎn),則至少有兩棵子樹(shù);除根之外的所有中間節(jié)點(diǎn)至多有M棵子樹(shù),至少有m棵子樹(shù);每個(gè)葉子節(jié)點(diǎn)均包含m至M個(gè)數(shù)據(jù)項(xiàng);所有的葉子節(jié)點(diǎn)都出現(xiàn)在同一層次;所有節(jié)點(diǎn)都需要同樣的存儲(chǔ)空間(一個(gè)磁盤(pán)頁(yè))。2023/1/3112k-D樹(shù)k-D樹(shù)被設(shè)計(jì)用來(lái)對(duì)多屬性的數(shù)據(jù)進(jìn)行索引,而不是必要的空間數(shù)據(jù)。k-D樹(shù)是二叉樹(shù)的一個(gè)變種,樹(shù)中的每一層用來(lái)索引一個(gè)屬性。樹(shù)中的每個(gè)結(jié)點(diǎn)表示這個(gè)空間基于一個(gè)分割點(diǎn)被分割成兩個(gè)子集。和R-樹(shù)一樣,每個(gè)最低級(jí)別的區(qū)間只有一個(gè)實(shí)體。但是,分割不是用MBR來(lái)進(jìn)行的。它首先按照一個(gè)維分割,然后按照另一個(gè)維分割,直到每個(gè)區(qū)間只有一個(gè)實(shí)體。2023/1/3113第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/3114空間數(shù)據(jù)庫(kù)的操作是數(shù)據(jù)挖掘的基礎(chǔ)假定A和B是二維空間中的兩個(gè)空間實(shí)體。每個(gè)實(shí)體由空間中的點(diǎn)的集合組成:<xa,ya>∈A,<xb,yb>∈B。兩個(gè)空間實(shí)體之間存在若干拓?fù)潢P(guān)系。這些關(guān)系基于兩個(gè)實(shí)體的位置:分離(Disjoint):A與B分離,表示B中任何點(diǎn)都不在A中,反之亦然。重疊/相交:A與B重疊或相交表示至少有一個(gè)點(diǎn)既在A里也在B里。等價(jià):A與B這兩個(gè)實(shí)體的所有點(diǎn)都是共有的。包含于:A包含于B,表示A的所有點(diǎn)都在B里。反之不一定。覆蓋/包含:A覆蓋或包含B,當(dāng)且僅當(dāng)B包含于A。根據(jù)實(shí)體在空間中的位置,可以定義方向,通常采用的是傳統(tǒng)的地圖方向:像東、南、西、北等等??臻g謂詞有三種形式:表示拓?fù)潢P(guān)系的謂詞,如相交、覆蓋等;表示空間方向的謂詞,如東、西、左、右等;表示距離的謂詞,如接近、遠(yuǎn)離等。2023/1/3115實(shí)體之間的距離的定義常用的兩個(gè)空間實(shí)體之間的距離有:最小值方法:定義實(shí)體A和B的距離為A中的所有點(diǎn)與和B中的所有點(diǎn)之間的歐氏或曼哈頓距離中最小的,即最大值方法:定義實(shí)體A和B的距離為A中的所有點(diǎn)與和B中的所有點(diǎn)之間的歐氏或曼哈頓距離中最大的,即平均值方法:定義實(shí)體A和B的距離為A中的所有點(diǎn)與和B中的所有點(diǎn)之間的歐氏或曼哈頓距離的平均值,即中心方法:定義實(shí)體A和B的距離為A中的中心點(diǎn)與和B中的中心點(diǎn)之間的歐氏或曼哈頓距離的平均值,即2023/1/3116空間統(tǒng)計(jì)學(xué)空間統(tǒng)計(jì)學(xué)(SpatialStatistics)是依靠有序的模型來(lái)描述無(wú)序事件,根據(jù)不確定性和有限的信息來(lái)分析、評(píng)價(jià)和預(yù)測(cè)空間數(shù)據(jù)?;谧銐蚨嗟臉颖?,在統(tǒng)計(jì)空間實(shí)體的幾何特征量的最小值、最大值、均值、方差、眾數(shù)或直方圖的基礎(chǔ)上,可以得到空間實(shí)體特征的先驗(yàn)概率,進(jìn)而根據(jù)領(lǐng)域知識(shí)發(fā)現(xiàn)共性的幾何知識(shí)??臻g統(tǒng)計(jì)學(xué)具有較強(qiáng)的理論基礎(chǔ)和大量的成熟算法。空間統(tǒng)計(jì)學(xué)是基本的數(shù)據(jù)挖掘技術(shù),特別是多元統(tǒng)計(jì)分析(如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等)。統(tǒng)計(jì)方法是分析空間數(shù)據(jù)的最常用的方法。統(tǒng)計(jì)方法能夠有效處理數(shù)值型數(shù)據(jù),其主要方法是基于統(tǒng)計(jì)不相關(guān)假設(shè)的。在空間數(shù)據(jù)庫(kù)中許多空間數(shù)據(jù)通常是相關(guān)的,即空間對(duì)象受其鄰近對(duì)象的影響,難以滿(mǎn)足這種假設(shè),這樣就會(huì)引起問(wèn)題。它是空間統(tǒng)計(jì)學(xué)向著實(shí)用的挖掘技術(shù)發(fā)展的一個(gè)重要研究課題。統(tǒng)計(jì)方法對(duì)非線性規(guī)劃不能很好建模,難以處理不完全或不確定性數(shù)據(jù),而且運(yùn)算的代價(jià)較高。它是空間統(tǒng)計(jì)學(xué)向著實(shí)用的挖掘技術(shù)發(fā)展的另一個(gè)研究課題。2023/1/3117第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/3118空間數(shù)據(jù)的蘊(yùn)含著豐富的概念眾所周知,概念層次的使用顯示了數(shù)據(jù)間關(guān)系的層次。應(yīng)用空間數(shù)據(jù)特性,概念層次承認(rèn)了層級(jí)中不同層次規(guī)則和關(guān)系的發(fā)展。從空間數(shù)據(jù)中挖掘所蘊(yùn)含的概念是空間挖掘的重要任務(wù)之一。泛化與特化是概念歸納的主要手段,它對(duì)空間數(shù)據(jù)挖掘也是如此。2023/1/3119逐步求精的分層技術(shù)逐步求精(ProgressiveRefinement)的分層是基于空間關(guān)系的,因此空間關(guān)系可以應(yīng)用在一個(gè)更粗糙或者更精細(xì)的層次上。由于空間應(yīng)用的數(shù)據(jù)量十分龐大,在尋求更多精確響應(yīng)之前要先做出一些近似響應(yīng)。MBR就是一個(gè)近似物體形狀的辦法。四叉樹(shù)、R-樹(shù)和其他大多數(shù)空間索引技術(shù)都采用了一種逐步求精的方式。逐步求精可以看作是對(duì)處理問(wèn)題無(wú)用的數(shù)據(jù)所做的過(guò)濾。2023/1/3120泛化數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象在原始的概念層次包含有詳細(xì)的信息,經(jīng)常需要將大量數(shù)據(jù)的集合進(jìn)行概括并以較高的概念層次展示,即對(duì)數(shù)據(jù)進(jìn)行泛化?;诜夯臄?shù)據(jù)挖掘方法假定背景知識(shí)以概念層次的形式存在。概念層次可由專(zhuān)家提供,或借助數(shù)據(jù)分析自動(dòng)生成??臻g數(shù)據(jù)庫(kù)中可以定義兩種類(lèi)型的概念層次:空間概念層:地理區(qū)域之間空間關(guān)系的概念層次。非空間概念層:非空間屬性所聯(lián)系的非空間數(shù)據(jù)對(duì)應(yīng)的概念層次??臻g數(shù)據(jù)應(yīng)用的歸納可以被分為兩種子類(lèi):空間數(shù)據(jù)支配泛化:空間數(shù)據(jù)支配泛化做的是基于空間位置的聚類(lèi)(所有靠近的實(shí)體被分在一組中)。非空間數(shù)據(jù)支配泛化:根據(jù)非空間屬性值的相似性做聚類(lèi)。2023/1/3121空間數(shù)據(jù)支配泛化算法在空間數(shù)據(jù)支配泛化算法中,首先對(duì)空間數(shù)據(jù)進(jìn)行歸納:歸納進(jìn)行至區(qū)域的數(shù)量達(dá)到閾值為止。然后對(duì)相關(guān)的非空間屬性做相應(yīng)地更改。例如,要知道我國(guó)西北部地區(qū)的平均降雨量,可以在空間層次中尋找西北部所有省,再對(duì)非空間屬性(降雨量)進(jìn)行比較,或者歸納(平均降雨量多、中等、少量等)。典型的空間數(shù)據(jù)支配泛化算法描述:算法8-1空間數(shù)據(jù)支配泛化算法輸入:空間數(shù)據(jù)庫(kù)D;空間層次H;概念層次C;查詢(xún)Q。輸出:所需一般特征的規(guī)則r。(1)D’←從數(shù)據(jù)庫(kù)D中按查詢(xún)Q獲得的數(shù)據(jù)集合;(2)根據(jù)H的結(jié)構(gòu),把數(shù)據(jù)合并到區(qū)域中,直到區(qū)域的數(shù)目達(dá)到所需的閾值,或者已經(jīng)到達(dá)H中所要求的層次;(3)FOReach所找的區(qū)域DOBEGIN(4)對(duì)非空間屬性執(zhí)行面向?qū)傩缘臍w納;(5)產(chǎn)生并輸出所找到的泛化規(guī)則;(6)END.2023/1/3122非空間數(shù)據(jù)支配泛化算法算法首先對(duì)非空間屬性作面向?qū)傩缘臍w納,將其泛化至更高的概念層次。然后,將具有相同的泛化屬性值的相鄰區(qū)域合并在一起,可用鄰近方法忽略具有不同非空間描述的小區(qū)域。查詢(xún)的結(jié)果生成包含少量區(qū)域的地圖,這些區(qū)域共享同一層次的非空間描述。

2023/1/3123統(tǒng)計(jì)信息網(wǎng)格方法STING介紹統(tǒng)計(jì)學(xué)信息網(wǎng)格方法(STatistical

INformationGrid-basedmethod—STING),使用了一種類(lèi)似四叉樹(shù)的分層技術(shù),把空間區(qū)域分成矩形單元。對(duì)空間數(shù)據(jù)庫(kù)掃描一次,可以找到每個(gè)單元的統(tǒng)計(jì)參數(shù)(平均數(shù),變化性,分布類(lèi)型)。網(wǎng)格結(jié)構(gòu)中的每個(gè)結(jié)點(diǎn)概括了該網(wǎng)格中所含內(nèi)部屬性的信息。通過(guò)獲取這些信息,很多數(shù)據(jù)挖掘請(qǐng)求(包括聚類(lèi))都可以通過(guò)檢驗(yàn)單元統(tǒng)計(jì)得到響應(yīng)。STING方法可以看作是一種層次聚類(lèi)技術(shù)。層級(jí)的頂層的組成就是整體空間。最低層是代表每個(gè)最小單元的葉子結(jié)點(diǎn)。如果使用一個(gè)單元在下一層中擁有四個(gè)子單元(網(wǎng)格)的話,單元的分割與四叉樹(shù)中是一樣的。2023/1/3124第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/3125空間規(guī)則的主要類(lèi)型空間規(guī)則可以概括對(duì)空間實(shí)體的結(jié)構(gòu)及其之間關(guān)系的描述。在空間數(shù)據(jù)挖掘中有三種類(lèi)型的規(guī)則:空間特性規(guī)則:描述數(shù)據(jù),如北京市家庭平均年收入為30000元??臻g判別規(guī)則:描述不同種類(lèi)數(shù)據(jù)間的差異,依靠它們能夠區(qū)分不同種類(lèi)的特點(diǎn)。如北京市家庭平均年收入為30000元,而上海的家庭平均年收入為35000元??臻g關(guān)聯(lián)規(guī)則:是兩個(gè)數(shù)據(jù)集合之間的關(guān)聯(lián)。如在北京市、住在國(guó)貿(mào)附近的家庭的平均收入為50000元。所有這些規(guī)則都可以被看作是對(duì)空間類(lèi)型的描述,而描述是一種為數(shù)據(jù)庫(kù)或者其中一些子集找到一個(gè)表示的方法。特性規(guī)則是一種最簡(jiǎn)化的形式。2023/1/3126空間關(guān)聯(lián)規(guī)則空間關(guān)聯(lián)規(guī)則是空間數(shù)據(jù)實(shí)體之間的關(guān)聯(lián),有:非空間的先決條件和空間性的結(jié)果:如在北京、所有的重點(diǎn)學(xué)校都是位于老住宅區(qū)附近。空間性先決條件和非空間的結(jié)果:如在北京、房子在國(guó)貿(mào)附近,就比較貴。空間性先決條件和空間性結(jié)果:如在北京、所有市區(qū)的房子都在三環(huán)以?xún)?nèi)??臻g關(guān)聯(lián)規(guī)則挖掘是傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘的延伸,常用最小支持度和最小可信度來(lái)作為基本的統(tǒng)計(jì)參數(shù),由于空間數(shù)據(jù)的特點(diǎn),往往是在多層概念上進(jìn)行歸納。挖掘空間關(guān)聯(lián)規(guī)則的有效方法是自上而下、逐步加深的搜索技術(shù)。首先在高的概念層次進(jìn)行搜索,在較粗的精度級(jí)別查找頻繁發(fā)生的模式和在這些模式中較強(qiáng)的隱含關(guān)系;然后,對(duì)頻繁發(fā)生的模式加深搜索至較低的概念層次,這種處理持續(xù)到找不到頻繁發(fā)生的模式為止。2023/1/3127空間關(guān)聯(lián)規(guī)則基本步驟典型的五步算法:步驟1:通過(guò)給定的查詢(xún)抽取出相關(guān)的數(shù)據(jù)。步驟2:應(yīng)用一個(gè)粗的空間運(yùn)算方法,計(jì)算整個(gè)相關(guān)數(shù)據(jù)的集合。步驟3:過(guò)濾出那些支持度小于最小支持度閾值的1階謂詞。步驟4:應(yīng)用一個(gè)細(xì)化的空間計(jì)算方法,從所導(dǎo)出的粗的謂詞集合中計(jì)算謂詞。步驟5:向低層深入,在多個(gè)概念層次上找到關(guān)聯(lián)規(guī)則的完整集合。算法8-4

空間關(guān)聯(lián)規(guī)則算法輸入:空間數(shù)據(jù)庫(kù)D;概念層次C;層次的最小支持度和可信度s和α;尋找感興趣實(shí)體的查詢(xún)q;感興趣的拓?fù)潢P(guān)系p。輸出:空間關(guān)聯(lián)規(guī)則R。(1)D’=q(D);(2)在D’中應(yīng)用粗糙謂詞,建造CP;//CP是由滿(mǎn)足D’中實(shí)體對(duì)的粗糙謂詞組成的(3)通過(guò)尋找滿(mǎn)足s的粗糙謂詞來(lái)找到頻繁粗糙謂詞FCP;(4)從FCP中找到頻繁精確謂詞FFP;(5)尋找所有的頻繁精確謂詞得到R,然后歸納準(zhǔn)則.2023/1/3128第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/3129空間分類(lèi)方法空間分類(lèi)方法用來(lái)對(duì)空間實(shí)體的集合進(jìn)行分類(lèi)。給空間實(shí)體分類(lèi),可以通過(guò)非空間屬性或空間屬性或二者結(jié)合,并可利用概念層次來(lái)進(jìn)行取樣。對(duì)于樣本數(shù)據(jù)的訓(xùn)練可以通過(guò)改造傳統(tǒng)的分類(lèi)算法來(lái)完成,例如,對(duì)ID3算法擴(kuò)展。2023/1/3130空間決策樹(shù)建造一個(gè)決策樹(shù),有五個(gè)主要步驟:根據(jù)已知的分類(lèi),從數(shù)據(jù)D中找到例子S。確定最佳謂詞p用來(lái)分類(lèi)。一般首先在較粗的層次中尋找相關(guān)謂詞,然后再在較為細(xì)化的層次。找到最佳的緩沖區(qū)大小和形狀。對(duì)于取樣中的每個(gè)實(shí)體,它周?chē)膮^(qū)域被稱(chēng)為緩沖區(qū)。目標(biāo)是選擇一個(gè)能產(chǎn)生對(duì)測(cè)試集中的類(lèi)型進(jìn)行最不同的緩沖區(qū)。使用p和C,對(duì)每個(gè)緩沖區(qū)歸納謂詞。使用泛化的謂詞和ID3建造二叉樹(shù)T。算法8-5

空間決策樹(shù)算法輸入:空間數(shù)據(jù)庫(kù)D;概念層次C;預(yù)定的類(lèi)別。輸出:二叉決策樹(shù)T。(1)根據(jù)預(yù)定的類(lèi)別,從數(shù)據(jù)D中找到例子S;(2)確定最佳謂詞p用來(lái)分類(lèi);(3)找到最佳的緩沖區(qū)大小和形狀;(4)使用p和C,對(duì)每個(gè)緩沖區(qū)歸納謂詞;(5)使用泛化的謂詞和ID3建造二叉樹(shù)T.2023/1/3131第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/3132空間聚類(lèi)空間聚類(lèi)算法必須在大型多維數(shù)據(jù)庫(kù)上有效工作,而且應(yīng)該能夠探測(cè)到不同形狀的聚類(lèi)。因此,難度和挑戰(zhàn)性要比傳統(tǒng)數(shù)據(jù)要大??臻g聚類(lèi)找到的聚類(lèi)不應(yīng)該依賴(lài)于檢驗(yàn)空間中的點(diǎn)的順序,而且聚類(lèi)也不應(yīng)該受不相干的點(diǎn)影響。傳統(tǒng)的聚類(lèi)算法可以通過(guò)改造來(lái)實(shí)現(xiàn)空間數(shù)據(jù)聚類(lèi)。2023/1/3133基于隨機(jī)搜索的聚類(lèi)方法CLARANS擴(kuò)展CLARANS算法可以表示為查找一個(gè)圖,圖中的每個(gè)節(jié)點(diǎn)都是潛在的解決方案。在替換一個(gè)中心點(diǎn)后獲得的聚類(lèi)稱(chēng)為當(dāng)前聚類(lèi)的鄰居。隨意測(cè)試的鄰居的數(shù)目由參數(shù)maxneighbor限制。如果找到一個(gè)更好的鄰居,將中心點(diǎn)移至鄰居節(jié)點(diǎn),重新開(kāi)始上述過(guò)程,否則在當(dāng)前的聚類(lèi)中生成一個(gè)局部最優(yōu)。找到一個(gè)局部最優(yōu)后,再任意選擇一個(gè)新的節(jié)點(diǎn)重新尋找新的局部最優(yōu)。局部最優(yōu)的數(shù)目被參數(shù)numlocal限制。CLARANS并不搜索遍所有的求解空間,也不限制在任何具體的采樣中。CLARANS每次迭代的計(jì)算復(fù)雜度與對(duì)象的數(shù)量基本呈線性關(guān)系?;贑LARANS的空間數(shù)據(jù)聚類(lèi)算法有兩種:空間支配算法SD(CLARANS)和非空間支配算法NSD(CLARANS)。2023/1/3134DBCLASD算法一種大型空間數(shù)據(jù)庫(kù)基于距離分布的聚類(lèi)算法,叫做DBCLASD(DistributionBasedClusteringofLargeSpatialDatabases),它是DBSCAN的擴(kuò)展。假定聚類(lèi)中的項(xiàng)目是均勻分布的,算法嘗試確定滿(mǎn)足最近鄰居距離的分布。只要最近的鄰居距離滿(mǎn)足均一分布的假設(shè),那么這個(gè)元素就被加入聚類(lèi)。算法8-7DBCLASD算法輸入:要被聚類(lèi)的空間實(shí)體D;輸出:聚類(lèi)集合K。(1)K←0;//初始化,沒(méi)有聚類(lèi)(2)c←Ф;//初始化候選集合為空(3)FOReachpointpinDDOBEGIN(4)IFpisnotinaclusterTHENBEGIN(5)

創(chuàng)建一個(gè)新的聚類(lèi)C,并把p加入C;(6)

把p臨近的點(diǎn)加入C;(7)END (8)FOReachpointqinCDOBEGIN(9)

把C中沒(méi)有處理過(guò)的點(diǎn)q的鄰居點(diǎn)加入C;(10)K←K∪{C}(11)END.2023/1/3135BANG算法BANG方法使用了一種類(lèi)似k-D樹(shù)的網(wǎng)格結(jié)構(gòu)。這個(gè)結(jié)構(gòu)為適應(yīng)屬性的分布而做了一定調(diào)整,使密集的區(qū)域具有大量的更小的網(wǎng)格,而不夠密集的區(qū)域只有少量的更大的網(wǎng)格。接著按照網(wǎng)格(塊)的密度排序,也就是按照區(qū)域分割的網(wǎng)格里的項(xiàng)目數(shù)量。根據(jù)期望的聚類(lèi)數(shù)量,那些密度最大的網(wǎng)格被選為聚類(lèi)的中心。對(duì)于每個(gè)選定的網(wǎng)格,只要它們的密度小于或者等于當(dāng)前這個(gè)聚類(lèi)的中心,就把這個(gè)臨近的網(wǎng)格加入。2023/1/3136小波聚類(lèi)用小波聚類(lèi)歸納空間聚類(lèi)的方法是把數(shù)據(jù)看作像STING那樣的信號(hào),小波聚類(lèi)使用的是網(wǎng)格。歸納聚類(lèi)的時(shí)間復(fù)雜度是O(n),并且不受外界影響。與一些方法不同,小波聚類(lèi)可以找到任意形狀的聚類(lèi),而且不需要知道期望的聚類(lèi)個(gè)數(shù)。n維空間的空間實(shí)體集合可看作是一個(gè)信號(hào)。聚類(lèi)的邊界與高頻相應(yīng)。聚類(lèi)本身是低頻率高振幅的。可以使用信號(hào)處理技術(shù)尋找空間中低頻的部分。可以使用小波變換來(lái)尋找聚類(lèi)。小波變換是用來(lái)找出信號(hào)中的頻譜的。一個(gè)空間實(shí)體的小波變換分解維空間圖像的層次。它們可以用來(lái)把一個(gè)圖像縮放為不同的大小。2023/1/3137使用近似值來(lái)確定聚類(lèi)的特性一旦找到了空間聚類(lèi),可以使用近似值來(lái)確定這些聚類(lèi)的特性:通過(guò)確定聚類(lèi)附近的特征實(shí)現(xiàn)的。例如,一個(gè)聚類(lèi)“靠近學(xué)?!?。通常更多地用復(fù)雜的近似多邊形表示,而非指用簡(jiǎn)單的MBR。聚合鄰近定義為衡量一個(gè)聚類(lèi)(或者元素群)與一個(gè)特征(或者空間中某個(gè)實(shí)體)接近的程度。聚合鄰近距離可以由聚類(lèi)中所有點(diǎn)的距離總和來(lái)度量。CRH算法是典型的確定聚合鄰近關(guān)系方法。它使用三種幾何形狀來(lái)界定一個(gè)聚類(lèi):內(nèi)接矩形R:包含了一系列點(diǎn)的MBR。矩形邊緣與坐標(biāo)軸平行。外接圓C:包圍一系列點(diǎn)的圓周;以?xún)?nèi)接矩形的對(duì)角線為直徑。凸多邊形H:包含點(diǎn)的集合的最小邊界。CRH首先使用一個(gè)外接圓來(lái)接近給定的類(lèi);其次使用內(nèi)接矩形來(lái)表示特征,并根據(jù)特征與聚類(lèi)的接近程度來(lái)進(jìn)行排序;最后使用凸多邊形來(lái)評(píng)估前面所有最接近的特征。2023/1/3138第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/3139空間挖掘的其他問(wèn)題1.空間在線分析挖掘空間在線分析挖掘(SOLAM:SpatialOnlineAnalyticalMining)建立在多維視圖基礎(chǔ)之上,是基于網(wǎng)絡(luò)的驗(yàn)證型空間數(shù)據(jù)挖掘和分析工具。空間在線分析挖掘通過(guò)數(shù)據(jù)分析與報(bào)表模塊的查詢(xún)和分析工具(OLAP、決策分析、數(shù)據(jù)挖掘)完成對(duì)信息和知識(shí)的提取,以滿(mǎn)足決策的需要。它建立在客戶(hù)/服務(wù)器的結(jié)構(gòu)之上,由用戶(hù)驅(qū)動(dòng),支持多維數(shù)據(jù)分析,在用戶(hù)的指導(dǎo)下驗(yàn)證設(shè)定的假設(shè)。美國(guó)BusinessObjects公司的BusinessObjects(BO)就是采用DataWarehouse+OLAP+DataMining方案推出的第一個(gè)集多數(shù)據(jù)源查詢(xún)、任意報(bào)表生成和OLAP及數(shù)據(jù)挖掘技術(shù)為一體的決策支持工具軟件包。2023/1/3140空間挖掘的其他問(wèn)題2.挖掘圖像數(shù)據(jù)庫(kù)的方法圖像數(shù)據(jù)庫(kù)是一類(lèi)特殊的空間數(shù)據(jù)庫(kù),其數(shù)據(jù)幾乎全部是圖像或圖片。圖像數(shù)據(jù)庫(kù)用于遙感、醫(yī)學(xué)圖像等應(yīng)用,通常以柵格形式表示,柵格代表一個(gè)或多個(gè)光譜范圍的圖像密度。圖像數(shù)據(jù)庫(kù)的挖掘可以看成是空間數(shù)據(jù)挖掘的一部分,其主要問(wèn)題在于如何區(qū)分圖像。以下列出對(duì)這方面問(wèn)題的一些研究。Magellan研究恒星分類(lèi)POSS-II(SecondPalomarObservatorySkySurvey)基于內(nèi)容的時(shí)空查詢(xún)CONQUEST

2023/1/3141空間挖掘的其他問(wèn)題3.基于Rough集方法Rough集理論被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息的分類(lèi)分析和知識(shí)獲取中。Rough集理論為空間數(shù)據(jù)的屬性分析和知識(shí)發(fā)現(xiàn)開(kāi)辟了一條新途徑,可用于空間數(shù)據(jù)庫(kù)屬性表的一致性分析、屬性的重要性、屬性依賴(lài)、屬性表簡(jiǎn)化、最小決策和分類(lèi)算法生成等。Rough集方法與其他知識(shí)發(fā)現(xiàn)方法相結(jié)合,可以在數(shù)據(jù)庫(kù)中數(shù)據(jù)不確定情況下獲取多種知識(shí)。4.基于云理論挖掘方法云理論是由李德毅等提出的一種用于處理不確定性的新理論,由云模型、不確定性推理和云變換三大支柱構(gòu)成。云理論將模糊性和隨機(jī)性結(jié)合起來(lái),解決了作為模糊集理論基石的隸屬函數(shù)概念的固有缺陷,為KDD中定量與定性相結(jié)合的處理方法奠定了基礎(chǔ),可以用于處理GIS中融隨機(jī)性和模糊性為一體的屬性不確定性。2023/1/3142空間挖掘的其他問(wèn)題5.探測(cè)性的數(shù)據(jù)分析(EDA)探測(cè)性的數(shù)據(jù)分析,簡(jiǎn)稱(chēng)EDA,采用動(dòng)態(tài)統(tǒng)計(jì)圖形和動(dòng)態(tài)鏈接窗口技術(shù)將數(shù)據(jù)及其統(tǒng)計(jì)特征顯示出來(lái),可發(fā)現(xiàn)數(shù)據(jù)中非直觀的數(shù)據(jù)特征及異常數(shù)據(jù)。EDA技術(shù)在知識(shí)發(fā)現(xiàn)中用于選取感興趣的數(shù)據(jù)子集,即數(shù)據(jù)聚焦,并可初步發(fā)現(xiàn)隱含在數(shù)據(jù)中的某些特征和規(guī)律。6.可視化現(xiàn)代的數(shù)據(jù)可視化(DataVisualization)技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺(jué)及人機(jī)交互技術(shù)等多個(gè)領(lǐng)域。數(shù)據(jù)可視化概念首先來(lái)自科學(xué)計(jì)算可視化。2023/1/3143第八章空間挖掘

內(nèi)容提要引言空間數(shù)據(jù)概要空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué)泛化與特化空間規(guī)則空間分類(lèi)算法空間聚類(lèi)算法空間挖掘的其他問(wèn)題空間數(shù)據(jù)挖掘原型系統(tǒng)介紹空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向其他2023/1/3144空間數(shù)據(jù)挖掘原型系統(tǒng)介紹

加拿大SimonFraser大學(xué)開(kāi)發(fā)的空間數(shù)據(jù)挖掘系統(tǒng)原型GeoMiner很有代表性。該系統(tǒng)包含有三大模塊:空間數(shù)據(jù)立方體構(gòu)建模塊,空間聯(lián)機(jī)分析處理(OLAP)模塊和空間數(shù)據(jù)挖掘模塊,采用的空間數(shù)據(jù)挖掘語(yǔ)言是GMQL。目前已能挖掘三種類(lèi)型的規(guī)則:特征規(guī)則、判別規(guī)則和關(guān)聯(lián)規(guī)則。GeoMiner的體系結(jié)構(gòu)如圖8-12所示,包含四個(gè)部分:圖形用戶(hù)界面,用于進(jìn)行交互式地挖掘并顯示挖掘結(jié)果;發(fā)現(xiàn)模塊集合,含有上述三個(gè)已實(shí)現(xiàn)的知識(shí)發(fā)現(xiàn)模塊以及四個(gè)計(jì)劃實(shí)現(xiàn)的模塊(分別用實(shí)線框和虛線框表示);空間數(shù)據(jù)庫(kù)服務(wù)器,包括MapInfo、ESRI/OracleSDE、Informix-Illustra以及其他空間數(shù)據(jù)庫(kù)引擎;存儲(chǔ)非空間數(shù)據(jù)、空間數(shù)據(jù)和概念層次的數(shù)據(jù)庫(kù)和知識(shí)庫(kù)。2023/1/3145空間數(shù)據(jù)挖掘原型系統(tǒng)介紹

空間數(shù)據(jù)圖形用戶(hù)界面GeoMiner:知識(shí)發(fā)現(xiàn)模塊空間數(shù)據(jù)庫(kù)服務(wù)器和數(shù)據(jù)立方體非空間數(shù)據(jù)概念層次空間特征規(guī)則發(fā)現(xiàn)模塊空間關(guān)聯(lián)規(guī)則發(fā)現(xiàn)模塊空間預(yù)測(cè)模塊空間模式分析模塊空間比較規(guī)則發(fā)現(xiàn)模塊空間分類(lèi)規(guī)則發(fā)現(xiàn)模塊空間聚類(lèi)分析模塊未來(lái)的空間發(fā)現(xiàn)模塊2023/1/3146空間數(shù)據(jù)挖掘原型系統(tǒng)介紹到目前為止,尚沒(méi)有對(duì)空間數(shù)據(jù)挖掘查詢(xún)語(yǔ)言SDMQL(SpatialDataMiningQueryLanguage)的定義。Han等人為了挖掘地理空間數(shù)據(jù)庫(kù)設(shè)計(jì)了一種地理數(shù)據(jù)挖掘查詢(xún)語(yǔ)言GMQL(Geo-MiningQueryLanguage),它是對(duì)空間SQL的擴(kuò)展,并成功地應(yīng)用于空間數(shù)據(jù)挖掘系統(tǒng)原型GeoMiner中。GMQL可作為制定SDMQL的基礎(chǔ),以進(jìn)一步界定SDMQL語(yǔ)言的基本原語(yǔ)。SDMQL的設(shè)計(jì)指導(dǎo)原則主要有:在空間數(shù)據(jù)挖掘請(qǐng)求中應(yīng)說(shuō)明用于挖掘的相關(guān)數(shù)據(jù)集。在空間數(shù)據(jù)挖掘請(qǐng)求中應(yīng)說(shuō)明想要挖掘的知識(shí)的種類(lèi)。挖掘過(guò)程中應(yīng)該可能運(yùn)用相關(guān)的背景知識(shí)。挖掘結(jié)果應(yīng)該能用較概括的或多層次概念的術(shù)語(yǔ)來(lái)表述。應(yīng)能夠說(shuō)明各種各樣的閾值,使得可以靈活地過(guò)濾掉那些不是很令人感興趣的知識(shí)。應(yīng)采用類(lèi)似SQL的語(yǔ)法以適應(yīng)在高級(jí)語(yǔ)言的水平上進(jìn)行數(shù)據(jù)挖掘并與關(guān)系查詢(xún)語(yǔ)言SQL保持自然的融合。2023/1/3147第八章空間挖掘

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論