電子政務(wù)基礎(chǔ)教程 第10章 聚類分析_第1頁
電子政務(wù)基礎(chǔ)教程 第10章 聚類分析_第2頁
電子政務(wù)基礎(chǔ)教程 第10章 聚類分析_第3頁
電子政務(wù)基礎(chǔ)教程 第10章 聚類分析_第4頁
電子政務(wù)基礎(chǔ)教程 第10章 聚類分析_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第10章聚類分析10.1概述聚類分析(clusteranalysis)簡稱聚類,是將數(shù)據(jù)對象集依其特征屬性按“相似者相容”原則劃分為不同的類或簇(clusters)的過程。數(shù)據(jù)聚類分析是根據(jù)數(shù)據(jù)的內(nèi)容與性質(zhì)將其分到不同的類或簇中,使同簇數(shù)據(jù)對象有較大的相似性,不同簇屬對象有較大的相異性。聚類分析的過程是:根據(jù)數(shù)據(jù)對象的多個觀測指標(biāo),找出一些能夠測量對象或變量間相似程度的統(tǒng)計(jì)值,以其為分類依據(jù),將一些特征相似程度較大的對象(或指標(biāo))聚合為一類,將另一特征些相似程度較大的對象(或指標(biāo))聚合為另一類,直至將所有對象(或指標(biāo))都聚合完畢,形成一個分類系統(tǒng)。聚類分析在許多領(lǐng)域廣泛應(yīng)用,包括機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,模式識別,圖像分析,人工智能,用戶體驗(yàn),客戶行為分析等。聚類分析在電子政務(wù)領(lǐng)域有重要的應(yīng)用價值,它能發(fā)現(xiàn)與揭示許多非定式、非常規(guī)、動態(tài)變化和問題。如在服務(wù)層面上,它可知道何時、何地、何類公眾經(jīng)常求助于職能機(jī)構(gòu),要求何種服務(wù),解決何種問題?可按公眾與政務(wù)系統(tǒng)接觸的次數(shù)、方式、界面所反映的問題;許多貌似不同的問題間有無關(guān)聯(lián)度?他們的意見反饋、滿意度等;均能通過聚類分析識別偶發(fā)性問題與經(jīng)常性問題,提示潛在與隱含問題等。由此可刻畫不同需求與行為的社會群體,針對不同服務(wù)對象提供更具針對性的政務(wù)服務(wù),改善公眾體驗(yàn)等等。10.2政務(wù)數(shù)據(jù)聚類分析10.2.1政務(wù)領(lǐng)域的聚類分析需求政務(wù)領(lǐng)域,聚類分析主要用于大數(shù)據(jù)分析與決策輔助。在網(wǎng)絡(luò)環(huán)境中,政務(wù)外網(wǎng)信息形成數(shù)據(jù)海洋,內(nèi)網(wǎng)信息也隨社會信息和機(jī)構(gòu)業(yè)務(wù)的發(fā)展而呈指數(shù)級數(shù)增長,內(nèi)外網(wǎng)信息疊加后常給各級領(lǐng)導(dǎo)層造成“數(shù)據(jù)爆炸而信息稀缺”的感覺。迄今,人們提出了許多聚類算法試圖解決大數(shù)據(jù)特征歸集問題。聚類分析還應(yīng)用于模式識別、圖像處理、計(jì)算機(jī)視覺、模糊控制等領(lǐng)域,并取得長足的發(fā)展。這些技術(shù)都是傳統(tǒng)的面向業(yè)務(wù)的電子政務(wù)向新型的面向分析預(yù)測與決策支持型的電子政務(wù)發(fā)展所不可或缺的。10.2.2聚類分析的優(yōu)點(diǎn)聚類分析有許多優(yōu)點(diǎn),對電子政務(wù)領(lǐng)域,其主要適用優(yōu)點(diǎn)如下。幫助用戶從海量數(shù)據(jù)中“淘取”有用的資源信號,將其提升為知識資源。從總體上而不是從孤立信源、單一渠道、孤立消息報導(dǎo)角度上建立供決策分析的知識資源,有助于決策者洞察全局,形成大局觀與縱深觀。自動識別與跟蹤各類事件的起始、發(fā)展、走勢和各類主題此消彼長或與其他因素匯聚壯大的演化歷程。幫助決策者在各類看似孤立的事件間建立關(guān)聯(lián),消除知識斷層。優(yōu)化政府機(jī)構(gòu)資源供給與發(fā)布的信息流。及時發(fā)現(xiàn)并統(tǒng)計(jì)一些關(guān)鍵性的信號詞、主題語等,響應(yīng)各類宏觀資源集聚變化,等等。在當(dāng)前社會經(jīng)濟(jì)、產(chǎn)業(yè)與科技迅猛發(fā)展的環(huán)境中,新事物、新現(xiàn)象、新產(chǎn)品與新業(yè)態(tài)等層出不窮,傳統(tǒng)的剛性政務(wù)信息資源分類目錄體系已不適應(yīng)于政務(wù)大數(shù)據(jù)的管理與應(yīng)用需求。聚類分析的信息挖掘、動態(tài)資源解析與個性目錄生成等就能較好地適應(yīng)這一發(fā)展需求。10.2.3聚類分析的一般方法從統(tǒng)計(jì)學(xué)觀點(diǎn),聚類分析是通過數(shù)據(jù)建模來歸集對象的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類分析法包括系統(tǒng)聚類或?qū)哟尉垲悾╤ierarchicalcluster)法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點(diǎn)等算法的聚類分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,如SPSS、SAS等。電子政務(wù)中,大量信息是非結(jié)構(gòu)型文本,聚類分析通過跟蹤各信息源的文本信息,對經(jīng)掃描檢測出的大量核心或主題詞劃分成若干組類,再統(tǒng)計(jì)其特征系列后進(jìn)行計(jì)算處理。幾種主要聚類方法有:劃分法、層次法、密度法、網(wǎng)格法與基于模型的方法等1)劃分法(partitioningmethods)給定具有n個對象的數(shù)據(jù)集,采用劃分法對數(shù)據(jù)集進(jìn)行k個劃分,每個劃分(每組)代表一個簇k≤n,每個簇至少包含一個對象,且每個對象一般只能屬于一個組。對給定的k值,劃分法一般要做初始劃分,然后采取迭代重新定位技術(shù),通過讓對象在不同組間移動來改進(jìn)劃分的準(zhǔn)確度和精度。好的劃分原則是:同簇中對象間的相似性很高(或距離很近),異簇對象間的相異度很高(或距離很遠(yuǎn))。幾種算法如下:(1)K-Means算法

又叫K均值算法,是目前最著名、使用最廣泛的聚類算法。在給定一個數(shù)據(jù)集和需要劃分的數(shù)目k后,該算法可根據(jù)某個距離函數(shù)反復(fù)將數(shù)據(jù)劃分到k個簇中,直到收斂為止。(2)K-Medoids算法

又稱K中心點(diǎn)算法,它用最接近簇中心的一個對象來表示劃分的每個簇。其算法與K-Means算法的劃分過程相似,最大的區(qū)別是K-Medoids算法是用簇中最靠近中心點(diǎn)的一個真實(shí)數(shù)據(jù)對象來代表該簇,而K-Medoids算法用計(jì)算出來的簇中對象的平均值來代表該簇,此平均值是虛擬的,并無真實(shí)的數(shù)據(jù)對象。2)層次法

層次法(HierarchicalMethods)的思路是:開始時每個樣本(或變量)自成一類,聚類分析按某種方法度量所有樣本間的親疏程度,將最相似的樣本先聚成一小類;再度量剩余樣本和小類間的親疏程度,將當(dāng)前最接近的樣本和小類聚成一類;接下來,再度量剩余樣本與小類間的親疏程度,并將這時最接近的樣本與小類聚成一類;如此反復(fù),直到所有樣本各成其類為止。具體做法可描述為:在給定n個對象的數(shù)據(jù)集后,用層次方法對數(shù)據(jù)集進(jìn)行層次分解,直到滿足某種收斂條件為止。按層次分解的形式不同,層次方法又可分為凝聚層次聚類和分裂層次聚類。層次方法的缺點(diǎn)在于,合并或分裂點(diǎn)的選擇較困難,對局部來說,好的合并或分裂點(diǎn)的選擇往往不能保證會得到高質(zhì)量的全局聚類結(jié)果,且一旦一個步驟(合并或分裂)完成,它就不能被撤銷了。其代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。層次法不僅需要度量個體與個體間的距離,還要度量類與類之間的距離。類間距被度量出來后,距離最小的兩個小類將首先被合并為一類。由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。類間距離的一些度量方法如下:①

最短距離法(NearestNeighbor):定義類與類之間的距離為兩類最近樣本的距離。2.最長距離法(FurtherNeighbor):定義類與類之間的距離為兩類最遠(yuǎn)樣本的距離。3.組間平均連接法(Between-grouplinkage):定義類間距離為兩組元素兩兩之間的平均距離。

4.重心法(Centroidclustering):又稱均值法,定義類間距離為兩類重心(各類的均值)的距離,即如圖10-6所示,每次得到新的簇后,重新計(jì)算重心值。其他還有組內(nèi)平均連接法(Within-grouplinkage)、中位數(shù)法(Medianclustering)、離差平方和法(Ward'smethod)等,均各有優(yōu)缺點(diǎn)。3)密度法以距離為相似性的描述指標(biāo)進(jìn)行聚類,只能發(fā)現(xiàn)球狀類型的數(shù)據(jù),對非球狀類型的數(shù)據(jù)集,只根據(jù)距離來描述和判斷是不夠的,就有了基于密度的方法(Density-BasedMethods),其原理是:只要鄰近區(qū)域內(nèi)的密度(對象數(shù)量)超過了某個閾值,就繼續(xù)聚類。換言之,給定某個簇中的每個數(shù)據(jù)點(diǎn)(數(shù)據(jù)對象),在一定范圍內(nèi)必須包含一定數(shù)量的其他對象。該算法從數(shù)據(jù)對象的分布密度出發(fā),把密度足夠大的區(qū)域連接在一起,因此可以發(fā)現(xiàn)任意形狀的類。該算法還可以過濾噪聲數(shù)據(jù)(異常值)。

密度法的典型算法包括DBSCAN(Density—BasedSpatialClusteringofApplicationwithNoise)及擴(kuò)展算法OPTICS(OrderingPointstoIdentifytheClusteringStructure),DENCLUE算法等。其中,DBSCAN算法會根據(jù)一個密度閾值來控制簇的增長,將具有足夠高密度的區(qū)域劃分為類,并可在帶有噪聲的空間數(shù)據(jù)庫里發(fā)現(xiàn)任意形狀的聚類。盡管此算法優(yōu)勢明顯,但是缺點(diǎn)就是,該算法需要用戶確定輸入?yún)?shù),對參數(shù)十分敏感。4)網(wǎng)格法即基于網(wǎng)格的方法(Grid-BasedMethods),是將對象空間量化為有限數(shù)目單元(cell),這些單元形成網(wǎng)格結(jié)構(gòu),聚類操作在此網(wǎng)格結(jié)構(gòu)中進(jìn)行。此算法的優(yōu)點(diǎn)是處理速度快,與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān),只與把數(shù)據(jù)空間分為多少個單元有關(guān),即其處理時間常獨(dú)立于數(shù)據(jù)對象的數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān)。網(wǎng)格法有STING算法、CLIQUE算法、WAVE-CLUSTER算法等,典型的是STING(統(tǒng)計(jì)信息網(wǎng)格StatisticalInformationGrid)算法。該算法是一種基于網(wǎng)格的多分辨率聚類技術(shù),將空間區(qū)域劃分為不同分辨率級別的矩形單元,并形成一個層次結(jié)構(gòu),且高層的低分辨率單元會被劃分為多個低一層次的較高分辨率單元。這種算法從最底層的網(wǎng)格開始逐漸向上計(jì)算網(wǎng)格內(nèi)數(shù)據(jù)的統(tǒng)計(jì)信息并儲存。網(wǎng)格建完后,則用類似DBSCAN的方法對網(wǎng)格進(jìn)行聚類。5)基于模型法(model-basedmethods)基于模型法是給每一個聚類假定一個模型,然后尋找能很好地滿足該模型的數(shù)據(jù)集。這樣的模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其他分布,其潛在的假定是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統(tǒng)計(jì)方案和神經(jīng)網(wǎng)絡(luò)方案。除以上幾種外,其他常用的聚類分析法還有:傳遞閉包法,布爾矩陣法,直接聚類法,相關(guān)性分析聚類,基于統(tǒng)計(jì)的聚類方法,等等。10.2.4聚類方法特征

聚類方法具有許多特性,以下特征在電子政務(wù)領(lǐng)域具有特殊的應(yīng)用價值。

(1)簡單直觀。

特別適用于針對一些事態(tài)不清、起因不明、因素眾多、現(xiàn)象紛繁、關(guān)聯(lián)糾纏、甚至彼此矛盾的現(xiàn)象進(jìn)行觀察分析,這對于宏觀決策、趨勢分析、進(jìn)程跟蹤、演化歷程研判、原因根究等領(lǐng)域,都能起重要的輔助功能。

(2)可用于探索性研究。

聚類結(jié)果可提供多個可能的解,既然有主導(dǎo)性現(xiàn)象與問題,也是分枝型問題、甚至極易被忽略的奇點(diǎn)型問題等,關(guān)注點(diǎn)的選擇和最終的求解需要研究者的主觀判斷和后續(xù)的跟蹤分析。

(3)多態(tài)性。

不管實(shí)際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的現(xiàn)象、或可能的求解方向。

(4)主觀性影響。

聚類分析的解相當(dāng)程度取決于研究者所選擇的聚類變量,增加或刪除一些變量對最終解都可能產(chǎn)生實(shí)質(zhì)性的影響。

(5)結(jié)果差異性。

研究者在使用聚類分析時應(yīng)注意可能影響結(jié)果的各個因素。異常值和特殊變量對聚類有較大影響,故當(dāng)分類變量的測量尺度不一致時,需要事先做標(biāo)準(zhǔn)化處理。10.2.4聚類分析的性能電子政務(wù)涉及科技、生產(chǎn)、人文與社會等大量形態(tài)各異的復(fù)雜問題,聚類分析對此有廣闊應(yīng)用空間。同時,也因政務(wù)涉及問題的類型的紛繁復(fù)雜,需要聚類分析具有以下性能。

1)可伸縮性:許多聚類算法對小于200個數(shù)據(jù)對象的小數(shù)據(jù)集工作得很好,但一個普通的政務(wù)數(shù)據(jù)庫就可能包含數(shù)以百萬計(jì)的對象,對這樣的數(shù)據(jù)集合樣本進(jìn)行聚類可能會導(dǎo)致結(jié)論偏差。故政務(wù)應(yīng)用往往需要有高度可伸縮性的聚類算法,既能保證聚類質(zhì)量,又能拓展數(shù)據(jù)處理量的彈性范圍,且具有較好的聚類效果等。2)具有處理不同類型數(shù)據(jù)的能力許多傳統(tǒng)算法被設(shè)計(jì)用來聚類數(shù)值類型的數(shù)據(jù),但電子政務(wù)領(lǐng)域需要聚類其他類型的數(shù)據(jù),如二元類型(binary),分類/標(biāo)稱類型(categorical/nominal),序數(shù)型(ordinal)數(shù)據(jù),文字型或這些數(shù)據(jù)類型的混合。3)發(fā)現(xiàn)任意形狀的聚類許多聚類算法是基于歐幾里得或者曼哈頓距離度量來決定聚類的?;谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇,但政務(wù)領(lǐng)域中的一個簇可能是任意形狀的。因此,采用甚至提出能發(fā)現(xiàn)任意形狀簇的算法就是重要的需求。4)用于決定輸入?yún)?shù)的領(lǐng)域知識最小化一些算法在聚類分析中要求用戶輸入一定的參數(shù),例如希望產(chǎn)生的簇的數(shù)目等。但聚類結(jié)果對于輸入?yún)?shù)十分敏感,且參數(shù)有時很難確定,特別是對于包含高維對象的數(shù)據(jù)集,不僅加重了系統(tǒng)與用戶的負(fù)擔(dān)與時間成本,也使得聚類的質(zhì)量難以控制。5)處理“噪聲”數(shù)據(jù)的能力絕大多數(shù)實(shí)際數(shù)據(jù)集都包含了孤立點(diǎn),缺失,或者錯誤的數(shù)據(jù)。一些聚類算法對于這樣的數(shù)據(jù)敏感,可能導(dǎo)致低質(zhì)量的聚類結(jié)果。6)對輸入順序敏感的去除一些聚類算法對輸入數(shù)據(jù)的順序較敏感,例如,同一個數(shù)據(jù)集合,當(dāng)以不同的順序交給同一個算法時,可能生成差別較大的聚類結(jié)果。開發(fā)對數(shù)據(jù)輸入順序不敏感的算法對大數(shù)據(jù)環(huán)境下的政務(wù)分析具有一定的意義。7)高維度(highdimensionality)一個涉及政務(wù)應(yīng)用的數(shù)據(jù)庫可能包含若干維度或?qū)ο髮傩?。許多聚類算法擅長處理低維數(shù)據(jù),如只涉及兩到三維。人眼在三維情況下能很好地判斷聚類的質(zhì)量,而高維空間中聚類數(shù)據(jù)常具有挑戰(zhàn)性,特別這樣的數(shù)據(jù)可能分布非常稀疏,且高度偏斜,但卻能發(fā)現(xiàn)通常為人忽視的奇點(diǎn)知識。8)基于約束的聚類政務(wù)應(yīng)用往往要在各種約束條件下進(jìn)行聚類。假設(shè)一座城市的主管機(jī)構(gòu)對如何為城市中給定數(shù)目的大型環(huán)保設(shè)施選擇最優(yōu)的安放位置,為作出合理決策,系統(tǒng)需要對全市住宅區(qū)進(jìn)行聚類,但又要同時考慮城市的河流、公路網(wǎng)、每個區(qū)域的功能及住戶要求等。要找到既滿足特定約束,又具有良好聚類特性的數(shù)據(jù)分組常是一項(xiàng)有難度的任務(wù)。9)可解釋性和可用性用戶希望聚類分析的結(jié)果是可解釋的、可理解的和可使用的。即聚類分析要和特定的語義解釋和應(yīng)用相聯(lián)系,應(yīng)用目標(biāo)如何影響聚類方法的選擇也是一個重要課題。目前在政務(wù)領(lǐng)域廣泛采用的知識圖譜也是聚類分析結(jié)果的可視化呈現(xiàn),它以直觀、動態(tài)、多因素、平面與立體形式等將結(jié)果形象化展示出來,往往取得較好結(jié)果。10.2.5聚類分析形式電子政務(wù)聚類分析既需要有信息的空間序列,又需要有時間序列。信息空間聚類用于對資源引擎采集的所有內(nèi)容進(jìn)行熱點(diǎn)聚類,或某個領(lǐng)域的熱點(diǎn)、某個垂直系統(tǒng)、綜合部門內(nèi)部等的熱點(diǎn)聚類。在許多民生決策中,熱點(diǎn)事件、熱點(diǎn)問題通常是直接策動因素。因此,發(fā)現(xiàn)并分析熱點(diǎn)的成因,跟蹤其發(fā)展性態(tài),對于科學(xué)決策、制訂政策、采取措施、化解矛盾于初期、促進(jìn)社會穩(wěn)定等具有重要意義。從時間序列上看,許多社會事件、產(chǎn)業(yè)與經(jīng)濟(jì)現(xiàn)象的萌生、初始、發(fā)展、壯大到消亡等都具有完整的生命周期,既符合一般的周期規(guī)律,又有其獨(dú)特點(diǎn)。一些重要事件的發(fā)生、演化與消亡過程會在各種公眾傳媒中反映出來,并通過資源引擎進(jìn)入政務(wù)系統(tǒng)。通過信息聚類,決策者就能根據(jù)熱點(diǎn)信息的走勢研判其發(fā)展趨勢,在恰當(dāng)?shù)臅r間環(huán)節(jié)上采取恰當(dāng)?shù)拇胧?/p>

同時,決策者往往還要對歷史上相似事件的處理和應(yīng)對措施的正確性、適合性等進(jìn)行回顧與參考,以總結(jié)經(jīng)驗(yàn)教訓(xùn),使當(dāng)前的決策更加科學(xué)、及時、合理。如各國應(yīng)對非典、瘋牛病、高致病禽流感、多種區(qū)域性流感等重大疫情的歷程、采取的各種措施等都有相互借鑒性。因此,政府決策時往往要對歷史上類似事件發(fā)生時段的信息流進(jìn)行切片、聚類,找出其演化脈絡(luò)、評估當(dāng)時的各項(xiàng)應(yīng)對策略、措施與績效,以降低當(dāng)前的決策風(fēng)險。10.3聚類可視化10.3.1聚類可視化的需求聚類技術(shù)多與可視化技術(shù)結(jié)合。如大型政務(wù)系統(tǒng),數(shù)據(jù)引擎每天從數(shù)以百計(jì)的網(wǎng)站中采集上千個頻道的動態(tài)信息后,各級領(lǐng)導(dǎo)往往都想了解今天的熱點(diǎn)有哪些?媒體集聚的事件是什么?各大網(wǎng)站熱論的議題何在?梳理后的信息如不以直觀形象化方式呈現(xiàn),往往起不到提示預(yù)警作用??梢暬⑿蜗蠡膱D形,會直觀呈現(xiàn)當(dāng)前的熱點(diǎn)與動態(tài)演化。系統(tǒng)對監(jiān)測的不同信源自動采集的信息處理后生成聚類圖;社會熱點(diǎn)往往發(fā)萌于某些信源,隨后被各門戶轉(zhuǎn)載、社會瀏覽量提升并被一再轉(zhuǎn)載后而升溫,也會反映到熱島圖中。10.3.2二維政務(wù)資源聚類分析聚類分析結(jié)果可通過平面與立體化圖形,空間與時間分布等多種形式呈現(xiàn),以從不同視角、不同領(lǐng)域來觀測事件的演化過程。

1)二維信息空間聚類分析實(shí)例二維聚類分析的可視化呈現(xiàn)實(shí)例如圖10-12,以某系統(tǒng)對2008年7月10日汶川地震后近2月,來自不同渠道的報導(dǎo)作回溯聚類分析的結(jié)果。2)趨勢聚類圖圖12-12的聚類只反映了某天信息空間的分布,只是一個時域片斷,不能反映事件發(fā)展過程。聚類分析可加上時間坐標(biāo)作時域聚類分析并生成圖像,此時的聚類圖就可反映熱點(diǎn)事件的生命周期。如其何時萌生、何時明顯、何時走強(qiáng)、何時達(dá)峰值、何時衰減、何時湮滅或演化成另一事件等。時序聚類分析對于監(jiān)測特定事件走勢、宏觀調(diào)整結(jié)果分析等更為有用,故稱為“趨勢聚類圖”或“趨勢圖”。這類圖又可分為單一事件趨勢圖與多事件趨勢圖等。10.3.3三維政務(wù)信息聚類分析三維圖像的信息量比二維圖像更大,在三維聚類分析中,可根據(jù)聚集的文檔或信息源數(shù)量來做第三維坐標(biāo)。這樣,任一熱點(diǎn)受媒體關(guān)注的程度以及各熱點(diǎn)間的相對熱度比較就一目了然。10.4聚類分析的綜合應(yīng)用10.4.1聚類分析嵌入個人作業(yè)平臺

以上實(shí)例皆從后臺資源庫生成后,供用戶觀察。先進(jìn)的政務(wù)系統(tǒng)可將聚類功能嵌入常規(guī)作業(yè)流程中,整合一體并將結(jié)果動態(tài)推送到桌面,由此可生成許多新應(yīng)用,尤其是在專題化、個性化信息分析與服務(wù)領(lǐng)域,可用圖10-16實(shí)例說明。圖10-16顯示了一個政務(wù)系統(tǒng)中“分析工具”面板,它將聚類分析系統(tǒng)嵌入作業(yè)平臺,面板分為分析工具區(qū)、標(biāo)題區(qū)與內(nèi)容區(qū)三部分。1)分析工具區(qū)右側(cè)為豎直工具條,其中有“聚類操作”塊,點(diǎn)擊后進(jìn)入本頁面?!胺治龉ぞ摺眳^(qū)上部為各項(xiàng)設(shè)置。有聚類的起始與終止日期,相關(guān)度閾值設(shè)置等,其下為保存標(biāo)題。用戶利用本平臺來做定題聚類,即設(shè)定一個內(nèi)容標(biāo)題,系統(tǒng)檢測到各信源內(nèi)容變化后,就能將符合內(nèi)容特征的資源不斷抓取匯入,本例設(shè)定的標(biāo)題為“性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論