版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、學(xué)校代碼 10345 研究類型 應(yīng)用基礎(chǔ)研究碩 士 學(xué) 位 論 文 題 目: 覆蓋粒計(jì)算及其應(yīng)用研究 research on the covering and its application based on granular computing research on the covering and its applicationbased on granular computingthesis submitted tozhejiang normal universityfor the degree ofmaster of engineeringbyshuang liu(computer
2、software and theory)thesis supervisor: professor jiyi wangjune, 2011覆蓋粒計(jì)算及其應(yīng)用研究摘 要粒計(jì)算是研究基于多層次粒結(jié)構(gòu)的思維方法、問題求解方法、信息處理模式及其相關(guān)理論、技術(shù)和工具的學(xué)科。它覆蓋了所有和粒度相關(guān)的理論、方法和技術(shù),主要用于對(duì)不確定、不準(zhǔn)確、不完整信息的處理,對(duì)大規(guī)模海量的數(shù)據(jù)和對(duì)復(fù)雜問題的求解。粗糙集作為粒計(jì)算的一個(gè)重要分支,在理論和應(yīng)用上不斷取得豐碩成果的同時(shí),也得到了廣泛有意義的推廣。而覆蓋廣義粗糙集理論是pawlak粗糙集理論在劃分基礎(chǔ)上推廣到覆蓋建立起來的,它是研究與覆蓋相關(guān)的理論體系及其應(yīng)用,由
3、于它是在粗糙集理論上的關(guān)系推廣,有關(guān)粗糙集的一些理論和應(yīng)用并不一定在覆蓋廣義粗糙集下適用。因此,本文的主要內(nèi)容是在粒計(jì)算思想理論背景下,研究與覆蓋相關(guān)的理論及其應(yīng)用。具體研究工作如下:一、在面向基于粗糙集理論的動(dòng)態(tài)信息系統(tǒng)規(guī)則挖掘的研究中,利用覆蓋粒計(jì)算相關(guān)理論提出了一種能消除引起差異信息系統(tǒng)規(guī)則挖掘中不一致因素的公理化方法。實(shí)驗(yàn)結(jié)果表明,在保持時(shí)間復(fù)雜度不變的情況下,利用改進(jìn)的規(guī)則挖掘算法,通過消除不一致因素而獲得的規(guī)則能更全面和更大程度地反映條件屬性值變化與決策變化趨勢(shì)之間的內(nèi)在聯(lián)系。二、在面向沖突分析的研究中,在粒計(jì)算思想理論背景下,首次提出了“關(guān)聯(lián)沖突”的概念。利用覆蓋沖突分析策略,通
4、過“服務(wù)資源”實(shí)例建立了關(guān)聯(lián)沖突分析的合理泛化模型,討論了關(guān)聯(lián)沖突過程中所可能引發(fā)異常的階段,并對(duì)不同階段引發(fā)的異常進(jìn)行了詳細(xì)的分析,給出了具體的解決方案,從而完善了各個(gè)領(lǐng)域沖突的解決。三、在面向分類法準(zhǔn)確性(單標(biāo)簽和多標(biāo)簽數(shù)據(jù)集)的研究中,利用拓?fù)涓采w鄰域理論,給出了尋找覆蓋系統(tǒng)上重疊元素的相關(guān)公理化方法。在粒計(jì)算的思維體系背景下,以實(shí)例輔證,給出了獨(dú)立于數(shù)據(jù)標(biāo)簽和不同理想分類結(jié)果假設(shè)(一種假設(shè)為劃分,另一種假設(shè)為覆蓋)的評(píng)價(jià)分類法準(zhǔn)確性的統(tǒng)一范式,為提高和評(píng)估分類法準(zhǔn)確性的計(jì)算提供了重要的參考意義。最后,文章是在同一個(gè)思想理論背景下,討論了基于覆蓋的相關(guān)理論和應(yīng)用。以上研究工作是覆蓋廣義粗
5、糙集的理論及其應(yīng)用的補(bǔ)充和發(fā)展,充分的體現(xiàn)出了粒計(jì)算背景下知識(shí)發(fā)現(xiàn)理論和方法的獨(dú)特性,具有重要的理論意義及潛在的應(yīng)用價(jià)值。 關(guān)鍵詞:粒計(jì)算;覆蓋;動(dòng)態(tài)信息系統(tǒng);規(guī)則挖掘;關(guān)聯(lián)沖突;分類research on the covering and its application based on granular computingabstractgranular computing (grc) is viewed as an interdisciplinary study of computation in nature, society and science, characterized by
6、 structured thinking, structured problem solving and structured information processing with an underlying notion of multiple levels of granulation. it consists of all the theories, methodologies, techniques and tools related to the granularity, which is mainly used to deal with uncertainty, imprecis
7、e and incomplete information and seek resolutions from the large-scale massive dataset or complicated problem. rough set, as a very important branch of grc, is being improving and perfecting on theory and application as well as is being extending widely and significantly. generalized rough set on co
8、vering is the one that partitions pawlak rough set theory is extended into coverings. it focuses on the study of covering, so that many theories and applications in the pawlak rough set are not tenable and suitable in the generalized rough set on covering. therefore, this dissertation will mainly ma
9、ke research on covering theories and its applications under background of grc, whose content is shown as follows:first of all, for the rules mining based on rough set theory in dynamic information system, a pre-process approach to eliminate the elements that cause inconsistence of rules mining in di
10、fference information system is proposed under the background of covering theory based on granular computing. experiment shows that relationship between the changes of condition attributes values and trend of decision-making can be fully reflected as much as possible by a modified rules mining algori
11、thm under the same time complexity through this pre-process approach.secondly, for the conflict analysis, associated-conflict is firstly introduced in the perspective of grc, and a reasonable and comprehensive approach to its analysis, using covering based on granular computing, is outlined. we argu
12、e that this model of associated-conflict analysis, given by the example of service-resource, will provide more profound insight for the conflict resolution in different fields.thirdly, for the accuracy of classification method on single label dataset or multi label dataset, a unified paradigm for th
13、e accuracy used to evaluate different classification methods, using topological covering based on grc, is presented, independent on number of data labels and different assumptions of ideal classification result(one assumption is partition, the other is covering). and some corresponding examples are
14、also discussed to illustrate the accuracy in different classification situations. this unified paradigm will provide important reference value for the evaluation and improvement of accuracy of classification method.in brief, this paper discusses theories and applications related to the covering unde
15、r the same theory background, and it can be treated as supplement and development of generalized rough set on covering. and it reflects the specificity on theories, methodologies, techniques and tools of knowledge discovery under the background of grc, with significant referred and applied value in
16、the future. key words: grc; covering; dynamic information system; rules mining; associated-conflict; classification目 錄摘 要iabstractiii目 錄v第一章 緒 論11.1粒計(jì)算11.1.1粒計(jì)算提出背景11.1.2粒計(jì)算任務(wù)和目標(biāo)21.1.3粒計(jì)算基本要素和理論構(gòu)成21.1.4粒計(jì)算研究方向與方法51.1.5粒計(jì)算基本思想和實(shí)質(zhì)61.2覆蓋廣義粗糙集理論61.2.1覆蓋廣義粗糙集的研究背景71.2.2覆蓋廣義粗糙集的國(guó)內(nèi)外研究現(xiàn)狀81.3本文研究的意義、目標(biāo)、方法和主要
17、內(nèi)容以及創(chuàng)新點(diǎn)81.3.1本文研究的意義81.3.2本文研究的目標(biāo)81.3.3本文研究的方法91.3.4本文研究的主要內(nèi)容以及創(chuàng)新點(diǎn)9第二章 粒計(jì)算的獨(dú)特魅力11 以孤立點(diǎn)挖掘?yàn)槔?12.1引言112.2引起孤立點(diǎn)的原因122.3孤立點(diǎn)挖掘方法的思想描述122.4討論132.5小結(jié)15第三章 覆蓋粒計(jì)算在基于粗糙集的動(dòng)態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用173.1引言173.2預(yù)備知識(shí)173.3規(guī)則挖掘193.3.1動(dòng)態(tài)信息系統(tǒng)中不一致性的辨識(shí)和消除193.2.2規(guī)則挖掘算法203.4實(shí)例分析223.5小結(jié)24第四章 基于覆蓋粒計(jì)算的關(guān)聯(lián)沖突分析264.1引言264.2預(yù)備知識(shí)274.3粒計(jì)算背景下的相
18、關(guān)工作274.4粒計(jì)算視角下的關(guān)聯(lián)沖突294.4.1關(guān)聯(lián)沖突定義304.4.2關(guān)聯(lián)沖突分析建模304.5討論374.6小結(jié)39第五章 基于覆蓋粒計(jì)算的分類準(zhǔn)確性研究405.1引言405.2預(yù)備知識(shí)415.3討論425.3.1理想分類結(jié)果假設(shè)為劃分425.3.2理想分類結(jié)果假設(shè)為覆蓋445.4粒計(jì)算視角下的分類準(zhǔn)確性統(tǒng)一范式455.5多標(biāo)簽數(shù)據(jù)分類準(zhǔn)確性探究475.6小結(jié)50第六章 總結(jié)與展望526.1總結(jié)526.2展望53參考文獻(xiàn)54攻讀碩士學(xué)位期間取得的研究成果61致 謝62浙江師范大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明63學(xué)位論文使用授權(quán)聲明63第一章 緒 論1.1粒計(jì)算 粒計(jì)算(granular com
19、puting, grc)是一門飛速發(fā)展的新學(xué)科,它是由美國(guó)學(xué)者t.y.lin于1997年提出的1。短短十幾年的發(fā)展已經(jīng)見證了它對(duì)科學(xué)特別是計(jì)算機(jī)科學(xué)的作用和影響。諸多國(guó)內(nèi)外學(xué)者就粒計(jì)算的基本理論和方法做了大量的工作2-12。但為粒計(jì)算下一個(gè)正式的、精確的、能夠廣為接受的定義仍然是一件困難的事情。人們對(duì)粒計(jì)算的描述是建立在對(duì)它的直覺認(rèn)識(shí)上的:粒計(jì)算是研究基于多層次粒結(jié)構(gòu)的思維方法、問題求解方法、信息處理模式及其相關(guān)理論、技術(shù)和工具的學(xué)科。作為軟計(jì)算科學(xué)的一個(gè)重要分支,它覆蓋了所有和粒度相關(guān)的理論、方法和技術(shù),主要用于對(duì)不確定、不準(zhǔn)確、不完整信息的處理,對(duì)大規(guī)模海量的數(shù)據(jù)和對(duì)復(fù)雜問題的求解,正逐漸
20、成為人工智能研究領(lǐng)域的熱點(diǎn)之一。1.1.1粒計(jì)算提出背景研究粒計(jì)算有許多原因。其一是一致性:現(xiàn)實(shí)世界充滿了結(jié)構(gòu)和層次,它們體現(xiàn)在各種自然系統(tǒng)、社會(huì)系統(tǒng)和人工系統(tǒng)之中。因此,人們對(duì)現(xiàn)實(shí)世界的感知、理解、解釋和表示也是有結(jié)構(gòu)、分層次的。zadeh將人類的認(rèn)知能力概括為:?;?、組織和因果推理13。?;菍⒁粋€(gè)整體分割成部分,每個(gè)部分是擁有相同、相似性質(zhì)的個(gè)體的集合。組織是將松散的個(gè)體聯(lián)系在一起,形成有著內(nèi)在聯(lián)系的整體。因果推理是找出原因與結(jié)果之間的必然聯(lián)系。粒計(jì)算模型應(yīng)該能描述這三種能力。因而粒計(jì)算的結(jié)構(gòu)和現(xiàn)實(shí)世界的結(jié)構(gòu)、人們的思維模式及行為方式是一致的。其二是系統(tǒng)性:粒計(jì)算的結(jié)構(gòu)提供了對(duì)所解決的問
21、題多視角、多層次的理解、概括和操作。作為一個(gè)整體,粒計(jì)算提供的思維模式和行為方式是系統(tǒng)的、完整的。其三是簡(jiǎn)化性:粒計(jì)算是提倡對(duì)問題進(jìn)行不同層次的抽象和處理。在抽象過程中,可以只重視主要特性而忽略不相關(guān)的細(xì)節(jié),從而達(dá)到對(duì)問題的簡(jiǎn)化。其四是靈活性:粒計(jì)算的結(jié)構(gòu)允許人們?cè)诓煌臅r(shí)間、不同的情況下,將注意力集中在不同的層次及層與層之間的自然過渡上,縮放和轉(zhuǎn)承是靈活多變的。其五是有效性:用粒計(jì)算指導(dǎo)的思維模式和行為方式將復(fù)雜問題分解成若干小問題。這種分而治之的方法是非常實(shí)用的,可以運(yùn)用到不同的領(lǐng)域。其六是經(jīng)濟(jì)性:粒計(jì)算尋求在不同粒度上的近似解。這樣的方法可以提高效率、降低成本。其七是容忍性:通過使用不同
22、信息粒度,粒計(jì)算可以容忍不確定、不完全或有噪音的信息,從而獲得具有魯棒性的解決方案。1.1.2粒計(jì)算任務(wù)和目標(biāo)粒計(jì)算的形成綜合了許多學(xué)科的科研成果14,它的理論建立在對(duì)各個(gè)領(lǐng)域的共性進(jìn)行概括、總結(jié)和整理之上,形成了對(duì)問題求解的普遍適用的原理、方法和策略。在過去的若干年中,許多學(xué)者對(duì)粒計(jì)算的具體模式和方法進(jìn)行了研究。同時(shí)和粒計(jì)算原理相似的研究還在不斷地出現(xiàn),只是在不同的領(lǐng)域中運(yùn)用了略微不同的名詞和術(shù)語(yǔ)。將粒計(jì)算作為一個(gè)獨(dú)立的學(xué)科研究可以防止這種不必要的重復(fù)勞動(dòng)。 (1) 粒計(jì)算的任務(wù)作為一個(gè)新興的研究領(lǐng)域,粒計(jì)算是一門關(guān)于問題求解的藝術(shù)。它有著兩項(xiàng)特殊的任務(wù):其一是從各個(gè)不同的領(lǐng)域中概括出它們的
23、共性,不考慮它們低層次上的差異,從而提煉出抽象的、高層次的、綜合的認(rèn)識(shí);其二是將特定領(lǐng)域中隱含的結(jié)構(gòu)明確化,以期總結(jié)出獨(dú)立于具體領(lǐng)域的普遍原理。 (2) 粒計(jì)算的目標(biāo)粒計(jì)算之所以新且獨(dú)特,并不完全在于一組具體的方法和策略,而在于提出一個(gè)統(tǒng)一的框架,對(duì)這些方法和策略進(jìn)行全面的理解及綜合。通過對(duì)粒計(jì)算的研究試圖達(dá)到以下目標(biāo):將隱式的結(jié)構(gòu)顯式化;將不明顯的原理明顯化;將特定領(lǐng)域的特殊原理普遍化;將下意識(shí)的行為變成有意識(shí)的行為。1.1.3粒計(jì)算基本要素和理論構(gòu)成 (1) 粒計(jì)算的基本要素14, 15 (a) 粒粒是粒計(jì)算的初始概念,是粒計(jì)算研究對(duì)象的單位,是求解問題的基本單位,等同于數(shù)據(jù)庫(kù)中的記錄,集
24、合中的元素或子集。我們稱最小的、不可分或不需要再分解的粒為基本粒,即最低層次的粒稱為基本粒,它可以是模糊的,也可以是精確的。粒具有雙重身份,它可以是某個(gè)整體中相對(duì)獨(dú)立的一個(gè)部分,也可以是一些粒共同組成的一個(gè)粒。所有的粒都具有內(nèi)在屬性、外在屬性和環(huán)境屬性。當(dāng)粒作為整體時(shí),所要考慮的是粒的內(nèi)在屬性,內(nèi)在屬性由粒所擁有的元素決定。當(dāng)粒作為部分時(shí),所要考慮的是粒的外在屬性,由于具有外在屬性,粒就能夠被人們直接認(rèn)識(shí)。粒的環(huán)境屬性是指粒對(duì)外部環(huán)境變化的應(yīng)對(duì)情況,對(duì)其內(nèi)在屬性和外在屬性的保持與調(diào)整以及對(duì)外部環(huán)境的影響和回應(yīng)。粒的雙重身份決定了它的內(nèi)在屬性通常需要強(qiáng)調(diào)其它所包含的細(xì)小個(gè)體的不同特性,是對(duì)它內(nèi)部
25、各個(gè)基本組成成分性質(zhì)的描述,而其外在屬性則是強(qiáng)調(diào)把它作為一個(gè)整體時(shí)所體現(xiàn)出的綜合特性。 (b) 層次粒存在于特定的層次中,人們?cè)诹S?jì)算的不同層次中研究不同類型的粒,這些粒之間是有聯(lián)系的,同一層次的粒與粒之間可以是相交的關(guān)系也可以是層疊的關(guān)系,它們是該層次上研究的主體。層次中每一個(gè)粒表述了一個(gè)特定的粒化觀點(diǎn)。所有的粒化觀點(diǎn)相互補(bǔ)充、相互呼應(yīng),完整表達(dá)了在這個(gè)層次上對(duì)同一個(gè)問題的描述。每個(gè)層次都具有內(nèi)在屬性、外在屬性、環(huán)境屬性,同一層次的粒屬性共同體現(xiàn)本層次特性。 在問題求解中,選擇在最合適的粒度層次上產(chǎn)生對(duì)一個(gè)問題的描述,能幫助更好更快地解決問題。較高層次包含較低層次,或者由較低層次組成。較高層
26、次為較低層次提供背景和約束。較高層次一般由較高集成度和較高結(jié)合力的粒組成。每一層次都存在一定程度的獨(dú)立性。任意兩層次之間的連接和交互是通過偏序關(guān)系的傳遞性和橋接原理來表示和體現(xiàn)的。粒計(jì)算模型的主要作用是能夠在不同粒度層次上進(jìn)行問題求解,使不同粒度層次上的解能夠進(jìn)行相互轉(zhuǎn)化。 (c) 分層結(jié)構(gòu) 分層結(jié)構(gòu)由若干個(gè)層次組成,層次間的遞進(jìn)反映了由表及里、由抽象到具體、由粗糙到細(xì)致、由籠統(tǒng)到具體的變化。這種遞進(jìn)是有序的,高層次會(huì)對(duì)低層次進(jìn)行約束,并為低層次的描述提供背景。一個(gè)高層次的粒可以分解為若干個(gè)低層次的粒。相反,若干個(gè)低層次的??梢越M合成一個(gè)高層次的粒。低層次的粒為高層次的粒提供更詳細(xì)的描述或者更
27、多的信息。另一個(gè)方面,高層次的粒將與本層次的不相關(guān)的細(xì)節(jié)忽略掉,為低層次的粒提供更粗粒度的描述。 (d) 粒結(jié)構(gòu)在粒計(jì)算研究中強(qiáng)調(diào)的是全面、整體的觀點(diǎn),而不是局部、離散的觀點(diǎn)。若要達(dá)到該目標(biāo),不僅要考慮一個(gè)分層結(jié)構(gòu)中的多個(gè)層次,還需要將多個(gè)分層結(jié)構(gòu)綜合考慮。粒結(jié)構(gòu)包括三個(gè)要素,即粒的內(nèi)在結(jié)構(gòu)、粒的結(jié)構(gòu)、粒的總體結(jié)構(gòu),它是多層次和多個(gè)分層結(jié)構(gòu)的結(jié)合。粒計(jì)算借助于其他學(xué)科的哲學(xué)思想和方法論,并將它們抽象成為與具體領(lǐng)域無關(guān)的方法和策略。它的獨(dú)特性體現(xiàn)在用系統(tǒng)的、結(jié)構(gòu)化的理解和方法來解決復(fù)雜問題。對(duì)復(fù)雜問題的全面理解通常是多視角的,從每一個(gè)視角著眼的理解又是多層次的。由此可以得出,粒計(jì)算的過程就是對(duì)復(fù)
28、雜問題的求解過程。它的結(jié)果表現(xiàn)為一個(gè)多視角、多層次的粒結(jié)構(gòu)。這個(gè)粒結(jié)構(gòu)是對(duì)復(fù)雜問題的系統(tǒng)且近似的描述和解答。 (2) 粒計(jì)算的理論構(gòu)成7, 8 目前,粒計(jì)算有3個(gè)主要理論以及其它一些非主流理論:其一是詞計(jì)算理論:人類思考、判斷、推理主要是用語(yǔ)言,而語(yǔ)言是一個(gè)很粗的粒,如何用語(yǔ)言進(jìn)行推理判斷,這就是詞計(jì)算。其二是商空間理論:商空間理論把概念用子集表示,不同粒的概念體現(xiàn)為不同粒的子集,一簇概念構(gòu)成空間的一個(gè)劃分商空間,不同的概念簇就構(gòu)成了不同的商空間。故粒計(jì)算,就是研究在給定知識(shí)基上的各種子集合之間的關(guān)系和轉(zhuǎn)換,以及對(duì)同一問題取不同的適當(dāng)?shù)牧?,從?duì)不同的粒的研究中,綜合獲取對(duì)原問題的了解。其三是粗
29、糙集理論:粗糙集理論于1982年由pawlak提出,它是一種刻劃不完整性、不確定性的數(shù)學(xué)工具,主要解決信息粒的近似方面的問題。另外許多學(xué)者也在研究粒計(jì)算,并將各種相關(guān)理論用于粒計(jì)算,有鄰域系統(tǒng)粒計(jì)算、信息熵粒計(jì)算、概念格粒計(jì)算、覆蓋粒計(jì)算、進(jìn)化粒模型、基于相容粒度空間的粒計(jì)算模型以及各模型相互交叉整合的模型方法等,在許多領(lǐng)域中得以實(shí)現(xiàn)或應(yīng)用。1.1.4粒計(jì)算研究方向與方法粒計(jì)算的形成和發(fā)展積累了多種思想、模型、范式、方法論、技術(shù)及工具。對(duì)粒計(jì)算的研究應(yīng)該著眼于三個(gè)觀點(diǎn)2:粒計(jì)算的哲學(xué)思想觀點(diǎn)、方法論觀點(diǎn)及計(jì)算模式觀點(diǎn)。從哲學(xué)思想觀點(diǎn)考慮,粒計(jì)算試圖將人類的認(rèn)知方式抽象化、形式化,從而提煉出結(jié)構(gòu)
30、化的思維模式,而結(jié)構(gòu)化的思維模式是人類智能的重要體現(xiàn),它對(duì)設(shè)計(jì)基于知識(shí)的信息系統(tǒng)有著非常重要的影響,它有兩個(gè)基本假設(shè):一個(gè)是所有問題都可以視作是其內(nèi)在要素之間的網(wǎng)絡(luò)狀或分層結(jié)構(gòu)的關(guān)聯(lián),另一個(gè)是所有的問題都有著類似的模式和特征;從方法論觀點(diǎn)考慮,粒計(jì)算著重研究系統(tǒng)化的方法和技術(shù),將問題求解的過程規(guī)范為結(jié)構(gòu)化的、自上而下的逐步求精過程;從計(jì)算模式觀點(diǎn)考慮,粒計(jì)算關(guān)注于結(jié)構(gòu)化的信息處理。信息處理是有層次的,其研究領(lǐng)域涉及抽象的信息處理、人腦中的信息處理及計(jì)算機(jī)中的信息處理。計(jì)算模式是方法論的具體表現(xiàn)形式。在計(jì)算機(jī)學(xué)科中,人們通常將興趣集中在基于計(jì)算機(jī)的信息處理模型上,并將其獨(dú)立出來進(jìn)行分析。粒計(jì)算的
31、哲學(xué)研究基于粒結(jié)構(gòu)的思維方式。基本問題7, 10, 15包括:如何定義粒、層次及分層結(jié)構(gòu)的內(nèi)在屬性、外在屬性和環(huán)境屬性;如何定義它們的關(guān)系;如何準(zhǔn)確表達(dá)它們的關(guān)系;如何實(shí)現(xiàn)它們的關(guān)聯(lián)和切花;如何使它們的綜合功能最大化。哲學(xué)層面的研究是抽象的,同時(shí)又是方法論和計(jì)算模式的前提和保障。粒計(jì)算的方法論致力于將粒計(jì)算哲學(xué)思想具體到問題求解的方法、技術(shù)和工具的研究和開發(fā)中去。需要考慮到粒計(jì)算方法的有效性、可靠性、準(zhǔn)確性、簡(jiǎn)便性、計(jì)算成本和價(jià)值。對(duì)于不同的應(yīng)用還需考慮其問題的特定及限制。粒計(jì)算的信息處理強(qiáng)調(diào)以計(jì)算機(jī)為主體的信息處理與以人為主體的信息處理的差別。一方面,以計(jì)算機(jī)為主體的信息處理依靠人來制定、設(shè)
32、計(jì)、實(shí)施和優(yōu)化;另一方面,計(jì)算機(jī)的信息處理也促進(jìn)方法論的研究。粒計(jì)算的哲學(xué)思想和方法論的完善為計(jì)算機(jī)的信息處理實(shí)踐提供了可以依據(jù)的準(zhǔn)繩和保障,計(jì)算機(jī)的信息處理實(shí)踐反過來也會(huì)促進(jìn)對(duì)粒計(jì)算哲學(xué)思想和方法論的研究,成為支持粒計(jì)算哲學(xué)思想的有力證據(jù)和改善粒計(jì)算方法論的原動(dòng)力??傊?,如何定義粒(粒化)以及如何選擇合適的粒度是粒計(jì)算解決問題的首要任務(wù)6, 9。1.1.5粒計(jì)算基本思想和實(shí)質(zhì)粒計(jì)算從不同粒層次上研究問題,從人類求解問題的經(jīng)驗(yàn)方法中提取基本原理如粒、層次、等級(jí)。從人類思考和求解問題上看,“人類以粒的觀點(diǎn)看世界”,“人們觀察、衡量、概括和推理的實(shí)體都是粒”16。當(dāng)人們面對(duì)復(fù)雜的、難于準(zhǔn)確把握的問
33、題時(shí)由于能力有限,通常不是采用系統(tǒng)、精確的方法去追求問題的最優(yōu)解,而是通過逐步嘗試的辦法達(dá)到有限的、合理的目標(biāo),也就是采用由粗到細(xì)、不斷求精的多粒度分析法,避免復(fù)雜的計(jì)算,從而獲得足夠滿足的解,使得原來看似非多項(xiàng)式的難解問題迎刃而解。人類智能的一個(gè)公認(rèn)特點(diǎn),就是人們能從極不相同的粒上觀察和分析同一問題。人們能在不同粒的世界上進(jìn)行問題求解,且能夠很快地從一個(gè)粒世界跳轉(zhuǎn)到另一個(gè)粒世界,往返自如,毫無困難。這種處理不同粒世界的能力,正是人類問題求解的強(qiáng)有力的表現(xiàn),這也正是粒計(jì)算的基本思想4。粒計(jì)算方法是人工智能領(lǐng)域中的一種新理念和新方法,它覆蓋了所有和粒度相關(guān)的理論、方法和技術(shù),在可以容忍的程度內(nèi),
34、主要用于對(duì)不確定、不準(zhǔn)確、不完整信息的處理,對(duì)大規(guī)模海量的數(shù)據(jù)和對(duì)復(fù)雜問題的求解,使其達(dá)到可處理性、魯棒性、小代價(jià)和諧調(diào)性。粒計(jì)算的實(shí)質(zhì)4就是通過選擇合適的粒度,來尋找一種較好的、近似的解決方案,從而降低問題求解的難度。而事實(shí)上,從真實(shí)世界上看,許多自然系統(tǒng)、社會(huì)系統(tǒng)、人工系統(tǒng)都是基于層次的,粒計(jì)算可以真實(shí)自然地表示這類系統(tǒng)。從簡(jiǎn)化問題上看,多層系統(tǒng)的不同層次關(guān)注不同的粒特征,粒計(jì)算忽略了不必要和不相關(guān)的細(xì)節(jié),只關(guān)注適當(dāng)層次,從而簡(jiǎn)化了問題。從實(shí)用角度上看,許多問題是不完整的、不確定的,或者含有模糊信息,很難區(qū)分元素,只能認(rèn)為是粒。且在許多實(shí)際問題中也不要求精確解,或者獲取精確信息的代價(jià)不菲,
35、粒計(jì)算可以提高效率和降低代價(jià)。1.2覆蓋廣義粗糙集理論定義1.117 設(shè)是非空有限論域,是上的一簇子集且,對(duì)于任意,如果,那么為的一個(gè)劃分。定義1.233 設(shè)是非空有限論域,是上的一簇子集,如果中任一子集非空且,則為的一個(gè)覆蓋。1.2.1覆蓋廣義粗糙集的研究背景隨著計(jì)算機(jī)及網(wǎng)絡(luò)的日益普及,豐富的數(shù)據(jù)與貧乏的知識(shí)之間的矛盾日漸突出。不同領(lǐng)域的人都希望能從復(fù)雜的數(shù)據(jù)中得到自己所需要的知識(shí),因此數(shù)據(jù)挖掘這門學(xué)科就應(yīng)運(yùn)而生了。該學(xué)科涉及分類、概念形成和數(shù)據(jù)分析。這些都需要對(duì)不完全和不充分的信息進(jìn)行處理,圍繞這個(gè)問題產(chǎn)生了許多理論,如模糊理論、神經(jīng)網(wǎng)絡(luò)、商空間理論、詞計(jì)算、粗糙集理論等。而其中的粗糙集理
36、論17于20世紀(jì)80年代提出以來,無論從理論上還是從應(yīng)用上都取得了豐碩的成果,尤其在數(shù)據(jù)挖掘領(lǐng)域里18。它是通過不可區(qū)分關(guān)系為不完全和不充分信息的處理提供了一套系統(tǒng)的方法。通常,人們用一組屬性來描述事物,不可區(qū)分關(guān)系就是由這些事物相應(yīng)的屬性值來定義的。如果兩個(gè)事物對(duì)于這組屬性的屬性值相等,也就是說具有相同的描述,就認(rèn)為它們是不可區(qū)分的。從集合中關(guān)系這個(gè)角度來看,這種不可區(qū)分關(guān)系實(shí)際上就是等價(jià)關(guān)系。這樣,所有具有相同描述的事物構(gòu)成一個(gè)等價(jià)類,而所有的等價(jià)類構(gòu)成所考慮事物的一個(gè)劃分。在粗糙集理論中,這些等價(jià)類又稱為初等集,若干個(gè)初等集的并稱為確定。利用這個(gè)劃分,任意的事物的集合可以用兩個(gè)確定集來上
37、下逼近,這兩個(gè)確定集分別是該事物集合的上近似和下近似。它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,對(duì)問題的不確定性的描述或處理是比較客觀的。由于這個(gè)理論未包含處理不精確或不確定原始數(shù)據(jù)的機(jī)制,所以與概率論、模糊數(shù)學(xué)和證據(jù)理論等其他處理不確定或不精確問題的理論有很強(qiáng)的互補(bǔ)性。 而隨著粗糙集理論得到廣泛的應(yīng)用以來,為使該理論能有更大的應(yīng)用空間,人們對(duì)pawlak粗糙集理論進(jìn)行了許多有意義的推廣,如將等價(jià)關(guān)系放寬為相容關(guān)系19、相似關(guān)系20、一般二元關(guān)系21;與模糊理論結(jié)合,將粗糙集理論推廣到模糊粗糙集理論22和廣義模糊粗糙集理論23;將經(jīng)典粗糙集模型推廣到變精度粗糙集模型24;從等價(jià)關(guān)系等
38、同于劃分這個(gè)角度出發(fā),zakowski把劃分放寬為覆蓋25,將pawlak粗糙集理論推廣到覆蓋廣義粗糙集理論。1.2.2覆蓋廣義粗糙集的國(guó)內(nèi)外研究現(xiàn)狀 然而,自從pawlak粗糙集理論被推廣到覆蓋廣義粗糙集理論之后,國(guó)內(nèi)外學(xué)者對(duì)其做了大量的研究。文獻(xiàn)26-53, 54-58對(duì)覆蓋廣義粗糙集理論進(jìn)行了深入研究,其中文獻(xiàn)30討論了覆蓋廣義粗糙集的近似算子,文獻(xiàn)29主要研究覆蓋上下近似運(yùn)算分別成為kuratowski閉包和內(nèi)部運(yùn)算的充分必要條件,文獻(xiàn)27-28主要研究了覆蓋廣義粗糙集中一階集合運(yùn)算,文獻(xiàn)26主要結(jié)合形式概念分析來研究覆蓋廣義粗糙集,文獻(xiàn)31, 53討論了廣義粗糙集理論的代數(shù)結(jié)構(gòu),文獻(xiàn)
39、49, 57對(duì)基于關(guān)系的廣義粗糙集進(jìn)行了研究,文獻(xiàn)33, 43, 44, 54, 56對(duì)在覆蓋廣義粗糙集理論下的約簡(jiǎn)和不確定性度量進(jìn)行了研究,文獻(xiàn)34-36, 39, 41-42, 45-48, 51, 58對(duì)覆蓋廣義粗糙集理論中的上下近似運(yùn)算進(jìn)行了公理化的研究,文獻(xiàn)38, 40, 52分別對(duì)覆蓋廣義粗糙模糊集和拓?fù)湎嚓P(guān)性質(zhì)進(jìn)行了研究,而文獻(xiàn)60-63對(duì)變精度的覆蓋廣義粗糙集理論及其模型進(jìn)行了研究,以及其他的一些有關(guān)覆蓋廣義粗糙集理論的研究和總結(jié)32, 50, 55, 59。就應(yīng)用方面而言,覆蓋廣義粗糙集理論已應(yīng)用于沖突分析37、信息檢索64等領(lǐng)域。1.3本文研究的意義、目標(biāo)、方法和主要內(nèi)容以
40、及創(chuàng)新點(diǎn)1.3.1本文研究的意義 由于覆蓋廣義粗糙集理論是將pawlak粗糙集理論在劃分基礎(chǔ)上推廣到覆蓋而建立起來的,而覆蓋廣義粗糙集理論主要研究與覆蓋相關(guān)的理論體系及應(yīng)用,所以有關(guān)粗糙集一些理論和應(yīng)用并不一定在覆蓋廣義粗糙集下適用,那么在粒計(jì)算思想理論背景下研究覆蓋廣義粗糙集的相關(guān)理論和應(yīng)用就顯的十分有意義。1.3.2本文研究的目標(biāo) 雖然覆蓋廣義粗糙集有了一定的理論基礎(chǔ)和應(yīng)用領(lǐng)域,但與粗糙集相比,需要不斷豐富其理論基礎(chǔ)和應(yīng)用領(lǐng)域,而繼續(xù)建立覆蓋近似運(yùn)算公理化理論體系、覆蓋約簡(jiǎn)及近似性度量和不斷尋求覆蓋廣義粗糙集的適用方向是進(jìn)一步研究的具體目標(biāo),本文旨在對(duì)覆蓋廣義粗糙集的應(yīng)用基礎(chǔ)進(jìn)行研究。1.
41、3.3本文研究的方法、技術(shù)路線及可行性分析本文將采用由淺入深、并行開展的研究方法。首先,介紹了粒計(jì)算思想理論體系的新穎性以及獨(dú)特性以孤立點(diǎn)挖掘?yàn)槔?。其次,在粒?jì)算思想理論體系下,利用覆蓋相關(guān)理論分別對(duì)基于粗糙集的動(dòng)態(tài)信息系統(tǒng)規(guī)則挖掘、關(guān)聯(lián)沖突分析、分類準(zhǔn)確率三個(gè)方面進(jìn)行獨(dú)立研究。 (1) 在基于粗糙集的動(dòng)態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用研究中,主要利用條件屬性和決策屬性的交叉一致性來尋找引起差異信息系統(tǒng)中的不一致因素,然后利用改進(jìn)的規(guī)則挖掘算法通過實(shí)驗(yàn)對(duì)比來實(shí)現(xiàn)。(2) 在面向沖突分析的研究中,將沖突看作是在不同結(jié)構(gòu)層上的?;^程,提出關(guān)聯(lián)沖突的概念,給出其形式化的定義,然后并對(duì)其進(jìn)行分析和建模,最
42、后給出關(guān)聯(lián)沖突過程中所可能引發(fā)異常的階段,將對(duì)不同階段引發(fā)的異常進(jìn)行詳細(xì)的分析(3) 在面向分類準(zhǔn)確性研究中,利用拓?fù)涓采w鄰域理論來尋找覆蓋系統(tǒng)上重疊元素,然后在粒計(jì)算的思維體系背景下,以實(shí)例輔證,采用折中方式給出獨(dú)立于數(shù)據(jù)標(biāo)簽和理想分類結(jié)果假設(shè)的評(píng)價(jià)分類法準(zhǔn)確性的統(tǒng)一范式。 以上提出的研究方法和技術(shù)路線是在前人對(duì)覆蓋廣義粗糙集理論和應(yīng)用以及相應(yīng)領(lǐng)域研究基礎(chǔ)上的再探索。雖然涉及領(lǐng)域比較寬泛,但都是在粒計(jì)算背景下研究的與覆蓋相關(guān)的理論和應(yīng)用,所以本文實(shí)施和所采用的技術(shù)路線是可行的。1.3.4本文研究的主要內(nèi)容以及創(chuàng)新點(diǎn)本文主要是在粒計(jì)算的思想理論背景下研究與覆蓋相關(guān)的理論及其應(yīng)用。具體包括以下六
43、章內(nèi)容: 第一章為緒論。首先介紹了粒計(jì)算的相關(guān)理論知識(shí);然后介紹了覆蓋廣義粗糙集的研究背景,分析了國(guó)內(nèi)外研究現(xiàn)狀;最后介紹了本文的研究意義、目標(biāo)、方法和主要內(nèi)容以及創(chuàng)新點(diǎn)。 第二章為粒計(jì)算的獨(dú)特魅力。本章主要討論了粒計(jì)算的新穎性和獨(dú)特性以孤立點(diǎn)挖掘?yàn)槔?,?chuàng)新性地給出了孤立點(diǎn)挖掘總的指導(dǎo)原則和具體實(shí)施的流程圖,為孤立點(diǎn)挖掘算法的選擇、改進(jìn)和創(chuàng)新提供了實(shí)際的參考價(jià)值,以此來揭示粒計(jì)算的獨(dú)特思維模式和研究方法,進(jìn)而體現(xiàn)本文的寫作意圖即受粒計(jì)算思想與理論的影響,獲取與覆蓋相關(guān)的創(chuàng)新思想來源。 第三章為覆蓋粒計(jì)算在基于粗糙集的動(dòng)態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用研究。本章針對(duì)差異信息系統(tǒng)構(gòu)造過程中會(huì)引起新的不一
44、致這個(gè)問題,利用覆蓋粒計(jì)算相關(guān)理論提出了一種新的能消除這種不一致因素的公理化方法。實(shí)驗(yàn)結(jié)果表明,在保持時(shí)間復(fù)雜度不變的情況下,利用改進(jìn)的規(guī)則挖掘算法,通過消除不一致因素而獲得的規(guī)則更全面和更大程度地反映了條件屬性值變化與決策變化趨勢(shì)之間的內(nèi)在聯(lián)系。 第四章為基于覆蓋粒計(jì)算的關(guān)聯(lián)沖突分析。本章在粒計(jì)算思想理論背景下,首次提出了“關(guān)聯(lián)沖突”的概念,利用覆蓋沖突分析策略,通過“服務(wù)資源”實(shí)例建立了關(guān)聯(lián)沖突分析的合理泛化模型,討論了關(guān)聯(lián)沖突過程中所可能引發(fā)異常的階段,并對(duì)不同階段引發(fā)的異常進(jìn)行了詳細(xì)的分析,給出了具體的解決方案。 第五章為基于覆蓋粒計(jì)算的分類準(zhǔn)確性研究。在面向分類法準(zhǔn)確性(單標(biāo)簽和多標(biāo)
45、簽數(shù)據(jù)集)的研究中,本章利用拓?fù)涓采w鄰域理論,給出了一種新的尋找覆蓋系統(tǒng)上重疊元素的相關(guān)的公理化方法。在粒計(jì)算的思維體系背景下,以實(shí)例輔證,創(chuàng)新性地給出了獨(dú)立于數(shù)據(jù)標(biāo)簽和理想分類結(jié)果假設(shè)(一種假設(shè)為劃分,另一種假設(shè)為覆蓋)的評(píng)價(jià)分類法準(zhǔn)確性的統(tǒng)一范式。需要說明的是,本章對(duì)于分類法準(zhǔn)確性統(tǒng)一范式的給出采取的折中處理方式值得借鑒。 第六章為總結(jié)與展望。文章在同一個(gè)思想理論背景下,討論了基于覆蓋的相關(guān)理論和應(yīng)用,它是覆蓋廣義粗糙集的理論及其應(yīng)用的補(bǔ)充和發(fā)展,并且更體現(xiàn)出了粒計(jì)算背景下知識(shí)發(fā)現(xiàn)理論和方法的獨(dú)特性,具有重要的理論意義及潛在的應(yīng)用價(jià)值,同時(shí)對(duì)該領(lǐng)域理論和應(yīng)用研究的發(fā)展方向提出了新的展望。
46、此外,本文收錄了一些該領(lǐng)域內(nèi)最新的研究成果,以期能為科研工作者認(rèn)識(shí)和深入研究提供便利。第二章 粒計(jì)算的獨(dú)特魅力 以孤立點(diǎn)挖掘?yàn)槔?本章主要討論粒計(jì)算的新穎性和獨(dú)特性,以此來揭示粒計(jì)算的獨(dú)特思維模式和研究方法,從中體現(xiàn)出本文的寫作意圖,在粒計(jì)算思想理論背景下的覆蓋理論及其研究的問題即受粒計(jì)算思想與理論的影響,獲取與覆蓋相關(guān)的創(chuàng)新思想來源。以孤立點(diǎn)挖掘?yàn)槔?,在粒?jì)算的思想理論背景下,給出了孤立點(diǎn)挖掘總的指導(dǎo)原則和具體實(shí)施的流程圖,為孤立點(diǎn)挖掘算法的選擇、改進(jìn)和創(chuàng)新提供了實(shí)際的參考價(jià)值,將會(huì)對(duì)孤立點(diǎn)的挖掘產(chǎn)生一定深遠(yuǎn)的影響。2.1引言孤立點(diǎn)也即異常點(diǎn)65,是指數(shù)據(jù)集中不符合一般模型的那些對(duì)象,即和其
47、他數(shù)據(jù)有著不同的性質(zhì)。對(duì)于某些度量而言,這些對(duì)象與數(shù)據(jù)集中的其他數(shù)據(jù)有著顯著的不同。目前,針對(duì)不同的數(shù)據(jù)挖掘任務(wù)和挖掘背景,一些數(shù)據(jù)挖掘算法盡量去減少孤立點(diǎn)帶來的影響或者甚至是從數(shù)據(jù)集中消除他們,然而,這可能會(huì)導(dǎo)致一些重要的隱秘信息的缺失。換句話說,孤立點(diǎn)本身在諸如入侵檢測(cè)等事件中有著特殊的意義,它可以表示入侵的異常行為。因此,孤立點(diǎn)的檢測(cè)和分析(即孤立點(diǎn)挖掘)在數(shù)據(jù)挖掘中就顯得非常重要。一般,孤立點(diǎn)挖掘問題可以看作兩個(gè)子問題:一個(gè)是在給定的數(shù)據(jù)集中定義一個(gè)什么樣的數(shù)據(jù)可以被認(rèn)為是孤立點(diǎn)或不一致的;另一個(gè)是找到一個(gè)有效的方法去挖掘這些定義的孤立點(diǎn)。在過去的一個(gè)多世紀(jì)里,人們對(duì)孤立點(diǎn)的研究經(jīng)歷了
48、幾個(gè)興衰交替?,F(xiàn)在,它再一次成為信息科學(xué)里的一個(gè)活躍分支,并在數(shù)據(jù)挖掘領(lǐng)域里受到越來越廣泛的關(guān)注。孤立點(diǎn)挖掘之所以有著廣泛的應(yīng)用,是與其所在的實(shí)際領(lǐng)域里的特殊性決定,諸如入侵檢測(cè)、市場(chǎng)營(yíng)銷和醫(yī)療等領(lǐng)域。孤立點(diǎn)的引起是有一些原因的66,同時(shí)相應(yīng)的也有一些檢測(cè)或挖掘孤立點(diǎn)的方法67-76。然而,每種方法總是存在著不可避免的缺點(diǎn)或者略勢(shì),沒有一個(gè)普遍有效的方法來檢查數(shù)據(jù)集中的孤立點(diǎn)77。特別在檢測(cè)孤立點(diǎn)的過程中,如何選擇一個(gè)合適的檢測(cè)方法沒有一個(gè)普遍的準(zhǔn)則,而且就孤立點(diǎn)目前研究的熱點(diǎn)和未來的發(fā)展來說77,挖掘任務(wù)會(huì)變得非常困難。因此,尋求一個(gè)適用于孤立點(diǎn)挖掘的總的指導(dǎo)原則就成為了最急需要解決的問題。
49、2.2引起孤立點(diǎn)的原因 (1) 數(shù)據(jù)來自不同的類 一個(gè)數(shù)據(jù)不同于其他數(shù)據(jù),可能因?yàn)樗鼇碜圆煌念惢驅(qū)儆诓煌念愋?。例如,一個(gè)在進(jìn)行信用卡欺詐的人可能被歸為不合法的信用卡用戶而不是非法的用戶。相同地,諸如欺詐、入侵、疾病暴發(fā)和異常的實(shí)驗(yàn)結(jié)果等都可以被認(rèn)為是造成孤立點(diǎn)的例子。 (2) 自然變異在統(tǒng)計(jì)知識(shí)的背景下,一些諸如正太分布等模型可以用來模擬許多數(shù)據(jù)集的分布。隨著數(shù)據(jù)點(diǎn)離正太分布的中心距離的增加,該點(diǎn)出現(xiàn)的可能性就會(huì)急劇地減少。換句話說,對(duì)于大多數(shù)點(diǎn)來說,離中心(平均對(duì)象)越近,不同于這個(gè)平均對(duì)象的可能性就越小。例如,假定一個(gè)男性特別的高,當(dāng)他獨(dú)自一人時(shí),沒有人與之形成對(duì)比,他沒有什么特別之處
50、。但是一旦于其他人在高度上做比較時(shí),他就是一個(gè)孤立點(diǎn),在這群人里他是一個(gè)高度上的極值。通常這些極值點(diǎn)或沒有任何變異的點(diǎn)作為孤立點(diǎn)是非常有意思的。 (3) 數(shù)據(jù)度量和收集導(dǎo)致的誤差 在數(shù)據(jù)收集和度量的過程中,所導(dǎo)致的誤差是引起孤立點(diǎn)的另一個(gè)根源。例如,由于人為失誤、設(shè)備誤差或者數(shù)據(jù)本身具有噪音導(dǎo)致所記錄的度量值不正確。一般情況下都會(huì)刪除這些孤立點(diǎn),因?yàn)樗麄儾荒芴峁┯杏玫男畔?,相反他們?huì)降低數(shù)據(jù)分析的質(zhì)量。但這些數(shù)據(jù)能反映出一些有用的信息,例如誤差的根源是人為、設(shè)備還是其他的原因造成的等。2.3孤立點(diǎn)挖掘方法的思想描述 (1) 基于統(tǒng)計(jì)模型的孤立點(diǎn)檢測(cè)方法67, 68許多檢測(cè)技術(shù)首先都會(huì)構(gòu)造一個(gè)數(shù)
51、據(jù)模型。孤立點(diǎn)就是這些不能夠很好擬合這個(gè)模型的數(shù)據(jù)對(duì)象。例如,數(shù)據(jù)的分布模型可以通過估計(jì)概率分布的參數(shù)來構(gòu)造。如果一個(gè)數(shù)據(jù)對(duì)象不能夠很好的擬合這個(gè)模型,它可能不服從這個(gè)分布,那它就是孤立點(diǎn)。如果模型是簇的集合,那么孤立點(diǎn)會(huì)明顯的不屬于任何簇?;蛘弋?dāng)使用回歸模型時(shí),孤立點(diǎn)會(huì)相對(duì)的遠(yuǎn)離模型的預(yù)測(cè)值。 (2) 基于距離的孤立點(diǎn)檢測(cè)方法69, 70目前,許多孤立點(diǎn)檢測(cè)的方法都是基于距離的。孤立點(diǎn)就是遠(yuǎn)離大多數(shù)點(diǎn)的點(diǎn)。當(dāng)數(shù)據(jù)分散在二維或三維的圖中時(shí),我們可以通過基于距離的方法,用肉眼或簡(jiǎn)單方法分辨出哪些點(diǎn)是孤立點(diǎn)。 (3) 基于偏差的孤立點(diǎn)檢測(cè)方法71, 72我們也可以通過比較一組數(shù)據(jù)的主要特征來檢測(cè)孤
52、立點(diǎn)。根據(jù)問題的要求,可以事先給定數(shù)據(jù)所對(duì)應(yīng)的一些特征,那么孤立點(diǎn)就是這些不能像特征所描述的那樣的點(diǎn)。 (4) 基于密度的孤立點(diǎn)檢測(cè)方法73, 74數(shù)據(jù)分布的密度估計(jì)是相對(duì)可以通過計(jì)算得到的,尤其是對(duì)數(shù)據(jù)之間存在距離的點(diǎn)來說。那些處于低密度的數(shù)據(jù)點(diǎn)相對(duì)地遠(yuǎn)離他們的鄰居可以被認(rèn)為是孤立點(diǎn)。但是考慮到數(shù)據(jù)集可能有不同的密度區(qū)域,因此當(dāng)一個(gè)點(diǎn)所在的區(qū)域的密度明顯低于它的大多數(shù)鄰居的時(shí)候,它可以被歸為孤立點(diǎn)。 (5) 基于聚類的孤立點(diǎn)檢測(cè)方法75, 76聚類分析和孤立點(diǎn)檢測(cè)有不同的目標(biāo)。聚類分析通常被用于發(fā)現(xiàn)強(qiáng)相關(guān)的對(duì)象,而孤立點(diǎn)檢測(cè)則被用來發(fā)現(xiàn)那些和強(qiáng)相關(guān)的對(duì)象沒有關(guān)系的對(duì)象。顯然,聚類可以用于孤立
53、點(diǎn)檢測(cè)。2.4討論 在數(shù)據(jù)挖掘中,粒計(jì)算有著廣泛的應(yīng)用78-80。數(shù)據(jù)的粒化,尤其是復(fù)雜數(shù)據(jù)的?;腔诹S?jì)算的數(shù)據(jù)挖掘的必要前提。?;某潭戎苯佑绊憯?shù)據(jù)挖掘的效率和計(jì)算復(fù)雜度。既要避免粒度過粗而造成求解失敗,又要避免粒度過細(xì)造成信息的冗余而導(dǎo)致求解效率低下。因此,選擇最優(yōu)粒化程度是粒計(jì)算數(shù)據(jù)挖掘的關(guān)鍵。另外,當(dāng)粒化的程度已知時(shí),?;姆椒ㄖ苯記Q定了粒化的效率。孤立點(diǎn)挖掘是一個(gè)將孤立點(diǎn)從數(shù)據(jù)集中分離出來的過程。通過對(duì)引起孤立點(diǎn)的原因進(jìn)行分析,我們發(fā)現(xiàn)孤立點(diǎn)大都是各種情況里的不尋常的對(duì)象。他們由突發(fā)事件、人為因素或環(huán)境原因等所引起的,所以我們需要不同的實(shí)施過程將它們分離出來。事實(shí)上,從粒計(jì)算的
54、觀點(diǎn)來看,分離的過程就是粒化的過程,并且上面所列出的孤立點(diǎn)的檢測(cè)方法都是基于粒化思想的。正如zadeh所認(rèn)為13的:人類的認(rèn)知能力概括為?;⒔M織和因果推理,人們對(duì)孤立點(diǎn)挖據(jù)方法的設(shè)計(jì)正是人類認(rèn)知能力尤其?;芰Φ姆磻?yīng),例如,基于距離、密度和聚類的孤立點(diǎn)檢測(cè)方法可以看作為基于空間?;姆椒?,而基于統(tǒng)計(jì)模型和偏離的孤立點(diǎn)檢測(cè)方法可以被看作為基于模糊匹配信息的?;椒?。而且分離的思想與粒度有著非常近的關(guān)聯(lián),在不同的?;缴希ㄟ^使用一些特殊的方法或策略,我們可以選擇合適的粒度來縮小孤立點(diǎn)的檢測(cè)范圍,這樣就可以提高孤立點(diǎn)挖掘的效率并降低挖掘的時(shí)間復(fù)雜度,尤其對(duì)大數(shù)據(jù)集中的孤立點(diǎn)挖掘來說效果和意義更
55、明顯。 我們換個(gè)角度來考慮孤立點(diǎn)檢測(cè)的方法。粒計(jì)算新穎和獨(dú)特的原因不完全在于提供具體的方法和策略,而在于提出了一個(gè)統(tǒng)一的框架,對(duì)這些方法和策略進(jìn)行全面理解及綜合。如果我們通過粒結(jié)構(gòu)將知識(shí)和系統(tǒng)合為一體。由此產(chǎn)生的結(jié)果是,人們能將普遍適用的粒計(jì)算哲學(xué)有意識(shí)地運(yùn)用到各自面對(duì)的問題中去,從而對(duì)問題進(jìn)行更有效的求解。同時(shí),對(duì)高層次的粒結(jié)構(gòu)的認(rèn)識(shí)可以防止人們對(duì)相同、相似理論和方法的重復(fù)發(fā)現(xiàn)和發(fā)明,避免浪費(fèi)精力。因此,將粒計(jì)算的新穎和獨(dú)特之處運(yùn)用到孤立點(diǎn)挖掘中,有如下指導(dǎo)原則:通過對(duì)引起孤立點(diǎn)原因和孤立點(diǎn)檢測(cè)方法的分析,結(jié)合粒計(jì)算的觀點(diǎn),從方法本身的高層粒結(jié)構(gòu)出發(fā),獨(dú)立于檢測(cè)方法的孤立點(diǎn)挖掘總的指導(dǎo)原則是
56、?;^點(diǎn),同時(shí)表明了在選擇合理的粒度之前,它在孤立點(diǎn)挖掘中扮演著非常重要的角色,根據(jù)不同的檢測(cè)目標(biāo),有著不同的粒化原則。而且粒化觀點(diǎn)是一種新的求解系統(tǒng),它是孤立點(diǎn)檢測(cè)過程中首先并且唯一開始著手的思想。換句話說,對(duì)孤立點(diǎn)檢測(cè)方法的選擇、改進(jìn)和創(chuàng)新,它提供了統(tǒng)一的、正面的和有效的說明。在信息科學(xué)快速發(fā)展的背景下,它將對(duì)孤立點(diǎn)的挖掘產(chǎn)生深遠(yuǎn)的影響。圖2.1是基于粒計(jì)算的孤立點(diǎn)挖掘的統(tǒng)一過程框架圖,它是粒計(jì)算思想應(yīng)用到孤立點(diǎn)挖掘中的很好體現(xiàn),其中有陰影部分是背景知識(shí):圖2.1 孤立點(diǎn)挖據(jù)的統(tǒng)一實(shí)施過程2.5小結(jié) 對(duì)于粒計(jì)算而言,其思想和理論在孤立點(diǎn)挖掘上得到了充分的體現(xiàn)。在對(duì)孤立點(diǎn)挖掘方法的分析和概括
57、的基礎(chǔ)上,總結(jié)出了獨(dú)立于方法之上的方法論原則(粒化指導(dǎo)原則),使得孤立點(diǎn)挖掘的著手點(diǎn)集中在?;乃枷肷?,避免了許多重復(fù)性的工作和不必要的麻煩,這是粒計(jì)算任務(wù)和目標(biāo)的體現(xiàn)。而孤立點(diǎn)挖掘的統(tǒng)一實(shí)施過程流程圖體現(xiàn)了粒計(jì)算的其他方面:挖掘過程本身是有先后順序之分,因此是具有一定層次性;而挖掘過程中,粒度大小的選擇即合適層次上的?;垣@取?;瓌t用以選擇、創(chuàng)新和改進(jìn)挖掘方法;由于粒度大小選擇上原因?qū)е峦诰蚪Y(jié)果不是很滿意,需要調(diào)節(jié)粒度,因此,這是一個(gè)循環(huán)反復(fù)的過程(體現(xiàn)出了分層結(jié)構(gòu)以及粒結(jié)構(gòu)),其間需要粒計(jì)算理論注入其中以求對(duì)所要解決的問題選擇合理的層次和粒度。對(duì)于孤立點(diǎn)挖掘而言,粒化觀點(diǎn)是孤立點(diǎn)挖掘方法的選擇、改進(jìn)和創(chuàng)新的切入點(diǎn),它的引入使得人們對(duì)孤立點(diǎn)挖掘的研究更廣泛和更集中即不斷的將新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆福建廈門灌口中學(xué)物理高二第一學(xué)期期末達(dá)標(biāo)檢測(cè)試題含解析
- 湖南省婁底市2025屆物理高二上期中質(zhì)量檢測(cè)模擬試題含解析
- 2025屆福建省龍巖市一級(jí)達(dá)標(biāo)學(xué)校物理高三上期中統(tǒng)考模擬試題含解析
- 陜西省育才中學(xué)2025屆高二物理第一學(xué)期期末復(fù)習(xí)檢測(cè)試題含解析
- 山東省濱州市(2024年-2025年小學(xué)五年級(jí)語(yǔ)文)統(tǒng)編版小升初模擬(下學(xué)期)試卷及答案
- 思修緒論部分課件
- 2024年加工房設(shè)備安裝合同范本
- 快拆腳手架施工工法課件
- 2024年衣服印花紙采購(gòu)合同范本
- 2024年貨車租賃到工地合同范本
- ISO9001:2015標(biāo)準(zhǔn)內(nèi)容講解
- 銀行合規(guī)風(fēng)險(xiǎn)講義課件
- 高一英語(yǔ)語(yǔ)法知識(shí)點(diǎn)北師大
- 鼻咽癌的放射治療課件
- 明孝端皇后九龍九鳳冠
- 生殖實(shí)驗(yàn)室簡(jiǎn)介課件
- 注塑車間規(guī)劃方案
- 生豬屠宰廠員工培訓(xùn)方案
- 營(yíng)養(yǎng)不良五階梯治療
- 裝修項(xiàng)目的工程量清單
- 標(biāo)本運(yùn)送培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論