版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近年來(lái)數(shù)據(jù)庫(kù)技術(shù)不斷成熟,面對(duì)大量數(shù)據(jù),人們沒有完全分析這些數(shù)據(jù)的能力,同時(shí)迫切需要將這些數(shù)據(jù)轉(zhuǎn)化成有用的信息,KDD技術(shù)隨之產(chǎn)生。在工程領(lǐng)域,數(shù)據(jù)挖掘是KDD過程的核心部分,它是從已有數(shù)據(jù)中發(fā)掘出隱含的、未知的、潛在的、有用的信息并預(yù)測(cè)數(shù)據(jù)發(fā)展趨勢(shì)的過程。然而目前的KDD過程并未有效的利用領(lǐng)域知識(shí),所謂領(lǐng)域知識(shí)是數(shù)據(jù)庫(kù)中沒有明確表示,但可以引導(dǎo)知識(shí)發(fā)現(xiàn)過程,搜索有用的知識(shí)、摒棄對(duì)用戶沒有價(jià)值的發(fā)現(xiàn)結(jié)果的信息。計(jì)算機(jī)中它表現(xiàn)的存儲(chǔ)結(jié)構(gòu)主要有比較簡(jiǎn)單的樹型結(jié)構(gòu),以及更為接近現(xiàn)實(shí)的圖的結(jié)構(gòu)形式。本課題主要是研究學(xué)習(xí)基于樹型領(lǐng)域知識(shí)的AOI算法,它是應(yīng)用已有的領(lǐng)域知識(shí)對(duì)原始數(shù)據(jù)進(jìn)行屬性概化,以提取出
2、有意義的規(guī)則。本系統(tǒng)用VC+6.0,設(shè)計(jì)系統(tǒng)界面,采用SQLServer2000做后臺(tái)數(shù)據(jù)庫(kù),實(shí)現(xiàn)了基于樹型領(lǐng)域知識(shí)AOI算法以發(fā)掘一系列規(guī)則,如特征規(guī)則、分類規(guī)則、區(qū)分規(guī)則、量化規(guī)則等等。通過對(duì)整個(gè)AOI方法實(shí)現(xiàn),加深了對(duì)數(shù)據(jù)概化、屬性刪除、屬性概化、領(lǐng)域知識(shí)、閾值控制等面向?qū)傩詺w納法相關(guān)知識(shí)的了解,并進(jìn)一步的熟悉了VC+6.0與SQLServer2000的使用。關(guān)鍵詞:數(shù)據(jù)挖掘,領(lǐng)域知識(shí),概念層次,數(shù)據(jù)概化,閾值控制第二章領(lǐng)域知識(shí)的基本理論本章介紹本次畢業(yè)設(shè)計(jì)的理論依據(jù),包括領(lǐng)域知識(shí)的作用,數(shù)據(jù)歸納法的介紹,基于領(lǐng)域知識(shí)的面向?qū)傩詺w納法,其中著重介紹設(shè)計(jì)實(shí)現(xiàn)的基于樹型領(lǐng)域知識(shí)的AOI算法并
3、且簡(jiǎn)要對(duì)比各種算法,最后是系統(tǒng)實(shí)現(xiàn)構(gòu)想部分,對(duì)AOI各個(gè)步驟的實(shí)現(xiàn)提出構(gòu)想。2.1領(lǐng)域知識(shí)的應(yīng)用和作用在前一章的介紹中闡述的領(lǐng)域知識(shí)的各種定義,這里我們做自己的詮釋,將領(lǐng)域知識(shí)定義為在數(shù)據(jù)庫(kù)中沒有明確表示,但可以引導(dǎo)知識(shí)發(fā)現(xiàn)過程搜索有趣的知識(shí)、摒棄對(duì)用戶沒有價(jià)值的發(fā)現(xiàn)結(jié)果的信息它是本次課題的背景知識(shí)。它是本次設(shè)計(jì)的背景知識(shí),是用概念層次描述的用于控制概化過程的必要依據(jù)。用概念層次這一術(shù)語(yǔ)描述時(shí),通常把概念層次的不同層組織成一種概念拓?fù)浣Y(jié)構(gòu)。這種概念拓?fù)浣Y(jié)構(gòu)根據(jù)“一般-至-特殊(general-to-specific)的序列形成了一種偏序關(guān)系。最高度泛化的概念是空概念(用保留字”Any”描述)對(duì)
4、應(yīng)于概念層次樹中的根結(jié)點(diǎn),對(duì)應(yīng)于數(shù)據(jù)庫(kù)中具體的屬性值是概念層次中最高度特化的概念,在概念層次樹中它表現(xiàn)為葉子結(jié)點(diǎn)。圖2.1和圖2.2是一個(gè)典型的大學(xué)生數(shù)據(jù)庫(kù)中領(lǐng)域知識(shí)的兩種不同表示方法。用樹的形式來(lái)表示領(lǐng)域知識(shí),層次分明,但更為復(fù)雜的情況是用圖來(lái)表示各個(gè)概念之間的關(guān)系,圖的形式接近實(shí)際,層次性卻不是那么明顯。本次設(shè)計(jì)著重針對(duì)樹型的領(lǐng)域知識(shí)進(jìn)行討論。freshman,sophomore,junior,seniorcundergraduateMS.,MA.,PhD.czgraduateundergraduate,graduateuANY(status)圖2.1大學(xué)數(shù)據(jù)庫(kù)的概念層次圖2.1為一個(gè)典型
5、的大學(xué)數(shù)據(jù)庫(kù)的概念層次表示。其中,AuB表明B是A的概化層(generalization);概念層次可由概念樹呈現(xiàn)出來(lái)。如圖2.2圖2.2樹型概念層次ANYundergraduategraduateM.A.M.S.Ph.D.freshmansophomorejuniorsenior2.2數(shù)據(jù)歸納法介紹一般而言,數(shù)據(jù)庫(kù)里存放的數(shù)據(jù)通常都是在原始概念等級(jí)的細(xì)部信息。在層次概念中表現(xiàn)為葉子結(jié)點(diǎn),例如,在一個(gè)銷售數(shù)據(jù)庫(kù)中會(huì)有產(chǎn)品名稱、品牌、類別、供貨商、產(chǎn)地及價(jià)格等等。若能把其歸納至較高較一般化的層級(jí),即層次概念中的非葉子結(jié)點(diǎn)。比如,若我們將圣誕節(jié)的熱門商品的一般化特征找出來(lái),這對(duì)銷售及行銷經(jīng)理人將會(huì)
6、有很大的幫助。要達(dá)成這個(gè)任務(wù)就需要用到數(shù)據(jù)挖掘里的一個(gè)重要功能一一數(shù)據(jù)歸納。數(shù)據(jù)歸納主要有兩種方法:(1)數(shù)據(jù)立方體法(DataCubeApproach),(2)面向?qū)傩詺w納法(Attribute-OrientedInductionApproach)o2.2.1數(shù)據(jù)立方體法數(shù)據(jù)立方體有許多其它的名稱,例如:多重維度數(shù)據(jù)庫(kù)(MultidimensionalDatabases)>具體化景觀(MaterializedViews)>在線分析處理(OLAP,On-LineAnalyticalProcessing)o數(shù)據(jù)立方體的一般概念為具體化一些經(jīng)常被要求的高成本計(jì)算,尤其是計(jì)數(shù)(count
7、)、總計(jì)(sum)>求平均數(shù)(average)>取最大值(max)等形式的歸納函數(shù),將具體化后的具體化景觀儲(chǔ)存在一個(gè)多重維度數(shù)據(jù)庫(kù)(數(shù)據(jù)方塊),可供決策支持、知識(shí)發(fā)現(xiàn)及其它應(yīng)用做參考。By2維(點(diǎn)、線、RWBS1維(點(diǎn)、3維(數(shù)據(jù)立ByAggrega圖2.3數(shù)據(jù)方塊的操作是總計(jì)函數(shù)的N維度歸納,。維度資料方塊是一個(gè)點(diǎn);1維數(shù)據(jù)方塊是一條線及一個(gè)點(diǎn);2維數(shù)據(jù)方塊是一個(gè)交叉表格、一個(gè)平面、兩條線及一個(gè)點(diǎn);3維方塊是一個(gè)有三個(gè)交叉的2維交叉表格的方塊。如2.3圖所示。數(shù)據(jù)方塊的方法,我們針對(duì)不同維度作計(jì)算,例如用制造商和年份這兩個(gè)維度便可以求出90年代Ford汽車的年平均銷售量。索引多重
8、維度數(shù)據(jù)方塊的技術(shù)和增加資料方塊的更新也己經(jīng)被研究。但數(shù)據(jù)方塊可能是相當(dāng)?shù)厥柘。驗(yàn)椴皇窃诿恳痪S度中的格子(Cell)都會(huì)有相關(guān)的資料,所以如何能夠有效率地處理疏稀方塊的技術(shù)是必須被發(fā)展出來(lái)的。2.2.2面向?qū)傩詺w納法本節(jié)介紹面向?qū)傩詺w納法的概念和它的一般過程。面向?qū)傩詺w法概念面向?qū)傩詺w納法是一種以歸納為基礎(chǔ)的數(shù)據(jù)分析技術(shù),其技術(shù)核心在于數(shù)據(jù)歸納方法,對(duì)于關(guān)系數(shù)據(jù)集合(RelationalDataset)中的每一個(gè)屬性,檢查其分布,判斷應(yīng)歸納到那個(gè)相關(guān)的更高的層次。學(xué)者對(duì)面向?qū)傩詺w納法也做過不少相關(guān)的研究:當(dāng)某一個(gè)屬性的概念層次(ConceptHierarchy)不止只有一種分類
9、法的時(shí)候,又提出多屬性歸納圖(Multi-attributeGeneralizationGraph)的方法來(lái)解決。本次設(shè)計(jì)主要研究基于樹型領(lǐng)域知識(shí),對(duì)于基于多屬性歸納圖的方法不做過多介紹。在面向?qū)傩詺w納概念層次是必不可少的背景知識(shí)。在存儲(chǔ)結(jié)構(gòu)上概念層次通常表現(xiàn)為樹或圖的形式,這里只對(duì)樹型進(jìn)行討論,在其中所有結(jié)點(diǎn)稱作概念。它們有不用的分類,一個(gè)概念層次有“一般-至-特殊(General-to-Specific)的順序性,最一般化的概念(概念樹的根結(jié)點(diǎn)),是以“ANY”來(lái)表示之,最特殊的概念(概念樹的葉子結(jié)點(diǎn)),則對(duì)應(yīng)到數(shù)據(jù)庫(kù)中某一特定的屬性值。面向?qū)傩詺w納的一般過程面向?qū)傩詺w納法是
10、利用一些歸納技術(shù)來(lái)完成數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)的屬歸納,這些歸納技術(shù)包括屬性刪除(Attribute-Removal)、屬性概化也叫概念樹爬升(Concept-TreeClimbing)>屬性閾值控制(Attribute-ThresholdControl)等。首先是屬性刪除,假如在一個(gè)屬性中存在著許多不同的屬性值,且沒有較高的概念層級(jí)可以表示它的話,或者它的更高級(jí)的概念層次用其它概念表示,則在歸納的過程,必須將這個(gè)屬性刪除。接著再做屬性概化,若某一屬性在概念層次中存在著一個(gè)更高層次的概念,則該屬性值就以其更高層級(jí)的值來(lái)取代。屬性概化后,若產(chǎn)生相同的元組,則將相同的元組合并為一組一般化元組,并將儲(chǔ)
11、存相同元組個(gè)數(shù)的vote值累加后寫到新的元組中。然而概化過程要做到什么地步停止以防止過度概化,如果所有屬性均概化至“ANY”,這樣的概化過程是沒意義的。為此我們利用閾值(threshold)來(lái)控制以防止過度概化。閾值控制有兩個(gè)方面:屬性閾值控制和元組閾值控制。如果屬性中不同屬性值的數(shù)目超過預(yù)先設(shè)定的閾值,則必須再進(jìn)一步針對(duì)這個(gè)屬性進(jìn)行概化。生成一個(gè)新歸納后的relation,其元組數(shù)目超過預(yù)先設(shè)定的閾值,則必須做再進(jìn)一步的歸納。反復(fù)進(jìn)行直到屬性個(gè)數(shù)以及元組個(gè)數(shù)小于或等于預(yù)先設(shè)定的閾值。最后需要做的工作是規(guī)則轉(zhuǎn)換,即將最終數(shù)據(jù)表格中的元組,轉(zhuǎn)換成規(guī)則。經(jīng)過這些步驟之后,數(shù)據(jù)庫(kù)中原始概念層級(jí)的數(shù)據(jù)
12、就可以被歸納成層級(jí)較高、較一般性的規(guī)則了。利用面向?qū)傩詺w納法對(duì)多屬性數(shù)據(jù)做歸納可以產(chǎn)生許的關(guān)聯(lián)規(guī)則,但面對(duì)這么多的規(guī)則有一個(gè)很重要的問題,“哪些規(guī)則是有用的?。也就是規(guī)則興趣度的衡量問題。如何找出真正有用處的規(guī)則,避免我們陷在茫茫的規(guī)則海中,也是一個(gè)很有意義研究的課題。2.3基于領(lǐng)域知識(shí)的面向?qū)傩詺w納法在數(shù)據(jù)挖掘過程中,使用了各種不同的算法,下面介紹幾種比較有代表性的基于不同領(lǐng)域知識(shí)的數(shù)據(jù)挖掘算法。2.3.1基于樹型領(lǐng)域知識(shí)的AOI目前的許多知識(shí)發(fā)現(xiàn)大多是“從零開始”的,即沒有領(lǐng)域知識(shí)前提下的獨(dú)立發(fā)現(xiàn),既沒有發(fā)揮已有知識(shí)的作用,找出已有知識(shí)隱含的特性,也沒有對(duì)以后的發(fā)現(xiàn)提供必要的積累,對(duì)數(shù)據(jù)可
13、能的發(fā)展趨向做出預(yù)測(cè)。越來(lái)越深入的研究發(fā)現(xiàn),領(lǐng)域知識(shí)在數(shù)據(jù)挖掘中具有至關(guān)重要的地位,它的應(yīng)用不僅讓已有的知識(shí)在新的發(fā)現(xiàn)過程中的發(fā)揮新作用,并可以對(duì)數(shù)據(jù)可能的發(fā)展方向做出預(yù)測(cè)。本節(jié)涉及的AOI是基于領(lǐng)域知識(shí)的面向?qū)傩詺w納,強(qiáng)調(diào)領(lǐng)域知識(shí)的應(yīng)用?;跇湫皖I(lǐng)域知識(shí)的AOI算法介紹前面介紹了面向?qū)傩詺w納法的一般過程,下面具體介紹下該算法。算法:面向?qū)傩詺w納法。根據(jù)用戶的數(shù)據(jù)挖掘請(qǐng)求,在關(guān)系數(shù)據(jù)庫(kù)上挖掘概化特征。贛8轍輸入:(i)關(guān)系數(shù)據(jù)庫(kù)DB;(ii)數(shù)據(jù)挖掘查詢DMQuery;(iii)屬性表a_list(包含屬性ai);(iv)屬性ai上的概念分層或概化操作符的集合gen(ai);(v
14、)每個(gè)屬性ai的概化閾值a_gen_thresh(ai)。輸出:主概化關(guān)系P。方法:方法描述如下。1. W<-get_task_relevant_data(DMQuery,DB);工作關(guān)系W存放任務(wù)相關(guān)的數(shù)據(jù)。2. Prepare_for_generalization(W);該步實(shí)現(xiàn)如下。(a) 掃描W,收集每個(gè)屬性ai的不同值。(注意:如果W很大,可以通過考察W的樣本做。)(b) 對(duì)于每個(gè)屬性ai,根據(jù)給定的或省缺的屬性閾值,確定ai是否應(yīng)當(dāng)刪除;如果不刪除,則計(jì)算它的最小期望層次Li,并確定映射對(duì)(v,v)其中v是W中ai的步同值,而。是其在層Li上的概化值。3P<-gener
15、azation(W)。通過用其在映射中對(duì)應(yīng)的發(fā)寸替換W中的每個(gè)值v,累計(jì)計(jì)數(shù)并計(jì)算所有的聚集值,導(dǎo)出主概化關(guān)系Po這一步可以用下面兩種方法有效地實(shí)現(xiàn):(a) 對(duì)于每個(gè)概化原則,通過二分檢索將它插入主關(guān)系P中。如果元組已在P中,則簡(jiǎn)單地增加它地計(jì)算值并響應(yīng)地處理其他聚集值;否則,將它插入P。(b) 在大部分情況下,由于主關(guān)系層步同值地個(gè)數(shù)很少,可以將主關(guān)系編碼,作為m-維數(shù)組,其中m是P中的屬性數(shù),而每個(gè)維包含對(duì)應(yīng)的概化屬性值。數(shù)組的每個(gè)原色存放對(duì)應(yīng)的計(jì)數(shù)和其他聚集值(如果有的話)。概化元組的插入通對(duì)應(yīng)的數(shù)組元素上的度量聚集進(jìn)行。2.33.2基于多屬性概化圖AOI算法-All_Gen算法介紹給定
16、一個(gè)關(guān)系和一個(gè)n個(gè)屬性集合的n個(gè)DGGs,如圖2.3所示的All_Gen算法,建立了該DGGs所有可能的概化屬性。在AlLGen算法中,概化函數(shù)返回一個(gè)概化關(guān)系,其中目標(biāo)關(guān)系中具有;Di的屬性i概化成Dik并且程序輸出保存一個(gè)概化關(guān)系。結(jié)點(diǎn)Dil是Di中的極小元。初始化函數(shù)AlLGen(relation,l,n,s),其中relation(關(guān)系)是概化的目標(biāo)關(guān)系,1是本次迭代中目標(biāo)屬性的的個(gè)數(shù),n是迭代中目標(biāo)屬性的總數(shù)目,s是用來(lái)初始化SoAlLGen算法對(duì)n個(gè)屬性采用遞歸的方法反復(fù)迭代。輸出的是n個(gè)屬性的DGGs中各個(gè)結(jié)點(diǎn)所有聯(lián)結(jié)。對(duì)于具有m個(gè)屬性的n元組數(shù)據(jù)庫(kù),概化算法為O(n),則其計(jì)算
17、復(fù)雜度為O(nim=l|Di|),|Di|是DGGDi的結(jié)點(diǎn)的數(shù)目。1. procedureAll_Gen(relation,i,m,S)2. begin3. fork=lto|Di|dobeigin4. ifk>lthen5. gen_relationGeneralize(relation,Dik)6. else7. gen_relation-relation8. end9. ifi<mthen10. All_Gen(gen_relation,i+l,m,SUDik)11. else12. Output(gen_relation,SUDik)13. end14. end15. e
18、nd圖2.3多屬性概化算法2.3.2AOI思想方法講解及其實(shí)現(xiàn)構(gòu)想面向?qū)傩詺w納的基本思想是:首先使用關(guān)系數(shù)據(jù)庫(kù)查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后,通過考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行面向?qū)傩詺w納,或者通過屬性刪除,或者通過屬性概化進(jìn)行。聚集通過合并相等的廣義元組,并累計(jì)它們的計(jì)數(shù)值進(jìn)行,這就壓縮了概化后的數(shù)據(jù)集合。結(jié)果廣義關(guān)系可以映射到不同形式,如圖表或規(guī)則,提供用戶。 屬性刪除(attributeremoval)如果原始數(shù)據(jù)中某個(gè)屬性有大量的不同的值,但是(1)在此屬性上沒有概化操作符(例如,對(duì)該屬性沒有定義概念層次),或者(2)它的較高層概念用其他屬性表示,則該屬性應(yīng)
19、當(dāng)從工作關(guān)系中刪除。 屬性概化(attributegeneralization)如果初始工作關(guān)系的某個(gè)屬性有大量的不同值,并且該屬性上存在概化操作,則應(yīng)當(dāng)選擇概化操作,即對(duì)于該屬性中每個(gè)值使用其概念層次中父結(jié)點(diǎn)來(lái)替換,這個(gè)過程是概念層次中屬性值沿概念樹上升的過程,也可以形象稱為沿概念樹爬升(concept-treeclimbing)。閾值控制閾值是為了防止過度概化,在面向?qū)傩詺w納中由用戶設(shè)定或缺省設(shè)置的值,一般情況下,數(shù)據(jù)挖掘中對(duì)屬性概化閾值控制有一個(gè)缺省的屬性閾值(取值范圍一般為2到8),對(duì)概化關(guān)系閾值控制,數(shù)據(jù)挖掘也可以預(yù)先設(shè)定(通常取值范圍為10到30)。這里
20、涉及到的閾值控制有以下兩個(gè)方面的含義:A屬性概化閾值控制可以對(duì)所有的屬性設(shè)置同一個(gè)概化閾值,或者對(duì)每個(gè)屬性設(shè)置一個(gè)閾值。如果屬性的不同值個(gè)數(shù)大于屬性概化閾值,則應(yīng)當(dāng)進(jìn)行進(jìn)一步的屬性刪除或者屬性概化,反之則結(jié)束概化過程。B概化關(guān)系閾值控制為概化關(guān)系設(shè)置一個(gè)閾值,使得概化結(jié)果以更簡(jiǎn)潔的形式呈現(xiàn)給用戶。如果概化關(guān)系中不同原組的個(gè)數(shù)超過該閾值,則應(yīng)當(dāng)進(jìn)一步概化;否則,進(jìn)行下一步操作。3.3.2A閾值控制經(jīng)過以上各個(gè)步驟,數(shù)據(jù)庫(kù)中原始數(shù)據(jù)已經(jīng)從概念層次的最低層,爬升到一定的層次,面向?qū)傩詺w納的最后一個(gè)一個(gè)步驟是把從原始數(shù)據(jù)庫(kù)中抽取出來(lái),根據(jù)一定的領(lǐng)域知識(shí)概化操作后的數(shù)據(jù)以一定的規(guī)則顯示給用戶,這也是整個(gè)
21、數(shù)據(jù)概化的目的所在。2.3.3算法比較本章最后簡(jiǎn)單對(duì)比下本文中提到的兩種算法,前面提到的AOI是針對(duì)樹型領(lǐng)域知識(shí)的,在概化階段情況比較單一,不存在考慮概化路徑的選擇問題,沿概念樹一步步爬升就可以達(dá)到預(yù)期效果,對(duì)于AlLGen算法它是針對(duì)多屬性概化圖的面向?qū)傩詺w納法,在預(yù)處理和屬性刪除階段與AOI一致,但它在概化過程中必須涉及路徑選擇問題,而且它的層次性不是太明顯,概化過程中可能出現(xiàn)概化到更低層次的情況,對(duì)于同一的原始數(shù)據(jù),即使是各控制閾值相同也會(huì)由于不同的路徑選擇而出現(xiàn)不同的規(guī)則,這就不可避免的要涉及興趣度衡量的問題。基于樹型領(lǐng)域知識(shí)的AOI算法,實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單但脫離現(xiàn)實(shí)情況的復(fù)雜性和多樣性
22、,適用于算法學(xué)習(xí)和驗(yàn)證,而對(duì)于多屬性概化圖的算法更接近實(shí)際情況,在實(shí)際應(yīng)用中也更有價(jià)值,可以預(yù)見它是未來(lái)面向?qū)傩詺w納法的發(fā)展方向,但系統(tǒng)實(shí)現(xiàn)起來(lái)也比較困難。2.3.4系統(tǒng)實(shí)現(xiàn)構(gòu)想針對(duì)以上AOI的各個(gè)步驟,本次設(shè)計(jì)將對(duì)于各個(gè)步驟設(shè)計(jì)一個(gè)模塊,獨(dú)立完成各項(xiàng)任務(wù)。特別的添加一個(gè)數(shù)據(jù)預(yù)處理和領(lǐng)域知識(shí)添加模塊,前者主要是對(duì)原始數(shù)據(jù)庫(kù)中每個(gè)元給增加一個(gè)vote值,用來(lái)統(tǒng)計(jì)概化關(guān)系中相同元組的個(gè)數(shù),以方便規(guī)則轉(zhuǎn)換并且提供數(shù)據(jù)的錄入功能。領(lǐng)域知識(shí)添加模塊是為出于系統(tǒng)通用性和完備性考慮,用戶可以自行添加原始概念層次中不存在的概化關(guān)系。對(duì)于興趣度衡量問題,由于規(guī)則數(shù)量少,本次設(shè)計(jì)沒有涉及相關(guān)內(nèi)容。第三章系統(tǒng)設(shè)計(jì)及
23、實(shí)現(xiàn)說明本章是面向?qū)傩缘臍w納法的系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)部分。包括系統(tǒng)實(shí)現(xiàn)總體目標(biāo)和要求,程序流程圖,模塊劃分及實(shí)現(xiàn)過程中不同模塊解決方案,及數(shù)據(jù)的存儲(chǔ)。3.1程序的總體目標(biāo)本次設(shè)計(jì)是在Windows環(huán)境下采用Microsoft公司的VisualC+6.0實(shí)現(xiàn)程序界面以及與此有關(guān)操作,利用SQLServer2000作為后臺(tái)數(shù)據(jù)庫(kù)存儲(chǔ)原始數(shù)據(jù)表、概念層次以及程序運(yùn)行過程中生成的臨時(shí)數(shù)據(jù)表。系統(tǒng)實(shí)現(xiàn)的總體要求是對(duì)關(guān)系數(shù)據(jù)庫(kù)中的最低層的原始數(shù)據(jù),按照已經(jīng)存在的領(lǐng)域知識(shí)進(jìn)行沿概念層次爬升,用更一般的泛化概念來(lái)代替特化的概念,最終對(duì)生成的新的數(shù)據(jù)表進(jìn)行規(guī)則轉(zhuǎn)換操作,得到的規(guī)則最終以元組間析取范式的形式呈現(xiàn)給用戶。
24、3.2程序核心模塊流程圖系統(tǒng)實(shí)現(xiàn)過程中,對(duì)于整個(gè)程序也符合自頂向下的處理過程,在VC環(huán)境下采用MFC技術(shù)體現(xiàn)了面向?qū)ο蟮乃枷?,整個(gè)系統(tǒng)的程序流程圖如圖3.1所示:3.3系統(tǒng)模塊劃分一般程序運(yùn)行過程大體上分為如下三個(gè)部分:數(shù)據(jù)輸入、數(shù)據(jù)處理以及結(jié)果輸出。本次設(shè)計(jì)也按照如上三個(gè)處理過程劃分系統(tǒng)模塊。整個(gè)程序模塊圖如圖3.2:圖3.1程序3.3.1輸入模塊對(duì)于數(shù)據(jù)輸入部分由于這次是對(duì)原始數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行操作,所以輸入模塊比較簡(jiǎn)單,實(shí)現(xiàn)上就是從數(shù)據(jù)庫(kù)中導(dǎo)入一張要處理的數(shù)據(jù)表,使用OBDC數(shù)據(jù)庫(kù)連接技術(shù),連接數(shù)據(jù)庫(kù),并使用ADOC和DataGrid控件來(lái)完成原始數(shù)據(jù)的顯示。3.3.2數(shù)據(jù)處理模塊該模塊是
25、整個(gè)系統(tǒng)的主體,實(shí)際上對(duì)于大多數(shù)程序來(lái)說也是主要部分。該模塊主要實(shí)現(xiàn)AOI算法的主體部分,具體包括如下分模塊:數(shù)據(jù)預(yù)處理、屬性刪除、屬性概化、元組合并、領(lǐng)域知識(shí)添加以及閾值控制,下面對(duì)各個(gè)部分進(jìn)行單獨(dú)介紹。數(shù)據(jù)預(yù)處理這個(gè)模塊主要是對(duì)輸入模塊中導(dǎo)入的原始數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,本次實(shí)現(xiàn)的是對(duì)每個(gè)元組添加一個(gè)記錄元組數(shù)目的vote值初始值為1,在后續(xù)的操作中vote的值會(huì)隨相同元組數(shù)目的增加而增加。而且這個(gè)模塊增加了數(shù)據(jù)錄入功能。屬性刪除針對(duì)初始化以后的數(shù)據(jù),該模塊對(duì)每個(gè)屬性值的不同個(gè)數(shù)進(jìn)行統(tǒng)計(jì),當(dāng)某屬性有大量不同值的時(shí)候,做如下的判斷,若該屬性上沒有概化操作或者再更高的層
26、次上它使用別的概念來(lái)代替,則刪除該屬性,若該屬性雖有大量不同值則保留,以利于后面的操作。對(duì)于“有大量不同值”的判斷使用了閾值控制技術(shù)。33.2.3屬性概化本模塊是面向?qū)傩詺w納法的核心部分,真正體現(xiàn)沿概念樹爬升這個(gè)過程。它是反復(fù)用領(lǐng)域知識(shí)中較高的層次來(lái)替換低層次的概念,直到其中各個(gè)屬性的個(gè)數(shù)滿足小于等于控制屬性閾值,具體實(shí)現(xiàn)上把經(jīng)過屬性刪除的數(shù)據(jù)各屬性分別存儲(chǔ)到一維字符串?dāng)?shù)組中,然后對(duì)各個(gè)數(shù)組中不同值的個(gè)數(shù)統(tǒng)計(jì),若是大于控制屬性閾值則用概念層次中較高的概念替換數(shù)組中各個(gè)元素,然后再對(duì)其中不同元素的個(gè)數(shù)作統(tǒng)計(jì),反復(fù)以上過程直到數(shù)組中不同元素的個(gè)數(shù)符合要求。最后把符合要求的元組寫到新的數(shù)據(jù)表中,以備
27、下一步使用。元組合并對(duì)于屬性概化后的數(shù)據(jù)表格,一定會(huì)存在重復(fù)的元組,這個(gè)模塊累計(jì)相同元組個(gè)數(shù)寫到vote中作為一條記錄。經(jīng)過這步數(shù)據(jù)表中已經(jīng)沒有相同元組,并統(tǒng)計(jì)出元組個(gè)數(shù),可以進(jìn)行規(guī)則轉(zhuǎn)換操作了。領(lǐng)域知識(shí)添加把領(lǐng)域知識(shí)添加作為一個(gè)獨(dú)立的模塊是為了考慮程序的通用性,對(duì)一個(gè)原始的數(shù)據(jù)庫(kù)來(lái)說不一定有存儲(chǔ)好的領(lǐng)域知識(shí),所以系統(tǒng)使用者可以通過對(duì)數(shù)據(jù)庫(kù)的學(xué)習(xí)自己提取出相關(guān)的領(lǐng)域知識(shí),然后以表格的形式存儲(chǔ)到數(shù)據(jù)庫(kù)中,以備數(shù)據(jù)概化使用。對(duì)于閾值控制模塊,由于不止一個(gè)模塊涉及到它,本次設(shè)計(jì)過程中沒有作為一個(gè)獨(dú)立的模塊來(lái)處理,而是將其分散到屬性刪除、屬性概化及元組合并等模塊中。各個(gè)模塊
28、有三處涉及到閾值這個(gè)詞,這里對(duì)它們的含義分別闡述。在屬性刪除和屬性概化模塊它是對(duì)于每個(gè)屬性設(shè)置一個(gè)數(shù)值以控制刪除和概化操作,屬于控制屬性閾值。在元組合并模塊它的含義略有不同,是對(duì)經(jīng)過屬性刪除、屬性概化各個(gè)步驟操作后的數(shù)據(jù),判斷它的元組的個(gè)數(shù)是否符合要求,這里是控制關(guān)系閾值。3.3.3數(shù)據(jù)輸出模塊本系統(tǒng)輸出模塊包括提取出的規(guī)則輸出,領(lǐng)域知識(shí)的輸出以及屬性刪除和屬性概化兩個(gè)中間結(jié)果輸出。3.4數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)在計(jì)算機(jī)中的存儲(chǔ)形式,采用適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)可以節(jié)省內(nèi)存空間,還可以提高運(yùn)行效率,而且程序也會(huì)更加健壯。在本次畢業(yè)設(shè)計(jì)實(shí)現(xiàn)AOI算法過程中,贛14贛由于數(shù)據(jù)表中的數(shù)據(jù)要按照概念層次對(duì)原有
29、的數(shù)據(jù)進(jìn)行數(shù)據(jù)概化,且進(jìn)行數(shù)據(jù)概化的時(shí)候,涉及到廣義元組,故采用字符串?dāng)?shù)組作為主要的存儲(chǔ)結(jié)構(gòu)。接收進(jìn)來(lái)以及即將輸出的數(shù)據(jù)表均存儲(chǔ)在二維字符串?dāng)?shù)組中。中間運(yùn)算所需要的還有一維字符串?dāng)?shù)組,如:概化過程每個(gè)屬性值的存儲(chǔ)和字符串,字符串主要是用于對(duì)數(shù)據(jù)庫(kù)的各項(xiàng)操作,連接、添加、刪除等??紤]程序的健壯性,整個(gè)程序?qū)崿F(xiàn)過程中,盡量使用局部變量,使用較少的全局變量,不但節(jié)省了內(nèi)存空間,對(duì)程序運(yùn)行的安全性也有促進(jìn)作用。3.5數(shù)據(jù)庫(kù)設(shè)計(jì)數(shù)據(jù)庫(kù)設(shè)計(jì)主要是進(jìn)行數(shù)據(jù)庫(kù)的邏輯設(shè)計(jì),即將數(shù)據(jù)按一定的分類、分組系統(tǒng)和邏輯層次組織起來(lái),是面向用戶的。數(shù)據(jù)庫(kù)設(shè)計(jì)時(shí)需要綜合用戶存檔數(shù)據(jù)和數(shù)據(jù)需求,分析各個(gè)數(shù)據(jù)之間的關(guān)系,按照DB
30、MS提供的功能和描述工具,設(shè)計(jì)出規(guī)模適當(dāng)、正確反映數(shù)據(jù)關(guān)系、數(shù)據(jù)冗余少、存取效率高、能滿足多種查詢要求的數(shù)據(jù)模型。對(duì)于一個(gè)常規(guī)的系統(tǒng)來(lái)說,數(shù)據(jù)庫(kù)的設(shè)計(jì)應(yīng)該占相當(dāng)大的比例。不過本次設(shè)計(jì)算法較為特殊,它是對(duì)已有的關(guān)系數(shù)據(jù)庫(kù)中原始數(shù)據(jù)進(jìn)行操作,簡(jiǎn)化了數(shù)據(jù)庫(kù)的設(shè)計(jì)過程。對(duì)于所完成的系統(tǒng),設(shè)計(jì)數(shù)據(jù)庫(kù)只涉及到兩個(gè)原始數(shù)據(jù)表,一個(gè)是用于存儲(chǔ)要進(jìn)行概化數(shù)據(jù)的數(shù)據(jù)表,另一個(gè)是概化的依據(jù)領(lǐng)域知識(shí)的存儲(chǔ)。當(dāng)然在程序運(yùn)行過程中為了操作上的方便,將其中一部分的中間結(jié)果也存儲(chǔ)在數(shù)據(jù)表中。AbstractRecentyears,thetechniqueofdatabasehasbeencomingtomaturity.An
31、dthescaleofdatabaseismoreandmoresweeping.Peoplehavenofullabilitytoanalyzedatainthesedatabases.Meanwhileitisneededtodiscoverusefulinformationfromthem.Inthiscase,KDD(shortforknowledgediscoveryindatabases)hasbeendeveloped.Inthefieldofengineering,asthemainprocessofKDD,DM(shortfordatamining)isthenontrivi
32、alextractionofimplicit,previouslyunknown,andpotentiallyusefulinformationfromdata.Atthesametime,itcandopeoutthetrendofthedevelopmentofdata.Unfortunately,atpresentdomainknowledgehasn'tbeenusedeffectivelywhenpeopledoKDD.Sodomainknowledgeisimplicitindatabases.ButitcanmaketheprocessofKDDclear,andtell
33、usefulinformationfromtrashy.Incomputer,itcanbestoredasthestructureoftreewhichissimple,andtheotherapproachisstoreitasgraphwhichismorecomplexbutmuchnearertofact.ThispaperismainlytostudythealgorithmofAOIinwhichdomainknowledgeexistedisusedtogeneralizetheoriginaldataindatabases.Duringitwewilldiscoveraser
34、ialofrules,suchascharacteristicrule,classificationrule,discriminantrule,quantityruleandsoon.Duringthedesign,VC+6.0wasusedasthedevelopingenvironmentwiththeprogramlanguageofC+todesignthesysteminterface.Astothedatabasemanagement,SQLServer2000wasadoptedtomanagedataandrelationsamongthem.Intheprogram,itis
35、realizedthatAOIalgorithmbasedondomainknowledgeoftree.Theprogramistodiscoversomeimplicitandusefulrulesfromoriginaldata.ItmakesmelearnmoreconceptsaboutAOIsuchasdatageneralization,attributeremoval,attributegeneralization,domainknowledge,thresholdcontroletc.ItalsomakesmebemorefamiliarwiththeusageofVC+6.
36、0andSQLServer2000.Keywords:datamining,domainknowledge,concepthierarchy,datageneralization,thresholdcontro第四章系統(tǒng)使用方法簡(jiǎn)介本章主要是系統(tǒng)介紹章節(jié),它包括如下內(nèi)容,系統(tǒng)主要模塊運(yùn)行界面的介紹,系統(tǒng)使用方法說明以及系統(tǒng)在使用過程中的相關(guān)注意點(diǎn)。4.1系統(tǒng)主要模塊運(yùn)行界面針對(duì)上一章中系統(tǒng)設(shè)計(jì)中提到的各個(gè)模塊,這一小節(jié)將給出程序主要界面的運(yùn)行截圖和各個(gè)模塊的操作方法。圖4.1程序運(yùn)行主界面圖4.1是程序運(yùn)行的主界面,各個(gè)步驟的操作以菜單的形式體現(xiàn),其中數(shù)據(jù)預(yù)處理下拉菜單包含“數(shù)據(jù)導(dǎo)入”、“屬性
37、刪除”、“屬性概化”和“背景知識(shí)添加”幾個(gè)子菜單,閾值確定菜單是針對(duì)屬性刪除的控制屬性閾值以確定那些屬性在下一步操作過程中予以保留,面向?qū)傩詺w納菜單中,為了避免和數(shù)據(jù)預(yù)處理菜單重復(fù),只設(shè)計(jì)了元組合并”和“規(guī)則轉(zhuǎn)換”兩個(gè)子菜單,結(jié)果顯示有“屬性刪除”、“屬性概化”和“規(guī)則顯示”三個(gè)菜單用以查看各個(gè)處理結(jié)果,最后的退出系統(tǒng)沒有子菜單,它只提供退出操作。圖4.2數(shù)據(jù)導(dǎo)入模塊圖4.2是原始數(shù)據(jù)導(dǎo)入后的運(yùn)行界面,為了方便操作,添加了一個(gè)數(shù)據(jù)記錄添加操作,這也可以用于向本身空的數(shù)據(jù)表中錄入數(shù)據(jù),避免在SOLserver2000下進(jìn)行直接操作,其中各個(gè)按鍵鈕的作用如其自身的名稱。贛16贛X圖4.3屬性刪除這
38、個(gè)界面是經(jīng)過初始化后的數(shù)據(jù)表的顯示,刪除了無(wú)關(guān)屬性,并且增加了vote列,以便合并元組時(shí)使用,對(duì)于各個(gè)屬性是否要保留提供了屬性管制閾值然后可以選擇輸入不同的屬性進(jìn)行判斷,屬性判斷會(huì)讀取“已有概化字段表”以判斷各個(gè)屬性是否可以進(jìn)行概化。“下一步”按鈕則轉(zhuǎn)到選擇數(shù)據(jù)集的操作上。圖4.4選擇目標(biāo)集這個(gè)模塊沒有提供太多的操作,是為了方便用戶有針對(duì)的選擇目標(biāo)數(shù)據(jù),以進(jìn)行下一步的操作,對(duì)于本例提供兩個(gè)選項(xiàng):“graduate"和“undergraduate”。目標(biāo)鍛據(jù)集MaiorBirthPlaceGPAhistoryVancouver3.5phvsiceOttawa3.9mathBombay3
39、.3biologyShanghai3.4computingVictoria3.8statisticsNaniinq3.2屬性閾值確認(rèn)慨化上一步確認(rèn)慨化上一步下一步退.出圖4.4屬性概化到了這個(gè)模塊,就是進(jìn)行屬性概化工作,它接受用戶控制屬性閾值,程序自動(dòng)判斷,那些屬性要進(jìn)行概化,哪些屬性跳過這個(gè)步驟。圖4.6元組合并這個(gè)模塊是對(duì)操作后的數(shù)據(jù)進(jìn)行元組合并工作,為最后的規(guī)則輸出做準(zhǔn)備。請(qǐng)選擇要顯示的規(guī)則確土刷新|添加規(guī)則前驅(qū)(規(guī)則|3后繼添加|確土刷新|添加規(guī)則前驅(qū)(規(guī)則|3后繼添加|前驅(qū)sciencechemistryphysicscomputingliteraturesicenceartfres
40、hmansophomorejuniorseniorsciencesciencescienceartANY(major|ANY(major)undergraduateundergraduateundergraduateundergraduatenrstdaiMtR退出圖4.7規(guī)則顯示及添加圖4.7是領(lǐng)域知識(shí)添加模塊,主要提供顯示已有領(lǐng)域知識(shí),也可以由用戶往數(shù)據(jù)庫(kù)中自由添加,默認(rèn)的是顯示所有領(lǐng)域知識(shí),當(dāng)然用戶可以選擇不同的概念層次以顯示清晰,就本次實(shí)現(xiàn)上有“Major”、“Birth_Place”和“Status”三個(gè)選項(xiàng)供用戶選擇。4.2使用方法說明本系統(tǒng)進(jìn)入主界面之后,首先導(dǎo)入原始數(shù)據(jù),先進(jìn)行
41、數(shù)據(jù)初始化,然后按照用戶自己的要求對(duì)原始數(shù)據(jù)做屬性刪除或者屬性概化,或者先屬性刪除再屬性概化,再在指定模塊中進(jìn)行背景知識(shí)的添加,即概念層次的構(gòu)造。在預(yù)處理過程中,要求設(shè)定閾值,然后按照要求進(jìn)行面向?qū)傩缘臍w納,最終輸出規(guī)則(量化和特征規(guī)則)。將得到的結(jié)果(數(shù)據(jù)表格形式)導(dǎo)入知識(shí)規(guī)則的規(guī)則轉(zhuǎn)換模塊中,進(jìn)行區(qū)別規(guī)則和量化規(guī)則的提取。4.3相關(guān)注意點(diǎn)在系統(tǒng)運(yùn)行過程中,用戶可以自由選擇各個(gè)過程,而沒有必要按照AOI算法的各個(gè)步驟依次執(zhí)行,這是由于本系統(tǒng)實(shí)現(xiàn)過程中保留了各個(gè)中間結(jié)果,因此若是第一次運(yùn)行,有必要按步驟依次執(zhí)行,否則可能會(huì)出錯(cuò)。對(duì)于普通用戶不建議直接在SOLserver2000環(huán)境下對(duì)表進(jìn)行直
42、接增刪,設(shè)計(jì)實(shí)現(xiàn)過程中,有表的不斷創(chuàng)建與刪除過程,因此不熟悉程序各個(gè)過程的情況下直接刪除表格,會(huì)導(dǎo)致運(yùn)行出錯(cuò)。第五章系統(tǒng)運(yùn)行測(cè)試結(jié)果本章使用一組數(shù)據(jù)對(duì)系統(tǒng)進(jìn)行測(cè)試,驗(yàn)證算法。主要內(nèi)容有測(cè)試方法的簡(jiǎn)單介紹,數(shù)據(jù)的來(lái)源以及運(yùn)行結(jié)果等。5.1系統(tǒng)測(cè)試原理及方法簡(jiǎn)介在軟件工程領(lǐng)域,測(cè)試主要分為兩種:黑盒和白盒兩種紹下兩種方法:白盒測(cè)試:著重程序邏輯結(jié)構(gòu)和控制結(jié)構(gòu)的測(cè)試,主要技術(shù)有,選擇有代表性的程序通路,對(duì)其中的通路進(jìn)行邏輯測(cè)試,或者是根據(jù)程序的控制結(jié)構(gòu)設(shè)計(jì)測(cè)試數(shù)據(jù)。這種方法要求對(duì)程序有相當(dāng)?shù)牧私?,能夠發(fā)現(xiàn)程序中邏輯和編碼的錯(cuò)誤,技術(shù)要求高,是測(cè)試的主要方法。黑盒測(cè)試:它是對(duì)白盒測(cè)試的補(bǔ)充,注重程序的
43、功能測(cè)試。針對(duì)程序的功能設(shè)計(jì)輸入測(cè)試數(shù)據(jù),對(duì)輸出進(jìn)行判斷檢測(cè)其是否符合要求。它不同于白盒測(cè)試主要用于后期測(cè)試,本次主要是采用黑盒測(cè)試的方法。5.2數(shù)據(jù)來(lái)源本次實(shí)驗(yàn)的軟硬件環(huán)境是:Celeron(R)2.53GHz,512M內(nèi)存,WindowsXP操作系統(tǒng),VisualC+6.0,SQLServer2000數(shù)據(jù)庫(kù);數(shù)據(jù)來(lái)源于參考文獻(xiàn)CaiY,CerconeN.,HanJ.Attribute-orientedinductioninrelationaldatabases.In:Piatetsky-Shapiro,FrawleyW.J.eds.KnowledgeDiscoveryinDatabases
44、.MenloPark,California:AAAIPress/TheMITPress,1991,213-228.。本次測(cè)試主要是先在SQLServer2000下建立數(shù)據(jù)庫(kù),輸入大學(xué)學(xué)生關(guān)系數(shù)據(jù)庫(kù)和概念層次。圖5.1典型大學(xué)數(shù)據(jù)庫(kù)NameStatusMajorBnthPlaceGPAAndersonMAhistory*ancouver3.5BachjximormathCalgary3.7CarltonjuniorliberalartsEdmonton2.6FraserM.S.physicsOttawa3.9GuptaPhD.mathBombay33HartsophomorechemistrvR
45、ichmond2.7JacksonseniorcomputingVictoria35LiuPhD.biologyShanshaiJ3.4-MeyersophomoremusicBurnaby3.0XfonkPhD-computingVictoria3.8WansM.S.statisticsNamms3.2宣立馬區(qū)鋼貝IJbiolog'y*Gsciencechemistryesciencephysicsesciencecomputing丘scienceliteratureeartsicenceAhlX(majorarteAhlY(major)freshmaneundergradtjate
46、sophomoreeundergraduatejunior丘undergraduateseniorICundergraduate圖5.2概念層次存儲(chǔ)表圖5.1和5.2是本次測(cè)試的數(shù)據(jù)來(lái)源,5.1是典型的大學(xué)數(shù)據(jù)庫(kù),5.2是存儲(chǔ)成表格的領(lǐng)域知識(shí)。5.3數(shù)據(jù)處理及運(yùn)行結(jié)果裱20溯1、對(duì)原始數(shù)據(jù)關(guān)系初始化之后,表5.1首先進(jìn)行屬性刪除操作,其中Name列符合屬性刪除的條件被刪除,操作結(jié)果如圖5.2顯示。DataGridlNameStatusMajorBirthPlaceGPAvoteAndersonM.A.historyVancouver3.51BachjuniormathCalgary3.71|_
47、CarltonjuniorliteratureEdmonton2.61FraserM.S.physiceOttawa3.91GuptaPh.D.mathBombay3.31HartsophomorechemistryRichmond2.71JacksonseniorcomputingVictoria3.51LiuPh.D.biologyShanghai3.41MeyersophomoremusicBurnaby2.711r*irxcc圖5.3預(yù)處理結(jié)果從表中可以看出在原表格上新增了屬性列vote用以計(jì)數(shù)累加初始值均為1,同時(shí)選擇數(shù)據(jù)操作集graduateo2、對(duì)提取出的數(shù)據(jù)操作集graduat
48、e由于其經(jīng)過初始化和屬性刪除可以進(jìn)行下一步操作屬性概化一這是沿概念層次爬升的體現(xiàn),同時(shí)進(jìn)行元組合并,其運(yùn)行結(jié)果如圖5.4MajorBirthPlaceGAPvotescienceCalgaryexcellent1artEdmontonaverage1scienceRichmondaverage1scienceVictoriaexcellent1artBurnabyaverage1artTorontoexcellent1圖5.4概化結(jié)果一3、對(duì)于表5.4還應(yīng)該進(jìn)行閾值控制測(cè)試,發(fā)現(xiàn)它不滿足設(shè)定的閾值(閾值為3)要求,故需進(jìn)一步進(jìn)行屬性閾值控制,所得結(jié)果如圖5.5。MajorBirthPlaceG
49、APvotescienceCanadaexcellent3scienceforeigngood3圖5.5概化結(jié)果二4>對(duì)表5.5它已經(jīng)滿足關(guān)系控制閾值則可進(jìn)行規(guī)則轉(zhuǎn)變,得到最終的規(guī)則如圖5.5所/J'o規(guī)則顯不:任意h)graduate->(Major(x)escienceABirth_Place(x)CanadaAGPA(x)eexcellent)50VMajor(x)scienceABirth_Place(x)foreignAGPA(x)good)50圖5.6規(guī)則轉(zhuǎn)換結(jié)果從圖5.5和圖5.6可以看出對(duì)于任意一個(gè)研究生,他的major是science并且Birth_Pla
50、ce是Canada,則他的GPA一定為excellent,這就是得出的一條特征規(guī)則。另外,圖5.6還顯示了一條量化規(guī)則,對(duì)于任意一個(gè)研究生它有50%的可能是major為science,Birth_Place為Canada,并且GPA為excellent,另外的50%可能是這樣的情況,major為science,Birth_Place為foreign,并且GPA為goodo5、還可以對(duì)undergraduate進(jìn)行面向?qū)傩詺w納,提取出特征規(guī)則和量化規(guī)則。此外,還可以將graduate得出的結(jié)果作為目標(biāo)類,undergraduate得出的結(jié)果作為對(duì)比類,提取出量化和區(qū)別規(guī)則,如圖5.7所示。Maj
51、orBirthPlaceGPAvotemarkscienceCanadaexcellent3*scienceforeigngood3IMajorBirthPlaceGPAvotemarkscienceCanadaexcellent2artCanadaaverage1scienceCanadaaverage1artCanadagood1artCanadaexcellent1圖5.7目標(biāo)類graduate和對(duì)比類undergraduate從圖5.7的兩個(gè)表中,可以得到量化和區(qū)別規(guī)則,如圖5.8,即對(duì)于一個(gè)學(xué)生如果他主修science,出生在Canada,而且GPA是excellent,則他有60%
52、的可能性是graduate,如果一個(gè)學(xué)生他主修science,出生在foreign,而且GPA是good,則他一定是graduate,以上兩條規(guī)則是目標(biāo)類graduate和對(duì)比類undergraduate比較出來(lái)的量化規(guī)則,因此叫做量化和區(qū)別規(guī)則。規(guī)則顯示:任意的graduate->(majorscienceAbirth_place(x)UCanadaAGPA(x)Uexcellent)60三V(major(x)WscienceAbirth_place(x)UforeignAGPA(x)Wgood)100圖5.8量化和區(qū)別規(guī)則第六章課題研究結(jié)論及工作展望本章總結(jié)本次畢業(yè)設(shè)計(jì)的整個(gè)過程。第
53、一部分是工作總結(jié),包括我在整個(gè)畢業(yè)設(shè)計(jì)期間完成的主要工作和一些心得體會(huì);第二部分為工作展望,對(duì)本次畢業(yè)設(shè)計(jì)中尚不完善部分也加以概括,并對(duì)未來(lái)今后的工作和學(xué)習(xí)方向加以規(guī)劃。6.1工作總結(jié)數(shù)據(jù)挖掘是從大量的、模糊的、隨機(jī)的、不完全的、有噪音的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是有用的潛在信息和知識(shí)的過程。近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是人們對(duì)于大量信息存在這樣一種尷尬,即對(duì)于大量的信息卻難以發(fā)現(xiàn)其中有用的知識(shí)。正是在這樣的背景下數(shù)據(jù)挖掘領(lǐng)域近年來(lái)飛速發(fā)展。本文針對(duì)本次畢業(yè)設(shè)計(jì)做的對(duì)給定數(shù)據(jù)表進(jìn)行面向?qū)傩缘臍w納的操作就是為了在數(shù)據(jù)庫(kù)大量的數(shù)據(jù)(有冗余)中提取出一
54、定的規(guī)則,然后傳遞給用戶,滿足用戶對(duì)數(shù)據(jù)隱含規(guī)則或是發(fā)展趨勢(shì)預(yù)測(cè)的需求。主要完成的工作和收獲:1. 為了完成算法實(shí)現(xiàn)不僅閱讀了有關(guān)數(shù)據(jù)挖掘和面向?qū)傩缘臍w納方法的書籍還對(duì)程序設(shè)計(jì)和數(shù)據(jù)庫(kù)相關(guān)的書本進(jìn)行了有針對(duì)性的復(fù)習(xí)。熟悉了程序設(shè)計(jì)思想及數(shù)據(jù)庫(kù)相關(guān)概念并了解了數(shù)據(jù)挖掘的一些基本概念和數(shù)據(jù)挖掘研究的大概內(nèi)容及方向等;特別的對(duì)于面向?qū)傩詺w納法部分,閱讀了不少相關(guān)資料,較為系統(tǒng)地學(xué)習(xí)了整個(gè)算法,而且實(shí)現(xiàn)了基于樹型領(lǐng)域知識(shí)的歸納算法。2. 在算法實(shí)現(xiàn)過程中,真切體會(huì)到數(shù)據(jù)挖掘的現(xiàn)實(shí)意義,對(duì)本科階段的很多理論知識(shí)在實(shí)踐應(yīng)用上有了更為深刻的理解和認(rèn)識(shí),貫通了一些課堂沒有消化完全的知識(shí),提高了我實(shí)際動(dòng)手能力。
55、3. 前文提到本次設(shè)計(jì)是基于Visual+6.0和SQLServer200。,因此對(duì)于C+編程語(yǔ)言和SQL也進(jìn)一步熟悉,對(duì)于數(shù)據(jù)庫(kù)的使用方法,特別是VC中關(guān)于數(shù)據(jù)庫(kù)的使用方法,有深刻的體會(huì)。6.2工作展望本次設(shè)計(jì)雖然完成了AOI的基本算法,但對(duì)于本文所涉及的設(shè)計(jì)內(nèi)容,還存在以下需要進(jìn)一步研究的工作:面向?qū)傩詺w納法在理論上同樣可以適用于很多其它類型數(shù)據(jù)庫(kù),對(duì)于這種情況還需進(jìn)一步驗(yàn)證。利用面向?qū)傩詺w納法還可以提取更多的規(guī)則,如數(shù)據(jù)演化規(guī)律性、區(qū)別規(guī)則等,在本次設(shè)計(jì)中都沒有體現(xiàn)。本次設(shè)計(jì)只對(duì)樹型結(jié)構(gòu)的領(lǐng)域知識(shí)進(jìn)行處理。然而在現(xiàn)實(shí)情況中,更合理也更接近現(xiàn)實(shí)的應(yīng)該是圖型結(jié)構(gòu)形式的領(lǐng)域知識(shí),這就帶來(lái)一系列
56、復(fù)雜的操作如背景知識(shí)如何輸入、在計(jì)算機(jī)中如何存儲(chǔ)、概化過程中如何對(duì)多個(gè)高層概念進(jìn)行取舍而且不得不考慮興趣度問題,這些對(duì)于實(shí)現(xiàn)更為復(fù)雜,更加實(shí)際的系統(tǒng)都是非常關(guān)鍵的問題,也有理由相信這才是AOI真正有價(jià)值的方面??刂聘呕^程的關(guān)鍵因素一一閾值的控制的取值上,在設(shè)計(jì)中只是作為已知條件使用,并沒有從理論上論證對(duì)其合理性、有效性。而且整個(gè)程序的通用性是也存在欠缺,并沒有使用其它的數(shù)據(jù)進(jìn)行驗(yàn)證。在以后進(jìn)一步的工作與學(xué)習(xí)中,對(duì)待程序設(shè)計(jì)過程中會(huì)更加全面的考慮各個(gè)方面的,希望能用自己的所學(xué)為IT的發(fā)展盡我綿薄的力量!謝辭主要參考文獻(xiàn)1 H.J.Hamiltin,R.J.Hamilton,andN.Cercone.Attribute-orientedinduction
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度食用油原料種植基地生態(tài)環(huán)境保護(hù)合同3篇
- 2024機(jī)床銷售合同范文
- 2024版商業(yè)股權(quán)交易協(xié)議樣本版B版
- 2024版商業(yè)合作協(xié)議書范文
- 2024版衛(wèi)星導(dǎo)航與定位服務(wù)合同
- 乙方合同變更條款明確合同2024年范本版B版
- 二零二五年度企業(yè)并購(gòu)融資合同模板3篇
- 2024汽油、柴油采購(gòu)政府采購(gòu)合同
- 2024年裝飾公司主材采購(gòu)合同3篇
- 合肥安徽合肥廬江縣人民醫(yī)院醫(yī)院集團(tuán)招聘19名保安筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解
- 燃?xì)忮仩t(設(shè)施)低氮改造技術(shù)規(guī)范
- 2023年服務(wù)交付經(jīng)理年終總結(jié)及年后展望
- 2022年一級(jí)建造師《機(jī)電》考試寶典
- 2023年高考數(shù)學(xué)專項(xiàng)練習(xí)痛點(diǎn)問題之概率統(tǒng)計(jì)經(jīng)典解答題含解析
- 物業(yè)管理勞務(wù)外包合同范本
- 消費(fèi)者心理與行為分析PPT(第四版)完整全套教學(xué)課件
- 小學(xué)四年級(jí)語(yǔ)文下冊(cè)全書背誦內(nèi)容
- 2023-2024學(xué)年福建省漳州市初中語(yǔ)文七年級(jí)上冊(cè)期末模考試題
- 全國(guó)小學(xué)語(yǔ)文研究《低年級(jí)作文 》精品課件寫話教學(xué)課件
- 附錄常見感嘆詞及用法
- GB/T 21709.5-2008針灸技術(shù)操作規(guī)范第5部分:拔罐
評(píng)論
0/150
提交評(píng)論