DM 1 概述 數(shù)據(jù)預(yù)處理_第1頁
DM 1 概述 數(shù)據(jù)預(yù)處理_第2頁
DM 1 概述 數(shù)據(jù)預(yù)處理_第3頁
DM 1 概述 數(shù)據(jù)預(yù)處理_第4頁
DM 1 概述 數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘概述Dr.Qingyuan

BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@1References1.ProceedingsinVLDB,AAAI,IJCAI,SIGMOD/SIGPODS,ICDE/ICDT.2.Jiawei

Han(/~hanj/)3.DBLP(rmatik.uni-trier.de/~ley/db/index.html)4.國內(nèi)外相關(guān)網(wǎng)站/論壇(1)21世紀(jì)人工智能論壇()(2)www.cs.ualberta.ca/~tszhu/webmining/(3)研學(xué)論壇(/index.html)(4)數(shù)據(jù)挖掘討論組()2數(shù)據(jù)挖掘數(shù)據(jù)挖掘是在數(shù)據(jù)大量積累,數(shù)據(jù)豐富,而知識(shí)貧乏,希望從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的方法。集數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、人工智能等技術(shù)形成一個(gè)新學(xué)科可處理雜亂的數(shù)據(jù)、定性和定量混合數(shù)據(jù)、模糊數(shù)據(jù)、不確定數(shù)據(jù)和不完整的的數(shù)據(jù)。機(jī)器學(xué)習(xí)、人工智能用各種方法解決了一些方法問題,但實(shí)用性不夠(僅在小數(shù)量數(shù)據(jù)實(shí)驗(yàn)可行)。3

數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系

4數(shù)據(jù)挖掘相關(guān)的領(lǐng)域KDD(知識(shí)發(fā)現(xiàn))機(jī)器學(xué)習(xí)數(shù)據(jù)庫統(tǒng)計(jì)學(xué)人工智能模糊邏輯方法和粗糙集方法神經(jīng)元網(wǎng)絡(luò)模式識(shí)別可視技術(shù)5數(shù)據(jù)挖掘希望回答的問題信貸中信用評估、信用卡評級、信用卡欺詐銷售一個(gè)產(chǎn)品,廣告、材料的郵寄對象保留何種客戶、爭取潛在客戶,交叉銷售股票違規(guī)操作、欺詐行為

貨架貨物的擺放國民經(jīng)濟(jì)各指標(biāo)間的關(guān)系疾病、癥狀、藥物、療效之間的關(guān)系DNA序列的相似分析導(dǎo)致各種疾病的特定基因序列模式6數(shù)據(jù)挖掘發(fā)展歷程從80年代中后期,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的方法、技術(shù)和系統(tǒng),從不同角度、不同領(lǐng)域和不同學(xué)科進(jìn)行了研究和實(shí)踐,主要的學(xué)科有數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。由于知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘日益成熟和廣泛發(fā)展,1989年在美國底特律召開的IJCAI會(huì)議上,召開KDDworkshop,1991年MIT出版社出版了一本書“KnowledgeDiscoveryinDatabases”。7此后KDD和DM成為研究的熱點(diǎn),并有很大發(fā)展和進(jìn)步,1994年召開了一個(gè)國際會(huì)議(KDD94),并于1996年由MIT出版社又出版了一本書“AdvancesinKnowledgeDiscoveryandDataMining”。1996年出第一本專著,97年有6-7本,2006年有幾百本,中文(翻譯,編著)30本以上,國外各大學(xué)研究生、大學(xué)生均有數(shù)據(jù)挖掘課程。我國也陸續(xù)出書,開設(shè)課程。數(shù)據(jù)挖掘發(fā)展歷程8從1995年正式召開第一次國際KDD會(huì)議(KDD’95)后,每年召一次。前四次均由美國AAAI組織,1999年提到ACM,成立了SIGKDD。使KDD學(xué)術(shù)上上了一個(gè)檔次。亞太地區(qū)也緊跟世界潮流,1997年在新加坡召開了第一次亞太KDD會(huì)議,其中,1999年4月在北京召開了第三屆亞太KDD會(huì)議(PAKDD99)。第五屆PAKDD2001年4月16日在我國香港召開。第十五屆(2011)在深圳召開。數(shù)據(jù)挖掘發(fā)展歷程9國外有許多研究小組和機(jī)構(gòu)。自1998年開始,我國許多單位的研究小組開展了KDD的研究與開發(fā)工作,我國各大科研資助項(xiàng)目(如“國家自然科學(xué)基金”,“973”、“863”、“攻關(guān)”)都設(shè)立了KDD的研究課題。一些企業(yè)也有此類項(xiàng)目研制和開發(fā)。數(shù)據(jù)挖掘發(fā)展歷程10通用工具(非特定領(lǐng)域)SASEnterpriseMinerMinerSPSSClementineSGIMineSetOracleDarwinIBMIntelligentMinerAngoss

KnowledgeSeeker綜合工具BusinessObjectCognosScenarioDataMining工具、軟件、產(chǎn)品11面向應(yīng)用的工具(特定領(lǐng)域)KD1(重點(diǎn)在零售業(yè))Options&Choise(重點(diǎn)在保險(xiǎn)業(yè))HNC(重點(diǎn)在欺詐行為探查)UnicaModel1(重點(diǎn)在市場)IntelligentMiner(數(shù)據(jù)挖掘,文本挖掘)MinesetDBminerBODataMining工具、軟件、產(chǎn)品12有許多預(yù)測機(jī)構(gòu)都看好數(shù)據(jù)挖掘和KDD技術(shù)。權(quán)威預(yù)測機(jī)構(gòu)Gartner報(bào)告中列舉了在今后3~5年內(nèi)對工業(yè)將產(chǎn)生重要影響的五項(xiàng)關(guān)鍵技術(shù),其中KDD和人工智能排名第一。世界有名的GartnerGroup咨詢公司預(yù)計(jì):不久的將來先進(jìn)大型企業(yè)會(huì)設(shè)置“統(tǒng)一數(shù)據(jù)分析專家”,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘一定會(huì)擴(kuò)展開來!微軟專家也認(rèn)為數(shù)據(jù)挖掘會(huì)成為21世紀(jì)的重要技術(shù)之一,也有研究小組。在中國微軟研究院有相應(yīng)的研究小組。數(shù)據(jù)挖掘的前景與趨勢13金融業(yè)(銀行信貸、信用評估、信用卡等級、保險(xiǎn)、證卷分析、監(jiān)管、預(yù)警,外匯管理……)電信(各通信公司幾乎都啟動(dòng))商場(客戶分析、貨物擺放、交叉銷售…)地稅(異常發(fā)現(xiàn)…)醫(yī)療(醫(yī)院在HIS基礎(chǔ)上除建立全面的電子病例,就是建立數(shù)據(jù)挖掘系統(tǒng))客戶關(guān)系管理(CRM)國內(nèi)企業(yè)數(shù)據(jù)挖掘項(xiàng)目14數(shù)據(jù)挖掘概述1.KDD定義、過程、分類2.成功因素3.數(shù)據(jù)挖掘技術(shù)4.數(shù)據(jù)挖掘的方法論5.應(yīng)用情況151KDD定義、過程、分類1/7KDD定義KDD過程KDD分類16KDD

(KnowledgeDiscovery

inDatabase,)定義:2/7

KDD是從數(shù)據(jù)集

中識(shí)別

出有效的、新穎的、潛在有用的,以及最終可理解的

模式的非平凡過程。數(shù)據(jù)挖掘(DM)是KDD中一個(gè)重要環(huán)節(jié)17數(shù)據(jù)集:是一組事實(shí)F(如關(guān)系數(shù)據(jù)庫中的記錄);模式:是一個(gè)用語言L來表示的一個(gè)表達(dá)式E,它可用來描述數(shù)據(jù)集F的某個(gè)子集FE,E作為一個(gè)模式要求它比對數(shù)據(jù)子集FE的枚舉要簡潔(所用的描述信息量要少);過程:是指KDD是一個(gè)多階段的過程,包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識(shí)評價(jià),以及上述過程的反復(fù)求精;該過程是非平凡的,是指整個(gè)過程是自動(dòng)的、智能的(如計(jì)算所有數(shù)據(jù)的總和、平均值都不能算作是一個(gè)KDD過程);KDD定義3/718有效性:是指發(fā)現(xiàn)的模式應(yīng)用于新的數(shù)據(jù)時(shí)要具有一定的可信度;新穎性:要求發(fā)現(xiàn)的模式應(yīng)該是新的、用戶未知的或未預(yù)料到的;潛在有用性:是指發(fā)現(xiàn)的知識(shí)將來具有實(shí)際效用,如用戶根據(jù)發(fā)現(xiàn)的知識(shí)進(jìn)行商業(yè)決策可以產(chǎn)生一定的經(jīng)濟(jì)效益;最終可理解性:要求所發(fā)現(xiàn)的模式容易被用戶理解。KDD

定義4/7

19KDD過程5/7

KDD過程可分為三個(gè)階段:數(shù)據(jù)準(zhǔn)備(datapreparation)、數(shù)據(jù)挖掘,以及

結(jié)果的解釋評價(jià)(interpretationandevaluation),如圖所示。

可視化用戶界面

數(shù)據(jù)庫

目標(biāo)數(shù)據(jù)

預(yù)處理好的數(shù)據(jù)

轉(zhuǎn)換后數(shù)據(jù)挖掘出的知識(shí)

有用的知識(shí)

選擇/抽樣

預(yù)處理

數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)挖掘

解釋評價(jià)

20過程6/71.數(shù)據(jù)的選擇與抽樣根據(jù)用戶的需要從數(shù)據(jù)庫中選擇或抽樣的一部分?jǐn)?shù)據(jù)。2.數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)的過濾:除噪聲去冗余(2)數(shù)據(jù)的添補(bǔ)3.數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換的主要目的是消減數(shù)據(jù)維數(shù)或維數(shù)縮減4.數(shù)據(jù)挖掘:挖掘方法的使用5.結(jié)果的評價(jià)(1)可視化表示(2)解釋(3)知識(shí)的使用6.循環(huán)21數(shù)據(jù)挖掘分類7/7(1)根據(jù)數(shù)據(jù)挖掘任務(wù)分?jǐn)?shù)據(jù)挖掘有如下幾種:分類、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系(或依賴模型發(fā)現(xiàn))、異常和趨勢發(fā)現(xiàn)等等。(2)根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)庫或數(shù)據(jù)源分?jǐn)?shù)據(jù)挖掘有以下幾種:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、以及萬維網(wǎng)(WWW)。(3)根據(jù)數(shù)據(jù)挖掘所采用的技術(shù)分?jǐn)?shù)據(jù)挖掘可大致分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。222.成功因素1/2(1)問題的明確(2)一定數(shù)量和質(zhì)量的數(shù)據(jù)(3)領(lǐng)域?qū)<业呐浜?結(jié)果的判斷)(4)合適的方法和算法

(5)決策者的決心232.成功因素2/2

問題:1、數(shù)據(jù)數(shù)量與質(zhì)量(積累、選擇、清理)2、解決問題不明確3、領(lǐng)域?qū)<覅⑴c不夠4、領(lǐng)導(dǎo)決心不夠(多人投入,少數(shù)人使用)難點(diǎn):1、數(shù)據(jù)量大:紀(jì)錄多、分類多、屬性多2、大部分是NP-Hard難解問題3、找出方法,多為啟發(fā)式方法243.數(shù)據(jù)挖掘所用的技術(shù)1/11數(shù)據(jù)庫技術(shù):1、海量數(shù)據(jù)的存儲(chǔ)2、海量數(shù)據(jù)的檢索統(tǒng)計(jì)技術(shù):1、相關(guān)分析;2、回歸分析(多元回歸、自回歸等);3、關(guān)聯(lián)規(guī)則;4、貝葉斯分析(貝葉斯分類,貝葉斯網(wǎng)絡(luò))

5、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)

6、序列分析、時(shí)間序列分析253.數(shù)據(jù)挖掘所用的技術(shù)2/11機(jī)器學(xué)習(xí)技術(shù):

1、歸納學(xué)習(xí):2、神經(jīng)網(wǎng)絡(luò)3、遺傳算法4、基于示例的學(xué)習(xí)(推理)5、聚類數(shù)學(xué)方法:

1、粗糙集(RoughSets)2、模糊邏輯方法;搜索與檢索方法:

1、有效的搜索引擎2、有效的文本(信息)檢索可視化技術(shù)WebMining(網(wǎng)絡(luò)挖掘)

TextMining(文本挖掘)

263.數(shù)據(jù)挖掘技術(shù)3/11數(shù)據(jù)預(yù)處理概念描述關(guān)聯(lián)規(guī)則分類與預(yù)測聚類技術(shù)文本挖掘Web挖掘27數(shù)據(jù)預(yù)處理4/11數(shù)據(jù)清理:缺值、噪聲(不是真正的數(shù)據(jù))、數(shù)據(jù)不完整(缺數(shù)據(jù))、數(shù)據(jù)不一致(計(jì)量單位不同,符號不同,同義詞)、數(shù)據(jù)冗余、孤立點(diǎn)(例外,特殊值)數(shù)據(jù)變換:通過平滑、聚集、概化、規(guī)范化等將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式數(shù)據(jù)集成:通過數(shù)據(jù)去重、清理、規(guī)范化,按照要求集合成一個(gè)新的數(shù)據(jù)集。數(shù)據(jù)歸約:通過各種方法使數(shù)據(jù)集變小,有意義。數(shù)據(jù)離散化:離散化是將連續(xù)屬性值化為標(biāo)號使取值數(shù)量減少,或用一個(gè)區(qū)間代替區(qū)間內(nèi)所有可能的值,雖然離散化失去了細(xì)節(jié)值,但可使概念更清晰。28②概念描述5/11從數(shù)據(jù)分析角度看,數(shù)據(jù)挖掘分描述式數(shù)據(jù)挖掘和預(yù)測式數(shù)據(jù)挖掘。描述式DM:以簡潔概要方式描述數(shù)據(jù),并給出數(shù)據(jù)的一般性質(zhì)。預(yù)測式DM:分析數(shù)據(jù),建立一個(gè)或一組模型,預(yù)測新數(shù)據(jù)行為。概念描述是描述式DM的最基本形式,它以簡潔匯總的形式描述給定的任務(wù)相關(guān)數(shù)據(jù)集。概念(類)描述由特征化和比較(區(qū)分)組成。特征化給出數(shù)據(jù)匯集的簡潔匯總,有基于立方體的OLAP方法和面向?qū)傩缘臍w納方法。對比給出兩個(gè)或多個(gè)數(shù)據(jù)匯集的比較,是對兩組可比較的類進(jìn)行概化和特征描述,然后進(jìn)行比較。29③關(guān)聯(lián)規(guī)則6/11通過各種方法找出一些事物與另一些事物的關(guān)聯(lián),這種關(guān)聯(lián)有一定支持度和一定可信度。如:年收入20萬,年齡30-40,無房=>

購買汽車,購買房子(s=10,c=70)購買鞋,蘭球=>

運(yùn)動(dòng)衣,牛奶(s=5,c=50)

X=>Y(s,c)30④分類與預(yù)測7/11用特定的方法把一些數(shù)據(jù)對象歸于預(yù)先設(shè)定的某一類,或預(yù)測某對象的未來值或趨勢。這些特定方法是通過對樣本數(shù)據(jù)的學(xué)習(xí)得到模型或函數(shù),樣本數(shù)據(jù)的類是給定的。分類是有指導(dǎo)的學(xué)習(xí)。分類方法有:決策樹,人工神經(jīng)網(wǎng)絡(luò),k-近鄰,貝葉斯方法,案例推理,遺傳算法,粗糙集方法,模糊方法。預(yù)測方法有:回歸方法(線性,非線性,二元或多元回歸)。31⑤聚類技術(shù)8/11按照對象的特點(diǎn)進(jìn)行歸類,歸類的過程稱聚類,得到的類,稱簇,簇內(nèi)對象相似性大,簇間相異性大。聚類過程不需要訓(xùn)練,即不需要樣例,是無指導(dǎo)的學(xué)習(xí)。聚類的方法有:分劃方法,分層方法,基于密度方法基于網(wǎng)格方法基于模型方法孤立點(diǎn)分析32⑥文本挖掘9/11對文本文本分類文本摘要文本信息抽取文本特征抽取文本學(xué)習(xí)模型文本自動(dòng)分類系統(tǒng)文本自動(dòng)摘要系統(tǒng)對中文文本分類:分詞問題33⑦Web挖掘10/11基于內(nèi)容挖掘(WebContentsMining)信息過濾、網(wǎng)頁分類、信息抽取(InformationExtraction)基于結(jié)構(gòu)挖掘(WebStructureMining)確定一個(gè)網(wǎng)絡(luò)范圍、模式集成/匹配基于使用挖掘(WebUsageMining)個(gè)性化服務(wù):信息推薦、用戶行為分析/預(yù)測文本挖掘是Web挖掘的基礎(chǔ)。34WebContentMiningWebcontentminingdescribestheautomaticsearchofinformationresourceavailableonline,andinvolvesminingwebdatacontents.TheaimistofindtheknowledgefromtheunstructureddataresidinginWebdocuments.TheWebdocumentusuallycontainsseveraltypesofdata,suchastext,image,audio,video,metadataandhyperlinks.Theyareeithersemi-structured,orunstructuredtextdata.35WebStructureMiningThegoalofWebstructureminingistogeneratestructuralsummaryabouttheWebsiteandWebpageandtodiscoverthelinkstructureofthehyperlinksattheinter-documentlevel.Webstructureminingcanalsohaveanotherdirection–discoveringthestructureofWebdocumentitself.Thistypeofstructureminingcanbeusedtorevealthestructure(schema)ofWebpages,thiswouldbegoodfornavigationpurposeandmakeitpossibletointegrateWebpageschemes.36WebUsageMiningWebusageminingtriestodiscoverytheusefulinformationfromthesecondarydataderivedfromtheinteractionsoftheuserswhilesurfingontheWeb.ItfocusesonthetechniquesthatcouldpredictuserbehaviorwhiletheuserinteractswithWeb.Predictionoftheuser’sbehaviorwithinthesite;AdjustmentoftheWebsitetotheinterestsofitsusers.373.數(shù)據(jù)挖掘技術(shù)11/11數(shù)據(jù)挖掘技術(shù)的應(yīng)用同一方法可解決不同問題同一問題可用不同方法解決多種方法的結(jié)合、融合(多策略方法)38

4數(shù)據(jù)挖掘的方法論1/9目前比較流行的數(shù)據(jù)挖掘方法論1.NCR,SPSS等大公司提出的CRISP-DM(CrossIndustryStandardProcessforDataMining)方法論。2.SAS提出的SEMMA(Sample,Explore,Modify,ModelAccess)方法論3.IBM提出的通用數(shù)據(jù)挖掘方法(Thegenericdataminingmethod)歸納為:KDD的5(6,7)大步驟39CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn))1999年CRISP-DM報(bào)告給出下列步驟:

(1)BusinessUnderstanding(2)DataUnderstanding(3)DataPreparation(4)Modeling(5)Evaluation(6)Deployment這是許多KDD開發(fā)者遵循的準(zhǔn)則之一.40(1)BusinessUnderstanding

企務(wù)問題理解在數(shù)據(jù)挖掘之前收集與該項(xiàng)目有關(guān)的信息,確定數(shù)據(jù)挖掘要解決那類問題。資源的評估:硬件、軟件資源、數(shù)據(jù)資源、人力資源(管理人員、業(yè)務(wù)人員、技術(shù)人員)數(shù)據(jù)評估:數(shù)據(jù)數(shù)量、數(shù)據(jù)質(zhì)量項(xiàng)目成功估計(jì)、成功后的效益、相應(yīng)人員(分析、維護(hù))的增加。41如:一個(gè)電信領(lǐng)域的數(shù)據(jù)挖掘項(xiàng)目問題可為:一些優(yōu)質(zhì)客戶有什么特征?哪些是不良客戶,他們有什么特征?在欠費(fèi)客戶中,哪些是惡意的欠費(fèi)?哪些是善意的欠費(fèi)?哪些客戶可能會(huì)有最好的潛力?通過什么樣的標(biāo)準(zhǔn)來細(xì)分客戶?如何來衡量客戶帶來的價(jià)值?哪些是高價(jià)值客戶?如何去保住他們。保住一個(gè)客戶比爭取一個(gè)客戶將花較小的代價(jià)。42(2)DataUnderstanding理解數(shù)據(jù)

從哪里進(jìn)行數(shù)據(jù)的收集數(shù)據(jù)來源有那些各數(shù)據(jù)源數(shù)據(jù)描述:格式、含義數(shù)據(jù)質(zhì)量外來數(shù)據(jù)有那些對數(shù)據(jù)的含義一定要有深刻的理解才有可能從中找出(挖掘)規(guī)律和知識(shí)。43(3)DataPreparation準(zhǔn)備數(shù)據(jù)數(shù)據(jù)選擇數(shù)據(jù)清理數(shù)據(jù)重構(gòu)數(shù)據(jù)整合規(guī)格化:定出范圍標(biāo)準(zhǔn)化:解決不一致數(shù)據(jù)準(zhǔn)備會(huì)占用整個(gè)項(xiàng)目50%以上時(shí)間44(4)Modeling建立模型

各種數(shù)據(jù)挖掘方法數(shù)據(jù)匯總概念描述關(guān)聯(lián)規(guī)則相關(guān)分析分類與預(yù)測聚類45挖掘結(jié)果(獲得知識(shí)的)評估挖掘過程的評估來決定是否要反復(fù),KDD是迭代過程(6)Deployment方案實(shí)施發(fā)布挖掘結(jié)果(獲得知識(shí)的)評估決定實(shí)施計(jì)劃(5)Evaluation方案評估

46CRISP-DM各階段占用時(shí)間和重要性

(取自數(shù)據(jù)倉庫及其在電信領(lǐng)域中的應(yīng)用段云峰等著)1%10%方案實(shí)施2%10%建立模型和模型評估15%50%數(shù)據(jù)準(zhǔn)備3%20%數(shù)據(jù)理解79%10%問題理解占項(xiàng)目成功的重要性花費(fèi)時(shí)間47

5.應(yīng)用市場分析、預(yù)測和管理行銷策略、客戶關(guān)系管理(CRM)、購貨籃分析、市場分割風(fēng)險(xiǎn)分析、預(yù)測和管理風(fēng)險(xiǎn)預(yù)報(bào)、客戶挽留、改進(jìn)的保險(xiǎn)業(yè)、質(zhì)量控制、競爭分析欺詐檢測和管理證券違規(guī)操作、稅務(wù)偷漏、瞞報(bào)、信用卡欺詐行為判斷信用評估銀行信貸評估、信用卡評估485應(yīng)用宏觀經(jīng)濟(jì)(經(jīng)濟(jì)指標(biāo)之間關(guān)聯(lián),經(jīng)濟(jì)指標(biāo)的預(yù)測、預(yù)警)電信金融情報(bào)(文本挖掘、新聞組、電子郵件、文檔)DNA數(shù)據(jù)分析醫(yī)療診斷中藥配伍規(guī)律零售業(yè)科學(xué)(天氣預(yù)報(bào)、災(zāi)難預(yù)測…)495應(yīng)用情況

銀行17%生物/基因8%E商務(wù)/Web15%欺詐檢測8%保險(xiǎn)6%投資/股票4%藥品5%零售業(yè)6%科學(xué)數(shù)據(jù)8%電信11%其他11%50經(jīng)常使用的數(shù)據(jù)挖掘工具調(diào)查51從技術(shù)看數(shù)據(jù)挖掘使用技術(shù)情況[784votestotal](Feb2005)

DecisionTrees/Rules(107)決策樹

14%Clustering(101)聚類

13%Regression(90)回歸

11%Statistics(80)統(tǒng)計(jì)

10%Visualization(63)可視化

8%NeuralNets(61)神經(jīng)網(wǎng)絡(luò)

8%Associationrules(54)關(guān)聯(lián)規(guī)則

7%NearestNeighbor(34)最近鄰

4%SVM(Supportvectormachine)(31)支持向量機(jī)

4%Bayesian(30)貝葉斯

4%Sequence/Timeseriesanalysis(26)序列/時(shí)間序列分析

3%Boosting(25)增強(qiáng)

3%Hybridmethods(23)混合方法

3%Bagging(20)袋裝

3%Geneticalgorithms(19)遺傳算法

2%Other(20)其他

3%52數(shù)據(jù)挖掘系統(tǒng)的典型架構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理與數(shù)據(jù)集成過濾

數(shù)據(jù)庫數(shù)據(jù)庫、數(shù)據(jù)倉庫管理系統(tǒng)數(shù)據(jù)挖掘引擎模型、模式評價(jià)可視化用戶界面數(shù)據(jù)挖掘方法庫其它數(shù)據(jù)源用戶知識(shí)庫53數(shù)據(jù)挖掘系統(tǒng)的典型架構(gòu)54SAS提出的數(shù)據(jù)挖掘方法論

SEMMA(Sample,Explore,Modify,ModelAccess)1.Sample數(shù)據(jù)取樣2.Explore數(shù)據(jù)特征的探索、分析和預(yù)處理3.Modify問題明確化,數(shù)據(jù)調(diào)整和技術(shù)選擇4.Model模型研發(fā)、知識(shí)發(fā)現(xiàn)5.Assess模型和知識(shí)的綜合評價(jià)55SAS給出數(shù)據(jù)挖掘項(xiàng)目實(shí)施的方法論1.定義業(yè)務(wù)問題2.系統(tǒng)環(huán)境評估3.數(shù)據(jù)準(zhǔn)備4.數(shù)據(jù)挖掘:應(yīng)用SEMMA方法論5.模型實(shí)施6.回顧與評價(jià)56IBM提出的通用數(shù)據(jù)挖掘方法

(Thegenericdataminingmethod)1.明確地定義商務(wù)問題2.確定要使用的數(shù)據(jù)挖掘模型3.按模型的要求確定數(shù)據(jù)源并進(jìn)行數(shù)據(jù)準(zhǔn)備4.評估數(shù)據(jù)質(zhì)量5.根據(jù)商務(wù)或技術(shù)問題的性質(zhì),選擇一種數(shù)據(jù)挖掘技術(shù)或幾種數(shù)據(jù)挖掘技術(shù)組合6.理解挖掘結(jié)果,并從挖掘結(jié)果中檢驗(yàn)新模式7.將挖掘結(jié)果應(yīng)用到具體業(yè)務(wù)中57數(shù)據(jù)挖掘產(chǎn)品(1)IntelligentMiner(IBM)多種數(shù)據(jù)挖掘算法較強(qiáng)的伸縮性工具包:神經(jīng)網(wǎng)絡(luò),統(tǒng)計(jì)方法,數(shù)據(jù)準(zhǔn)備,和數(shù)據(jù)可視化工具與IBMDB2關(guān)系數(shù)據(jù)庫系統(tǒng)的緊密集成EnterpriseMiner(SAS)各種統(tǒng)計(jì)分析工具數(shù)據(jù)倉庫工具和多種挖掘算法Mirosoft

SQLServer2000將DB、OLAP和數(shù)據(jù)挖掘集成在一起支持OLE-DB58數(shù)據(jù)挖掘產(chǎn)品(2)MineSet

(SGI)多種數(shù)據(jù)挖掘算法和高級統(tǒng)計(jì)工具先進(jìn)的可視化工具Clementine(SPSS)為終端用戶和開發(fā)人員提供了集成的數(shù)據(jù)挖掘開發(fā)環(huán)境多種數(shù)據(jù)挖掘算法和可視化工具DBMiner(DBMinerTechnologyInc.)多個(gè)數(shù)據(jù)挖掘模塊:發(fā)現(xiàn)驅(qū)動(dòng)的OLAP分析,關(guān)聯(lián)規(guī)則,分類和聚類高效的關(guān)聯(lián)規(guī)則與序列模式挖掘功能,可視化分類工具能對關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫進(jìn)行挖掘59數(shù)據(jù)預(yù)處理Dr.Qingyuan

BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@60我們受噪聲數(shù)據(jù)、空缺數(shù)據(jù)、不一致數(shù)據(jù)困擾沒有數(shù)據(jù)的質(zhì)量就沒有挖掘結(jié)果的質(zhì)量就沒有信息和知識(shí)的質(zhì)量為提高數(shù)據(jù)質(zhì)量我們要研究數(shù)據(jù)的預(yù)處理Motivation:61數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)質(zhì)量不好的原因數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法62數(shù)值型:整數(shù)(4,9),實(shí)數(shù)(3.25)文字型:人名,地名,物品,事物類別型:球類(藍(lán),排,足,乒乓…),顏色(紅,藍(lán)…二值型:性別,通斷,(特殊的類別型)連續(xù)型:身高(0.5—2.58)離散型:可為類別型,也可為數(shù)字型定量型:產(chǎn)品價(jià)格(20—100元)

定性型:高,矮周期型:股票每周的走勢。非周期型:暴雨的發(fā)生一種為可度量:尺寸,面積。一種為不可度量:語義型,標(biāo)稱型(顏色)數(shù)據(jù)表示數(shù)據(jù)類型63一個(gè)事務(wù)往往有多個(gè)屬性,這樣的一個(gè)事務(wù)稱樣本樣本,有時(shí)也稱元組/對象/記錄由一組特征或?qū)傩裕ㄗ兞?域)表示:

X=(x1,x2……xn)xi:可為各種數(shù)據(jù)類型,可取各種值。如:物品=(編號,名稱,產(chǎn)地,型號,價(jià)格,庫存量)

張三=(身份證號碼,性別,年齡,教育程度,職業(yè),收入,有車……)

天氣=(溫度,濕度,風(fēng)力,氣壓,……)數(shù)據(jù)表示樣本的表示樣本屬性64量大:百萬級以上紀(jì)錄,100GB,TB,PB特征多:千級特征,文本表示類別多:千級(漢字),萬級漢字,指紋

了解數(shù)據(jù)、樣本的表示以及數(shù)據(jù)的規(guī)模,處理方法就不一樣。選擇數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法要根據(jù)數(shù)據(jù)情況而定。數(shù)據(jù)表示大數(shù)據(jù)集65數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)質(zhì)量不好的原因數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法66數(shù)據(jù)質(zhì)量不好的原因缺值噪聲數(shù)據(jù)不完整數(shù)據(jù)不一致數(shù)據(jù)冗余例外數(shù)據(jù)(孤立點(diǎn),特殊值)67缺值缺值可能是缺整個(gè)對象或?qū)ο蟮膶傩詠G失原始數(shù)據(jù)就忘掉了輸入傳輸丟失原來認(rèn)為不重要,后來分析時(shí)認(rèn)為需要68噪聲數(shù)據(jù)不正確,數(shù)據(jù)屬性不正確原因:

收集(錄入,設(shè)備)錯(cuò)誤,設(shè)備受干擾,人為錄入錯(cuò)誤。傳輸錯(cuò)誤。69數(shù)據(jù)不完整不同時(shí)間(時(shí)期)的數(shù)據(jù)如1986年經(jīng)濟(jì)指標(biāo)為100項(xiàng)目,2004年為150項(xiàng),或100項(xiàng),已與原來不一樣了。數(shù)據(jù)來源不同

各單位報(bào)上的匯總數(shù)據(jù)不一樣。原來的數(shù)據(jù)用途與現(xiàn)在的用途不一樣。收集數(shù)據(jù)不全面

數(shù)據(jù)收集時(shí)以為不要的數(shù)據(jù)。在分析階段覺得非常必要。如:病人診斷數(shù)據(jù)、經(jīng)濟(jì)報(bào)表。70數(shù)據(jù)不一致數(shù)據(jù)集成自不同的數(shù)據(jù)源,用的度量不同(米,公分,英尺)不同數(shù)據(jù)源集成,用的編碼不一樣如男,女(M,F;1,0)

名稱的不一樣。計(jì)算機(jī),電腦;磁盤(磁碟)71數(shù)據(jù)冗余數(shù)據(jù)本身的冗余,記錄完全一樣。屬性冗余:有的樣本,有多個(gè)屬性,一個(gè)屬性包含另一個(gè)屬性,有些屬性是多余的。無關(guān)屬性:存在某個(gè)屬性,但在處理過程中,它不起作用。如分析一個(gè)人能力,他的電話號碼就沒作用。72噪聲是孤立點(diǎn)孤立點(diǎn)不是噪聲孤立點(diǎn)是真實(shí)數(shù)據(jù)孤立點(diǎn)與常規(guī)數(shù)據(jù)不一樣如:股票交易中的違規(guī)操作,信用卡消費(fèi)的異常,醫(yī)療診斷數(shù)據(jù)中異常癥狀,欺詐行為。這是數(shù)據(jù)挖掘重要研究課題。例外(孤立點(diǎn),特殊值)73數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)質(zhì)量不好的原因數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法74數(shù)據(jù)預(yù)處理必要性不預(yù)處理,數(shù)據(jù)處理時(shí)結(jié)論會(huì)不正確(不準(zhǔn));不預(yù)處理,數(shù)據(jù)占用空間大,處理時(shí)間長。75數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)收集、傳輸和處理數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法76數(shù)據(jù)預(yù)處理方法一數(shù)據(jù)清理二數(shù)據(jù)變換三數(shù)據(jù)集成四數(shù)據(jù)歸約五數(shù)據(jù)離散化和概念分層77一、數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)要解決下列問題:1缺值2含噪聲(不是真正的數(shù)據(jù))3數(shù)據(jù)不完整(缺數(shù)據(jù))4數(shù)據(jù)不一致(計(jì)量單位不同、符號不同、同義詞)5數(shù)據(jù)冗余6孤立點(diǎn)(例外、特殊值)去除由于不同數(shù)據(jù)源整合,需要對數(shù)據(jù)進(jìn)行清理。781缺值解決方法忽略(去掉)缺值的元組人工填補(bǔ)用一個(gè)全局性的常數(shù)填上用平均值填上用同類元組屬性平均值填補(bǔ)用推導(dǎo)方法得到值(回歸,貝葉斯方法,決策樹,EM算法)//EM(ExpectationMaximization)最大期望方法各種解決缺值的方法雖有一定風(fēng)險(xiǎn),它利用了已有的知識(shí),是可行的。792解決噪聲的方法1)分箱(平滑)用分箱方法,將數(shù)據(jù)平滑了,用平滑值代替一個(gè)箱的值。噪聲被平滑掉了或被淹沒了。2)聚類用聚類方法對數(shù)據(jù)聚成多個(gè)類,不在類中的數(shù)據(jù)認(rèn)為是噪聲。3)回歸用一個(gè)回歸方程來平滑數(shù)據(jù),把偏得太遠(yuǎn)的數(shù)據(jù)校正過來。4)用計(jì)算機(jī)與人工相結(jié)合的方法找出垃圾數(shù)據(jù),對數(shù)據(jù)設(shè)限(非限內(nèi)數(shù)據(jù)為噪聲數(shù)據(jù))。801)分箱分箱方法

通過考察“鄰居”(即周圍的值)來平滑存儲(chǔ)數(shù)據(jù)的值。存儲(chǔ)的值被分到一些“桶”或箱中,由于分箱方法參考的是臨近的值,稱局部平滑。分箱方法要定義深度分箱方法箱里的值用平滑值代替。分箱方法平滑值由許多方法來確定:

平均值方法,中值方法,邊界值方法811)分箱一組價(jià)格數(shù)據(jù)排序?yàn)椋簕4,8,9,15,21,21,24,25,26,28,29,34}

分成等深的箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34

用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱的邊界平滑:-箱1:4,4,4,15-箱2:21,21,21,25-箱3:26,26,26,3482

2)聚類

用聚類方法聚了許多簇,簇內(nèi)的數(shù)據(jù)為有用數(shù)

據(jù),簇外為孤立點(diǎn)或噪聲。83

3)回歸

回歸主要是對數(shù)值屬性,用一個(gè)合適的函數(shù)來平滑數(shù)據(jù),消除噪聲。有線性回歸,多元回歸。

線性回歸

Y=

+X

xyy=x+1X1

y1

y1’用回歸方程算出的值來替代原來的值的,如給X1,用Y1’替代Y1.84回歸方程系數(shù)的計(jì)算

線性回歸:

Y=+X其中,,稱回歸系數(shù),可用最小二乘法來求。

=y

–xx=

y=853解決數(shù)據(jù)不一致在由多數(shù)據(jù)源集成為統(tǒng)一的數(shù)據(jù)庫和數(shù)據(jù)倉庫時(shí)就會(huì)出現(xiàn)數(shù)據(jù)不一致問題和數(shù)據(jù)冗余。表示不同(不同數(shù)據(jù)源對同類數(shù)據(jù)稱呼不一樣)、度量不同(元,萬元)、編碼的不同、幣制的不同、公制和英制不同……等。解決不一致只能靠元數(shù)據(jù),用實(shí)體識(shí)別方法來處理。如用戶名部處樣本男女客戶名單位事例MF864解決數(shù)據(jù)冗余數(shù)據(jù)冗余有的是數(shù)據(jù)重復(fù),有的是屬性多余。前者去掉數(shù)據(jù),后者去掉屬性。去掉數(shù)據(jù)冗余方法:可用匹配方法,配合上的數(shù)據(jù)說明完全一樣,是冗余,可去掉一個(gè)實(shí)體識(shí)別方法,由于不同數(shù)據(jù)源要集成在一起,不同系統(tǒng)一個(gè)實(shí)體可能表示方式不同,但可能是同一件事情,在集成時(shí)要僅保留一個(gè)。實(shí)體識(shí)別一般用元數(shù)據(jù)或一些知識(shí)規(guī)則。去掉屬性冗余方法:可用相關(guān)分析874解決數(shù)據(jù)冗余有些數(shù)據(jù)可以通過相關(guān)分析,看一個(gè)屬性在多大程度上蘊(yùn)含另一屬性,可用相關(guān)分析,兩個(gè)正相關(guān)性大的屬性,可能是一個(gè)屬性蘊(yùn)含另一個(gè)屬性,可以去掉一個(gè)。屬性A和B相關(guān)由下面公式度量:

n是元組的個(gè)數(shù)分別是A,B的平均值,分別是A,B的標(biāo)準(zhǔn)差A(yù),B的相關(guān)性度量88

上式大于0,為正相關(guān),等于0不相關(guān),小于0,是負(fù)相關(guān)。正相關(guān)性越大,一個(gè)變化(增大)另一個(gè)也跟著變化(增大),一個(gè)蘊(yùn)含另一個(gè)可能性大,可能是數(shù)據(jù)屬性的冗余,可去掉一個(gè)。如一個(gè)是customer_id,另一個(gè)屬性是cust_number,它們相關(guān)性大,確實(shí)是冗余。895孤獨(dú)點(diǎn)問題孤獨(dú)點(diǎn)我們定義為異常點(diǎn)??赡転樵肼?,可能為真實(shí)值。有時(shí)要忽略它,有時(shí)要研究它。為此要研究異常點(diǎn)的檢測方法。統(tǒng)計(jì)方法基于距離的方法基于偏差的方法90二數(shù)據(jù)變換(1/5)將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式,涉及如下內(nèi)容1平滑:排除數(shù)據(jù)中的噪聲。采用前面的分箱、聚類和回歸方法。用分箱的平均數(shù)替代整個(gè)箱,用聚類值替代實(shí)際值。用回歸線上數(shù)據(jù)替代實(shí)際值2聚集:對數(shù)據(jù)進(jìn)行匯總和聚集,如可聚集日銷售量為月銷售量、年銷售量等,聚集也常用來為多粒度分析構(gòu)造數(shù)據(jù)立方體。3概化:用概念分層來對數(shù)據(jù)進(jìn)行概化,即用高層次的概念來替代低層次“原始”數(shù)據(jù),如:用省名替代許多小地方名,用青年、中年、老年替代具體25,27,31歲,48,51歲,67,75歲

平滑是屬于數(shù)據(jù)清理,聚集和概化屬于數(shù)據(jù)歸約。91二數(shù)據(jù)變換(2/5)4.規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如[0.0,1.0]區(qū)間。方法有:最?。畲笠?guī)范化零-均值規(guī)范化小數(shù)定標(biāo)規(guī)范化5.屬性/特征構(gòu)造由給定的屬性構(gòu)造和添加新的屬性92二數(shù)據(jù)變換規(guī)范化(3/5)1)最?。畲笠?guī)范化:對原始數(shù)據(jù)進(jìn)行線性的變換。假定minA,maxA分別為屬性A的最小、最大值,值區(qū)間為[minA,maxA],將A的值映射到新區(qū)間[new_minA,new_maxA]中的V’。93二數(shù)據(jù)變換規(guī)范化(3/5)如個(gè)人的收入屬性income,minA=12000元,

maxA=98000元收入的區(qū)間[12000,98000].如某人收入為73000元(V),就難看出其狀況?,F(xiàn)在我們規(guī)范化區(qū)間定為[0.0,1.0],用公式計(jì)算為:

V’=[(73000-12000)/(98000-12000)](1.0-0.0)=0.716其收入在最高檔的71%。另外這種處理會(huì)為分析帶來方便。94二數(shù)據(jù)變換規(guī)范化(4/5)2)零-均值規(guī)范化(z-scorenormalization)屬性A的值基于A的平均值和標(biāo)準(zhǔn)差來規(guī)范化如的收入屬性income,其平均值為54000標(biāo)準(zhǔn)差為16000,如某人收入為v=73000元

V’=(73000-54000)/16000=1.225.95二數(shù)據(jù)變換規(guī)范化(5/5)3)小數(shù)定標(biāo)規(guī)范化小數(shù)定標(biāo)規(guī)范化是通過移動(dòng)屬性A的小數(shù)點(diǎn)的位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)取決于A的最大值。最大值標(biāo)規(guī)范化后也要小于1。公式中的將j由A的最大值決定。J的選擇使Max()<1如A的最大值為678,則j為3,678就規(guī)范化為0.678j的選擇是取決于A的最大值,大于最大值的最小10的整數(shù)冪。96二數(shù)據(jù)變換屬性/特征構(gòu)造由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結(jié)構(gòu)的理解,如我們可能根據(jù)高和寬屬性而添加面積屬性。這有利于分析。屬性的構(gòu)造根據(jù)問題和需要而定,不是一個(gè)特定的規(guī)律。97三數(shù)據(jù)集成

來自不同數(shù)據(jù)源,集成為統(tǒng)一的數(shù)據(jù)庫和數(shù)據(jù)倉庫時(shí)就會(huì)出現(xiàn):

1.數(shù)據(jù)不一致

2.數(shù)據(jù)冗余

3.數(shù)據(jù)沖突集成過程采用上述方法對不同的數(shù)據(jù)源進(jìn)行了數(shù)據(jù)清理,然后經(jīng)數(shù)據(jù)變換后按照要求集成一個(gè)新的數(shù)據(jù)集或數(shù)據(jù)倉庫,供數(shù)據(jù)挖掘用。98四數(shù)據(jù)歸約是當(dāng)數(shù)據(jù)集非常大,在海量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析或數(shù)據(jù)挖掘時(shí)需要非常多的時(shí)間,有時(shí)不現(xiàn)實(shí),甚至是不可能的。將數(shù)據(jù)歸約成小規(guī)模數(shù)據(jù)集,分析和挖掘都可有效進(jìn)行。原數(shù)據(jù)集歸約數(shù)據(jù)集歸約方法99四數(shù)據(jù)歸約數(shù)據(jù)歸約必要性:一個(gè)數(shù)據(jù)倉庫或一個(gè)海量數(shù)據(jù)集可能存儲(chǔ)TG的數(shù)據(jù),在這樣一個(gè)完整的數(shù)據(jù)集上分析和挖掘?qū)⑿枰荛L時(shí)間。能否把數(shù)據(jù)集變小,但仍接近于保持原數(shù)據(jù)的完整性。用數(shù)據(jù)歸約方法得到數(shù)據(jù)集的歸約表示,它小得多,接近于保持原數(shù)據(jù)的完整性。在歸約后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘更有效,并能產(chǎn)生相同(或幾乎相同)的分析結(jié)果。

100四數(shù)據(jù)歸約歸約的策略為數(shù)據(jù)立方體聚集維歸約值歸約數(shù)據(jù)壓縮1011數(shù)據(jù)立方體聚集數(shù)據(jù)立方體聚集常常為聯(lián)機(jī)分析用,是實(shí)際上也可為數(shù)據(jù)挖掘服務(wù)。用聚集的數(shù)據(jù)代替細(xì)節(jié)數(shù)據(jù),來減少數(shù)據(jù)量。年=1999年=1998年=1997季度銷售額Q1224,000Q2408,000Q3350,000Q4586,000年銷售額

1,568,0002,356,0003,594,0001022維(屬性,特征)歸約

維(也就是屬性)有時(shí)數(shù)據(jù)可能包含百計(jì)(甚至千計(jì))的屬性,但在進(jìn)行數(shù)據(jù)挖掘大部分屬性與數(shù)據(jù)挖掘任務(wù)無關(guān)的,有些是冗余的,有些次要的。利用去掉無關(guān)屬性和冗余屬性來減少數(shù)據(jù)規(guī)模,就是維歸約,為了分析一些特定屬性對某些事務(wù)的影響,去掉非指定的屬性。使分析問題更清晰,明了。盡管領(lǐng)域?qū)<铱梢耘袛嘁恍o關(guān)屬性,但這是困難和費(fèi)時(shí)的,必須給出一些方法來判斷,來刪去一些冗余和無關(guān)屬性。1032維歸約維歸約的方法:

1)去冗余屬性

2)去無關(guān)屬性

3)去次要屬性

4)決策樹方法

5)屬性重要性判斷方法

6)特征選擇方法1041)去冗余屬性用前面介紹的相關(guān)性分析方法,可能一個(gè)屬性就另一屬性的冗余。1052)去無關(guān)屬性特征選擇方法:基于應(yīng)用領(lǐng)域的知識(shí)和數(shù)據(jù)挖掘的目標(biāo),分析者可選擇一個(gè)初始特征子集。認(rèn)為其他屬性無關(guān)。這種方法有危險(xiǎn)性:可能會(huì)漏掉潛在有用的屬性。1063)去次要屬性(找相關(guān)特征)用特定方法來判斷屬性的重要性,來對屬性排隊(duì),取前面n個(gè)屬性,后面去掉(可定義閾值,或保留個(gè)數(shù))。有一些排隊(duì)方法和選擇策略。1.逐漸向前選擇策略(選好策略)

{A1,A2,A3,A4,A5,A6}{}起點(diǎn){A1}A1最好{A1,A4}{A1,A4,A6}終點(diǎn),歸約屬性集。該方法實(shí)際上是判斷屬性好壞計(jì)算,并有排序或給出閾值。1073)去次要屬性(找相關(guān)特征)2.逐漸向后選擇策略(去差策略)

{A1,A2,A3,A4,A5,A6}{A1,A2,A3,A4,A5,A6}A2差{A1,A3,A4,A5,A6}{A1,A4,A5,A6}{A1,A4,A6}歸約屬性集。該方法實(shí)際上是判斷屬性好壞計(jì)算,并有排序或給出閾值。1084)決策樹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論