數(shù)據(jù)挖掘的常用方法_第1頁(yè)
數(shù)據(jù)挖掘的常用方法_第2頁(yè)
數(shù)據(jù)挖掘的常用方法_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘的常用方法

1.提取數(shù)據(jù)的過(guò)程從技術(shù)的角度來(lái)看,數(shù)據(jù)采集是一個(gè)巨大的、不完整的、噪聲模糊的、隨機(jī)的和隨機(jī)的數(shù)據(jù)集,其中包含了人們事先不知道的東西,但也是信息和知識(shí)的潛在過(guò)程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。2計(jì)算知識(shí)集的方法被采掘知識(shí)的類型在多數(shù)文獻(xiàn)和DM軟件中被稱為數(shù)據(jù)挖掘任務(wù).通常任務(wù)有:(1)總結(jié)規(guī)則采掘;(2)關(guān)聯(lián)規(guī)則采掘;(3)分類規(guī)則采掘;(4)聚類規(guī)則采掘;(5)預(yù)測(cè)分析;(6)趨勢(shì)分析;(7)偏差分析。為了完成上述任務(wù),人們從統(tǒng)計(jì)學(xué),人工智能和數(shù)據(jù)庫(kù)等領(lǐng)域借用基礎(chǔ)研究成果和工具,提出了多種方法。主要的采掘方法及其要點(diǎn)如下:(1)統(tǒng)計(jì)分析方法:主要用于完成總結(jié)知識(shí)和關(guān)聯(lián)知識(shí)采掘。對(duì)關(guān)系表中各屬性進(jìn)行統(tǒng)計(jì)分析,找到它們之間存在的關(guān)系。在關(guān)系表的屬性之間一般存在:(1)函數(shù)關(guān)系;(2)相關(guān)關(guān)系。對(duì)它們可采用回歸分析、相關(guān)分析、主成分分析等統(tǒng)計(jì)分析方法。(2)決策樹(shù):用于分類。利用信息論中信息增益尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段,建立決策樹(shù)的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹(shù)的分支;在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,這樣便生成一棵決策樹(shù)。接下來(lái)還要對(duì)決策樹(shù)進(jìn)行剪枝處理,然后把決策樹(shù)轉(zhuǎn)化為規(guī)則,利用這些規(guī)則可以對(duì)新事例進(jìn)行分類。典型的決策樹(shù)方法有分類回歸樹(shù)(CART)、ID3、C4.5等。(3)神經(jīng)網(wǎng)絡(luò):用于分類、聚類、特征采掘、預(yù)測(cè)和模式識(shí)別。神經(jīng)網(wǎng)絡(luò)模仿生物神經(jīng)網(wǎng)絡(luò),本質(zhì)上是一個(gè)分布式矩陣結(jié)構(gòu),它通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的采掘逐步計(jì)算網(wǎng)絡(luò)連接的權(quán)值。(4)遺傳算法:用于分類,關(guān)聯(lián)規(guī)則采掘等。遺傳算法模仿人工選擇培育良種的思想,從一個(gè)初始規(guī)則集合開(kāi)始,逐代地通過(guò)交換對(duì)象成員,評(píng)價(jià)并擇優(yōu)復(fù)制,逐代積累計(jì)算,最終得到優(yōu)化的知識(shí)集。(5)粗集:用于數(shù)據(jù)簡(jiǎn)化、數(shù)據(jù)意義評(píng)估、對(duì)象相似或差異性分析、因果關(guān)系及范式采掘等。3基于ap-模型的算法評(píng)價(jià)數(shù)據(jù)封裝分析的方法最早由Charnes等人于1978年提出。隨后,這一方法又被繼續(xù)研究并應(yīng)用到不同的領(lǐng)域。將此方法應(yīng)用到數(shù)據(jù)挖掘算法評(píng)價(jià)時(shí),可定義一個(gè)算法的效率為:這一定義同時(shí)考慮了數(shù)據(jù)挖掘算法的全部正特性和負(fù)特性,因而可對(duì)一個(gè)算法作出較為客觀公正的評(píng)價(jià)。通常算法的正特性值和負(fù)特性值已經(jīng)給出,所需的工作就是確定出各個(gè)正負(fù)特性的權(quán)值。假定我們是在對(duì)n個(gè)數(shù)據(jù)挖掘算法進(jìn)行評(píng)價(jià)??紤]m個(gè)正特性,n個(gè)負(fù)特性。對(duì)算法k,設(shè):pkx=正特性的值,uky=負(fù)特性的值,uky=正特性的權(quán)值,vky=負(fù)特性的權(quán)值。以Ek代表該算法的效率,則:由于每個(gè)pkx和nky均已知,所以可按照以下標(biāo)準(zhǔn)來(lái)確定權(quán)值uky和vky,即:使得Ek盡可能地接近100%。這樣,在確定了權(quán)值以后,其它n-1個(gè)算法的效率都不應(yīng)該超過(guò)100%。不難看出,這實(shí)際上是一個(gè)線性優(yōu)問(wèn)題,即對(duì)所有的正特性x和負(fù)特性y,確定出uk1,uk2,…,ukm和vk1,vk2,…,vkm的值,以使得Ek=100%最大。迄今,已存在著多種確定權(quán)值的方法,其中最為常用的是面向正特性的方法和面向負(fù)特性的方法。面向正特性的方法就是比例地減小正特性的值而同時(shí)保持算法仍然是有效的。與此類似,面向負(fù)特性的方法就是成比例的增加負(fù)特性的值而同時(shí)保持算法仍然是有效的。在確定出權(quán)值以后,效率為100%的算法即是有效的算法。為了對(duì)算法排名,我們可以使用AP-模型的方法。這一方法又可分為面向正特性的方法和面向負(fù)特性的方法。例如,在面向正特性的方法中,AP值為1.5就意味著可以將全部正特性的值同時(shí)減少50%而保持該算法仍然是有效的。4cumulate和estmerge的運(yùn)行時(shí)間Agrawal等人提出了一系列的關(guān)聯(lián)規(guī)則挖掘算法,包括單層關(guān)聯(lián)規(guī)則的挖掘和多層關(guān)聯(lián)規(guī)則的挖掘。下面對(duì)這些算法進(jìn)行評(píng)價(jià)。單層關(guān)聯(lián)規(guī)則的挖掘算法Aprior,ApriorTid,AIS,SETM。多層關(guān)聯(lián)規(guī)則挖掘算法Basic,Cumulate,EstMerge。(1)最小支持度。最小支持度從2%遞減至0.33%,而且隨著最小支持度的不斷降低,這一差距將明顯增大。當(dāng)最小支持度較高時(shí),Cumulate和EstMerge的運(yùn)行時(shí)間大致相同;但在最小支持度較低時(shí),EstMerge要比Cumulate快2倍。(2)交易量。交易量從105增加到107。Cumulate和EstMerge要比Basic快得多。隨著交易量的增加,Cumulate所需的運(yùn)行時(shí)間要比EstMerge長(zhǎng)近1倍。(3)分類的類別數(shù)。分類的類別從250個(gè)增加到1000個(gè)。發(fā)現(xiàn)分類類別的增加對(duì)算法性能的影響與減小最小支持度對(duì)算法的影響類似。這是因?yàn)殡S著分類類別的增加,一個(gè)特定類別將會(huì)出現(xiàn)在一項(xiàng)交易中的可能性也相應(yīng)地減小。(4)項(xiàng)的個(gè)數(shù)。項(xiàng)的個(gè)數(shù)從10000增加到100000。項(xiàng)的個(gè)數(shù)的增加對(duì)Cumulate和EstMerge的性能沒(méi)有顯著的影響。但卻增加了Basic的運(yùn)行時(shí)間,這是因?yàn)锽asic必須花更多的時(shí)間來(lái)尋找包含在一個(gè)交易中的商品項(xiàng)??偟目磥?lái),Cumulate和EstMerge要比Basic快2到5倍,而EstMerge通常又比Cumulate快25%到30%。隨著交易量的增加,EstMerge與Cumulate的性能差距要繼續(xù)拉大,但兩者的性能都隨交易量的增加或減少呈線性的降低或提高。5對(duì)采集算法的確

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論