數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩76頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)

ElectronicCommerce夏火松E-MAIL:第一頁(yè),共八十一頁(yè)。

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)教案第二頁(yè),共八十一頁(yè)。第6章數(shù)據(jù)挖掘基本算法本章內(nèi)容:6.1分類(lèi)規(guī)則挖掘6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類(lèi)算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法第三頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘6.1.1分類(lèi)與估值1分類(lèi)為了理解事物特征并做出預(yù)測(cè)使用歷史數(shù)據(jù)建立一個(gè)分類(lèi)模型(即分類(lèi)器)的過(guò)程。應(yīng)用于信用卡系統(tǒng)中的信用分級(jí)、市場(chǎng)調(diào)查、療效診斷、尋找店址等實(shí)踐應(yīng)用參照課本第四頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘

6.1.1分類(lèi)與估值2估值估值(estimation)與分類(lèi)類(lèi)似,不同之處在于,分類(lèi)描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類(lèi)的類(lèi)別是確定的數(shù)目,估值的量是不確定的。

3分類(lèi)方法與步驟

方法:決策樹(shù)歸納、貝葉斯分類(lèi)、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有K-最臨近分類(lèi)、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟:模型創(chuàng)建、模型使用第五頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘6.1.1分類(lèi)與估值4評(píng)估分類(lèi)方法要考慮的指標(biāo):預(yù)測(cè)準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對(duì)磁盤(pán)駐留數(shù)據(jù)的處理能力、可解釋性、對(duì)模型的可理解程度、規(guī)則好壞的評(píng)價(jià)、決策樹(shù)的大小和分類(lèi)規(guī)則的簡(jiǎn)明性。第六頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘6.1.2決策樹(shù)父節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)葉節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)根節(jié)點(diǎn)圖6.1一般決策樹(shù)結(jié)構(gòu)葉節(jié)點(diǎn)父節(jié)點(diǎn)第七頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘6.1.2決策樹(shù)1.決策樹(shù)的構(gòu)造過(guò)程ID3算法應(yīng)用如下:信息量計(jì)算公式:I(s1,s2,…sm)=-(6.1)其中,pi為si占整個(gè)類(lèi)別的概率利用屬性A劃分當(dāng)前樣本集合所需要的信息(熵)的計(jì)算公式為:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一個(gè)銷(xiāo)售的顧客數(shù)據(jù)庫(kù)(訓(xùn)練樣本集合),對(duì)購(gòu)買(mǎi)計(jì)算機(jī)的人員進(jìn)行分類(lèi):字段為:(年齡(取值:<30,30~40,>40>);收入(高,中,低);學(xué)生否(Y,N);信用(一般,很好);購(gòu)買(mǎi)計(jì)算機(jī)否(Y,N))記錄為14個(gè),具體數(shù)據(jù)如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)第八頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘

6.1.2決策樹(shù)1.決策樹(shù)的構(gòu)造過(guò)程決策樹(shù)的構(gòu)造算法:

決策樹(shù)的構(gòu)造算法可通過(guò)訓(xùn)練集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)為一個(gè)訓(xùn)練實(shí)例,它有n個(gè)屬性,分別列于屬性表(A1,A2,…,An)中,其中ai表示屬性Ai的取值。Cj∈C={C1,C2,…,Cm}為x的分類(lèi)結(jié)果。從屬性表中選擇屬性Ai作為分類(lèi)屬性;若屬性Ai的取值有ki個(gè),則將T劃分為ki個(gè)子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的屬性取值A(chǔ)為第i個(gè)值;接下來(lái)從屬性表中刪除屬性Ai;對(duì)于每一個(gè)Tij(1≤j≤K1),令T=Tij;如果屬性表非空,返回第1步,否則輸出。第九頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘

6.1.2決策樹(shù)2.分類(lèi)器定義:輸入的數(shù)據(jù)含有千萬(wàn)個(gè)記錄,每個(gè)記錄又有很多個(gè)屬性,其中有一個(gè)特別的屬性叫做類(lèi)(例如信用程度的高,中,低)。具體步驟:1)樹(shù)的建立。2)樹(shù)的修剪,SLIQ采用了MDL(最小敘述長(zhǎng)度)的方法來(lái)修剪樹(shù)。

第十頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘

6.1.2決策樹(shù)3.決策樹(shù)的可擴(kuò)展性4.基于決策樹(shù)方法的數(shù)據(jù)挖掘工具

KnowledgSEEKER

第十一頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘

6.1.3貝葉斯分類(lèi)1.貝葉斯信任網(wǎng)絡(luò)如何工作邊緣主區(qū)域手機(jī)呼叫服務(wù)區(qū)域noyes外界圖6.3簡(jiǎn)單的貝葉斯網(wǎng)圖第十二頁(yè),共八十一頁(yè)。6.1分類(lèi)規(guī)則挖掘6.1.3貝葉斯分類(lèi)2.貝葉斯定理與樸素貝葉斯分類(lèi)貝葉斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示條件X下H的概率,也稱(chēng)為條件概率或稱(chēng)為后驗(yàn)概率(posterioriprobabilities)。樸素貝葉斯分類(lèi):假定有m個(gè)類(lèi)C1,…Cm,對(duì)于數(shù)據(jù)樣本X,分類(lèi)法將預(yù)測(cè)X屬于類(lèi)Ci,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X),第十三頁(yè),共八十一頁(yè)。6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門(mén)掌握對(duì)象變化動(dòng)態(tài)的科學(xué),它是對(duì)對(duì)象變動(dòng)趨勢(shì)的預(yù)見(jiàn)、分析和判斷,也是一種動(dòng)態(tài)分析方法。預(yù)測(cè)的基本步驟:確定預(yù)測(cè)目標(biāo),包括預(yù)測(cè)對(duì)象、目的、對(duì)象范圍;收集分析內(nèi)部和外部資料;數(shù)據(jù)的處理及模型的選擇;預(yù)測(cè)模型的分析、修正;確定預(yù)測(cè)值。第十四頁(yè),共八十一頁(yè)。6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.2定量分析預(yù)測(cè)時(shí)間序列法回歸預(yù)測(cè)非線(xiàn)性模型灰色預(yù)測(cè)模型GM(1,1)組合預(yù)測(cè)第十五頁(yè),共八十一頁(yè)。6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.3預(yù)測(cè)的結(jié)果分析預(yù)測(cè)的結(jié)果分析要考慮到的因素:相反的預(yù)測(cè)結(jié)果勝出裕度成本收益分析第十六頁(yè),共八十一頁(yè)。6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.4趨勢(shì)分析挖掘分析時(shí)間序列數(shù)據(jù)需要注意以下方面:長(zhǎng)時(shí)間的走向周期的走向與周期的變化季節(jié)性的走向與變化不規(guī)則的隨機(jī)走向第十七頁(yè),共八十一頁(yè)。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類(lèi)1.關(guān)聯(lián)規(guī)則的概念定義1設(shè)I={i1、i2、i3,…,im}是由m個(gè)不同的數(shù)據(jù)項(xiàng)目組成的集合,其中的元素稱(chēng)為項(xiàng)(item),項(xiàng)的集合稱(chēng)為項(xiàng)集,包含k個(gè)項(xiàng)的項(xiàng)集稱(chēng)為k項(xiàng)集,給定一個(gè)事務(wù)(交易)D,即交易數(shù)據(jù)庫(kù),其中的每一個(gè)事務(wù)(交易)T是數(shù)據(jù)項(xiàng)I的一個(gè)子集,即,T有一個(gè)惟一的標(biāo)積符TID;當(dāng)且僅當(dāng)時(shí),稱(chēng)交易T包含項(xiàng)集X;那么關(guān)聯(lián)規(guī)則就形如“X=>Y”的蘊(yùn)涵式;其中,,,Ф,即表示滿(mǎn)足X中條件的記錄也一定滿(mǎn)足Y。關(guān)聯(lián)規(guī)則X=>Y在交易數(shù)據(jù)庫(kù)中成立,具有支持度s和具有置信度c。這也就是交易數(shù)據(jù)集D中具有支持度s,即D中至少有s%的事務(wù)包含,描述為:support(X=>Y)=比如Support(X=>Y)=同時(shí)購(gòu)買(mǎi)商品X和Y的交易數(shù)總交易數(shù)同時(shí)交易數(shù)據(jù)集D中具有置信度c,即D中包含X的事務(wù)至少有c%同時(shí)也包含Y,描述為:confidence(X=>Y)=比如購(gòu)買(mǎi)了商品X,同時(shí)購(gòu)買(mǎi)商品Y可信度,confidence(X=>Y)=同時(shí)購(gòu)買(mǎi)商品X和Y的交易數(shù)購(gòu)買(mǎi)了商品X的交易數(shù)一般稱(chēng)滿(mǎn)足一定要求的規(guī)則為強(qiáng)規(guī)則。通常稱(chēng)滿(mǎn)足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則(strong)。一般將最小支持度簡(jiǎn)記為minsup和最小置信度簡(jiǎn)記為minconf。第十八頁(yè),共八十一頁(yè)。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類(lèi)2關(guān)聯(lián)規(guī)則的分類(lèi)分類(lèi)標(biāo)準(zhǔn)類(lèi)別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則規(guī)則中的擴(kuò)充最大的模式和頻繁閉項(xiàng)集關(guān)聯(lián)特性分類(lèi)分析與相關(guān)分析第十九頁(yè),共八十一頁(yè)。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)1.簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則的核心算法找到所有支持度大于最小支持度的項(xiàng)集,即頻集,有k個(gè)數(shù)據(jù)頻集稱(chēng)為k項(xiàng)頻集.找出所有的頻集由apriori算法實(shí)現(xiàn)。Apriori性質(zhì)具有一個(gè)頻集的任一非空子集都是頻集。使用第1步找到的頻集產(chǎn)生期望的規(guī)則

apriori算法的詳細(xì)介紹見(jiàn)課本。第二十頁(yè),共八十一頁(yè)。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)2頻集算法的幾種優(yōu)化方法基于劃分的方法基于hash的方法基于采樣的方法減少交易的個(gè)數(shù)第二十一頁(yè),共八十一頁(yè)。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)3其他的頻集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)第二十二頁(yè),共八十一頁(yè)。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘多層關(guān)聯(lián)規(guī)則多維關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則價(jià)值衡量的方法6.3.4貨籃子分析存在的問(wèn)題詳見(jiàn)課本第二十三頁(yè),共八十一頁(yè)。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.5關(guān)聯(lián)分析的其他算法發(fā)現(xiàn)關(guān)聯(lián)的更好方法統(tǒng)計(jì)相關(guān)以外的理解關(guān)聯(lián)有效可行的市場(chǎng)籃子分析6.3.6挖掘序列模式序列模式的概念及定義

序列模式挖掘的主要算法

GSP算法描述PrefixSpan算法第二十四頁(yè),共八十一頁(yè)。關(guān)聯(lián)規(guī)則挖掘—一個(gè)例子最小值尺度50%最小可信度50%對(duì)于A(yíng)

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:頻繁項(xiàng)集的任何子集也一定是頻繁的第二十五頁(yè),共八十一頁(yè)。關(guān)鍵步驟:挖掘頻繁集頻繁集:是指滿(mǎn)足最小支持度的項(xiàng)目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則第二十六頁(yè),共八十一頁(yè)。Apriori算法連接:用Lk-1自連接得到Ck修剪:一個(gè)k-項(xiàng)集,如果他的一個(gè)k-1項(xiàng)集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for

(k=1;Lk!=;k++)dobegin

Ck+1=candidatesgeneratedfromLk;

foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint

Lk+1=candidatesinCk+1withmin_support

endreturn

k

Lk;第二十七頁(yè),共八十一頁(yè)。Apriori算法—例子數(shù)據(jù)庫(kù)D掃描DC1L1L2C2C2掃描DC3L3掃描D第二十八頁(yè),共八十一頁(yè)。如何生成候選集假定Lk-1中的項(xiàng)按順序排列第一步:自連接Lk-1

insertinto

Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk

doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk第二十九頁(yè),共八十一頁(yè)。如何計(jì)算候選集的支持度計(jì)算支持度為什么會(huì)成為一個(gè)問(wèn)題?候選集的個(gè)數(shù)非常巨大一筆交易可能包含多個(gè)候選集方法:用hash-tree存放候選集樹(shù)的葉子節(jié)點(diǎn)

of存放項(xiàng)集的列表和支持度內(nèi)部節(jié)點(diǎn)是一個(gè)hash表Subset函數(shù):找到包含在一筆交易中的所有候選集第三十頁(yè),共八十一頁(yè)。生成候選集的例子L3={abc,abd,acd,ace,bcd}自連接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,刪除acdeC4={abcd}第三十一頁(yè),共八十一頁(yè)。提高Apriori效率的方法基于Hash的項(xiàng)集計(jì)數(shù):如果一個(gè)k-項(xiàng)集在hash-tree的路徑上的一個(gè)計(jì)數(shù)值低于閾值,那他本身也不可能是頻繁的。減少交易記錄:不包含任何頻繁k-項(xiàng)集的交易也不可能包含任何大于k的頻繁集分割:一個(gè)項(xiàng)集要想在整個(gè)數(shù)據(jù)庫(kù)中是頻繁的,那么他至少在數(shù)據(jù)庫(kù)的一個(gè)分割上是頻繁的。采樣:在給定數(shù)據(jù)的子集上挖掘,使用小的支持度+完整性驗(yàn)證方法動(dòng)態(tài)項(xiàng)集計(jì)數(shù):在添加一個(gè)新的候選集之前,先估計(jì)一下是不是他的所有子集都是頻繁的。第三十二頁(yè),共八十一頁(yè)。Apriori夠快了嗎?—性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項(xiàng)集生成候選的頻繁k-項(xiàng)集用數(shù)據(jù)庫(kù)掃描和模式匹配計(jì)算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個(gè)頻繁1-項(xiàng)集要生成107個(gè)候選2-項(xiàng)集要找尺寸為100的頻繁模式,如{a1,a2,…,a100},你必須先產(chǎn)生21001030個(gè)候選集多次掃描數(shù)據(jù)庫(kù):如果最長(zhǎng)的模式是n的話(huà),則需要(n+1)次數(shù)據(jù)庫(kù)掃描第三十三頁(yè),共八十一頁(yè)。6.4數(shù)據(jù)挖掘的聚類(lèi)算法6.4.1聚類(lèi)分析的概念與分類(lèi)聚類(lèi)分析概念聚類(lèi)分析方法的分類(lèi)類(lèi)別算法分裂(劃分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心點(diǎn))、CLARANS算法(給予選擇的方法)層次法BIRCH算法(平衡迭代歸約和聚類(lèi))、CURE算法(代表聚類(lèi))、CHAMELEON算法(動(dòng)態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、OPTICS算法(對(duì)象排序識(shí)別)、DENCLUE算法(密度分布函數(shù))基于網(wǎng)格的方法STING算法(統(tǒng)計(jì)信息網(wǎng)格)、CLIQUE算法(聚類(lèi)高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法第三十四頁(yè),共八十一頁(yè)。6.4數(shù)據(jù)挖掘的聚類(lèi)算法6.4.2聚類(lèi)分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法區(qū)間標(biāo)度變量計(jì)算方法

二元變量計(jì)算方法標(biāo)稱(chēng)型、序數(shù)型和比例標(biāo)度型變量計(jì)算方法混合類(lèi)型的變量計(jì)算方法第三十五頁(yè),共八十一頁(yè)。6.4數(shù)據(jù)挖掘的聚類(lèi)算法6.4.3劃分方法典型的劃分方法:k-平均和k-中心點(diǎn)

基于簇的重心技術(shù):k-平均方法基于有代表性的對(duì)象的技術(shù):k-中心點(diǎn)方法大型數(shù)據(jù)庫(kù)中的劃分方法:基于選擇的K-中心點(diǎn)CLARANS方法第三十六頁(yè),共八十一頁(yè)。6.4數(shù)據(jù)挖掘的聚類(lèi)算法6.4.4層次方法凝聚的和分裂的層次聚類(lèi)

凝聚層次聚類(lèi)方法AGNES分裂層次聚類(lèi)方法DIANA利用層次方法的平衡迭代歸約和聚類(lèi)綜合的層次聚類(lèi)方法BIRCH利用代表點(diǎn)聚類(lèi)一種新穎的層次聚類(lèi)算法CURE一個(gè)利用動(dòng)態(tài)模型的層次聚類(lèi)算法動(dòng)態(tài)模型的聚類(lèi)法chameleon(變色龍)第三十七頁(yè),共八十一頁(yè)。6.4數(shù)據(jù)挖掘的聚類(lèi)算法6.4.5基于密度的方法一個(gè)基于高密度連接區(qū)域的聚類(lèi)方法DBSCAN聚類(lèi)方法通過(guò)對(duì)象排序識(shí)別聚類(lèi)結(jié)構(gòu)OPTICS聚類(lèi)分析方法基于密度分布函數(shù)的聚類(lèi)基于一組密度分布函數(shù)的聚類(lèi)算法DENCLUE第三十八頁(yè),共八十一頁(yè)。6.4數(shù)據(jù)挖掘的聚類(lèi)算法6.4.6基于網(wǎng)格的方法統(tǒng)計(jì)信息網(wǎng)絡(luò)STING是一種基于網(wǎng)格的多分辨率聚類(lèi)技術(shù)聚類(lèi)高維空間CLIQUE(clusteringinquest,CLIQUE)聚類(lèi)算法6.4.7基于模型的聚類(lèi)方法增量概念聚類(lèi)算法COBWEB6.4.8模糊聚類(lèi)算法第三十九頁(yè),共八十一頁(yè)。6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.5.1辨別方法6.5.2回歸模型6.5.3優(yōu)點(diǎn)與缺點(diǎn)第四十頁(yè),共八十一頁(yè)。6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.6.1品種優(yōu)化6.6.2品種優(yōu)化算法第四十一頁(yè),共八十一頁(yè)。6.7數(shù)據(jù)挖掘的進(jìn)化算法6.7.1遺傳算法如何工作優(yōu)缺點(diǎn)6.7.2神經(jīng)網(wǎng)絡(luò)算法如何工作無(wú)指導(dǎo)的學(xué)習(xí)競(jìng)爭(zhēng)學(xué)習(xí)自組織特征映射模型優(yōu)缺點(diǎn)第四十二頁(yè),共八十一頁(yè)。6.7數(shù)據(jù)挖掘的進(jìn)化算法神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位B類(lèi)客戶(hù)年齡交易額受教育的年限圖6.10神經(jīng)網(wǎng)絡(luò)模型C類(lèi)客戶(hù)跳槽客戶(hù)隱節(jié)點(diǎn)隱節(jié)點(diǎn)A類(lèi)客戶(hù)隱節(jié)點(diǎn)隱節(jié)點(diǎn)第四十三頁(yè),共八十一頁(yè)。第7章非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容:7.1Web數(shù)據(jù)挖掘7.2空間群數(shù)據(jù)挖掘7.3多媒體數(shù)據(jù)挖掘第四十四頁(yè),共八十一頁(yè)。7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源Web數(shù)據(jù)挖掘的難點(diǎn)對(duì)數(shù)據(jù)來(lái)源分析異構(gòu)數(shù)據(jù)環(huán)境半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)解決半結(jié)構(gòu)化的數(shù)據(jù)源問(wèn)題文本總結(jié)XML與Web數(shù)據(jù)挖掘技術(shù)XML的產(chǎn)生與發(fā)展XML的主要特點(diǎn)第四十五頁(yè),共八十一頁(yè)。7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源XML在Web數(shù)據(jù)挖掘中的應(yīng)用兩個(gè)或更多異質(zhì)數(shù)據(jù)庫(kù)之間進(jìn)行通信的應(yīng)用大部分處理負(fù)載從Web服務(wù)器轉(zhuǎn)到Web客戶(hù)端的應(yīng)用Web客戶(hù)端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶(hù)的應(yīng)用需要智能Web代理根據(jù)用戶(hù)個(gè)人的需要裁減信息內(nèi)容的應(yīng)用第四十六頁(yè),共八十一頁(yè)。7.1Web數(shù)據(jù)挖掘7.1.2Web挖掘分類(lèi)Web挖掘Webcontentmining(Web內(nèi)容挖掘)Webstructuremining(Web結(jié)構(gòu)挖掘)Webusagemining(Web訪(fǎng)問(wèn)挖掘)Searchresultmining(搜索結(jié)果再挖掘)Generalaccesspatterntracking(一般訪(fǎng)問(wèn)模式跟蹤)Customizedusagetracking(定制的使用跟蹤)Webpagecontentmining(Web頁(yè)面內(nèi)容挖掘)圖7.1Web挖掘分類(lèi)第四十七頁(yè),共八十一頁(yè)。Web挖掘三種方法比較Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web訪(fǎng)問(wèn)挖掘處理數(shù)據(jù)類(lèi)型IR方法數(shù)據(jù)庫(kù)方法Web結(jié)構(gòu)挖掘用戶(hù)訪(fǎng)問(wèn)挖掘無(wú)結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)主要數(shù)據(jù)自由文本、HTML標(biāo)記的超文本HTML標(biāo)記的超文本文檔內(nèi)及文檔間的超鏈接Serverlog,proxyserverlog,clientlog表示方法詞集、段落、概念、IR的三種經(jīng)典模型OEM關(guān)系圖關(guān)系表、圖處理方法TFIDF、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自然語(yǔ)言理解數(shù)據(jù)庫(kù)技術(shù)機(jī)器學(xué)習(xí)、專(zhuān)有算法(如HITSpagerank)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則主要應(yīng)用分類(lèi)、聚類(lèi)、模式發(fā)現(xiàn)模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)?、多維數(shù)據(jù)庫(kù)、站點(diǎn)創(chuàng)建與維護(hù)頁(yè)面權(quán)重分類(lèi)聚類(lèi)、模式發(fā)現(xiàn)用戶(hù)個(gè)性化、自適應(yīng)Web站點(diǎn)、商業(yè)決策第四十八頁(yè),共八十一頁(yè)。7.1Web數(shù)據(jù)挖掘Web挖掘的基本構(gòu)架訪(fǎng)問(wèn)者注冊(cè)用戶(hù)網(wǎng)站交易信息瀏覽信息數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)Web日志文件WebSerer中其他信息數(shù)據(jù)預(yù)處理模塊結(jié)構(gòu)數(shù)據(jù)挖掘模塊Web挖掘的基本構(gòu)架頁(yè)面訪(fǎng)問(wèn)情況Web結(jié)構(gòu)模式Web內(nèi)容模式知識(shí)非結(jié)構(gòu)數(shù)據(jù)挖掘模塊第四十九頁(yè),共八十一頁(yè)。7.1Web數(shù)據(jù)挖掘7.1.3Web內(nèi)容挖掘信息檢索(informationretrieve,IR)方法數(shù)據(jù)庫(kù)方法7.1.4Web結(jié)構(gòu)挖掘Rank方法7.1.5Web訪(fǎng)問(wèn)挖掘?qū)eb日志進(jìn)行清洗、過(guò)濾和轉(zhuǎn)換以及剔除無(wú)關(guān)記錄

采用統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在Web的使用記錄中挖掘知識(shí)

Web使用挖掘中的模式分析

第五十頁(yè),共八十一頁(yè)。7.1Web數(shù)據(jù)挖掘7.1.6利用Web日志的聚類(lèi)算法客戶(hù)群體的模糊聚類(lèi)算法

用戶(hù)訪(fǎng)問(wèn)興趣的算法

客戶(hù)群體聚類(lèi)的Hamming距離算法

基于模糊理論的Web頁(yè)面聚類(lèi)算法

Web頁(yè)面聚類(lèi)的Hamming距離算法

第五十一頁(yè),共八十一頁(yè)。7.1Web數(shù)據(jù)挖掘電子商務(wù)中的Web挖掘電子商務(wù)中Web挖掘的作用電子商務(wù)中Web挖掘的基本問(wèn)題電子商務(wù)中的數(shù)據(jù)挖掘工具文本信息挖掘工具用戶(hù)訪(fǎng)問(wèn)模式挖掘工具用戶(hù)導(dǎo)航行為挖掘工具綜合性的Web分析工具第五十二頁(yè),共八十一頁(yè)。7.2空間群數(shù)據(jù)挖掘7.2.1空間群數(shù)據(jù)挖掘概念從空間數(shù)據(jù)中抽取隱含的知識(shí)、空間關(guān)系、空間及與非空間之間的有意義的特征或模式。

7.2.2空間群數(shù)據(jù)挖掘分類(lèi)

空間檢索空間拓?fù)浏B加分析空間模擬分析第五十三頁(yè),共八十一頁(yè)。7.2空間群數(shù)據(jù)挖掘7.2.3空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間數(shù)據(jù)結(jié)構(gòu)查詢(xún)與優(yōu)化原則的分析信息集成模式知識(shí)級(jí)處理語(yǔ)義級(jí)檢索與索引領(lǐng)域知識(shí)模式知識(shí)對(duì)象和屬性抽取物理級(jí)底層特性處理設(shè)計(jì)圖7.4空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)對(duì)象級(jí)特征處理語(yǔ)義概念級(jí)處理用戶(hù)空間數(shù)據(jù)處理第五十四頁(yè),共八十一頁(yè)。7.3多媒體數(shù)據(jù)挖掘7.3.1多媒體數(shù)據(jù)挖掘的概念7.3.2多媒體數(shù)據(jù)挖掘的分類(lèi)圖像數(shù)據(jù)挖掘視頻數(shù)據(jù)挖掘音頻數(shù)據(jù)挖掘第五十五頁(yè),共八十一頁(yè)。7.3多媒體數(shù)據(jù)挖掘7.3.3多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)原始數(shù)據(jù)媒體數(shù)據(jù)攝取媒體編碼存檔瀏覽引擎分類(lèi)特征抽取查詢(xún)引擎工具交互式學(xué)習(xí)索引的生成用戶(hù)圖7.5功能驅(qū)動(dòng)的多媒體挖掘體系結(jié)構(gòu)基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析信息集成模式知識(shí)級(jí)處理語(yǔ)義級(jí)檢索與索引領(lǐng)域知識(shí)模式知識(shí)對(duì)象級(jí)的索引與檢索物理級(jí)底層特性處理設(shè)計(jì)圖7.6信息驅(qū)動(dòng)的多媒體挖掘的結(jié)構(gòu)對(duì)象級(jí)特征處理語(yǔ)義概念級(jí)處理用戶(hù)多媒體處理第五十六頁(yè),共八十一頁(yè)。第8章離群數(shù)據(jù)挖掘本章內(nèi)容離群數(shù)據(jù)挖掘概念離群數(shù)據(jù)挖掘分類(lèi)離群數(shù)據(jù)挖掘算法市場(chǎng)營(yíng)銷(xiāo)離群數(shù)據(jù)的特點(diǎn)第五十七頁(yè),共八十一頁(yè)。第8章離群數(shù)據(jù)挖掘8.1離群數(shù)據(jù)挖掘的概念8.2離群數(shù)據(jù)挖掘的分類(lèi)基于統(tǒng)計(jì)學(xué)基于距離的方法基于偏移高維數(shù)據(jù)的離群數(shù)據(jù)探測(cè)基于規(guī)則的分類(lèi)離群數(shù)據(jù)挖掘方法基于密度(density-based)的離群挖掘方法第五十八頁(yè),共八十一頁(yè)。8.3離群數(shù)據(jù)挖掘的算法8.3.1基于統(tǒng)計(jì)的方法8.3.2基于距離的離群數(shù)據(jù)方法基于距離的離群數(shù)據(jù)定義基于距離的離群數(shù)據(jù)挖掘的算法分類(lèi)及算法描述基于距離的算法的改進(jìn)8.3.3基于偏離的離群數(shù)據(jù)挖掘序列離群數(shù)據(jù)技術(shù)

OLAP數(shù)據(jù)立方體技術(shù)第五十九頁(yè),共八十一頁(yè)。8.3離群數(shù)據(jù)挖掘的算法8.3.4高維數(shù)據(jù)的離群數(shù)據(jù)挖掘8.3.5基于小波的離群數(shù)據(jù)挖掘

時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘基于聚類(lèi)的離群數(shù)據(jù)CL(δ)第六十頁(yè),共八十一頁(yè)。8.4市場(chǎng)營(yíng)銷(xiāo)離群數(shù)據(jù)挖掘8.4.1市場(chǎng)營(yíng)銷(xiāo)離群數(shù)據(jù)挖掘特點(diǎn)8.4.2基于分形的市場(chǎng)營(yíng)銷(xiāo)離群數(shù)據(jù)挖掘模型幾個(gè)定義第六十一頁(yè),共八十一頁(yè)。第9章數(shù)據(jù)挖掘語(yǔ)言與工具選擇本章內(nèi)容9.1數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化9.2數(shù)據(jù)挖掘研究熱點(diǎn)9.3數(shù)據(jù)挖掘工具的選擇第六十二頁(yè),共八十一頁(yè)。9.1數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語(yǔ)言分類(lèi)類(lèi)別特點(diǎn)功能代表數(shù)據(jù)挖掘查詢(xún)語(yǔ)言數(shù)據(jù)挖掘原語(yǔ)五種原語(yǔ)DMQL數(shù)據(jù)挖掘建模語(yǔ)言基于XML的語(yǔ)言文檔類(lèi)型定義、通用模式PMML通用數(shù)據(jù)挖掘語(yǔ)言集成全面OLEDBforDM第六十三頁(yè),共八十一頁(yè)。9.1數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語(yǔ)言分類(lèi)數(shù)據(jù)挖掘查詢(xún)語(yǔ)言(5種數(shù)據(jù)挖掘原語(yǔ)定義)。任務(wù)相關(guān)數(shù)據(jù)原語(yǔ)被挖掘的知識(shí)的種類(lèi)原語(yǔ)背景知識(shí)原語(yǔ)興趣度測(cè)量原語(yǔ)被發(fā)現(xiàn)模式的表示和可視化原語(yǔ)第六十四頁(yè),共八十一頁(yè)。9.1數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語(yǔ)言分類(lèi)數(shù)據(jù)挖掘建模語(yǔ)言頭文件(aheader)數(shù)據(jù)模式(adataschema)數(shù)據(jù)挖掘模式(adataminingschema)預(yù)言模型模式(apredictivemodelschema)預(yù)言模型定義(definitionsforpredictivemodels)全體模型定義(definitionsforensemblesofmodels)選擇和聯(lián)合模型、全體模型的規(guī)則(rulesforselectingandcombiningmodelsandensemblesofmodels)異常處理的規(guī)則(rulesforexceptionhandling)第六十五頁(yè),共八十一頁(yè)。9.1數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語(yǔ)言分類(lèi)通用數(shù)據(jù)挖掘語(yǔ)言數(shù)據(jù)挖掘模型(DataMiningModel,DMM)預(yù)言聯(lián)接操作(PredicationJoinOperation)OLEDBforDM模式行集合(SchemaRowsets)9.1.2分析與評(píng)價(jià)第六十六頁(yè),共八十一頁(yè)。9.2數(shù)據(jù)挖掘的研究熱點(diǎn)網(wǎng)站的數(shù)據(jù)挖掘生物信息或基因的數(shù)據(jù)挖掘文本的數(shù)據(jù)挖掘第六十七頁(yè),共八十一頁(yè)。9.3數(shù)據(jù)挖掘工具的選擇9.3.1評(píng)價(jià)數(shù)據(jù)挖掘工具的優(yōu)劣指標(biāo)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)訪(fǎng)問(wèn)算法與建模模型的評(píng)價(jià)和解釋用戶(hù)界面第六十八頁(yè),共八十一頁(yè)。9.3數(shù)據(jù)挖掘工具的選擇9.3.2通用數(shù)據(jù)挖掘產(chǎn)品與工具POLYANALYSTIBMDB2lntelligentMiner和并行可視化探索者PVEDBMinerBO的BusinessMinerSPSS股份公司(SPPSCHAID)SAS研究所股份公司(SAS,JMP)NeuralWare股份公司信息發(fā)現(xiàn)股份公司(IDIS)RightPoint公司的數(shù)據(jù)挖掘工具DataCruncherDataMind公司(DataMind專(zhuān)業(yè)版,DataMindCruncher)Pilot軟件股份公司(Pilot發(fā)現(xiàn)服務(wù)器)Angoss國(guó)際有限公司(KnowledgeSEEKER)SiliconGraphics計(jì)算機(jī)系統(tǒng)公司(MineSet)商務(wù)項(xiàng)目公司(商務(wù)挖掘器)Cognos軟件公司(Scenario)思維機(jī)器公司(Darwin)………..第六十九頁(yè),共八十一頁(yè)。9.3數(shù)據(jù)挖掘工具的選擇9.3.3國(guó)內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具菲奈特一融通公司廣州華工明天科技有限公司

復(fù)旦大學(xué)數(shù)據(jù)采掘工具ARMiner9.3.4數(shù)據(jù)可視化工具的選擇高級(jí)可視化系統(tǒng)公司(AVS/Express)

Alta分析股份藹公司(NetMap)Belmont研究股份公司(Cross Graphs)

環(huán)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論