數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)

上傳人：紅*** IP屬地：江蘇上傳時間：2015-08-04 格式：PPT 頁數(shù)：79 大?。?06.50KB 積分：6 舉報 版權(quán)申訴

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第2頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第3頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第4頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第5頁

已閱讀5頁，還剩74頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Istitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM 第 6章數(shù)據(jù)挖掘基本算法本章內(nèi)容： 6.1 分類規(guī)則挖掘 6.2 預(yù)測分析與趨勢分析規(guī)則 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.4 數(shù)據(jù)挖掘的聚類算法 6.5 數(shù)據(jù)挖掘的統(tǒng)計分析算法 6.6 數(shù)據(jù)挖掘的品種優(yōu)化算法 6.7 數(shù)據(jù)挖掘的進(jìn)化算法 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 1 分類為了理解事物特征并做出預(yù)測使用歷史數(shù)據(jù)建立一個分類模型（即分類器）的過程。應(yīng)用于信用卡系統(tǒng)中的信用分級、市場調(diào)查、療效診斷、尋找店址等實踐應(yīng)用參照課本 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 2 估值估值（ estimation）與分類類似，不同之處在于，分類描述的是離散型變量的輸出，而估值處理連續(xù)值的輸出；分類的類別是確定的數(shù)目，估值的量是不確定的。 3 分類方法與步驟方法：決策樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有 K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟：模型創(chuàng)建、模型使用 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 4 評估分類方法要考慮的指標(biāo)：預(yù)測準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對模型的可理解程度、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹父節(jié)點子節(jié)點子節(jié)點葉節(jié)點子節(jié)點子節(jié)點子節(jié)點根節(jié)點圖 6.1 一般決策樹結(jié)構(gòu) 葉節(jié)點父節(jié)點 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構(gòu)造過程 ID3算法應(yīng)用如下： )(log 21pipmii),.,1(1)/).21( s m jjsImjss m jjsjs)(log 21pipmii信息量計算公式： I(s1,s2, sm)=- （ 6.1）其中， pi為 si占整個類別的概率利用屬性 A劃分當(dāng)前樣本集合所需要的信息（熵）的計算公式為： E（ A） = (6.2) 信息增益公式： Gain（ A） = I(s1,s2, sm)-E（ A）（ 6.3）例如：一個銷售的顧客數(shù)據(jù)庫（訓(xùn)練樣本集合） ,對購買計算機的人員進(jìn)行分類：字段為：（年齡（取值： 40）；收入 (高，中，低 )；學(xué)生否（ Y， N）；信用（一般，很好）；購買計算機否（ Y， N）記錄為 14個，具體數(shù)據(jù)如下： X1=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y)； X6=(40, 低 ,Y, 很好 ,N) X7=(40, 中 ,Y, 一般 ,Y) X11=(40,中 ,N, 很好 ,N) E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構(gòu)造過程決策樹的構(gòu)造算法：決策樹的構(gòu)造算法可通過訓(xùn)練集 T完成，其中 T=，而x=(a1,a2, an)為一個訓(xùn)練實例，它有 n個屬性，分別列于屬性表(A1,A2, An)中，其中 ai表示屬性 Ai的取值。 Cj C=C1,C2, Cm為 x的分類結(jié)果。從屬性表中選擇屬性 Ai作為分類屬性；若屬性 Ai的取值有 ki個，則將 T劃分為 ki個子集， T1,T ki，其中 Tij=| T，且 x的屬性取值 A為第 i個值；接下來從屬性表中刪除屬性 Ai；對于每一個Tij(1jK1)，令 T=Tij；如果屬性表非空，返回第 1步，否則輸出。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 2分類器定義：輸入的數(shù)據(jù)含有千萬個記錄，每個記錄又有很多個屬性，其中有一個特別的屬性叫做類（例如信用程度的高，中，低）。具體步驟： 1）樹的建立。 2）樹的修剪 ,SLIQ采用了 MDL（最小敘述長度）的方法來修剪樹。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 3決策樹的可擴展性 4基于決策樹方法的數(shù)據(jù)挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 1貝葉斯信任網(wǎng)絡(luò)如何工作邊緣主區(qū)域手機呼叫服務(wù)區(qū)域 no yes 外界圖 6.3 簡單的貝葉斯網(wǎng)圖 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 2貝葉斯定理與樸素貝葉斯分類貝葉斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中， P(H|X)表示條件 X下 H的概率，也稱為條件概率或稱為后驗概率(posteriori probabilities)。樸素貝葉斯分類：假定有 m個類 C1, Cm,對于數(shù)據(jù)樣本 X,分類法將預(yù)測 X屬于類Ci,當(dāng)且僅當(dāng) P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM 6.2預(yù)測分析與趨勢分析規(guī)則 6.2.1 預(yù)言的基本方法預(yù)言（ prediction）是一門掌握對象變化動態(tài)的科學(xué)，它是對對象變動趨勢的預(yù)見、分析和判斷，也是一種動態(tài)分析方法。預(yù)測的基本步驟：確定預(yù)測目標(biāo)，包括預(yù)測對象、目的、對象范圍；收集分析內(nèi)部和外部資料；數(shù)據(jù)的處理及模型的選擇；預(yù)測模型的分析、修正；確定預(yù)測值。 E-MAIL:BXXHSSINA.COM 6.2 預(yù)測分析與趨勢分析規(guī)則 6.2.2 定量分析預(yù)測時間序列法回歸預(yù)測非線性模型灰色預(yù)測模型 GM（ 1， 1）組合預(yù)測 E-MAIL:BXXHSSINA.COM 6.2 預(yù)測分析與趨勢分析規(guī)則 6.2.3預(yù)測的結(jié)果分析預(yù)測的結(jié)果分析要考慮到的因素：相反的預(yù)測結(jié)果勝出裕度成本收益分析 E-MAIL:BXXHSSINA.COM 6.2 預(yù)測分析與趨勢分析規(guī)則 6.2.4 趨勢分析挖掘分析時間序列數(shù)據(jù)需要注意以下方面：長時間的走向周期的走向與周期的變化季節(jié)性的走向與變化不規(guī)則的隨機走向 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.1 關(guān)聯(lián)規(guī)則的概念及分類 1關(guān)聯(lián)規(guī)則的概念定義 1 設(shè) I=i1、 i2、 i3， , im是由 m個不同的數(shù)據(jù)項目組成的集合，其中的元素稱為項 (item)，項的集合稱為項集，包含 k個項的項集稱為 k項集 ,給定一個事務(wù)（交易） D，即交易數(shù)據(jù)庫，其中的每一個事務(wù)（交易） T是數(shù)據(jù)項 I的一個子集，即，T有一個惟一的標(biāo)積符 TID；當(dāng)且僅當(dāng)時，稱交易 T包含項集 X；那么關(guān)聯(lián)規(guī)則就形如“ X=Y”的蘊涵式；其中，，即表示滿足 X中條件的記錄也一定滿足 Y。關(guān)聯(lián)規(guī)則 X=Y在交易數(shù)據(jù)庫中成立 , 具有支持度 s和具有置信度 c 。這也就是交易數(shù)據(jù)集 D中具有支持度 s，即 D中至少有 s%的事務(wù)包含 ,描述為： support(X=Y)= 比如 Support(X=Y )=同時購買商品 X和 Y的交易數(shù) 總交易數(shù) 同時交易數(shù)據(jù)集 D中具有置信度 c，即 D中包含 X的事務(wù)至少有 c%同時也包含 Y,描述為： confidence(X=Y)= 比如購買了商品 X，同時購買商品 Y可信度， confidence(X=Y)=同時購買商品 X和 Y的交易數(shù) 購買了商品 X的交易數(shù) 一般稱滿足一定要求的規(guī)則為強規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強關(guān)聯(lián)規(guī)則（ strong）。一般將最小支持度簡記為 minsup和最小置信度簡記為 minconf。 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.1 關(guān)聯(lián)規(guī)則的概念及分類 2 關(guān)聯(lián)規(guī)則的分類分類標(biāo)準(zhǔn) 類別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則，量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則規(guī)則中的擴充最大的模式和頻繁閉項集關(guān)聯(lián)特性分類分析與相關(guān)分析 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法（單維、單層和布爾關(guān)聯(lián)規(guī)則） 1簡單形式的關(guān)聯(lián)規(guī)則的核心算法找到所有支持度大于最小支持度的項集 ,即頻集 ,有 k個數(shù)據(jù)頻集稱為 k項頻集 .找出所有的頻集由 apriori算法實現(xiàn)。Apriori性質(zhì)具有一個頻集的任一非空子集都是頻集。使用第 1步找到的頻集產(chǎn)生期望的規(guī)則 apriori算法的詳細(xì)介紹見課本。 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法（單維、單層和布爾關(guān)聯(lián)規(guī)則） 2 頻集算法的幾種優(yōu)化方法基于劃分的方法基于 hash的方法基于采樣的方法減少交易的個數(shù) E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法（單維、單層和布爾關(guān)聯(lián)規(guī)則） 3 其他的頻集挖掘方法 FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.3 多層和多維關(guān)聯(lián)規(guī)則的挖掘多層關(guān)聯(lián)規(guī)則多維關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則價值衡量的方法 6.3.4 貨籃子分析存在的問題詳見課本 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.5 關(guān)聯(lián)分析的其他算法發(fā)現(xiàn)關(guān)聯(lián)的更好方法統(tǒng)計相關(guān)以外的理解關(guān)聯(lián) 有效可行的市場籃子分析 6.3.6 挖掘序列模式序列模式的概念及定義序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM 關(guān)聯(lián)規(guī)則挖掘一個例子交易 ID 購買商品2000 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項集支持度 A 75% B 50% C 50% A ,C 50%最小值尺度 50% 最小可信度 50% 對于 A C： support = support(A 、 C) = 50% confidence = support(A 、 C)/support(A) = 66.6% Apriori的基本思想 : 頻繁項集的任何子集也一定是頻繁的 E-MAIL:BXXHSSINA.COM 關(guān)鍵步驟：挖掘頻繁集頻繁集 :是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如 , 如果 AB 是頻繁集，則 A B 也一定是頻繁集從 1到 k（ k-頻繁集）遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則 E-MAIL:BXXHSSINA.COM Apriori算法連接 : 用 Lk-1自連接得到 Ck 修剪 : 一個 k-項集，如果他的一個 k-1項集（他的子集）不是頻繁的，那他本身也不可能是頻繁的。偽代碼 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; E-MAIL:BXXHSSINA.COM Apriori算法例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫 D ite m s e t s u p . 1 2 2 3 3 3 4 1 5 3i te m s e t s u p . 1 2 2 3 3 3 5 3掃描 D C1 L1 item set1 21 31 52 32 53 5ite m s et s up 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2ite m s e t s u p 1 3 2 2 3 2 2 5 3 3 5 2L2 C2 C2 掃描 D C3 L3 item set2 3 5 掃描 D ite m s e t s u p 2 3 5 2 E-MAIL:BXXHSSINA.COM 如何生成候選集假定 Lk-1 中的項按順序排列第一步 : 自連接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步 : 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM 如何計算候選集的支持度計算支持度為什么會成為一個問題？候選集的個數(shù)非常巨大一筆交易可能包含多個候選集方法 : 用 hash-tree 存放候選集樹的葉子節(jié)點 of存放項集的列表和支持度內(nèi)部節(jié)點是一個 hash表 Subset 函數(shù) : 找到包含在一筆交易中的所有候選集 E-MAIL:BXXHSSINA.COM 生成候選集的例子 L3=abc, abd, acd, ace, bcd 自連接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪 : ade 不在 L3中，刪除 acde C4=abcd E-MAIL:BXXHSSINA.COM 提高 Apriori效率的方法基于 Hash的項集計數(shù) : 如果一個 k-項集在 hash-tree的路徑上的一個計數(shù)值低于閾值，那他本身也不可能是頻繁的。減少交易記錄 : 不包含任何頻繁 k-項集的交易也不可能包含任何大于 k的頻繁集分割 : 一個項集要想在整個數(shù)據(jù)庫中是頻繁的，那么他至少在數(shù)據(jù)庫的一個分割上是頻繁的。采樣 : 在給定數(shù)據(jù)的子集上挖掘，使用小的支持度 +完整性驗證方法動態(tài)項集計數(shù) : 在添加一個新的候選集之前，先估計一下是不是他的所有子集都是頻繁的。 E-MAIL:BXXHSSINA.COM Apriori 夠快了嗎 ? 性能瓶頸 Apriori算法的核心 : 用頻繁的 (k 1)-項集生成候選的頻繁 k-項集用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度 Apriori 的瓶頸 : 候選集生成巨大的候選集 : 104 個頻繁 1-項集要生成 107 個候選 2-項集要找尺寸為 100的頻繁模式，如 a1, a2, , a100, 你必須先產(chǎn)生 2100 1030 個候選集多次掃描數(shù)據(jù)庫：如果最長的模式是 n的話，則需要 (n +1 ) 次數(shù)據(jù)庫掃描 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.1 聚類分析的概念與分類聚類分析概念聚類分析方法的分類類別算法分裂（劃分）法 K-MEANS算法（ K-平均）、 K-MEDOIDS算法（ K-中心點）、 CLARANS算法（給予選擇的方法）層次法 BIRCH算法（平衡迭代歸約和聚類）、 CURE算法（代表聚類）、 CHAMELEON算法（動態(tài)模型）基于密度的方法 DBSCAN算法（基于高密度連接區(qū)域）、 OPTICS算法（對象排序識別）、DENCLUE算法（密度分布函數(shù)）基于網(wǎng)格的方法 STING算法（統(tǒng)計信息網(wǎng)格）、 CLIQUE算法（聚類高維空間）、 WAVE-CLUSTER算法（小波變換）基于模型的方法統(tǒng)計學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.2 聚類分析中兩個對象之間的相異度計算方法區(qū)間標(biāo)度變量計算方法二元變量計算方法標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量計算方法混合類型的變量計算方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.3 劃分方法典型的劃分方法： k-平均和 k-中心點基于簇的重心技術(shù)： k-平均方法基于有代表性的對象的技術(shù)： k-中心點方法大型數(shù)據(jù)庫中的劃分方法：基于選擇的 K-中心點 CLARANS方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.4 層次方法凝聚的和分裂的層次聚類凝聚層次聚類方法 AGNES 分裂層次聚類方法 DIANA 利用層次方法的平衡迭代歸約和聚類綜合的層次聚類方法 BIRCH 利用代表點聚類一種新穎的層次聚類算法 CURE 一個利用動態(tài)模型的層次聚類算法動態(tài)模型的聚類法 chameleon (變色龍 ) E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.5 基于密度的方法一個基于高密度連接區(qū)域的聚類方法 DBSCAN 聚類方法通過對象排序識別聚類結(jié)構(gòu) OPTICS聚類分析方法基于密度分布函數(shù)的聚類基于一組密度分布函數(shù)的聚類算法 DENCLUE E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.6 基于網(wǎng)格的方法統(tǒng)計信息網(wǎng)絡(luò) STING是一種基于網(wǎng)格的多分辨率聚類技術(shù) 聚類高維空間 CLIQUE（ clustering in quest, CLIQUE）聚類算法 6.4.7 基于模型的聚類方法增量概念聚類算法 COBWEB 6.4.8 模糊聚類算法 E-MAIL:BXXHSSINA.COM 6.5 數(shù)據(jù)挖掘的統(tǒng)計分析算法 6.5.1 辨別方法 6.5.2 回歸模型 6.5.3 優(yōu)點與缺點 E-MAIL:BXXHSSINA.COM 6.6 數(shù)據(jù)挖掘的品種優(yōu)化算法 6.6.1 品種優(yōu)化 6.6.2 品種優(yōu)化算法 E-MAIL:BXXHSSINA.COM 6.7數(shù)據(jù)挖掘的進(jìn)化算法 6.7.1 遺傳算法如何工作優(yōu)缺點 6.7.2 神經(jīng)網(wǎng)絡(luò)算法如何工作無指導(dǎo)的學(xué)習(xí) 競爭學(xué)習(xí) 自組織特征映射模型優(yōu)缺點 E-MAIL:BXXHSSINA.COM 6.7數(shù)據(jù)挖掘的進(jìn)化算法神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位 B類客戶年齡交易額受教育的年限圖 6.10 神經(jīng)網(wǎng)絡(luò)模型 C類客戶跳槽客戶隱節(jié)點隱節(jié)點 A類客戶隱節(jié)點隱節(jié)點 E-MAIL:BXXHSSINA.COM 第 7章非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容 : 7.1 Web數(shù)據(jù)挖掘 7.2 空間群數(shù)據(jù)挖掘 7.3 多媒體數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源 Web數(shù)據(jù)挖掘的難點對數(shù)據(jù)來源分析異構(gòu)數(shù)據(jù)環(huán)境半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu) 解決半結(jié)構(gòu)化的數(shù)據(jù)源問題文本總結(jié) XML與 Web數(shù)據(jù)挖掘技術(shù) XML的產(chǎn)生與發(fā)展 XML的主要特點 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源 XML在 Web數(shù)據(jù)挖掘中的應(yīng)用兩個或更多異質(zhì)數(shù)據(jù)庫之間進(jìn)行通信的應(yīng)用大部分處理負(fù)載從 Web服務(wù)器轉(zhuǎn)到 Web客戶端的應(yīng)用 Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用需要智能 Web代理根據(jù)用戶個人的需要裁減信息內(nèi)容的應(yīng)用 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.2 Web挖掘分類 Web挖掘 Web content mining (Web內(nèi)容挖掘 ) Web structure mining (Web結(jié)構(gòu)挖掘 ) Web usage mining (Web訪問挖掘 ) Search result mining(搜索結(jié)果再挖掘 ) General access pattern tracking （一般訪問模式跟蹤） Customized usage tracking (定制的使用跟蹤 ) Web page content mining(Web頁面內(nèi)容挖掘 ) 圖 7.1 Web挖掘分類 E-MAIL:BXXHSSINA.COM Web挖掘三種方法比較 Web內(nèi)容挖掘 Web結(jié)構(gòu)挖掘 Web訪問挖掘處理數(shù)據(jù)類型 IR方法數(shù)據(jù)庫方法 Web結(jié)構(gòu)挖掘用戶訪問挖掘無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù) 主要數(shù)據(jù) 自由文本、 HTML標(biāo)記的超文本 HTML標(biāo)記的超文本文檔內(nèi)及文檔間的超鏈接 Serverlog,proxy serverlog,client log 表示方法詞集、段落、概念、 IR的三種經(jīng)典模型 OEM 關(guān)系圖關(guān)系表、圖處理方法 TFIDF、統(tǒng)計、機器學(xué)習(xí)、自然語言理解數(shù)據(jù)庫技術(shù) 機器學(xué)習(xí)、專有算法（如 HITS pagerank）統(tǒng)計、機器學(xué)習(xí)、關(guān)聯(lián)規(guī)則主要應(yīng)用分類、聚類、模式發(fā)現(xiàn) 模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)?、多維數(shù)據(jù)庫、站點創(chuàng)建與維護(hù) 頁面權(quán)重分類聚類、模式發(fā)現(xiàn) 用戶個性化、自適應(yīng) Web站點、商業(yè)決策 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 Web挖掘的基本構(gòu)架訪問者注冊用戶網(wǎng)站交易信息瀏覽信息數(shù)據(jù)庫、數(shù)據(jù)倉庫 Web日志文件 Web Serer中其他信息數(shù)據(jù)預(yù)處理模塊結(jié)構(gòu)數(shù)據(jù)挖掘模塊 Web挖掘的基本構(gòu)架頁面訪問情況 Web結(jié)構(gòu)模式 Web內(nèi)容模式知識非結(jié)構(gòu)數(shù)據(jù)挖掘模塊 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.3 Web內(nèi)容挖掘信息檢索（ information retrieve ， IR）方法數(shù)據(jù)庫方法 7.1.4 Web結(jié)構(gòu)挖掘 Page-Rank方法 7.1.5 Web訪問挖掘對 Web日志進(jìn)行清洗、過濾和轉(zhuǎn)換以及剔除無關(guān)記錄采用統(tǒng)計學(xué)、模式識別、人工智能、數(shù)據(jù)庫數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在 Web的使用記錄中挖掘知識 Web使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.6 利用 Web日志的聚類算法客戶群體的模糊聚類算法用戶訪問興趣的算法客戶群體聚類的 Hamming距離算法基于模糊理論的 Web頁面聚類算法 Web頁面聚類的 Hamming距離算法 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘電子商務(wù)中的 Web挖掘電子商務(wù)中 Web挖掘的作用電子商務(wù)中 Web挖掘的基本問題電子商務(wù)中的數(shù)據(jù)挖掘工具文本信息挖掘工具用戶訪問模式挖掘工具用戶導(dǎo)航行為挖掘工具綜合性的 Web分析工具 E-MAIL:BXXHSSINA.COM 7.2 空間群數(shù)據(jù)挖掘 7.2.1 空間群數(shù)據(jù)挖掘概念從空間數(shù)據(jù)中抽取隱含的知識、空間關(guān)系、空間及與非空間之間的有意義的特征或模式。 7.2.2 空間群數(shù)據(jù)挖掘分類空間檢索空間拓?fù)浏B加分析空間模擬分析 E-MAIL:BXXHSSINA.COM 7.2 空間群數(shù)據(jù)挖掘 7.2.3 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu) 空間數(shù)據(jù)結(jié)構(gòu)查詢與優(yōu)化原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象和屬性抽取物理級底層特性處理設(shè)計圖 7.4 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu) 對象級特征處理語義概念級處理用戶空間數(shù)據(jù)處理 E-MAIL:BXXHSSINA.COM 7.3多媒體數(shù)據(jù)挖掘 7.3.1 多媒體數(shù)據(jù)挖掘的概念 7.3.2 多媒體數(shù)據(jù)挖掘的分類圖像數(shù)據(jù)挖掘視頻數(shù)據(jù)挖掘音頻數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 7.3多媒體數(shù)據(jù)挖掘 7.3.3 多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu) 原始數(shù)據(jù) 媒體數(shù)據(jù)攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學(xué)習(xí) 索引的生成用戶圖 7.5 功能驅(qū)動的多媒體挖掘體系結(jié)構(gòu) 基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象級的索引與檢索物理級底層特性處理設(shè)計圖 7.6 信息驅(qū)動的多媒體挖掘的結(jié)構(gòu) 對象級特征處理語義概念級處理用戶多媒體處理 E-MAIL:BXXHSSINA.COM 第 8章離群數(shù)據(jù)挖掘本章內(nèi)容離群數(shù)據(jù)挖掘概念離群數(shù)據(jù)挖掘分類離群數(shù)據(jù)挖掘算法市場營銷離群數(shù)據(jù)的特點 E-MAIL:BXXHSSINA.COM 第 8章離群數(shù)據(jù)挖掘 8.1 離群數(shù)據(jù)挖掘的概念 8.2 離群數(shù)據(jù)挖掘的分類基于統(tǒng)計學(xué) 基于距離的方法基于偏移高維數(shù)據(jù)的離群數(shù)據(jù)探測基于規(guī)則的分類離群數(shù)據(jù)挖掘方法基于密度 (density-based)的離群挖掘方法 E-MAIL:BXXHSSINA.COM 8.3離群數(shù)據(jù)挖掘的算法 8.3.1基于統(tǒng)計的方法 8.3.2基于距離的離群數(shù)據(jù)方法基于距離的離群數(shù)據(jù)定義基于距離的離群數(shù)據(jù)挖掘的算法分類及算法描述基于距離的算法的改進(jìn) 8.3.3 基于偏離的離群數(shù)據(jù)挖掘序列離群數(shù)據(jù)技術(shù) OLAP數(shù)據(jù)立方體技術(shù) E-MAIL:BXXHSSINA.COM 8.3離群數(shù)據(jù)挖掘的算法 8.3.4 高維數(shù)據(jù)的離群數(shù)據(jù)挖掘 8.3.5 基于小波的離群數(shù)據(jù)挖掘時序數(shù)據(jù)的離群數(shù)據(jù)挖掘基于聚類的離群數(shù)據(jù) CL（） E-MAIL:BXXHSSINA.COM 8.4市場營銷離群數(shù)據(jù)挖掘 8.4.1市場營銷離群數(shù)據(jù)挖掘特點 8.4.2 基于分形的市場營銷離群數(shù)據(jù)挖掘模型幾個定義 E-MAIL:BXXHSSINA.COM 第 9章數(shù)據(jù)挖掘語言與工具選擇本章內(nèi)容 9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化 9.2 數(shù)據(jù)挖掘研究熱點 9.3 數(shù)據(jù)挖掘工具的選擇 E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語言分類類別特點功能代表數(shù)據(jù)挖掘查詢語言數(shù)據(jù)挖掘原語五種原語 DMQL 數(shù)據(jù)挖掘建模語言基于 XML的語言文檔類型定義、通用模式 PMML 通用數(shù)據(jù)挖掘語言集成全面 OLE DB for DM E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語言分類數(shù)據(jù)挖掘查詢語言（ 5種數(shù)據(jù)挖掘原語定義）。任務(wù)相關(guān)數(shù)據(jù)原語被挖掘的知識的種類原語背景知識原語興趣度測量原語被發(fā)現(xiàn)模式的表示和可視化原語 E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語言分類數(shù)據(jù)挖掘建模語言頭文件（ a header）數(shù)據(jù)模式（ a data schema）數(shù)據(jù)挖掘模式（ a data mining schema）預(yù)言模型模式（ a predictive model schema）預(yù)言模型定義（ definitions for predictive models）全體模型定義（ definitions for ensembles of models）選擇和聯(lián)合模型、全體模型的規(guī)則（ rules for selecting and combining models and ensembles of models）異常處理的規(guī)則（ rules for exception handling） E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語言分類通用數(shù)據(jù)挖掘語言數(shù)據(jù)挖掘模型（ Data Mining Model， DMM）預(yù)言聯(lián)接操作（ Predication Join Operation） OLE DB for DM模式行集合（ Schema Rowsets） 9.1.2 分析與評價 E-MAIL:BXXHSSINA.COM 9.2數(shù)據(jù)挖掘的研究熱點網(wǎng)站的數(shù)據(jù)挖掘生物信息或基因的數(shù)據(jù)挖掘文本的數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.1 評價數(shù)據(jù)挖掘工具的優(yōu)劣指標(biāo) 數(shù)據(jù)準(zhǔn)備數(shù)據(jù)訪問算法與建模模型的評價和解釋用戶界面 E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.2 通用數(shù)據(jù)挖掘產(chǎn)品與工具 POLY ANALYST IBM DB2 lntelligent Miner和并行可視化探索者 PVE DB Miner BO的 Business Miner SPSS股份公司（ SPPS CHAID） SAS研究所股份公司（ SAS,JMP） NeuralWare股份公司信息發(fā)現(xiàn)股份公司（ IDIS） RightPoint公司的數(shù)據(jù)挖掘工具 DataCruncher DataMind公司（ DataMind專業(yè)版， DataMindCruncher） Pilot軟件股份公司（ Pilot 發(fā)現(xiàn)服務(wù)器） Angoss國際有限公司（ Knowledge SEEKER） Silicon Graphics計算機系統(tǒng)公司（ MineSet）商務(wù)項目公司（商務(wù)挖掘器） Cognos軟件公司（ Scenario）思維機器公司 (Darwin) . E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.3 國內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具菲奈特一融通公司廣州華工明天科技有限公司復(fù)旦大學(xué)數(shù)據(jù)采掘工具 ARMiner 9.3.4 數(shù)據(jù)可視化工具的選擇高級可視化系統(tǒng)公司（ AVS/Express） Alta分析股份藹公司（ NetMap） Belmont 研究股份公司（ Cross Graphs）環(huán)境系統(tǒng)研究所（ ESRI）股份公司 MapInfo公司（ MapInfo, SpatialWare） Silicon Graphics計算機系統(tǒng)公司（ MineSet） E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.5數(shù)據(jù)挖掘網(wǎng)站與可獲得的數(shù)據(jù)挖掘算法源代碼數(shù)據(jù)挖掘網(wǎng)站知識發(fā)現(xiàn)挖掘網(wǎng)址：數(shù)據(jù)挖掘網(wǎng)址： http:/www.cs.bham.ac.uk 太平洋西北神經(jīng)網(wǎng)絡(luò)國家實驗室網(wǎng)址：http:/www.emsl.pnl.gou 技術(shù)保護(hù) -遺傳算法網(wǎng)址： http:/w

人人文庫> 全部分類> 行業(yè)資料 > 商業(yè)貿(mào)易

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔