已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Istitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM 第 6章 數(shù)據(jù)挖掘基本算法 本章內(nèi)容: 6.1 分類規(guī)則挖掘 6.2 預測分析與趨勢分析規(guī)則 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.4 數(shù)據(jù)挖掘的聚類算法 6.5 數(shù)據(jù)挖掘的統(tǒng)計分析算法 6.6 數(shù)據(jù)挖掘的品種優(yōu)化算法 6.7 數(shù)據(jù)挖掘的進化算法 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 1 分類 為了理解事物特征并做出預測使用歷史數(shù)據(jù)建立一個分類模型(即分類器)的過程 。 應(yīng)用于信用卡系統(tǒng)中的信用分級、市場調(diào)查、療效診斷、尋找店址等 實踐應(yīng)用參照課本 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 2 估值 估值( estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定的數(shù)目,估值的量是不確定的 。 3 分類方法與步驟 方法: 決策樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有 K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法 。 步驟: 模型創(chuàng)建、模型使用 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 4 評估分類方法 要考慮的指標:預測準確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對模型的可理解程度、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 父節(jié)點 子節(jié)點 子節(jié)點 葉節(jié)點 子節(jié)點 子節(jié)點 子節(jié)點 根節(jié)點 圖 6.1 一般決策樹結(jié)構(gòu) 葉節(jié)點 父節(jié)點 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構(gòu)造過程 ID3算法應(yīng)用如下: )(log 21pipmii),.,1(1)/).21( s m jjsImjss m jjsjs)(log 21pipmii信息量計算公式: I(s1,s2, sm)=- ( 6.1) 其中, pi為 si占整個類別的概率 利用屬性 A劃分當前樣本集合所需要的信息(熵)的計算公式為: E( A) = (6.2) 信息增益公式: Gain( A) = I(s1,s2, sm)-E( A) ( 6.3) 例如:一個銷售的顧客數(shù)據(jù)庫(訓練樣本集合) ,對購買計算機的人員進行分類: 字段為:(年齡(取值: 40);收入 (高,中,低 );學生否( Y, N);信用(一般,很好);購買計算機否( Y, N) 記錄為 14個,具體數(shù)據(jù)如下: X1=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y); X6=(40, 低 ,Y, 很好 ,N) X7=(40, 中 ,Y, 一般 ,Y) X11=(40,中 ,N, 很好 ,N) E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構(gòu)造過程 決策樹的構(gòu)造算法: 決策樹的構(gòu)造算法可通過訓練集 T完成,其中 T=,而x=(a1,a2, an)為一個訓練實例,它有 n個屬性,分別列于屬性表(A1,A2, An)中,其中 ai表示屬性 Ai的取值。 Cj C=C1,C2, Cm為 x的分類結(jié)果。從屬性表中選擇屬性 Ai作為分類屬性;若屬性 Ai的取值有 ki個,則將 T劃分為 ki個子集, T1,T ki,其中 Tij=| T,且 x的屬性取值 A為第 i個值;接下來從屬性表中刪除屬性 Ai;對于每一個Tij(1jK1),令 T=Tij;如果屬性表非空,返回第 1步,否則輸出。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 2分類器 定義:輸入的數(shù)據(jù)含有千萬個記錄,每個記錄又有很多個屬性,其中有一個特別的屬性叫做類(例如信用程度的高,中,低)。 具體步驟 : 1)樹的建立。 2)樹的修剪 ,SLIQ采用了 MDL(最小敘述長度)的方法來修剪樹。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 3決策樹的可擴展性 4基于決策樹方法的數(shù)據(jù)挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 1貝葉斯信任網(wǎng)絡(luò)如何工作 邊緣 主區(qū)域 手機呼叫 服務(wù)區(qū)域 no yes 外界 圖 6.3 簡單的貝葉斯網(wǎng)圖 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 2貝葉斯定理與樸素貝葉斯分類 貝葉斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中, P(H|X)表示條件 X下 H的概率,也稱為條件概率或稱為后驗概率(posteriori probabilities)。 樸素貝葉斯分類: 假定有 m個類 C1, Cm,對于數(shù)據(jù)樣本 X,分類法將預測 X屬于類Ci,當且僅當 P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM 6.2預測分析與趨勢分析規(guī)則 6.2.1 預言的基本方法 預言( prediction)是一門掌握對象變化動態(tài)的科學,它是對對象變動趨勢的預見、分析和判斷,也是一種動態(tài)分析方法。 預測的基本步驟: 確定預測目標,包括預測對象、目的、對象范圍; 收集分析內(nèi)部和外部資料; 數(shù)據(jù)的處理及模型的選擇; 預測模型的分析、修正; 確定預測值。 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.2 定量分析預測 時間序列法 回歸預測 非線性模型 灰色預測模型 GM( 1, 1) 組合預測 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.3預測的結(jié)果分析 預測的結(jié)果分析要考慮到的因素: 相反的預測結(jié)果 勝出裕度 成本收益分析 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.4 趨勢分析挖掘 分析時間序列數(shù)據(jù)需要注意以下方面 : 長時間的走向 周期的走向與周期的變化 季節(jié)性的走向與變化 不規(guī)則的隨機走向 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.1 關(guān)聯(lián)規(guī)則的概念及分類 1關(guān)聯(lián)規(guī)則的概念 定義 1 設(shè) I=i1、 i2、 i3, , im是由 m個不同的數(shù)據(jù)項目組成的集合,其中的元素稱為項 (item),項的集合稱為項集,包含 k個項的項集稱為 k項集 ,給定一個事務(wù)(交易) D,即交易數(shù)據(jù)庫,其中的每一個事務(wù)(交易) T是數(shù)據(jù)項 I的一個子集,即,T有一個惟一的標積符 TID;當且僅當時,稱交易 T包含項集 X;那么關(guān)聯(lián)規(guī)則就形如“ X=Y”的蘊涵式;其中, ,即表示滿足 X中條件的記錄也一定滿足 Y。關(guān)聯(lián)規(guī)則 X=Y在交易數(shù)據(jù)庫中成立 , 具有支持度 s和具有置信度 c 。 這也就是交易數(shù)據(jù)集 D中具有支持度 s,即 D中至少有 s%的事務(wù)包含 ,描述 為: support(X=Y)= 比如 Support(X=Y )=同時購買商品 X和 Y的交易數(shù) 總交易數(shù) 同時交易數(shù)據(jù)集 D中具有置信度 c,即 D中包含 X的事務(wù)至少有 c%同時也包含 Y,描述為: confidence(X=Y)= 比如購買了商品 X,同時購買商品 Y可信度, confidence(X=Y)=同時購買商品 X和 Y的交易數(shù) 購買了商品 X的交易數(shù) 一般稱滿足一定要求的規(guī)則為強規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強關(guān)聯(lián)規(guī)則( strong)。一般將最小支持度簡記為 minsup和最小置信度簡記為 minconf。 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.1 關(guān)聯(lián)規(guī)則的概念及分類 2 關(guān)聯(lián)規(guī)則的分類 分類標準 類別 規(guī)則中所處理的值 布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則 規(guī)則中所涉及的數(shù)據(jù)維 單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則 規(guī)則中所涉及的抽象層 單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則 規(guī)則中的擴充 最大的模式和頻繁閉項集 關(guān)聯(lián)特性 分類分析與相關(guān)分析 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則) 1簡單形式的關(guān)聯(lián)規(guī)則的核心算法 找到所有支持度大于最小支持度的項集 ,即頻集 ,有 k個數(shù)據(jù)頻集稱為 k項頻集 .找出所有的頻集由 apriori算法實現(xiàn)。Apriori性質(zhì)具有一個頻集的任一非空子集都是頻集。 使用第 1步找到的頻集產(chǎn)生期望的規(guī)則 apriori算法的詳細介紹見課本。 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則) 2 頻集算法的幾種優(yōu)化方法 基于劃分的方法 基于 hash的方法 基于采樣的方法 減少交易的個數(shù) E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則) 3 其他的頻集挖掘方法 FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.3 多層和多維關(guān)聯(lián)規(guī)則的挖掘 多層關(guān)聯(lián)規(guī)則 多維關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則價值衡量的方法 6.3.4 貨籃子分析存在的問題 詳見課本 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.5 關(guān)聯(lián)分析的其他算法 發(fā)現(xiàn)關(guān)聯(lián)的更好方法 統(tǒng)計相關(guān)以外的 理解關(guān)聯(lián) 有效可行的市場籃子分析 6.3.6 挖掘序列模式 序列模式的概念及定義 序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM 關(guān)聯(lián)規(guī)則挖掘 一個例子 交易 ID 購買商品2000 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項集 支持度 A 75% B 50% C 50% A ,C 50%最小值尺度 50% 最小可信度 50% 對于 A C: support = support(A 、 C) = 50% confidence = support(A 、 C)/support(A) = 66.6% Apriori的基本思想 : 頻繁項集的任何子集也一定是頻繁的 E-MAIL:BXXHSSINA.COM 關(guān)鍵步驟:挖掘頻繁集 頻繁集 :是指滿足最小支持度的項目集合 頻繁集的子集也一定是頻繁的 如 , 如果 AB 是頻繁集,則 A B 也一定是頻繁集 從 1到 k( k-頻繁集)遞歸查找頻繁集 用得到的頻繁集生成關(guān)聯(lián)規(guī)則 E-MAIL:BXXHSSINA.COM Apriori算法 連接 : 用 Lk-1自連接得到 Ck 修剪 : 一個 k-項集,如果他的一個 k-1項集(他的子集 )不是頻繁的,那他本身也不可能是頻繁的。 偽代碼 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; E-MAIL:BXXHSSINA.COM Apriori算法 例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫 D ite m s e t s u p . 1 2 2 3 3 3 4 1 5 3i te m s e t s u p . 1 2 2 3 3 3 5 3掃描 D C1 L1 item set1 21 31 52 32 53 5ite m s et s up 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2ite m s e t s u p 1 3 2 2 3 2 2 5 3 3 5 2L2 C2 C2 掃描 D C3 L3 item set2 3 5 掃描 D ite m s e t s u p 2 3 5 2 E-MAIL:BXXHSSINA.COM 如何生成候選集 假定 Lk-1 中的項按順序排列 第一步 : 自連接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步 : 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM 如何計算候選集的支持度 計算支持度為什么會成為一個問題? 候選集的個數(shù)非常巨大 一筆交易可能包含多個候選集 方法 : 用 hash-tree 存放候選集 樹的 葉子節(jié)點 of存放項集的列表和支持度 內(nèi)部節(jié)點 是一個 hash表 Subset 函數(shù) : 找到包含在一筆交易中的所有候選集 E-MAIL:BXXHSSINA.COM 生成候選集的例子 L3=abc, abd, acd, ace, bcd 自連接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪 : ade 不在 L3中,刪除 acde C4=abcd E-MAIL:BXXHSSINA.COM 提高 Apriori效率的方法 基于 Hash的項集計數(shù) : 如果一個 k-項集在 hash-tree的路徑上的一個計數(shù)值低于閾值,那他本身也不可能是頻繁的。 減少交易記錄 : 不包含任何頻繁 k-項集的交易也不可能包含任何大于 k的頻繁集 分割 : 一個項集要想在整個數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個分割上是頻繁的。 采樣 : 在給定數(shù)據(jù)的子集上挖掘,使用小的支持度 +完整性驗證方法 動態(tài)項集計數(shù) : 在添加一個新的候選集之前,先估計一下是不是他的所有子集都是頻繁的。 E-MAIL:BXXHSSINA.COM Apriori 夠快了嗎 ? 性能瓶頸 Apriori算法的核心 : 用頻繁的 (k 1)-項集生成 候選 的頻繁 k-項集 用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度 Apriori 的瓶頸 : 候選集生成 巨大的候選集 : 104 個頻繁 1-項集要生成 107 個候選 2-項集 要找尺寸為 100的頻繁模式,如 a1, a2, , a100, 你必須先產(chǎn)生 2100 1030 個候選集 多次掃描數(shù)據(jù)庫: 如果最長的模式是 n的話,則需要 (n +1 ) 次數(shù)據(jù)庫掃描 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.1 聚類分析的概念與分類 聚類分析概念 聚類分析方法的分類 類別 算法 分裂(劃分)法 K-MEANS算法( K-平均)、 K-MEDOIDS算法( K-中心點)、 CLARANS算法(給予選擇的方法) 層次法 BIRCH算法(平衡迭代歸約和聚類)、 CURE算法(代表聚類)、 CHAMELEON算法(動態(tài)模型) 基于密度的方法 DBSCAN算法(基于高密度連接區(qū)域)、 OPTICS算法(對象排序識別)、DENCLUE算法(密度分布函數(shù)) 基于網(wǎng)格的方法 STING算法(統(tǒng)計信息網(wǎng)格)、 CLIQUE算法(聚類高維空間)、 WAVE-CLUSTER算法(小波變換) 基于模型的方法 統(tǒng)計學方法、神經(jīng)網(wǎng)絡(luò)方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.2 聚類分析中兩個對象之間的相異度計算方法 區(qū)間標度變量計算方法 二元變量計算方法 標稱型、序數(shù)型和比例標度型變量計算方法 混合類型的變量計算方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.3 劃分方法 典型的劃分方法: k-平均和 k-中心點 基于簇的重心技術(shù): k-平均方法 基于有代表性的對象的技術(shù): k-中心點方法 大型數(shù)據(jù)庫中的劃分方法:基于選擇的 K-中心點 CLARANS方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.4 層次方法 凝聚的和分裂的層次聚類 凝聚層次聚類方法 AGNES 分裂層次聚類方法 DIANA 利用層次方法的平衡迭代歸約和聚類 綜合的層次聚類方法 BIRCH 利用代表點聚類 一種新穎的層次聚類算法 CURE 一個利用動態(tài)模型的層次聚類算法 動態(tài)模型的聚類法 chameleon (變色龍 ) E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.5 基于密度的方法 一個基于高密度連接區(qū)域的聚類方法 DBSCAN 聚類方法 通過對象排序識別聚類結(jié)構(gòu) OPTICS聚類分析方法 基于密度分布函數(shù)的聚類 基于一組密度分布函數(shù)的聚類算法 DENCLUE E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.6 基于網(wǎng)格的方法 統(tǒng)計信息網(wǎng)絡(luò) STING是一種基于網(wǎng)格的多分辨率聚類技術(shù) 聚類高維空間 CLIQUE( clustering in quest, CLIQUE)聚類算法 6.4.7 基于模型的聚類方法 增量概念聚類算法 COBWEB 6.4.8 模糊聚類算法 E-MAIL:BXXHSSINA.COM 6.5 數(shù)據(jù)挖掘的統(tǒng)計分析算法 6.5.1 辨別方法 6.5.2 回歸模型 6.5.3 優(yōu)點與缺點 E-MAIL:BXXHSSINA.COM 6.6 數(shù)據(jù)挖掘的品種優(yōu)化算法 6.6.1 品種優(yōu)化 6.6.2 品種優(yōu)化算法 E-MAIL:BXXHSSINA.COM 6.7數(shù)據(jù)挖掘的進化算法 6.7.1 遺傳算法 如何工作 優(yōu)缺點 6.7.2 神經(jīng)網(wǎng)絡(luò)算法 如何工作 無指導的學習 競爭學習 自組織特征映射模型 優(yōu)缺點 E-MAIL:BXXHSSINA.COM 6.7數(shù)據(jù)挖掘的進化算法 神經(jīng)網(wǎng)絡(luò)模型 性別 區(qū)域 職位 B類客戶 年齡 交易額 受教育的年限 圖 6.10 神經(jīng)網(wǎng)絡(luò)模型 C類客戶 跳槽客戶 隱節(jié)點 隱節(jié)點 A類客戶 隱節(jié)點 隱節(jié)點 E-MAIL:BXXHSSINA.COM 第 7章 非結(jié)構(gòu)化數(shù)據(jù)挖掘 本章內(nèi)容 : 7.1 Web數(shù)據(jù)挖掘 7.2 空間群數(shù)據(jù)挖掘 7.3 多媒體數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源 Web數(shù)據(jù)挖掘的難點 對數(shù)據(jù)來源分析 異構(gòu)數(shù)據(jù)環(huán)境 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu) 解決半結(jié)構(gòu)化的數(shù)據(jù)源問題 文本總結(jié) XML與 Web數(shù)據(jù)挖掘技術(shù) XML的產(chǎn)生與發(fā)展 XML的主要特點 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源 XML在 Web數(shù)據(jù)挖掘中的應(yīng)用 兩個或更多異質(zhì)數(shù)據(jù)庫之間進行通信的應(yīng)用 大部分處理負載從 Web服務(wù)器轉(zhuǎn)到 Web客戶端的應(yīng)用 Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用 需要智能 Web代理根據(jù)用戶個人的需要裁減信息內(nèi)容的應(yīng)用 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.2 Web挖掘分類 Web挖掘 Web content mining (Web內(nèi)容挖掘 ) Web structure mining (Web結(jié)構(gòu)挖掘 ) Web usage mining (Web訪問挖掘 ) Search result mining(搜索結(jié)果再挖掘 ) General access pattern tracking (一般訪問模式跟蹤) Customized usage tracking (定制的使用跟蹤 ) Web page content mining(Web頁面內(nèi)容挖掘 ) 圖 7.1 Web挖掘分類 E-MAIL:BXXHSSINA.COM Web挖掘三種方法比較 Web內(nèi)容挖掘 Web結(jié)構(gòu)挖掘 Web訪問挖掘 處理數(shù)據(jù)類型 IR方法 數(shù)據(jù)庫方法 Web結(jié)構(gòu)挖掘 用戶訪問挖掘 無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù) 主要數(shù)據(jù) 自由文本、 HTML標記的超文本 HTML標記的超文本 文檔內(nèi)及文檔間的超鏈接 Serverlog,proxy serverlog,client log 表示方法 詞集、段落、概念、 IR的三種經(jīng)典模型 OEM 關(guān)系 圖 關(guān)系表、圖 處理方法 TFIDF、統(tǒng)計、機器學習、自然語言理解 數(shù)據(jù)庫技術(shù) 機器學習、專有算法(如 HITS pagerank) 統(tǒng)計、機器學習、關(guān)聯(lián)規(guī)則 主要應(yīng)用 分類、聚類、模式發(fā)現(xiàn) 模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)А⒍嗑S數(shù)據(jù)庫、站點創(chuàng)建與維護 頁面權(quán)重分類聚類、模式發(fā)現(xiàn) 用戶個性化、自適應(yīng) Web站點、商業(yè)決策 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 Web挖掘的基本構(gòu)架 訪問者 注冊用戶 網(wǎng)站 交易信息 瀏覽信息 數(shù)據(jù)庫、數(shù)據(jù)倉庫 Web日志文件 Web Serer中其他信息 數(shù)據(jù)預處理模塊 結(jié)構(gòu)數(shù)據(jù)挖掘模塊 Web挖掘的基本構(gòu)架 頁面訪問情況 Web結(jié)構(gòu)模式 Web內(nèi)容模式 知識 非結(jié)構(gòu)數(shù)據(jù)挖掘模塊 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.3 Web內(nèi)容挖掘 信息檢索( information retrieve , IR)方法 數(shù)據(jù)庫方法 7.1.4 Web結(jié)構(gòu)挖掘 Page-Rank方法 7.1.5 Web訪問挖掘 對 Web日志進行清洗、過濾和轉(zhuǎn)換以及剔除無關(guān)記錄 采用統(tǒng)計學、模式識別、人工智能、數(shù)據(jù)庫數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在 Web的使用記錄中挖掘知識 Web使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.6 利用 Web日志的聚類算法 客戶群體的模糊聚類算法 用戶訪問興趣的算法 客戶群體聚類的 Hamming距離算法 基于模糊理論的 Web頁面聚類算法 Web頁面聚類的 Hamming距離算法 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 電子商務(wù)中的 Web挖掘 電子商務(wù)中 Web挖掘的作用 電子商務(wù)中 Web挖掘的基本問題 電子商務(wù)中的數(shù)據(jù)挖掘工具 文本信息挖掘工具 用戶訪問模式挖掘工具 用戶導航行為挖掘工具 綜合性的 Web分析工具 E-MAIL:BXXHSSINA.COM 7.2 空間群數(shù)據(jù)挖掘 7.2.1 空間群數(shù)據(jù)挖掘 概念 從空間數(shù)據(jù)中抽取隱含的知識、空間關(guān)系、空間及與非空間之間的有意義的特征或模式。 7.2.2 空間群數(shù)據(jù)挖掘分類 空間檢索 空間拓撲疊加分析 空間模擬分析 E-MAIL:BXXHSSINA.COM 7.2 空間群數(shù)據(jù)挖掘 7.2.3 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu) 空間數(shù)據(jù)結(jié)構(gòu)查詢與優(yōu)化原則的分析 信息集成 模式知識級處理 語義級檢索與索引 領(lǐng)域知識 模式知識 對象和屬性抽取 物理級底層特性處理設(shè)計 圖 7.4 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu) 對象級特征處理 語義概念級處理 用戶 空間數(shù)據(jù)處理 E-MAIL:BXXHSSINA.COM 7.3多媒體數(shù)據(jù)挖掘 7.3.1 多媒體數(shù)據(jù)挖掘的概念 7.3.2 多媒體數(shù)據(jù)挖掘的分類 圖像數(shù)據(jù)挖掘 視頻數(shù)據(jù)挖掘 音頻數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 7.3多媒體數(shù)據(jù)挖掘 7.3.3 多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu) 原始數(shù)據(jù) 媒體數(shù)據(jù)攝取 媒體編碼 存檔 瀏覽引擎 分類 特征抽取 查詢引擎工具 交互式學習 索引的生成 用戶 圖 7.5 功能驅(qū)動的多媒體挖掘體系結(jié)構(gòu) 基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析 信息集成 模式知識級處理 語義級檢索與索引 領(lǐng)域知識 模式知識 對象級的索引與檢索 物理級底層特性處理設(shè)計 圖 7.6 信息驅(qū)動的多媒體挖掘的結(jié)構(gòu) 對象級特征處理 語義概念級處理 用戶 多媒體處理 E-MAIL:BXXHSSINA.COM 第 8章 離群數(shù)據(jù)挖掘 本章內(nèi)容 離群數(shù)據(jù)挖掘概念 離群數(shù)據(jù)挖掘分類 離群數(shù)據(jù)挖掘算法 市場營銷離群數(shù)據(jù)的特點 E-MAIL:BXXHSSINA.COM 第 8章 離群數(shù)據(jù)挖掘 8.1 離群數(shù)據(jù)挖掘的概念 8.2 離群數(shù)據(jù)挖掘的分類 基于統(tǒng)計學 基于距離的方法 基于偏移 高維數(shù)據(jù)的離群數(shù)據(jù)探測 基于規(guī)則的分類離群數(shù)據(jù)挖掘方法 基于密度 (density-based)的離群挖掘方法 E-MAIL:BXXHSSINA.COM 8.3離群數(shù)據(jù)挖掘的算法 8.3.1基于統(tǒng)計的方法 8.3.2基于距離的離群數(shù)據(jù)方法 基于距離的離群數(shù)據(jù)定義 基于距離的離群數(shù)據(jù)挖掘的算法分類及算法描述 基于距離的算法的改進 8.3.3 基于偏離的離群數(shù)據(jù)挖掘 序列離群數(shù)據(jù)技術(shù) OLAP數(shù)據(jù)立方體技術(shù) E-MAIL:BXXHSSINA.COM 8.3離群數(shù)據(jù)挖掘的算法 8.3.4 高維數(shù)據(jù)的離群數(shù)據(jù)挖掘 8.3.5 基于小波的離群數(shù)據(jù)挖掘 時序數(shù)據(jù)的離群數(shù)據(jù)挖掘 基于聚類的離群數(shù)據(jù) CL( ) E-MAIL:BXXHSSINA.COM 8.4市場營銷離群數(shù)據(jù)挖掘 8.4.1市場營銷離群數(shù)據(jù)挖掘特點 8.4.2 基于分形的市場營銷離群數(shù)據(jù)挖掘模型 幾個定義 E-MAIL:BXXHSSINA.COM 第 9章 數(shù)據(jù)挖掘語言與工具選擇 本章內(nèi)容 9.1 數(shù)據(jù)挖掘語言及其標準化 9.2 數(shù)據(jù)挖掘研究熱點 9.3 數(shù)據(jù)挖掘工具的選擇 E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標準化 9.1.1 數(shù)據(jù)挖掘語言分類 類別 特點 功能 代表 數(shù)據(jù)挖掘查詢語言 數(shù)據(jù)挖掘原語 五種原語 DMQL 數(shù)據(jù)挖掘建模語言 基于 XML的語言 文檔類型定義、通用模式 PMML 通用數(shù)據(jù)挖掘語言 集成 全面 OLE DB for DM E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標準化 9.1.1 數(shù)據(jù)挖掘語言分類 數(shù)據(jù)挖掘查詢語言 ( 5種數(shù)據(jù)挖掘原語定義)。 任務(wù)相關(guān)數(shù)據(jù)原語 被挖掘的知識的種類原語 背景知識原語 興趣度測量原語 被發(fā)現(xiàn)模式的表示和可視化原語 E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標準化 9.1.1 數(shù)據(jù)挖掘語言分類 數(shù)據(jù)挖掘建模語言 頭文件( a header) 數(shù)據(jù)模式( a data schema) 數(shù)據(jù)挖掘模式( a data mining schema) 預言模型模式( a predictive model schema) 預言模型定義( definitions for predictive models) 全體模型定義( definitions for ensembles of models) 選擇和聯(lián)合模型、全體模型的規(guī)則( rules for selecting and combining models and ensembles of models) 異常處理的規(guī)則( rules for exception handling) E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語言及其標準化 9.1.1 數(shù)據(jù)挖掘語言分類 通用數(shù)據(jù)挖掘語言 數(shù)據(jù)挖掘模型( Data Mining Model, DMM) 預言聯(lián)接操作( Predication Join Operation) OLE DB for DM模式行集合( Schema Rowsets) 9.1.2 分析與評價 E-MAIL:BXXHSSINA.COM 9.2數(shù)據(jù)挖掘的研究熱點 網(wǎng)站的數(shù)據(jù)挖掘 生物信息或基因的數(shù)據(jù)挖掘 文本的數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.1 評價數(shù)據(jù)挖掘工具的優(yōu)劣指標 數(shù)據(jù)準備 數(shù)據(jù)訪問 算法與建模 模型的評價和解釋 用戶界面 E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.2 通用數(shù)據(jù)挖掘產(chǎn)品與工具 POLY ANALYST IBM DB2 lntelligent Miner和并行可視化探索者 PVE DB Miner BO的 Business Miner SPSS股份公司( SPPS CHAID) SAS研究所股份公司( SAS,JMP) NeuralWare股份公司 信息發(fā)現(xiàn)股份公司( IDIS) RightPoint公司的數(shù)據(jù)挖掘工具 DataCruncher DataMind公司( DataMind專業(yè)版, DataMindCruncher) Pilot軟件股份公司( Pilot 發(fā)現(xiàn)服務(wù)器) Angoss國際有限公司( Knowledge SEEKER) Silicon Graphics計算機系統(tǒng)公司( MineSet) 商務(wù)項目公司(商務(wù)挖掘器) Cognos軟件公司( Scenario) 思維機器公司 (Darwin) . E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.3 國內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具 菲奈特一融通公司 廣州華工明天科技有限公司 復旦大學數(shù)據(jù)采掘工具 ARMiner 9.3.4 數(shù)據(jù)可視化工具的選擇 高級可視化系統(tǒng)公司( AVS/Express) Alta分析股份藹公司( NetMap) Belmont 研究股份公司( Cross Graphs) 環(huán)境系統(tǒng)研究所( ESRI)股份公司 MapInfo公司( MapInfo, SpatialWare) Silicon Graphics計算機系統(tǒng)公司( MineSet) E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.5數(shù)據(jù)挖掘網(wǎng)站與可獲得的數(shù)據(jù)挖掘算法源代碼 數(shù)據(jù)挖掘網(wǎng)站 知識發(fā)現(xiàn)挖掘網(wǎng)址: 數(shù)據(jù)挖掘網(wǎng)址: http:/www.cs.bham.ac.uk 太平洋西北神經(jīng)網(wǎng)絡(luò)國家實驗室網(wǎng)址:http:/www.emsl.pnl.gou 技術(shù)保護 -遺傳算法網(wǎng)址: http:/w
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度商標許可使用合同標的與期限規(guī)定3篇
- 2024年度勞動合同的工資待遇與工作時間3篇
- 河岸防護圍堰施工合同
- 農(nóng)家院租賃合同:教育培訓基地
- 鄭州市科技合同簽訂流程
- 生態(tài)宜居二手房交易合同
- 畜牧業(yè)獸醫(yī)聘用合同范本
- 2024年度城市綠化帶垃圾清理及維護承包合同3篇
- 電梯安裝電工施工合同樣本
- 礦山開采工程合同協(xié)議書
- RBA-6.0-培訓教材課件
- 2024年廣西計算中心有限責任公司招聘筆試參考題庫附帶答案詳解
- 升壓站共建及分攤合同模板
- 幼兒園醫(yī)生助教醫(yī)學知識培訓課件
- 內(nèi)勤人員工作總結(jié)報告
- 《中國心力衰竭診斷和治療指南(2024)》解讀
- 2024屆浦東新區(qū)初三英語期末練習卷及答案
- 大數(shù)據(jù)與會計專業(yè)-智能化成本核算與管理課程標準
- 2024年高考語文二輪復習:文學類文本閱讀小說的主要人物、次要人物、人稱
- 牛結(jié)核病診斷技術(shù)(γ-干擾素體外ELISA法)
- 2023年山東青島幼兒師范高等專科學校招聘考試真題及答案
評論
0/150
提交評論