數(shù)據(jù)挖掘技術及其應用_第1頁
數(shù)據(jù)挖掘技術及其應用_第2頁
數(shù)據(jù)挖掘技術及其應用_第3頁
數(shù)據(jù)挖掘技術及其應用_第4頁
數(shù)據(jù)挖掘技術及其應用_第5頁
已閱讀5頁,還剩169頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

自動化前沿數(shù)據(jù)挖掘技術及其應用主要內容

數(shù)據(jù)挖掘概述數(shù)據(jù)預處理數(shù)據(jù)挖掘算法-分類與預測數(shù)據(jù)挖掘算法-聚類數(shù)據(jù)挖掘算法-關聯(lián)分析序列模式挖掘數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘應用一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結構;數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術改善預測模型。數(shù)據(jù)挖掘與KDD數(shù)據(jù)挖掘與KDD知識發(fā)現(xiàn)(KD)輸出的是規(guī)則

數(shù)據(jù)挖掘(DM)輸出的是模型

共同點兩種方法輸入的都是學習集(learningsets)

目的都是盡可能多的自動化數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化

數(shù)據(jù)挖掘的社會需求國民經(jīng)濟和社會的信息化社會信息化后,社會的運轉是軟件的運轉社會信息化后,社會的歷史是數(shù)據(jù)的歷史數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏

苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關系模型關聯(lián)規(guī)則序列目標市場資金分配貿易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS.人口統(tǒng)計生命周期數(shù)據(jù)挖掘的發(fā)展1989IJCAI會議:數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國際會議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.數(shù)據(jù)挖掘技術技術分類預言(Predication):用歷史預測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術關聯(lián)分析序列模式分類(預言)聚集異常檢測異常檢測異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應用電信和信用卡欺騙貸款審批藥物研究氣象預報金融領域客戶分類網(wǎng)絡入侵檢測故障檢測與診斷等

什么是異常(outlier)?Hawkins(1980)給出了異常的本質性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產(chǎn)生于完全不同的機制。聚類算法對異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測算法對異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點。他們的行為與正常的行為有很大不同。異常檢測方法的分類基于統(tǒng)計(statistical-based)的方法基于距離(distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)數(shù)據(jù)的特征大容量POS數(shù)據(jù)(某個超市每天要處理高達2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)系統(tǒng)的特征知識發(fā)現(xiàn)系統(tǒng)需要一個前處理過程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉換知識發(fā)現(xiàn)系統(tǒng)是一個自動/半自動過程知識發(fā)現(xiàn)系統(tǒng)要有很好的性能知識(模式)的特征知識發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識?計算學習理論COLT(ComputationalLearningTheory)以FOL為基礎的以發(fā)現(xiàn)關系為目的的歸納邏輯程序設計現(xiàn)行的知識發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識規(guī)則分類關聯(lián)知識表示:規(guī)則IF條件THEN結論條件和結論的粒度(抽象度)可以有多種單值區(qū)間模糊值規(guī)則可以有確信度精確規(guī)則概率規(guī)則知識表示:分類樹分類條件1分類條件2分類條件3類1類2類3類4數(shù)據(jù)挖掘算法的特征構成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價:反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering)相關規(guī)則(AssociationRule)回歸(Regression)其他數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質/局部區(qū)域的計算機群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預言模型系統(tǒng)intranet/extranet網(wǎng)絡計算支持半結構化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預言模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)

支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設計用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時候,一般一次性調進內存進行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)

目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。

數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)

第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關鍵的技術之一是提供對建立在異質系統(tǒng)上的多個預言模型以及管理這些預言模型的元數(shù)據(jù)提供第一級別(firstclass)的支持。

第四代數(shù)據(jù)挖掘系統(tǒng)

第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產(chǎn)生的各種類型的數(shù)據(jù)。二、數(shù)據(jù)預處理為什么需要預處理數(shù)據(jù)不完整含觀測噪聲不一致包含其它不希望的成分數(shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點,并解決不一致來清理數(shù)據(jù)。污染數(shù)據(jù)形成的原因濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內嵌控制信息不同的慣用語重復記錄丟失值拼寫變化不同的計量單位過時的編碼含有各種噪聲數(shù)據(jù)清理的重要性污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個及其困難的任務。垃圾進、垃圾出數(shù)據(jù)清理處理內容格式標準化異常數(shù)據(jù)清除錯誤糾正重復數(shù)據(jù)的清除數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達到相同或基本相同的分析結果主要策略:數(shù)據(jù)聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值規(guī)約空缺值忽略元組人工填寫空缺值使用固定值使用屬性平均值使用最有可能值噪聲數(shù)據(jù)如何平滑數(shù)據(jù),去掉噪聲數(shù)據(jù)平滑技術分箱聚類計算機和人工檢查相結合回歸分箱箱的深度:表示不同的箱里有相同個數(shù)的數(shù)據(jù)。箱的寬度:每個箱值的取值區(qū)間是個常數(shù)。平滑方法:按箱平均值平滑按箱中值平滑按箱邊界值平滑聚類每個簇中的數(shù)據(jù)用其中心值代替忽略孤立點先通過聚類等方法找出孤立點。這些孤立點可能包含有用的信息。人工再審查這些孤立點回歸通過構造函數(shù)來符合數(shù)據(jù)變化的趨勢,這樣可以用一個變量預測另一個變量。線性回歸多線性回歸數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一直得數(shù)據(jù)存貯中。實體識別實體和模式的匹配冗余:某個屬性可以由別的屬性推出。相關分析相關性rA,B.rA,B>0,正相關。A隨B的值得增大而增大rA,B>0,正相關。AB無關rA,B>0,正相關。A隨B的值得增大而減少重復同一數(shù)據(jù)存儲多次數(shù)據(jù)值沖突的檢測和處理數(shù)據(jù)變換平滑聚集數(shù)據(jù)概化規(guī)范化屬性構造(特征構造)最小最大規(guī)范化小數(shù)定標規(guī)范化屬性構造由給定的屬性構造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結構的理解規(guī)范化數(shù)據(jù)立方體聚集尋找感興趣的維度進行再聚集維規(guī)約刪除不相關的屬性(維)來減少數(shù)據(jù)量。屬性子集選擇找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布如何選???貪心算法逐步向前選擇逐步后向刪除向前選擇和后向刪除相結合判定樹歸納數(shù)據(jù)壓縮有損,無損小波變換將數(shù)據(jù)向量D轉換成為數(shù)值上不同的小波系數(shù)的向量D’.對D’進行剪裁,保留小波系數(shù)最強的部分。主要成分分析數(shù)值規(guī)約回歸和對數(shù)線形模型線形回歸對數(shù)線形模型直方圖等寬等深V-最優(yōu)maxDiff數(shù)值規(guī)約 聚類多維索引樹:對于給定的數(shù)據(jù)集合,索引樹動態(tài)的劃分多維空間。選樣簡單選擇n個樣本,不放回簡單選擇n個樣本,放回聚類選樣分層選樣離散化和概念分層離散化技術用來減少給定連續(xù)屬性的個數(shù)通常是遞歸的。大量時間花在排序上。對于給定的數(shù)值屬性,概念分層定義了該屬性的一個離散化的值。分箱直方圖分析數(shù)值數(shù)據(jù)離散化聚類分析基于熵的離散化通過自然劃分分段3-4-5規(guī)則如果一個區(qū)間最高有效位上包括369個不同的值,劃分為3個等寬區(qū)間。7個不同值,按2-3-3劃分為3個區(qū)間最高位包含2,4,8個不同值,劃分為4個等寬區(qū)間最高位包含1,5,10個不同值,劃分為5個等寬區(qū)間最高分層一般在第5個百分位到第95個百分位上進行分類數(shù)據(jù)的概念分層生成分類數(shù)據(jù)是離散數(shù)據(jù)。一個分類屬性可能有有限個不同的值。方法由用戶和專家在模式級顯式的說明屬性的部分序通過顯式的數(shù)據(jù)分組說明分層結構的一部分說明屬性集,但不說明他們的偏序只說明部分的屬性集三、數(shù)據(jù)挖掘算法

-分類與預測分類VS.預測分類:預測分類標號(或離散值)根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預測:建立連續(xù)函數(shù)值模型,比如預測空缺值典型應用信譽證實目標市場醫(yī)療診斷性能預測數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描述預定數(shù)據(jù)類集和概念集假定每個元組屬于一個預定義的類,由一個類標號屬性確定基本概念訓練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓練樣本:訓練數(shù)據(jù)集中的單個樣本(元組)學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應數(shù)據(jù)”的情況第一步:建立模型訓練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則第二步:用模型進行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?準備分類和預測的數(shù)據(jù)通過對數(shù)據(jù)進行預處理,可以提高分類和預測過程的準確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲,處理空缺值,從而減少學習時的混亂相關性分析數(shù)據(jù)中的有些屬性可能與當前任務不相關;也有些屬性可能是冗余的;刪除這些屬性可以加快學習步驟,使學習結果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念,或將數(shù)據(jù)進行規(guī)范化比較分類方法使用下列標準比較分類和預測方法預測的準確率:模型正確預測新數(shù)據(jù)的類編號的能力速度:產(chǎn)生和使用模型的計算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預測的能力可伸縮性:對大量數(shù)據(jù),有效的構建模型的能力可解釋性:學習模型提供的理解和洞察的層次用判定樹歸納分類什么是判定樹?類似于流程圖的樹結構每個內部節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布判定樹的生成由兩個階段組成判定樹構建開始時,所有的訓練樣本都在根節(jié)點遞歸的通過選定的屬性,來劃分樣本(必須是離散值)樹剪枝許多分枝反映的是訓練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝判定樹的使用:對未知樣本進行分類通過將樣本的屬性值與判定樹相比較判定歸納樹算法判定歸納樹算法(一個貪心算法)自頂向下的分治方式構造判定樹樹以代表訓練樣本的單個根節(jié)點開始使用分類屬性(如果是量化屬性,則需先進行離散化)遞歸的通過選擇相應的測試屬性,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何后代上出現(xiàn)測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進行選擇(如:信息增益)遞歸劃分步驟停止的條件給定節(jié)點的所有樣本屬于同一類沒有剩余屬性可以用來進一步劃分樣本——使用多數(shù)表決沒有剩余的樣本詳細算法見P189貝葉斯分類貝葉斯分類利用統(tǒng)計學中的貝葉斯定理,來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。樸素貝葉斯分類:假設每個屬性之間都是相互獨立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。后向傳播分類后向傳播是一種神經(jīng)網(wǎng)絡學習算法;神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,每個連接都與一個權相連。在學習階段,通過調整神經(jīng)網(wǎng)絡的權,使得能夠預測輸入樣本的正確標號來學習。優(yōu)點預測精度總的來說較高健壯性好,訓練樣本中包含錯誤時也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對目標進行分類較快缺點訓練(學習)時間長蘊涵在學習的權中的符號含義很難理解很難根專業(yè)領域知識相整合其他分類方法k-最臨近分類給定一個未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個訓練樣本;然后使用k個最臨近者中最公共的類來預測當前樣本的類標號基于案例的推理樣本或案例使用復雜的符號表示,對于新案例,先檢測是否存在同樣的訓練案例;如果找不到,則搜索類似的訓練案例遺傳算法結合生物進化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界什么是預測?預測是構造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。預測和分類的異同相同點兩者都需要構建模型都用模型來估計未知值預測當中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸不同點分類法主要是用來預測類標號(分類屬性值)預測法主要是用來估計連續(xù)值(量化屬性值)回歸方法線性回歸:Y=+X其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點,通過最小二乘法來求得多元回歸:Y=+1X1+2X2線性回歸的擴展,設計多個預測變量,可以用最小二乘法求得上式中的,1和2非線性回歸:Y=+1X1+2X22+3X33對不呈線性依賴的數(shù)據(jù)建模使用多項式回歸建模方法,然后進行變量變換,將非線性模型轉換為線性模型,然后用最小二乘法求解評估分類法的準確性導出分類法后,再使用訓練數(shù)據(jù)評估分類法,可能錯誤的導致樂觀的估計保持方法給定數(shù)據(jù)隨機劃分為兩個集合:訓練集(2/3)和測試集(1/3)訓練集導出分類法,測試集對其準確性進行評估隨機子選樣:保持方法的一個變形,將保持方法重復k次,然后取準確率的平均值k-折交叉確認初始數(shù)據(jù)被劃分為k個不相交的,大小大致相同的子集S1,S2…Sk進行k次訓練和測試,第i次時,以Si做測試集,其他做訓練集準確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)提高分類法的準確性Bagging技術和boosting技術都通過將T個學習得到的分類法C1,C2…CT組合起來,從而創(chuàng)造一個改進的分類法C*Bagging技術對訓練集S進行T次迭代,每次通過放回取樣選取樣本集St,通過學習St得到分類法Ct對于未知樣本X,每個分類法返回其類預測,作為一票C*統(tǒng)計得票,并將得票最高的預測賦予XBoosting技術每個訓練樣本賦予一個權值Ct的權值取決于其錯誤率四、數(shù)據(jù)挖掘算法-聚類聚類分析什么是聚類分析?聚類分析中的數(shù)據(jù)類型主要聚類分析方法分類劃分方法(PartitioningMethods)分層方法基于密度的方法基于表格的方法基于模型(Model-Based)的聚類方法異常分析總結什么是聚類分析?簇(Cluster):一個數(shù)據(jù)對象的集合在同一個類中,對象之間0具有相似性;不同類的對象之間是相異的。聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇;聚類是一種無監(jiān)督分類法:沒有預先指定的類別;典型的應用作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布;作為其它算法的一個數(shù)據(jù)預處理步驟;聚類的常規(guī)應用模式識別空間數(shù)據(jù)分析在GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引;在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇;圖象處理經(jīng)濟學(尤其是市場研究方面)WWW文檔分類分析WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式應用聚類分析的例子市場銷售:

幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標明確的市場計劃;土地使用:

在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū);保險:

對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶;城市規(guī)劃:

根據(jù)類型、價格、地理位置等來劃分不同類型的住宅;地震研究:

根據(jù)地質斷層的特點把已觀察到的地震中心分成不同的類;聚類方法性能評價一個好的聚類方法要能產(chǎn)生高質量的聚類結果——簇,這些簇要具備以下兩個特點:高的簇內相似性低的簇間相似性聚類結果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;聚類方法性能評價可伸縮性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇在決定輸入?yún)?shù)的時候,盡量不需要特定的領域知識;能夠處理噪聲和異常對輸入數(shù)據(jù)對象的順序不敏感能處理高維數(shù)據(jù)能產(chǎn)生一個好的、能滿足用戶指定約束的聚類結果結果是可解釋的、可理解的和可用的兩種數(shù)據(jù)結構數(shù)據(jù)矩陣(twomodes)差異度矩陣(onemode)評價聚類質量差異度/相似度矩陣:相似度通常用距離函數(shù)來表示;有一個單獨的質量評估函數(shù)來評判一個簇的好壞;對不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細討論;根據(jù)實際的應用和數(shù)據(jù)的語義,在計算距離的時候,不同的變量有不同的權值相聯(lián)系;很難定義“足夠相似了”或者“足夠好了”只能憑主觀確定;聚類分析中的數(shù)據(jù)類型區(qū)間標度變量(Interval-scaledvariables):二元變量(Binaryvariables):標稱型,序數(shù)型和比例型變量(Nominal,ordinal,andratiovariables):混合類型變量(Variablesofmixedtypes):區(qū)間標度變量數(shù)據(jù)標準化計算絕對偏差的平均值:其中計算標準度量值(z-score)使用絕對偏差的平均值比使用標準偏差更健壯(robust)計算對象之間的相異度通常使用距離來衡量兩個對象之間的相異度。常用的距離度量方法有:

明考斯基距離(Minkowskidistance):其中i=(xi1,xi2,…,xip)和

j=(xj1,xj2,…,xjp)是兩個p維的數(shù)據(jù)對象,q是一個正整數(shù)。當q=1時,d

稱為曼哈坦距離(Manhattandistance)計算對象之間的相異度當q=2時,d就成為歐幾里德距離:距離函數(shù)有如下特性:d(i,j)

0d(i,i)

=0d(i,j)

=d(j,i)d(i,j)

d(i,k)

+d(k,j)可以根據(jù)每個變量的重要性賦予一個權重序數(shù)型變量一個序數(shù)型變量可以是離散的也可以是連續(xù)的離散的序數(shù)型變量類似于標稱變量,除了它的M個狀態(tài)是以有意義的序列排序的,比如職稱連續(xù)的序數(shù)型變量類似于區(qū)間標度變量,但是它沒有單位,值的相對順序是必要的,而其實際大小并不重要。序數(shù)型變量相異度的計算 與區(qū)間標度變量的計算方法相類似將xif

用它對應的秩代替將每個變量的值域映射到[0.0,1.0]上,使得每個變量都有相同的權重。這通過用zif來替代rif來實現(xiàn)用前面所述的區(qū)間標度變量的任一種距離計算方法來計算比例標度型變量比例標度型變量(Ratio-scaledvariable)

:總是取正的度量值,有一個非線性的標度,近似的遵循指數(shù)標度,比如AeBtorAe-Bt

計算相異度的方法:采用與處理區(qū)間標度變量相同的方法—

不是一個好的選擇進行對數(shù)變換,對變換得到的值在采用與處理區(qū)間標度變量相同的方法 yif=log(xif)將其作為連續(xù)的序數(shù)型數(shù)據(jù),將其秩作為區(qū)間標度的值來對待。混合類型的變量一個數(shù)據(jù)庫可能包含了所有這6中類型的變量 用以下公式計算對象i,j之間的相異度.

其中,p為對象中的變量個數(shù) 如果xif或xjf

缺失(即對象i或對象j沒有變量f的值),或者xif=xjf=0,且變量f是不對稱的二元變量,則指示項δij(f)=0;否則δij(f)=1混合類型的變量f

是二元變量或標稱變量:ifxif=xjfdij(f)=0,elsedij(f)=1f

是區(qū)間標度變量: dij(f)=|xif-xjf|/maxhxhf-minhxhf

其中h遍取變量f的所有非空缺對象f

是序數(shù)型或比例標度型計算秩rif

計算zif并將其作為區(qū)間標度變量值對待主要聚類方法Partitioningalgorithms:ConstructvariouspartitionsandthenevaluatethembysomecriterionHierarchyalgorithms:Createahierarchicaldecompositionofthesetofdata(orobjects)usingsomecriterionDensity-based:basedonconnectivityanddensityfunctionsGrid-based:basedonamultiple-levelgranularitystructureModel-based:Amodelishypothesizedforeachoftheclustersandtheideaistofindthebestfitofthatmodeltoeachother五、數(shù)據(jù)挖掘算法-關聯(lián)什么是關聯(lián)挖掘?關聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯(lián)、相關性、或因果結構。應用:購物籃分析、交叉銷售、產(chǎn)品目錄設計、loss-leaderanalysis、聚集、分類等。舉例:規(guī)則形式:“Body?Head[support,confidence]”.buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)?grade(x,“A”)[1%,75%]關聯(lián)規(guī)則:基本概念給定:(1)交易數(shù)據(jù)庫(2)每筆交易是:一個項目列表(消費者一次購買活動中購買的商品)查找:所有描述一個項目集合與其他項目集合相關性的規(guī)則E.g.,98%ofpeoplewhopurchasetiresandautoaccessoriesalsogetautomotiveservicesdone應用*護理用品

(商店應該怎樣提高護理用品的銷售?)家用電器

*

(其他商品的庫存有什么影響?)在產(chǎn)品直銷中使用附加郵寄Detecting“ping-pong”ingofpatients,faulty“collisions”規(guī)則度量:支持度與可信度查找所有的規(guī)則X&YZ具有最小支持度和可信度支持度,

s,一次交易中包含{X、Y、Z}的可能性可信度,

c,

包含{X、Y}的交易中也包含Z的條件概率設最小支持度為50%,最小可信度為50%,則可得到AC(50%,66.6%)CA(50%,100%)買尿布的客戶二者都買的客戶買啤酒的客戶關聯(lián)規(guī)則挖掘:路線圖布爾vs.定量關聯(lián)(基于處理數(shù)據(jù)的類型)buys(x,“SQLServer”)^buys(x,“DMBook”)?buys(x,“DBMiner”)[0.2%,60%]age(x,“30..39”)^income(x,“42..48K”)?buys(x,“PC”)[1%,75%]單維vs.多維關聯(lián)

(例子同上)單層vs.多層分析那個品種牌子的啤酒與那個牌子的尿布有關系?各種擴展相關性、因果分析關聯(lián)并不一定意味著相關或因果最大模式和閉合相集添加約束如,哪些“小東西”的銷售促發(fā)了“大家伙”的買賣?關聯(lián)規(guī)則挖掘—一個例子對于A

C:support=support({A

、C})=50%confidence=support({A

、C})/support({A})=66.6%Apriori的基本思想:頻繁項集的任何子集也一定是頻繁的最小值尺度50%最小可信度50%關鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關聯(lián)規(guī)則多層關聯(lián)規(guī)則項通常具有層次底層的項通常支持度也低某些特定層的規(guī)則可能更有意義交易數(shù)據(jù)庫可以按照維或層編碼可以進行共享的多維挖掘食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃挖掘多層關聯(lián)規(guī)則自上而下,深度優(yōu)先的方法:先找高層的“強”規(guī)則:牛奶?

面包[20%,60%].再找他們底層的“弱”規(guī)則:酸奶?

黃面包[6%,50%].多層關聯(lián)規(guī)則的變種層次交叉的關聯(lián)規(guī)則: 酸奶?

面包房

黃面包不同種分層方法間的關聯(lián)規(guī)則:酸奶?

面包房面包多層關聯(lián)規(guī)則支持度不變:在各層之間使用統(tǒng)一的支持度+

一個最小支持度閾值.如果一個項集的父項集不具有最小支持度,那他本身也不可能滿足最小支持度。–

底層項不會成為頻繁集,如果支持度太高丟失底層關聯(lián)規(guī)則太低生成太多的高層關聯(lián)規(guī)則支持度遞減:隨著層次的降低支持度遞減4種搜索策略:層與層獨立用k-項集跨層過濾用項跨層過濾用項進行可控跨層過濾支持度不變支持度不變多層挖掘牛奶[support=10%]酸奶[support=6%]脫脂奶[support=4%]層1min_sup=5%層2min_sup=5%支持度遞減支持度遞減多層挖掘酸奶[support=6%]脫脂奶[support=4%]層1min_sup=5%層2min_sup=3%牛奶[support=10%]多層關聯(lián):冗余過濾由于“祖先”關系的原因,有些規(guī)則可能是多余的。例子牛奶白面包[support=8%,confidence=70%]酸奶白面包[support=2%,confidence=72%]我們稱第一個規(guī)則是第二個規(guī)則的祖先參考規(guī)則的祖先,如果他的支持度與我們“預期”的支持度近似的話,我們就說這條規(guī)則是冗余的。多層挖掘:深度優(yōu)先自頂向下,深度優(yōu)先的方法:先挖掘高層頻繁項:牛奶(15%),面包(10%)再挖掘他們底層的相對較弱的頻繁項:酸奶(5%),白面包(4%)跨層時對支持度的不同處理方法,對應了不同的算法:層之間支持度不變:如果t的祖先是非頻繁的,則不用考慮t支持度隨層遞減:則只考慮那些其祖先是頻繁的/不可忽略的項數(shù)據(jù)挖掘查詢的逐步精化為什么要逐步精化挖掘操作的代價可能高或低,結果可能細致或粗糙在速度和質量之間折衷:逐步精化超集覆蓋特征:預存儲所有正面答案—允許進一步正確性驗證,而不必驗證已經(jīng)錯誤的2或多步挖掘:先執(zhí)行粗糙的、容易的操作(超集覆蓋)然后在減少后的候選集上進行計算量大的算法(Koperski&Han,SSD’95).逐步求精空間關聯(lián)規(guī)則挖掘空間關系的層次:“g_close_to”:鄰近,接觸,交叉,包含先搜索粗糙的關系然后再精化逐步求精空間關聯(lián)規(guī)則挖掘空間關聯(lián)規(guī)則的兩步算法:步驟1:粗糙空間計算(用于過濾)

用MBR或R-tree做粗糙估計步驟2:細致空間算法(用于精化)

只計算已經(jīng)通過空間計算的對象多維關聯(lián)規(guī)則:概念單維規(guī)則:buys(X,“milk”)buys(X,“bread”)多維規(guī)則:2個以上維/謂詞維間關聯(lián)規(guī)則(維詞不重復)age(X,”19-25”)occupation(X,“student”)buys(X,“coke”)混合維關聯(lián)規(guī)則(維詞重復)age(X,”19-25”)buys(X,“popcorn”)buys(X,“coke”)類別屬性有限個值,值之間無順序關系數(shù)量屬性數(shù)字的,值之間隱含了順序關系挖掘多維關聯(lián)的技術搜索頻繁k-維詞集合:如:{age,occupation,buys}

是一個3-維詞集合。按照對age

處理方式的不同,分為:1.用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預定義的概念層次加以離散化。2.帶數(shù)量的關聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布動態(tài)的把數(shù)值屬性離散化到不同的“箱”。3.基于距離的關聯(lián)規(guī)則用數(shù)據(jù)點之間的距離動態(tài)的離散化數(shù)值屬性的靜態(tài)離散化在挖掘之前用概念層次先離散化數(shù)值被替換為區(qū)間范圍關系數(shù)據(jù)庫中,要找到所有頻繁k-維詞需要k或k+1次表掃描。適宜使用數(shù)據(jù)立方體N維立方體的每個單元

對應一個維詞集合使用數(shù)據(jù)立方體速度更快(income)(age)()(buys)(age,income)(age,buys)(income,buys)(age,income,buys)帶數(shù)量的關聯(lián)規(guī)則age(X,”30-34”)income(X,”24K-48K”)buys(X,”highresolutionTV”)動態(tài)離散化數(shù)值屬性Suchthattheconfidenceorcompactnessoftherulesminedismaximized.2-維數(shù)量關聯(lián)規(guī)則:Aquan1

Aquan2Acat用2-維表格把“鄰近”的

關聯(lián)規(guī)則組合起來例子

ARCS(關聯(lián)規(guī)則聚集系統(tǒng))ARCS流程1.分箱2.查找頻繁維詞集合3.聚集4.優(yōu)化ARCS的局限性數(shù)值屬性只能出現(xiàn)在規(guī)則的左側左側只能有兩個屬性(2維)ARCS的改進不用基于柵格的方法等深分箱基于局部完整性測度的聚集“MiningQuantitativeAssociationRulesinLargeRelationalTables”byR.SrikantandR.Agrawal.基于距離的關聯(lián)規(guī)則挖掘分箱的方法沒有體現(xiàn)數(shù)據(jù)間隔的語義基于距離的分割是更有“意義”的離散化方法,考慮:區(qū)間內密度或點的個數(shù)區(qū)間內點的“緊密程度記S[X]為N個元組t1,t2,…,tN在屬性集X上的投影則S[X]的直徑:distx:距離量度,如歐幾里德距離或Manhattan聚集和距離度量用直徑

d評估聚集CX的密度,其中查找聚集和基于距離的規(guī)則用密度閾值d0代替支持度采用修改過的BIRCH聚集算法聚集和距離度量關聯(lián)規(guī)則可視化UsingPlaneGraph關聯(lián)規(guī)則可視化UsingRuleGraph六、序列模式挖掘序列模式概念序列模式的概念最早是由Agrawal和Srikant提出的序列模式定義:給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同項目組成,同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值序列模式實例例1:在兩年前購買了Ford牌轎車的顧客,很有可能在今年采取貼舊換新的購車行動例2:在購買了自行車和購物籃的所有客戶中,有70%的客戶會在兩個月后購買打氣筒例3:工業(yè)過程控制領域:過程變量采樣值時時間序列;變量之間的關系是動態(tài)的;系統(tǒng)故障模式;等等序列模式應用領域應用領域:客戶購買行為模式預測Web訪問模式預測疾病診斷自然災害預測DNA序列分析工業(yè)控制序列模式表示符號化表示:項目集(Itemset)是各種項目組成的集合序列(Sequence)是不同項目集(ItemSet)的有序排列,序列s可以表示為s=<s1s2…sl>,sj(1<=j<=l)為項目集(Itemset),也稱為序列s的元素序列的元素(Element)可表示為(x1x2…xm),xk(1<=k<=m)為不同的項目,如果一個序列只有一個項目,則括號可以省略一個序列包含的所有項目的個數(shù)稱為序列的長度。長度為l的序列記為l-序列序列模式表示符號化表示:設=<a1a2…an>,=<b1b2…bm>,如果存在整數(shù)1<=j1<j2<…<jn<=m,使得a1bj1,a2bj2,…,anbjn,則稱序列為序列的子序列,又稱序列包含序列,記為序列在序列數(shù)據(jù)庫S中的支持數(shù)為序列數(shù)據(jù)庫S中包含序列的序列個數(shù),記為Support()給定支持度閾值,如果序列在序列數(shù)據(jù)庫中的支持數(shù)不低于,則稱序列為序列模式長度為l的序列模式記為l-模式序列模式表示例子:設序列數(shù)據(jù)庫如下圖所示,并設用戶指定的最小支持度min-support=2。Sequence_idSequence10<a(abc)(ac)d(cf)>20<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40<eg(af)cbc>序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列序列<(ab)c>是長度為3的序列模式序列模式挖掘問題描述:給定序列數(shù)據(jù)庫和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫中所有的序列模式系統(tǒng)規(guī)定:由于同一個元素中的項目之間排列沒有順序,為了表達的唯一性,我們將同一個元素內部的不同項目按照字典順序排列序列模式挖掘算法序列模式挖掘的主要算法GSP(GeneralizedSequentialPatterns)算法:類似于Apriori算法PrefixSpan(Prefix-projectSequentialPatternmining)算法:采用分治的思想,不斷產(chǎn)生序列數(shù)據(jù)庫的多個更小的投影數(shù)據(jù)庫,然后在各個投影數(shù)據(jù)庫上進行序列模式挖掘序列模式挖掘算法上述算法存在的主要問題:缺少時間限制:用戶可能需要指定序列模式的相鄰元素之間的時間間隔。例如,一個序列模式可能會發(fā)現(xiàn)客戶在購買了物品A后的第三年購買物品B。我們需要的卻是給定時間間隔內用戶的購買意向事務的定義過于嚴格:一個事務中包含在客戶的一次購買行為中所購買的所有物品。可能需要指定一個滑動時間窗口,客戶在滑動時間窗口的時間段內的所有的購買行為均作為一個事務缺少分類層次:只能在項目的原始級別上進行挖掘七、數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代作為一個獨立的應用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預言模型系統(tǒng)集成

多個算法數(shù)據(jù)管理和預言模型系統(tǒng)intranet/extranet網(wǎng)絡計算支持半結構化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設備的數(shù)據(jù)聯(lián)合

多個算法數(shù)據(jù)管理、預言模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法

挖掘向量數(shù)據(jù)(vector-valueddata)

數(shù)據(jù)一般一次性調進內存進行處理

典型的系統(tǒng)如SalfordSystems公司早期的CART系統(tǒng)()

缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,第一代系統(tǒng)顯然不能滿足需求。數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件

CBA

新加坡國立大學。基于關聯(lián)規(guī)則的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關聯(lián)規(guī)則,使用關聯(lián)規(guī)則進行分類和預測二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成

支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性

能夠挖掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集

通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性

典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預言模型系統(tǒng)中

由數(shù)據(jù)挖掘軟件產(chǎn)生的預言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能

能夠挖掘網(wǎng)絡環(huán)境下(Internet/Extranet)的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成

缺陷不能支持移動環(huán)境數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預言模型系統(tǒng)的接口二、數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結合是當前的一個研究領域。

第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導,PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項目的負責人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質數(shù)據(jù)(Ubiquitous設備)的第四代數(shù)據(jù)挖掘系統(tǒng)。

數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預處理方面有一定缺陷

第三、四代系統(tǒng)強調預測模型的使用和操作型環(huán)境的部署

第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口

第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口

目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導

數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階段獨立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案數(shù)據(jù)挖掘軟件的發(fā)展獨立的數(shù)據(jù)挖掘軟件(95年以前)特點獨立的數(shù)據(jù)挖掘軟件對應第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術有相當?shù)牧私猓€要負責大量的數(shù)據(jù)預處理工作。比如C4.5決策樹,平行坐標可視化(parallel-coordinatevisualization)。

數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展原因隨著數(shù)據(jù)挖掘應用的發(fā)展,人們逐漸認識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉換等預處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結合是自然的發(fā)展?,F(xiàn)實領域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉換等數(shù)據(jù)預處理的配合,才能得出有價值的模型

數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展過程隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件特點此類工具集的特點是提供多種數(shù)據(jù)挖掘算法

包括數(shù)據(jù)的轉換和可視化

由于此類工具并非面向特定的應用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(HorizontalDataMiningTools)

由于此類工具并非面向特定的應用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具典型的橫向工具有IBMIntelligentMiner、SPSS的Clementine、SAS的EnterpriseMiner、SGI的MineSet、OracleDarwin等

數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型

從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(VerticalSolution),即針對特定的應用提供完整的數(shù)據(jù)挖掘方案

對于縱向的解決方案,數(shù)據(jù)挖掘技術的應用多數(shù)還是為了解決某些特定的難題,而嵌入在應用系統(tǒng)中數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡預測功能在欺詐檢測系統(tǒng)中嵌入欺詐行為的分類/識別模型在客戶關系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能在機器維護系統(tǒng)中嵌入監(jiān)/檢測或識別難以定性的設備故障功能在數(shù)據(jù)庫營銷中嵌入選擇最可能購買產(chǎn)品的客戶功能在機場管理系統(tǒng)中嵌入旅客人數(shù)預測、貨運優(yōu)化功能在基因分析系統(tǒng)中嵌入DNA識別功能在制造/生產(chǎn)系統(tǒng)中嵌入質量控制功能等數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)KD1(主要用于零售業(yè))Options&Choice(主要用于保險業(yè))HNC(欺詐行為偵測)UnicaModel1(主要用于市場營銷)數(shù)據(jù)挖掘軟件的發(fā)展各行業(yè)電子商務網(wǎng)站算法層商業(yè)邏輯層行業(yè)應用層商業(yè)應用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細分客戶流失客戶利潤客戶響應關聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡、偏差分析…WEB挖掘網(wǎng)站結構優(yōu)化網(wǎng)頁推薦商品推薦。。?;蛲诰蚧虮磉_路徑分析基因表達相似性分析基因表達共發(fā)生分析。。。銀行電信零售保險制藥生物信息科學研究。。。相關行業(yè)數(shù)據(jù)挖掘軟件的現(xiàn)狀情況概覽2002年9月,Amazon上關于數(shù)據(jù)挖掘的書有251本()目前有數(shù)百個數(shù)據(jù)挖掘軟件產(chǎn)品()數(shù)據(jù)挖掘應用相對廣泛數(shù)據(jù)挖掘軟件的現(xiàn)狀國內大部分處于科研階段各大學和科研機構從事數(shù)據(jù)挖掘算法的研究國內著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()有一些公司在國外產(chǎn)品基礎上開發(fā)的特定的應用IBMIntelligentMinerSASEnterpriseMiner自主知識產(chǎn)權的數(shù)據(jù)挖掘軟件復旦德門()等八、數(shù)據(jù)挖掘應用數(shù)據(jù)挖掘應用數(shù)據(jù)挖掘應用銀行美國銀行家協(xié)會(ABA)預測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術在美國商業(yè)銀行的應用增長率是14.9%。

分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關系優(yōu)化;風險控制等電子商務網(wǎng)上商品推薦;個性化網(wǎng)頁;自適應網(wǎng)站…生物制藥、基因研究DNA序列查詢和匹配;識別基因序列的共發(fā)生性

…電信欺詐甄別;客戶流失…保險、零售。。。。。。數(shù)據(jù)挖掘應用數(shù)據(jù)挖掘客戶分析析基分因其他保險客戶證券客戶銀行客戶電信客戶零售客戶信用卡儲蓄卡存折按揭借貸人類基因植物基因動物基因特殊群體基因基因序列基因表達譜基因功能基因制藥

………...數(shù)據(jù)挖掘應用為什么沒有廣泛使用?數(shù)據(jù)挖掘正在快速的發(fā)展技術的研究和開發(fā)已經(jīng)走在很前沿的地方數(shù)據(jù)挖掘應用面已經(jīng)擴充了很多但是仍然沒有希望的高,為什么?希望在多少年內達到數(shù)十億元的盈利?是一種增值服務(Notbread-and-butter)不能認為高不可攀,所以不去過問是一門年輕的技術,需要和實際結合,解決現(xiàn)實問題數(shù)據(jù)挖掘應用國內應用存在的問題數(shù)據(jù)積累不充分、不全面業(yè)務模型構建困難缺少有經(jīng)驗的實施者數(shù)據(jù)挖掘應用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees

傾向性分析

客戶保留客戶生命周期管理目標市場價格彈性分析

客戶細分市場細分

傾向性分析客戶保留目標市場欺詐檢測關聯(lián)分析Association

市場組合分析套裝產(chǎn)品分析目錄設計交叉銷售數(shù)據(jù)挖掘應用聚集(Cluster)聚集是把整個數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。

常用技術:神經(jīng)元網(wǎng)絡、K均值、最近鄰…數(shù)據(jù)挖掘應用異常檢測及時發(fā)現(xiàn)有欺詐嫌疑的異常行為,正確進行欺詐問題的評估,對欺詐者實施控制和強制措施。技術:決策樹,神經(jīng)元網(wǎng)絡,異常因子LOF檢測客戶消費異常行為分析模型數(shù)據(jù)挖掘應用客戶分析業(yè)務模型交叉銷售客戶響應客戶流失客戶利潤信用卡分析業(yè)務模型客戶信用等級評估客戶透支分析客戶利潤分析客戶消費行為分析客戶消費異常行為分析數(shù)據(jù)挖掘應用MISERPCRME_BusinessCDW客戶數(shù)據(jù)倉庫數(shù)據(jù)挖掘算法庫模型庫組件庫產(chǎn)品推薦客戶細分客戶流失客戶利潤客戶響應…行業(yè)應用知識CIAS應用服務器信息系統(tǒng)行業(yè)分析數(shù)據(jù)挖掘應用平臺CIAS數(shù)據(jù)挖掘應用客戶響應模型—基本概念響應率分析:分析客戶對某種新服務或者新產(chǎn)品的感興趣情況.為什么要進行響應率分析:通過響應率分析能夠有效的降低市場推廣的費用,同時能夠更加有針對性的面對目標市場.達到以最小的投入獲得最佳效果的目的數(shù)據(jù)挖掘應用用哪一種數(shù)據(jù)挖掘技術實現(xiàn)?響應率分析是為了對某項市場營銷(新產(chǎn)品銷售)活動找到最合適的響應客戶,需要預測哪些客戶能夠響應,以及響應的可能性是多少。因此,需要構建預言模型分類是預言模型的一種技術,可以利用分類技術構建客戶響應率模型決策樹神經(jīng)網(wǎng)絡貝葉斯分類…數(shù)據(jù)挖掘未來發(fā)展與數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)集成與預言模型系統(tǒng)集成挖掘各種復雜類型的數(shù)據(jù)與應用相結合研制和開發(fā)數(shù)據(jù)挖掘標準支持移動環(huán)境

數(shù)據(jù)挖掘應用——

時間序列模式挖掘工業(yè)過程變量時間序列生產(chǎn)過程的類型連續(xù)過程:工藝參數(shù)(設定值)均為常量。批量過程:工藝參數(shù)(設定值)通常為變量。工藝參數(shù)的數(shù)據(jù)類型數(shù)值型、邏輯型、枚舉型產(chǎn)品質量的數(shù)據(jù)類型邏輯型:只判斷產(chǎn)品的好壞數(shù)值型:給出產(chǎn)品質量好壞的程度生產(chǎn)過程工藝參數(shù)1(連續(xù)型時間序列)工藝參數(shù)2(離散型時間序列)產(chǎn)品質量(離散型時間序列)批量型生產(chǎn)過程質量檢驗!t0t1t2t3T預熱階段加熱階段均熱階段T連續(xù)型生產(chǎn)過程T1T2T3vx1x2x3質量檢驗!0x預熱區(qū)加熱區(qū)均熱區(qū)t0t1t2t3質量檢驗!TT1T3T2數(shù)據(jù)挖掘對象的基本構成生產(chǎn)過程X:工藝參數(shù)時間序列Y:質量檢測結果tXtY樣本的抽?。ㄅ可a(chǎn)過程)ttx1(t)y1y2y3x2(t)x3(t)XY樣本1樣本2樣本3……連續(xù)生產(chǎn)過程的樣本抽取連續(xù)過程批量過程T1T2T3vx1x2x3tT3T2T10質量檢驗!

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論