數(shù)據(jù)挖掘論文

上傳人：5*** IP屬地：湖北上傳時間：2021-12-30 格式：DOCX 頁數(shù)：13 大小：197.42KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、pa車行數(shù)據(jù)挖掘案例電子商務(wù)數(shù)據(jù)挖掘應(yīng)用內(nèi)容摘要本論文討論了電子商務(wù)中應(yīng)用數(shù)據(jù)挖掘工具的現(xiàn)狀與主流方法，并通過pa車行的數(shù)據(jù)挖掘案例分析C4.5、k-means聚類、貝葉斯聚類三種方法的原理、實現(xiàn)與案例并討論不同方法的優(yōu)缺點和局限性。關(guān)鍵字C4.5；k-means聚類；貝葉斯聚類目錄1電子商務(wù)和數(shù)據(jù)挖掘概述111 電子商務(wù)112 數(shù)據(jù)挖掘技術(shù)113. 數(shù)據(jù)挖掘過程21. 3. 1 確立目標(biāo)2132 數(shù)據(jù)準(zhǔn)備21. 3. 3 模式分析22. 數(shù)據(jù)挖掘的具體應(yīng)用場景和意義32.1決策樹分類算法32.1.1C4.5算法簡介32.1.2 C4.5算法的實現(xiàn)42.1.3 C4.5算法的基本原理52.1.

2、4實例：本論文以C4.5算法計算pa車行的各項指標(biāo)對其影響72.2k-means算法82.2.1k-means算法簡介82.2.2 K-means原理82.2.3實例：本論文以k-means算法計算pa車行的各項指標(biāo)聚類結(jié)果92.3貝葉斯分類算法92.3.1貝葉斯分類算法簡介92.3.2 貝葉斯分類算法原理102.3.3實例：本論文以貝葉斯分類算法算法計算pa車行的各項指標(biāo)聚類結(jié)果101電子商務(wù)和數(shù)據(jù)挖掘概述11 電子商務(wù)電子商務(wù)是指個人或企業(yè)通過Internet網(wǎng)絡(luò)，采用數(shù)字化電子方式進行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購，網(wǎng)上、網(wǎng)上支付結(jié)算等多

3、種類型的電子商務(wù)形式。電子商務(wù)正以其低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。電子商務(wù)是指以Internet網(wǎng)絡(luò)為載體、利用數(shù)字化電子方式開展的商務(wù)活動。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展，電子商務(wù)正顯示越來越強大的生命力。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù)，并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識，為公司創(chuàng)造更多潛在的利潤。利用數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù)，發(fā)現(xiàn)隱藏在其后的規(guī)律性，提取出有效信息，進而指導(dǎo)企業(yè)調(diào)整營銷策略，給客戶提供動態(tài)的個性化的高效率服務(wù) 12 數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘(Data Mining)，又稱數(shù)

4、據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)，是從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的，但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科，它匯聚了不同領(lǐng)域尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的知識。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域，它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用，而且，要對數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理，以指定實際問題的求解，企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián)，甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。數(shù)據(jù)挖掘技術(shù)在金融、保險、電信、大型超市等

5、積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用，如信用分析、風(fēng)險分析、欺詐檢驗、用戶聚類分析、消費者習(xí)慣分析等。而電子商務(wù)中的數(shù)據(jù)挖掘是一項綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、信息學(xué)、學(xué)等多個領(lǐng)域。13. 數(shù)據(jù)挖掘過程挖掘數(shù)據(jù)過程可以分為3個步驟：確立分析目標(biāo)，數(shù)據(jù)預(yù)準(zhǔn)備，模式分析，挖掘結(jié)果的表述和評價。 1. 3. 1 確立目標(biāo)清晰地定義業(yè)務(wù)問題和認清數(shù)據(jù)挖掘的目標(biāo)是進行數(shù)據(jù)挖掘的第一步，也是最重要步。要想充分發(fā)揮數(shù)據(jù)挖掘的價值，首要的條件是要對用戶的目標(biāo)有一個清晰明確的定義因此，在挖掘之前要明確業(yè)務(wù)的目標(biāo)和需求。132 數(shù)據(jù)準(zhǔn)備實際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性

6、。因此，數(shù)據(jù)挖掘一般不對原始數(shù)據(jù)進行挖掘，要通過預(yù)處理提供準(zhǔn)確、簡潔的數(shù)據(jù)。預(yù)處理主要完成以下工作：包括合并數(shù)據(jù)，將多個文件或多個數(shù)據(jù)庫中的數(shù)據(jù)進行合并處理；選擇數(shù)據(jù)，提取出適合分析的數(shù)據(jù)集合；數(shù)據(jù)清洗、過濾，剔除一些無關(guān)記錄，將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。 1. 3. 3 模式分析模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術(shù)手段，對得到的模式進行數(shù)據(jù)分析，得出有意義的結(jié)論。常用的技術(shù)手段有：關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果，也是未來商業(yè)運作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù)來分析大量的數(shù)據(jù)，

7、可以挖掘出商品的消費規(guī)律與客戶的訪問模式，幫助企業(yè)制定有效的營銷策略，充分發(fā)揮企業(yè)的獨特優(yōu)勢，促進管理創(chuàng)新和技術(shù)創(chuàng)新，提高企業(yè)競爭力。在大多數(shù)的商業(yè)領(lǐng)域中，業(yè)務(wù)發(fā)展的主要指標(biāo)包括新客戶的獲取能力。企業(yè)的市場部門人員可以采用傳統(tǒng)的方法來發(fā)展新客戶，如開展廣告活動；也可以根據(jù)所了解的目標(biāo)客戶群，將他們分類，然后進行直銷活動。但是，隨客戶數(shù)量不斷增長和每位客戶的細節(jié)因素增多，要得出選擇出相關(guān)的人口調(diào)查屬性的篩選條件也會變得很困難。而數(shù)據(jù)挖掘技術(shù)可以幫助完成潛在客戶的篩選工作。算法能夠以圖形化的形式表現(xiàn)挖掘的結(jié)果，從而方便于使用者快速做出決定或預(yù)測。決策樹實際在各行業(yè)應(yīng)用非常廣泛，如客戶資源管理（CR

8、M）系統(tǒng)等。4挖掘結(jié)果的表述和評價這個階段分為結(jié)果表述和結(jié)果評價兩個步驟。將挖掘出的結(jié)果以一種易于理解的形表示出來，并進行分析和評價。具體包括消除無關(guān)的、多余的模式，過濾出要呈現(xiàn)給用的信息。利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示，轉(zhuǎn)化為用戶以理解的語言。成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)可以把原始數(shù)據(jù)轉(zhuǎn)換為更簡潔、更易理解、可確定義關(guān)系的形式，此外還可以解決發(fā)現(xiàn)的結(jié)果與以前知識的潛在沖突及利用統(tǒng)計方法模式進行評價，從而決定是否需要重復(fù)以前的操作，以得到最優(yōu)、最適合的模式。我們可將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去，實現(xiàn)知識的同化。綜上所述，數(shù)據(jù)挖掘是一個多種專家合作的過程，

9、也是一個在資金上和技術(shù)上高投的過程，這一過程要反復(fù)進行。在反復(fù)過程中，不斷地趨近事物的本質(zhì)，不斷地優(yōu)化問的解決方案。2. 數(shù)據(jù)挖掘的具體應(yīng)用場景和意義2.1決策樹分類算法2.1.1C4.5算法簡介數(shù)據(jù)挖掘中最常用、最經(jīng)典的分類算法，是決策樹（Decision Tree）用于分類和預(yù)測的主要技術(shù)，它著眼于從一組無規(guī)則的事例推理出決策樹表示形式的分類規(guī)則，采用自頂向下的遞歸方式，在決策樹的內(nèi)部節(jié)點進行屬性值的比較，并根據(jù)不同屬性判斷從該節(jié)點向下分支，在決策樹的葉節(jié)點得到結(jié)論。因此，從根節(jié)點到葉節(jié)點就對應(yīng)著一條合理規(guī)則，整棵樹就對應(yīng)著一組表達式規(guī)則?；跊Q策樹算法的一個最大的優(yōu)點是它在學(xué)習(xí)過程中不需

10、要使用者了解很多背景知識，只要訓(xùn)練事例能夠用屬性即結(jié)論的方式表達出來，就能使用該算法進行學(xué)習(xí)。決策樹技術(shù)是一種對海量數(shù)據(jù)集進行分類的非常有效的方法。通過構(gòu)造決策樹模型，提取有價值的分類規(guī)則，幫助決策者做出準(zhǔn)確的預(yù)測已經(jīng)應(yīng)用在很多領(lǐng)域。決策樹算法是一種逼近離散函數(shù)值的方法。它是一種典型的分類方法，首先對數(shù)據(jù)進行處理，利用歸納算法生成可讀的規(guī)則和決策樹，然后對新數(shù)據(jù)進行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。決策樹的典型算法有ID3、C4.5和CART等，基于決策樹的分類模型有如下幾個特點：（1）決策樹方法結(jié)構(gòu)簡單，便于理解；（2）決策樹模型效率高，對訓(xùn)練集較大的情況較為適合；（3

11、）決策樹方法通常不需要接受訓(xùn)練集數(shù)據(jù)外的知識；（4）決策樹方法具有較高的分類精確度。本論文主要通過分析C4.5算法來研究決策樹算法。在決策樹算法中，最常用的、最經(jīng)典的是C4.5算法，它在決策樹算法中的主要優(yōu)點是：形象直觀。該算法通過兩個步驟來建立決策樹：樹的生成階段和樹的剪枝階段。該算法主要基于信息論中的熵理論。熵在系統(tǒng)學(xué)上是表示事物的無序度，是系統(tǒng)混亂程度的統(tǒng)計量。C4.5基于生成的決策樹中節(jié)點所含的信息熵最小的原理。它把信息增益率作為屬性選擇的度量標(biāo)準(zhǔn)，可以得出很容易理解的決策規(guī)則。C4.5算法的優(yōu)點是產(chǎn)生的分類規(guī)則易于理解，準(zhǔn)確率較高。缺點就是在構(gòu)造樹的過程中，需要對數(shù)據(jù)集進行多次的順序

12、掃描和排序，因而導(dǎo)致算法的低效。此外，C4.5算法只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集，當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時，程序無法運行。2.1.2 C4.5算法的實現(xiàn)假設(shè)用S代表當(dāng)前樣本集，當(dāng)前候選屬性集用A表示，則C4.5算法C4.5formtree(S,A)的偽代碼如下。算法：Generate_decision_tree由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵決策樹輸入：訓(xùn)練樣本samples；候選屬性的集合attributelist輸出：一棵決策樹（1）創(chuàng)建根節(jié)點N；（2） IF S都屬于同一類C，則返回N為葉節(jié)點，標(biāo)記為類C；（3） IF attributelist為空 OR S中所剩的樣本數(shù)少于某給定值則返

13、回N為葉節(jié)點，標(biāo)記N為S中出現(xiàn)最多的類；（4） FOR each attributelist中的屬性計算信息增益率information gain ratio；（5） N的測試屬性test.attribute = attributelist具有最高信息增益率的屬性；（6） IF測試屬性為連續(xù)型則找到該屬性的分割閾值；（7） For each由節(jié)點N一個新的葉子節(jié)點If該葉子節(jié)點對應(yīng)的樣本子集S為空則分裂此葉子節(jié)點生成新葉節(jié)點，將其標(biāo)記為S中出現(xiàn)最多的類Else在該葉子節(jié)點上執(zhí)行C4.5formtree(S,S.attributelist)，繼續(xù)對它分裂；（8）計算每個節(jié)點的分類錯誤，進行剪枝

14、。2.1.3 C4.5算法的基本原理設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標(biāo)號Ci(I = 1,m)具有m個不同的值，設(shè)si是類Ci中的樣本數(shù)。對一個給定的樣本分類所需的期望信息由下式給出：I(s1,sm) = i=1mpilog2(Pi)(5)其中，pi是任意樣本屬于Ci的概率，并用si/s來估計。設(shè)屬性A具有v個子集s1,sv;其中，sj包含S中這樣一些樣本，它們在A上具有值aj。如果A選作測試屬性，則這些子集對應(yīng)于由包含集合S的節(jié)點生長出來的分枝。設(shè)sij是子集sj中類Ci的樣本數(shù)。根據(jù)由A劃分成子集的熵由下式給出：E(A) = i=1vsij+SmjSI(sij,smj) (6) 其中，項s

15、ij+SmjS充當(dāng)?shù)趈個子集的權(quán)，并且等于子集（即A值為aj）中的樣本個數(shù)除以s中的樣本總數(shù)。熵值越小，子集劃分的純度越高。對于給定的子集sj有：I(S1j,S2j,Smj) = -i=1mpijlog2Pij (7)其中，pij=SijSj是sj中的樣本屬于類Ci的概率。在A上分枝將獲得的編碼信息是：Gain(A) = I(s1,sm) E(A) (8)以上和ID3算法的基本原理相同，而C4.5所不同的是在后面使用信息增益比例來取代信息增益。SplitInfo(S,A) = -i=1c|Si|S|Log2|Si|S| (9)其中，s1到sc是c個值的屬性A分割S而形成的c個樣本子集。這時，在

16、屬性A上所得到的信息增益比為：GainRatio(S,A) =Gain(S,A)SplitInfo(S,A) (10)C4.5算法計算每個屬性的信息增益比。具有最高信息增益比的屬性選作給定集合S的測試屬性。創(chuàng)建一個節(jié)點，并以該屬性標(biāo)記，對屬性的每個值創(chuàng)建分枝，并據(jù)此劃分樣本。當(dāng)然C4.5算法本身也存在一些不足之處，如處理連續(xù)屬性比較耗時、計算信息增益率的速度還有待提高等，2.1.4實例：本論文以C4.5算法計算pa車行的各項指標(biāo)對其影響C4.5可以看出不同層級分類，但無法發(fā)現(xiàn)其中關(guān)鍵因素所在點，也即無法處理模糊數(shù)據(jù)的聚類分組，因此我們引入k-means算法。2.2k-means算法2.2.1k

17、-means算法簡介k-means算法接受參數(shù)k；然后將事先輸入的n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個 “中心對象”（引力中心）來進行計算的。假設(shè)要把樣本集分為c個類別，算法描述如下：（1）適當(dāng)選擇c個類的初始中心；（2）在第k次迭代中，對任意一個樣本，求其到c個中心的距離，將該樣本歸到距離最短的中心所在的類；（3）利用均值等方法更新該類的中心值；（4）對于所有的c個聚類中心，如果利用（2）（3）的迭代法更新后，值保持不變，則迭代結(jié)束，否則繼續(xù)迭代。2.2.2 K-means原

18、理K-means面對的第一個問題是如何保證收斂，前面的算法中強調(diào)結(jié)束條件就是收斂，可以證明的是K-means完全可以保證收斂性。下面我們定性的描述一下收斂性，我們定義畸變函數(shù)（distortion function）如下：J函數(shù)表示每個樣本點到其質(zhì)心的距離平方和。K-means是要將J調(diào)整到最小。假設(shè)當(dāng)前J沒有達到最小值，那么首先可以固定每個類的質(zhì)心，調(diào)整每個樣例的所屬的類別來讓J函數(shù)減少，同樣，固定，調(diào)整每個類的質(zhì)心也可以使J減小。這兩個過程就是內(nèi)循環(huán)中使J單調(diào)遞減的過程。當(dāng)J遞減到最小時，和c也同時收斂。2.2.3實例：本論文以k-means算法計算pa車行的各項指標(biāo)聚類結(jié)果k-means聚類分析可以發(fā)現(xiàn)不同關(guān)鍵點并找出其關(guān)聯(lián)性，但對于目標(biāo)函數(shù)的實現(xiàn)無法尋找具體的線性關(guān)系，因此我們引入貝葉斯分類

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘論文

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘論文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔