




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、pa車行數(shù)據(jù)挖掘案例電子商務(wù)數(shù)據(jù)挖掘應(yīng)用內(nèi)容摘要本論文討論了電子商務(wù)中應(yīng)用數(shù)據(jù)挖掘工具的現(xiàn)狀與主流方法,并通過pa車行的數(shù)據(jù)挖掘案例分析C4.5、k-means聚類、貝葉斯聚類三種方法的原理、實現(xiàn)與案例并討論不同方法的優(yōu)缺點和局限性。關(guān)鍵字C4.5;k-means聚類;貝葉斯聚類目錄1電子商務(wù)和數(shù)據(jù)挖掘概述111 電子商務(wù)112 數(shù)據(jù)挖掘技術(shù)113. 數(shù)據(jù)挖掘過程21. 3. 1 確立目標(biāo)2132 數(shù)據(jù)準(zhǔn)備21. 3. 3 模式分析22. 數(shù)據(jù)挖掘的具體應(yīng)用場景和意義32.1決策樹分類算法32.1.1C4.5算法簡介32.1.2 C4.5算法的實現(xiàn)42.1.3 C4.5算法的基本原理52.1.
2、4實例:本論文以C4.5算法計算pa車行的各項指標(biāo)對其影響72.2k-means算法82.2.1k-means算法簡介82.2.2 K-means原理82.2.3實例:本論文以k-means算法計算pa車行的各項指標(biāo)聚類結(jié)果92.3貝葉斯分類算法92.3.1貝葉斯分類算法簡介92.3.2 貝葉斯分類算法原理102.3.3實例:本論文以貝葉斯分類算法算法計算pa車行的各項指標(biāo)聚類結(jié)果101電子商務(wù)和數(shù)據(jù)挖掘概述11 電子商務(wù)電子商務(wù)是指個人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上、網(wǎng)上支付結(jié)算等多
3、種類型的電子商務(wù)形式。電子商務(wù)正以其低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。電子商務(wù)是指以Internet網(wǎng)絡(luò)為載體、利用數(shù)字化電子方式開展的商務(wù)活動。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,電子商務(wù)正顯示越來越強大的生命力。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,為公司創(chuàng)造更多潛在的利潤。利用數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),發(fā)現(xiàn)隱藏在其后的規(guī)律性,提取出有效信息,進而指導(dǎo)企業(yè)調(diào)整營銷策略,給客戶提供動態(tài)的個性化的高效率服務(wù) 12 數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘(Data Mining),又稱數(shù)
4、據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),是從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的知識。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且,要對數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指定實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。數(shù)據(jù)挖掘技術(shù)在金融、保險、電信、大型超市等
5、積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用,如信用分析、風(fēng)險分析、欺詐檢驗、用戶聚類分析、消費者習(xí)慣分析等。 而電子商務(wù)中的數(shù)據(jù)挖掘是一項綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、信息學(xué)、學(xué)等多個領(lǐng)域。13. 數(shù)據(jù)挖掘過程 挖掘數(shù)據(jù)過程可以分為3個步驟:確立分析目標(biāo),數(shù)據(jù)預(yù)準(zhǔn)備,模式分析,挖掘結(jié)果的表述和評價。 1. 3. 1 確立目標(biāo)清晰地定義業(yè)務(wù)問題和認清數(shù)據(jù)挖掘的目標(biāo)是進行數(shù)據(jù)挖掘的第一步,也是最重要步。要想充分發(fā)揮數(shù)據(jù)挖掘的價值,首要的條件是要對用戶的目標(biāo)有一個清晰明確的定義因此,在挖掘之前要明確業(yè)務(wù)的目標(biāo)和需求。132 數(shù)據(jù)準(zhǔn)備實際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性
6、。因此,數(shù)據(jù)挖掘一般不對原始數(shù)據(jù)進行挖掘,要通過預(yù)處理提供準(zhǔn)確、簡潔的數(shù)據(jù)。預(yù)處理主要完成以下工作:包括合并數(shù)據(jù),將多個文件或多個數(shù)據(jù)庫中的數(shù)據(jù)進行合并處理;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過濾,剔除一些無關(guān)記錄,將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。 1. 3. 3 模式分析模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術(shù)手段,對得到的模式進行數(shù)據(jù)分析,得出有意義的結(jié)論。常用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù)來分析大量的數(shù)據(jù),
7、可以挖掘出商品的消費規(guī)律與客戶的訪問模式,幫助企業(yè)制定有效的營銷策略,充分發(fā)揮企業(yè)的獨特優(yōu)勢,促進管理創(chuàng)新和技術(shù)創(chuàng)新,提高企業(yè)競爭力。在大多數(shù)的商業(yè)領(lǐng)域中,業(yè)務(wù)發(fā)展的主要指標(biāo)包括新客戶的獲取能力。企業(yè)的市場部門人員可以采用傳統(tǒng)的方法來發(fā)展新客戶,如開展廣告活動;也可以根據(jù)所了解的目標(biāo)客戶群,將他們分類,然后進行直銷活動。但是,隨客戶數(shù)量不斷增長和每位客戶的細節(jié)因素增多,要得出選擇出相關(guān)的人口調(diào)查屬性的篩選條件也會變得很困難。而數(shù)據(jù)挖掘技術(shù)可以幫助完成潛在客戶的篩選工作。算法能夠以圖形化的形式表現(xiàn)挖掘的結(jié)果,從而方便于使用者快速做出決定或預(yù)測。決策樹實際在各行業(yè)應(yīng)用非常廣泛,如客戶資源管理(CR
8、M)系統(tǒng)等。4挖掘結(jié)果的表述和評價這個階段分為結(jié)果表述和結(jié)果評價兩個步驟。將挖掘出的結(jié)果以一種易于理解的形表示出來,并進行分析和評價。具體包括消除無關(guān)的、多余的模式,過濾出要呈現(xiàn)給用的信息。利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示,轉(zhuǎn)化為用戶以理解的語言。成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)可以把原始數(shù)據(jù)轉(zhuǎn)換為更簡潔、更易理解、可確定義關(guān)系的形式,此外還可以解決發(fā)現(xiàn)的結(jié)果與以前知識的潛在沖突及利用統(tǒng)計方法模式進行評價,從而決定是否需要重復(fù)以前的操作,以得到最優(yōu)、最適合的模式。我們可將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去,實現(xiàn)知識的同化。綜上所述,數(shù)據(jù)挖掘是一個多種專家合作的過程,
9、也是一個在資金上和技術(shù)上高投的過程,這一過程要反復(fù)進行。在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)化問的解決方案。2. 數(shù)據(jù)挖掘的具體應(yīng)用場景和意義2.1決策樹分類算法2.1.1C4.5算法簡介數(shù)據(jù)挖掘中最常用、最經(jīng)典的分類算法,是決策樹(Decision Tree)用于分類和預(yù)測的主要技術(shù),它著眼于從一組無規(guī)則的事例推理出決策樹表示形式的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進行屬性值的比較,并根據(jù)不同屬性判斷從該節(jié)點向下分支,在決策樹的葉節(jié)點得到結(jié)論。因此,從根節(jié)點到葉節(jié)點就對應(yīng)著一條合理規(guī)則,整棵樹就對應(yīng)著一組表達式規(guī)則?;跊Q策樹算法的一個最大的優(yōu)點是它在學(xué)習(xí)過程中不需
10、要使用者了解很多背景知識,只要訓(xùn)練事例能夠用屬性即結(jié)論的方式表達出來,就能使用該算法進行學(xué)習(xí)。決策樹技術(shù)是一種對海量數(shù)據(jù)集進行分類的非常有效的方法。通過構(gòu)造決策樹模型,提取有價值的分類規(guī)則,幫助決策者做出準(zhǔn)確的預(yù)測已經(jīng)應(yīng)用在很多領(lǐng)域。決策樹算法是一種逼近離散函數(shù)值的方法。它是一種典型的分類方法,首先對數(shù)據(jù)進行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后對新數(shù)據(jù)進行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。決策樹的典型算法有ID3、C4.5和CART等,基于決策樹的分類模型有如下幾個特點:(1)決策樹方法結(jié)構(gòu)簡單,便于理解;(2)決策樹模型效率高,對訓(xùn)練集較大的情況較為適合;(3
11、)決策樹方法通常不需要接受訓(xùn)練集數(shù)據(jù)外的知識;(4)決策樹方法具有較高的分類精確度。本論文主要通過分析C4.5算法來研究決策樹算法。在決策樹算法中,最常用的、最經(jīng)典的是C4.5算法,它在決策樹算法中的主要優(yōu)點是:形象直觀。該算法通過兩個步驟來建立決策樹:樹的生成階段和樹的剪枝階段。該算法主要基于信息論中的熵理論。熵在系統(tǒng)學(xué)上是表示事物的無序度,是系統(tǒng)混亂程度的統(tǒng)計量。C4.5基于生成的決策樹中節(jié)點所含的信息熵最小的原理。它把信息增益率作為屬性選擇的度量標(biāo)準(zhǔn),可以得出很容易理解的決策規(guī)則。C4.5算法的優(yōu)點是產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。缺點就是在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序
12、掃描和排序,因而導(dǎo)致算法的低效。此外,C4.5算法只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時,程序無法運行。2.1.2 C4.5算法的實現(xiàn)假設(shè)用S代表當(dāng)前樣本集,當(dāng)前候選屬性集用A表示,則C4.5算法C4.5formtree(S,A)的偽代碼如下。算法:Generate_decision_tree由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵決策樹輸入:訓(xùn)練樣本samples;候選屬性的集合attributelist輸出:一棵決策樹(1) 創(chuàng)建根節(jié)點N;(2) IF S都屬于同一類C,則返回N為葉節(jié)點,標(biāo)記為類C;(3) IF attributelist為空 OR S中所剩的樣本數(shù)少于某給定值則返
13、回N為葉節(jié)點,標(biāo)記N為S中出現(xiàn)最多的類;(4) FOR each attributelist中的屬性計算信息增益率information gain ratio;(5) N的測試屬性test.attribute = attributelist具有最高信息增益率的屬性;(6) IF測試屬性為連續(xù)型則找到該屬性的分割閾值;(7) For each由節(jié)點N一個新的葉子節(jié)點If該葉子節(jié)點對應(yīng)的樣本子集S為空則分裂此葉子節(jié)點生成新葉節(jié)點,將其標(biāo)記為S中出現(xiàn)最多的類Else在該葉子節(jié)點上執(zhí)行C4.5formtree(S,S.attributelist),繼續(xù)對它分裂;(8) 計算每個節(jié)點的分類錯誤,進行剪枝
14、。2.1.3 C4.5算法的基本原理設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標(biāo)號Ci(I = 1,m)具有m個不同的值,設(shè)si是類Ci中的樣本數(shù)。對一個給定的樣本分類所需的期望信息由下式給出:I(s1,sm) = i=1mpilog2(Pi)(5)其中,pi是任意樣本屬于Ci的概率,并用si/s來估計。設(shè)屬性A具有v個子集s1,sv;其中,sj包含S中這樣一些樣本,它們在A上具有值aj。如果A選作測試屬性,則這些子集對應(yīng)于由包含集合S的節(jié)點生長出來的分枝。設(shè)sij是子集sj中類Ci的樣本數(shù)。根據(jù)由A劃分成子集的熵由下式給出:E(A) = i=1vsij+SmjSI(sij,smj) (6) 其中,項s
15、ij+SmjS充當(dāng)?shù)趈個子集的權(quán),并且等于子集(即A值為aj)中的樣本個數(shù)除以s中的樣本總數(shù)。熵值越小,子集劃分的純度越高。對于給定的子集sj有:I(S1j,S2j,Smj) = -i=1mpijlog2Pij (7)其中,pij=SijSj是sj中的樣本屬于類Ci的概率。在A上分枝將獲得的編碼信息是:Gain(A) = I(s1,sm) E(A) (8)以上和ID3算法的基本原理相同,而C4.5所不同的是在后面使用信息增益比例來取代信息增益。SplitInfo(S,A) = -i=1c|Si|S|Log2|Si|S| (9)其中,s1到sc是c個值的屬性A分割S而形成的c個樣本子集。這時,在
16、屬性A上所得到的信息增益比為:GainRatio(S,A) =Gain(S,A)SplitInfo(S,A) (10)C4.5算法計算每個屬性的信息增益比。具有最高信息增益比的屬性選作給定集合S的測試屬性。創(chuàng)建一個節(jié)點,并以該屬性標(biāo)記,對屬性的每個值創(chuàng)建分枝,并據(jù)此劃分樣本。當(dāng)然C4.5算法本身也存在一些不足之處,如處理連續(xù)屬性比較耗時、計算信息增益率的速度還有待提高等,2.1.4實例:本論文以C4.5算法計算pa車行的各項指標(biāo)對其影響C4.5可以看出不同層級分類,但無法發(fā)現(xiàn)其中關(guān)鍵因素所在點,也即無法處理模糊數(shù)據(jù)的聚類分組,因此我們引入k-means算法。2.2k-means算法2.2.1k
17、-means算法簡介k-means算法接受參數(shù)k;然后將事先輸入的n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個 “中心對象”(引力中心)來進行計算的。假設(shè)要把樣本集分為c個類別,算法描述如下:(1)適當(dāng)選擇c個類的初始中心;(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。2.2.2 K-means原
18、理K-means面對的第一個問題是如何保證收斂,前面的算法中強調(diào)結(jié)束條件就是收斂,可以證明的是K-means完全可以保證收斂性。下面我們定性的描述一下收斂性,我們定義畸變函數(shù)(distortion function)如下:J函數(shù)表示每個樣本點到其質(zhì)心的距離平方和。K-means是要將J調(diào)整到最小。假設(shè)當(dāng)前J沒有達到最小值,那么首先可以固定每個類的質(zhì)心,調(diào)整每個樣例的所屬的類別來讓J函數(shù)減少,同樣,固定,調(diào)整每個類的質(zhì)心也可以使J減小。這兩個過程就是內(nèi)循環(huán)中使J單調(diào)遞減的過程。當(dāng)J遞減到最小時,和c也同時收斂。2.2.3實例:本論文以k-means算法計算pa車行的各項指標(biāo)聚類結(jié)果k-means聚類分析可以發(fā)現(xiàn)不同關(guān)鍵點并找出其關(guān)聯(lián)性,但對于目標(biāo)函數(shù)的實現(xiàn)無法尋找具體的線性關(guān)系,因此我們引入貝葉斯分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 珠寶產(chǎn)業(yè)鏈優(yōu)化升級-深度研究
- 監(jiān)管政策對行業(yè)影響研究-深度研究
- 空氣凈化設(shè)備市場趨勢分析-深度研究
- GB/T 28807.3-2025軌道交通機車車輛和列車檢測系統(tǒng)的兼容性第3部分:與計軸器的兼容性
- 個人購銷農(nóng)機合同范本
- 辦證合同范本模板
- 2025年黑龍江貨運從業(yè)資格證模擬考試題目
- 2025年固原貨運從業(yè)資格證考試試題
- 農(nóng)業(yè)招標(biāo)合同范本
- 供水項目施工合同范本
- 2025人教版一年級下冊數(shù)學(xué)教學(xué)進度表
- DeepSeek教案寫作指令
- 土力學(xué)與地基基礎(chǔ)(課件)
- 施耐德公司品牌戰(zhàn)略
- 三方聯(lián)測測量記錄表
- 啦啦操社團教學(xué)計劃(共3頁)
- 塑膠原料檢驗規(guī)范
- 汪小蘭有機化學(xué)課件(第四版)6
- 建筑公司內(nèi)部管理流程-課件PPT
- 學(xué)習(xí)美術(shù)新課標(biāo)的心得體會
- 建筑施工企業(yè)行政管理存在的問題與對策研究
評論
0/150
提交評論