常見數(shù)據(jù)挖掘分析方法介紹

上傳人：1*** IP屬地：廣東上傳時間：2024-12-14 格式：DOC 頁數(shù)：7 大?。?50KB 積分：11.88 舉報 版權申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

常見數(shù)據(jù)挖掘分析方法介紹本文標簽：數(shù)據(jù)分析,數(shù)據(jù)挖掘下面介紹十種\o"查看數(shù)據(jù)挖掘中的全部文章"數(shù)據(jù)挖掘（DataMining）的分析方法，以便于大家對模型的初步了解，這些都是日常挖掘中經(jīng)常遇到的算法，希望對大家有用！（甚至有\(zhòng)o"查看數(shù)據(jù)挖掘中的全部文章"數(shù)據(jù)挖掘公司，用其中的一種算法就能獨步天下）1、基于歷史的MBR分析（Memory-BasedReasoning；MBR）基于歷史的MBR分析方法最主要的概念是用已知的案例（case）來預測未來案例的一些屬性（attribute），通常找尋最相似的案例來做比較。記憶基礎推理法中有兩個主要的要素，分別為距離函數(shù)（distancefunction）與結合函數(shù)（combinationfunction）。距離函數(shù)的用意在找出最相似的案例；結合函數(shù)則將相似案例的屬性結合起來，以供預測之用。記憶基礎推理法的優(yōu)點是它容許各種型態(tài)的數(shù)據(jù)，這些數(shù)據(jù)不需服從某些假設。另一個優(yōu)點是其具備學習能力，它能藉由舊案例的學習來獲取關于新案例的知識。較令人詬病的是它需要大量的歷史數(shù)據(jù)，有足夠的歷史數(shù)據(jù)方能做良好的預測。此外記憶基礎推理法在處理上亦較為費時，不易發(fā)現(xiàn)最佳的距離函數(shù)與結合函數(shù)。其可應用的范圍包括欺騙行為的偵測、客戶反應預測、醫(yī)學診療、反應的歸類等方面。2、購物籃分析（MarketBasketAnalysis）購物籃分析最主要的目的在于找出什么樣的東西應該放在一起？商業(yè)上的應用在藉由顧客的購買行為來了解是什么樣的顧客以及這些顧客為什么買這些產(chǎn)品，找出相關的聯(lián)想（association）規(guī)則，企業(yè)藉由這些規(guī)則的挖掘獲得利益與建立競爭優(yōu)勢。舉例來說，零售店可藉由此分析改變置物架上的商品排列或是設計吸引客戶的商業(yè)套餐等等。購物籃分析基本運作過程包含下列三點：（1）選擇正確的品項：這里所指的正確乃是針對企業(yè)體而言，必須要在數(shù)以百計、千計品項中選擇出真正有用的品項出來。（2）經(jīng)由對共同發(fā)生矩陣（co-occurrencematrix）的探討挖掘出聯(lián)想規(guī)則。（3）克服實際上的限制：所選擇的品項愈多，計算所耗費的資源與時間愈久（呈現(xiàn)指數(shù)遞增），此時必須運用一些技術以降低資源與時間的損耗。購物籃分析技術可以應用在下列問題上：（1）針對信用卡購物，能夠預測未來顧客可能購買什么。（2）對于電信與金融服務業(yè)而言，經(jīng)由購物籃分析能夠設計不同的服務組合以擴大利潤。（3）保險業(yè)能藉由購物籃分析偵測出可能不尋常的投保組合并作預防。（4）對病人而言，在療程的組合上，購物籃分析能作為是否這些療程組合會導致并發(fā)癥的判斷依據(jù)。3、決策樹（DecisionTrees）決策樹在解決歸類與預測上有著極強的能力，它以法則的方式表達，而這些法則則以一連串的問題表示出來，經(jīng)由不斷詢問問題最終能導出所需的結果。典型的決策樹頂端是一個樹根，底部有許多的樹葉，它將紀錄分解成不同的子集，每個子集中的字段可能都包含一個簡單的法則。此外，決策樹可能有著不同的外型，例如二元樹、三元樹或混和的決策樹型態(tài)。4、遺傳算法（GeneticAlgorithm）遺傳算法學習細胞演化的過程，細胞間可經(jīng)由不斷的選擇、復制、交配、突變產(chǎn)生更佳的新細胞?；蛩惴ǖ倪\作方式也很類似，它必須預先建立好一個模式，再經(jīng)由一連串類似產(chǎn)生新細胞過程的運作，利用適合函數(shù)（fitnessfunction）決定所產(chǎn)生的后代是否與這個模式吻合，最后僅有最吻合的結果能夠存活，這個程序一直運作直到此函數(shù)收斂到最佳解?；蛩惴ㄔ谌杭╟luster）問題上有不錯的表現(xiàn)，一般可用來輔助記憶基礎推理法與類神經(jīng)網(wǎng)絡的應用。5、聚類分析（ClusterDetection）這個技術涵蓋范圍相當廣泛，包含基因算法、類神經(jīng)網(wǎng)絡、統(tǒng)計學中的群集分析都有這個功能。它的目標為找出數(shù)據(jù)中以前未知的相似群體，在許許多多的分析中，剛開始都運用到群集偵測技術，以作為研究的開端。6、連接分析（LinkAnalysis）連接分析是以數(shù)學中之圖形理論（graphtheory）為基礎，藉由記錄之間的關系發(fā)展出一個模式，它是以關系為主體，由人與人、物與物或是人與物的關系發(fā)展出相當多的應用。例如電信服務業(yè)可藉連結分析收集到顧客使用電話的時間與頻率，進而推斷顧客使用偏好為何，提出有利于公司的方案。除了電信業(yè)之外，愈來愈多的營銷業(yè)者亦利用連結分析做有利于企業(yè)的研究。7、OLAP分析（On-LineAnalyticProcessing；OLAP）嚴格說起來，OLAP分析并不算特別的一個數(shù)據(jù)挖掘技術，但是透過在線分析處理工具，使用者能更清楚的了解數(shù)據(jù)所隱藏的潛在意涵。如同一些視覺處理技術一般，透過圖表或圖形等方式顯現(xiàn)，對一般人而言，感覺會更友善。這樣的工具亦能輔助將數(shù)據(jù)轉變成信息的目標。8、神經(jīng)網(wǎng)絡（NeuralNetworks）神經(jīng)網(wǎng)絡是以重復學習的方法，將一串例子交與學習，使其歸納出一足以區(qū)分的樣式。若面對新的例證，神經(jīng)網(wǎng)絡即可根據(jù)其過去學習的成果歸納后，推導出新的結果，乃屬于機器學習的一種。數(shù)據(jù)挖掘的相關問題也可采類神經(jīng)學習的方式，其學習效果十分正確并可做預測功能。9、判別分析（DiscriminantAnalysis）當所遭遇問題它的因變量為定性（categorical），而自變量（預測變量）為定量（metric）時，判別分析為一非常適當之技術，通常應用在解決分類的問題上面。若因變量由兩個群體所構成，稱之為雙群體—判別分析（Two-GroupDiscriminantAnalysis）；若由多個群體構成，則稱之為多元判別分析（MultipleDiscriminantAnalysis；MDA）。（1）找出預測變量的線性組合，使組間變異相對于組內(nèi)變異的比值為最大，而每一個線性組合與先前已經(jīng)獲得的線性組合均不相關。（2）檢定各組的重心是否有差異。（3）找出哪些預測變量具有最大的區(qū)別能力。（4）根據(jù)新受試者的預測變量數(shù)值，將該受試者指派到某一群體。10、羅吉斯回歸分析（LogisticAnalysis）當判別分析中群體不符合正態(tài)分布假設時，羅吉斯回歸分析是一

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

常見數(shù)據(jù)挖掘分析方法介紹

文檔簡介

溫馨提示

最新文檔

評論

常見數(shù)據(jù)挖掘分析方法介紹

文檔簡介

溫馨提示

最新文檔

評論

相關文檔