數(shù)據(jù)挖掘算法綜述_第1頁
數(shù)據(jù)挖掘算法綜述_第2頁
數(shù)據(jù)挖掘算法綜述_第3頁
數(shù)據(jù)挖掘算法綜述_第4頁
數(shù)據(jù)挖掘算法綜述_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘算法綜述摘要:數(shù)據(jù)挖掘技術(shù)在當(dāng)前研究領(lǐng)域中算是比較熱門的一項(xiàng)技術(shù),從國外發(fā)展到中國,具有廣闊的商業(yè)應(yīng)用前景。本文主要概述了當(dāng)前數(shù)據(jù)挖掘的七大方法(分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘)和十大經(jīng)典算法(C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,CART),以及數(shù)據(jù)挖掘的發(fā)展趨勢。關(guān)鍵詞:數(shù)據(jù)挖掘,常用方法,經(jīng)典算法1 引言在當(dāng)今信息爆炸的時代,伴隨著社會事件和自然活動的大量產(chǎn)生(數(shù)據(jù)的海量增長),人類正面臨著“被信息所淹沒,但卻饑渴于知識”的困境。隨著計算機(jī)軟硬件技術(shù)的快速發(fā)展

2、、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫技術(shù)的日臻完善,人類積累的數(shù)據(jù)量正以指數(shù)方式增長 。面對海量的、雜亂無序的數(shù)據(jù),人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機(jī)結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真,提取有用的信息,并將其轉(zhuǎn)換成知識。 數(shù)據(jù)挖掘是一個多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、模式識別、模糊數(shù)學(xué)和數(shù)理統(tǒng)計等最新技術(shù)的研究成果,可以用來支持商業(yè)智能應(yīng)用和決策分析。例如顧客細(xì)分、交叉銷售、欺詐檢測、顧客流失分析、商品銷量預(yù)測等等,目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對于各行各業(yè)來

3、說,都具有重要的現(xiàn)實(shí)意義。2 數(shù)據(jù)挖掘的概念2.1 什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining),也叫數(shù)據(jù)開采,數(shù)據(jù)采掘等,是按照既定的業(yè)務(wù)目標(biāo)從海量數(shù)據(jù)中提取出潛在、有效并能被人理解的模式的高級處理過程在較淺的層次上,它利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢、檢索及報表功能,與多維分析、統(tǒng)計分析方法相結(jié)合,進(jìn)行聯(lián)機(jī)分析處理(O乙心),從而得出可供決策參考的統(tǒng)計分析數(shù)據(jù)在深層次上,則從數(shù)據(jù)庫中發(fā)現(xiàn)前所未有的、隱含的知識OLAF的出現(xiàn)早于數(shù)據(jù)挖掘,它們都是從數(shù)據(jù)庫中抽取有用信息的方法,就決策支持的需要而言兩者是相輔相成的。 OLAP可以看作一種廣義的數(shù)據(jù)挖掘方法,它旨在簡化和支持聯(lián)機(jī)分析,而數(shù)據(jù)挖掘的

4、目的是便這一過程盡可能自動化。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫類型主要有:關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、演繹數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、主動數(shù)據(jù)庫、空間數(shù)據(jù)庫、遺留數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、文本型、Internet信息庫以及新興的數(shù)據(jù)倉庫。而挖掘后獲得的知識包括關(guān)聯(lián)規(guī)則、特征規(guī)則、區(qū)分規(guī)則、分類規(guī)則、總結(jié)規(guī)則、偏差規(guī)則、聚類規(guī)則、模式分析及趨勢分析等。2.2 數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):1. 處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級,甚至更大。2. 查詢一般是決策制定者(用戶)提出的即時隨機(jī)查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的東西。3. 在一些應(yīng)用

5、(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時提供決策支持。4. 數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律因此,所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達(dá)到某一臨界值時,即認(rèn)為有效因此,利用數(shù)據(jù)挖掘技術(shù)可能會發(fā)現(xiàn)大量的規(guī)則。5. 數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫中加入新數(shù)據(jù),需要隨時對其進(jìn)行更新。2.3 數(shù)據(jù)挖掘的應(yīng)用基礎(chǔ) 數(shù)據(jù)挖掘是一種獲得知識的技術(shù)。它的基礎(chǔ)是數(shù)據(jù),手段是各種算法,目的是獲得數(shù)據(jù)中蘊(yùn)含的知識。發(fā)現(xiàn)知識并非易事,人們總是受到各種各樣的局限,目前數(shù)據(jù)缺乏仍然是發(fā)現(xiàn)知識的瓶頸。隨著數(shù)據(jù)采集和存儲技術(shù)的發(fā)

6、展,對大量數(shù)據(jù)的分析和使用成為一個新的難題。對數(shù)據(jù)挖掘應(yīng)用而言,知識的發(fā)現(xiàn)存在兩個極限,一個是數(shù)據(jù)極限,即數(shù)據(jù)要么非常龐大,要么數(shù)據(jù)量足夠小,或者數(shù)據(jù)量小但維度非常大;另一個是算法極限,即針對很多數(shù)據(jù)(不同的性質(zhì),不同的形式)和很多需求,目前所有的算法尚不能很好地解決某些問題。因此,數(shù)據(jù)挖掘應(yīng)用具有三個要素:數(shù)據(jù),算法,知識。 數(shù)據(jù)挖掘應(yīng)用是一個多層次、流程化的工程任務(wù),開展數(shù)據(jù)挖掘應(yīng)用也需要從每個層面加以處理,才能保證整個數(shù)據(jù)挖掘的成功運(yùn)行。數(shù)據(jù)挖掘 應(yīng)用從上到下可分為三個大層面,具體結(jié)構(gòu)如下圖1所示:圖1數(shù)據(jù)挖掘應(yīng)用的三大層面應(yīng)用層:把數(shù)據(jù)挖掘結(jié)果應(yīng)用于實(shí)踐。算法層:提供算法、引擎和界面。

7、數(shù)據(jù)層:提供數(shù)據(jù)源、數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備。3 數(shù)據(jù)挖掘的常用方法 數(shù)據(jù)挖掘從一個新的視角將數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識別與人工智能等領(lǐng)域有機(jī)結(jié)合起來,它能組合各個領(lǐng)域的優(yōu)點(diǎn),從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。1. 分類分類就是應(yīng)用已知的一些屬性數(shù)據(jù)去推測一個未知的離散型屬性數(shù)據(jù),而這個被推測的屬性數(shù)據(jù)的可取值是預(yù)先定義的。要很好地實(shí)現(xiàn)這種推測,就需要事先在已知的一些屬性和未知的離散型屬性之間建立一個

8、有效的模型,即分類模型。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。2. 回歸分析 回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項(xiàng)映射到一個實(shí)值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場營銷的各個方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。3

9、. 聚類 聚類是將數(shù)據(jù)劃分為簇的過程,根據(jù)數(shù)據(jù)本身的自然分布性質(zhì),數(shù)據(jù)變量之間存在的程度不同的相似性(親屬關(guān)系),按一定的準(zhǔn)則將最相似的數(shù)據(jù)聚集成簇。使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。4. 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)

10、品定位、定價與定制客戶群,客戶尋求、細(xì)分與保持,市場營銷與推銷,營銷風(fēng)險評估和詐騙預(yù)測等決策支持提供參考依據(jù)。5. 特征分析 特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。6. 變化和偏差分析 偏差包括很大一類潛在有趣的知識,如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)

11、、分析、識別、評價和預(yù)警等方面。7. Web頁挖掘 隨著Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web 的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息,并根據(jù)分析結(jié)果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機(jī)的先兆,對這些信息進(jìn)行分析和處理,以便識別、分析、評價和管理危機(jī)。數(shù)據(jù)挖掘是一種決策支持過程,它通過高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策

12、略,減少風(fēng)險,做出正確的決策。這對于一個企業(yè)的發(fā)展十分重要。4 數(shù)據(jù)挖掘的算法1. C4.5算法C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對ID3算法進(jìn)行了改進(jìn):1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;2) 在樹構(gòu)造過程中進(jìn)行剪枝;3) 能夠完成對連續(xù)屬性的離散化處理;4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。2. K-Means算法k

13、-means算法是一個聚類算法。給定一個含有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,以及要生成的簇的數(shù)目K。每一個分組就代表一個聚類,KN。而N得數(shù)量不能過少,否則聚類的效果就會大打折扣,一般實(shí)踐中N最好大于K10.K個分組滿足每一個分組至少包含一條數(shù)據(jù)記錄,每一個數(shù)據(jù)記錄屬于且僅屬于一個分組。對于給定的K,算法首先得任務(wù)就是將數(shù)據(jù)構(gòu)建成K個劃分,以后通過反復(fù)迭代以改變分組的重定位技術(shù),使得每一次改進(jìn)之后的分組方案都較前一次的好。一個好的劃分準(zhǔn)則是同一簇中數(shù)據(jù)點(diǎn)盡可能“相似”,不同數(shù)據(jù)點(diǎn)中的數(shù)據(jù)盡可能“相異”。3. 支持向量機(jī)支持向量機(jī)簡稱SVM,它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中。支

14、持向量機(jī)將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面,分隔超平面使兩個平行超平面的距離最大化。平行超平面間的距離或差距越大,分類器的總誤差越小。支持向量機(jī)可以很好地解決小樣本、非線性及高維數(shù)據(jù)識別分類問題,在實(shí)踐應(yīng)用中與其他算法比較時,總能表現(xiàn)出表現(xiàn)出更好的性能和效果。4.Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori算法基于先驗(yàn)原理,它反映了子集與超集之間的關(guān)系:即頻繁項(xiàng)集的所有非空子集都必須是頻繁的,非頻繁項(xiàng)集的所有超集都必須是非頻繁的。如果項(xiàng)集I不滿最小支持度閾值

15、s,則I不是頻繁的,即P(I)s。如果A添加到I,則結(jié)果項(xiàng)集()不可能比I更頻繁出現(xiàn)。因此,(I,A)也不是頻繁的,即P()s。因此,Apriori算法的性質(zhì)主要是用于搜索頻繁項(xiàng)集的時候?qū)蜻x式的篩選過程。利用Apriori性質(zhì),能夠比較好的避免盲目的搜索,提高頻繁項(xiàng)集的查找效率。5. 最大期望(EM)算法在統(tǒng)計計算中,最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量。最大期望算法經(jīng)過兩個步驟交替進(jìn)行計算,第一步是計算期望(E),利用對隱藏變量的現(xiàn)有估計值,計算其最大似然估計值;第二步是最大化(M),最大化在 E 步上求得的最大似然值來計算參數(shù)

16、的值。M 步上找到的參數(shù)估計值被用于下一個 E 步計算中,這個過程不斷交替進(jìn)行。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計算機(jī)視覺的數(shù)據(jù)集聚領(lǐng)域。6.PageRank算法如果網(wǎng)頁T存在一個指向網(wǎng)頁A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值為:PR(T)/C(T)。其中PR(T)為T的PageRank值,C(T)為T的出鏈數(shù),則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。算法的優(yōu)點(diǎn)是該算法是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應(yīng)時間。算法的缺點(diǎn)是人們的查詢具有主

17、題特征PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很嚴(yán)重的對新網(wǎng)頁的歧視。7.AdaBoost算法AdaBoostt是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強(qiáng)的最終分類器 (強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán) 值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。8.KNN算法K最近鄰(KNN)分類算法,是一個理論上比

18、較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。9.樸素貝葉斯分類算法 樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,其模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,該模型與其他分類方法相比具有最小的誤差率,但是實(shí)際上并非總是如此。這是因?yàn)樵撃P图僭O(shè)屬性之間相互獨(dú)立,這個假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給模型的正確分類帶來了一定影響。樸素貝葉斯分類算法思想是,對于給定的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個類別出想

19、的概率,哪個概率最大就認(rèn)為此待分類項(xiàng)屬于哪個類別。10.CART算法 分類與回歸樹( CART)也屬于一種決策樹。在分類樹下面有兩個關(guān)鍵的思想,第一個是關(guān)于遞歸地劃分自變量空間的想法;第二個想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。分類回歸樹是一棵二叉樹,且每個非葉子節(jié)點(diǎn)都有兩個孩子,所以對于第一棵子樹其葉子節(jié)點(diǎn)數(shù)比非葉子節(jié)點(diǎn)數(shù)多1。CART中用于選擇變量的不純性度量是Gini指數(shù);如果目標(biāo)變量是標(biāo)稱的,并且是具有兩個以上的類別,則CART可能考慮將目標(biāo)類別合并成兩個超類別(雙化);如果目標(biāo)變量是連續(xù)的,則CART算法找出一組基于樹的回歸方程來預(yù)測目標(biāo)變量。 5 數(shù)據(jù)挖掘發(fā)展趨勢現(xiàn)今,數(shù)據(jù)挖掘的發(fā)展趨勢主要在

20、以下幾個方面:數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化:語言的標(biāo)準(zhǔn)化對于數(shù)據(jù)挖掘系統(tǒng)的開發(fā)和數(shù)據(jù)挖掘技術(shù)的普遍使用是至關(guān)重要的。其可改進(jìn)多個數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)其在企業(yè)和社會中的使用。數(shù)據(jù)挖掘的可視化:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)??梢栽诎l(fā)現(xiàn)知識的過程中進(jìn)行很好的人機(jī)交互。數(shù)據(jù)的可視化起到了推動人們主動進(jìn)行知識發(fā)現(xiàn)的作用。分布式數(shù)據(jù)挖掘:分布式技術(shù)的到來為日益增長的數(shù)據(jù)提供了有力支持,而分布式數(shù)據(jù)挖掘中將分布式技術(shù)和數(shù)據(jù)挖掘技術(shù)的結(jié)合,也使對分離數(shù)據(jù)庫的可協(xié)作數(shù)據(jù)挖掘工作開發(fā)了一個重要領(lǐng)域。數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)的集成:數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫已經(jīng)成為信息處理系統(tǒng)的

21、主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)的緊耦合。挖掘復(fù)雜數(shù)據(jù)類型的新方法:挖掘復(fù)雜數(shù)據(jù)類型是數(shù)據(jù)挖掘的重要前沿研究課題,也有人稱復(fù)雜類型的數(shù)據(jù)挖掘是“下一代數(shù)據(jù)挖掘”。伴隨著數(shù)據(jù)的增多,需要處理的數(shù)據(jù)類型也變得越來越復(fù)雜,例如數(shù)據(jù)流、時間序列、時間空間、多媒體和文本數(shù)據(jù),雖然現(xiàn)在在很多復(fù)雜數(shù)據(jù)類型的挖掘方面取得了一些進(jìn)展,但是在應(yīng)用需求和可用技術(shù)之間仍然存在較大的距離。數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全:隨著信息技術(shù)的發(fā)展,越來越多的數(shù)據(jù)涌入了網(wǎng)絡(luò),其中包括大量電子形式的個人信息,而挖掘技術(shù)的發(fā)展和科技的更新,在相反的一面上也使大量的個人信息受到了威脅,因此保護(hù)隱私的數(shù)據(jù)挖掘方法愈顯重要。參考文獻(xiàn)1 張銀奎,廖麗,宋俊等譯.數(shù)據(jù)挖掘原理.機(jī)械工業(yè)出版社,20032 楊杰,姚莉秀.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.上海交通大學(xué)出版社,20113 閃四清,陳茵,程雁等譯.數(shù)據(jù)挖掘概念、模型、方法和算法.清華大學(xué)出版社.20034 洪松林,莊映輝,李堃.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐.機(jī)械工業(yè)出版社.20145 呂紀(jì)榮,王士虎.數(shù)據(jù)中聚類算法研究綜述.理論廣角.2014.1(下)6 胡慶林,葉念渝,朱明富.數(shù)據(jù)挖掘中聚類算法的綜述.計算機(jī)與數(shù)字工程.2007第2期7 應(yīng)劭霖.數(shù)據(jù)挖掘中的聚類算綜述.2014.68 方媛,車啟鳳.數(shù)據(jù)挖掘之聚類算法綜述.河西學(xué)院學(xué)報.2012第5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論