讀書報告數(shù)據(jù)挖掘_第1頁
讀書報告數(shù)據(jù)挖掘_第2頁
讀書報告數(shù)據(jù)挖掘_第3頁
讀書報告數(shù)據(jù)挖掘_第4頁
讀書報告數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

讀書報告數(shù)據(jù)挖掘可以看成是信息技術(shù)自然化的結(jié)果。數(shù)據(jù)挖掘(datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledge-discoveryindatabases,簡稱:kdd)中的一個步驟。數(shù)據(jù)挖掘普通是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性(屬于associationruleleaming)的信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計學的抽樣、估計和假設(shè)檢驗,⑵人工智能、模式識別和機器學習的搜索算法、建模技術(shù)和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特殊地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面往往是重要的。分布式技術(shù)也能匡助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關(guān)重耍。 數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,匡助決策者調(diào)整市場策略,減少風險,做出正確的決策。知識發(fā)現(xiàn)過程由以下三個階段組成:(1)數(shù)據(jù)準備(2)數(shù)據(jù)挖掘(3)結(jié)果表達和解釋。數(shù)據(jù)挖掘可以與用戶或者知識庫交互。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。數(shù)據(jù)挖掘完整的步驟如下:①理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)o②獲取相關(guān)知識與技術(shù)(acquisition)。③整合與檢查數(shù)據(jù)(integrationandchecking)o④去除錯誤或者不一致的數(shù)據(jù)(datacleaning)o⑤建立模型和假設(shè)(modelandhypothesisdevelopment)o⑥實際數(shù)據(jù)挖掘工作(datamining)。⑦測試和驗證挖掘結(jié)果(testingandverification)。⑧解釋和應(yīng)用(interpretationanduse)。數(shù)據(jù)挖掘應(yīng)用到生活的各個方面,數(shù)據(jù)挖掘的十大經(jīng)典算法也隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展而不斷的改進和完善,其中apriori算法是十大經(jīng)典算法中最為經(jīng)典的一種算法,該算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個領(lǐng)域。關(guān)聯(lián)規(guī)則的目的在于在一個數(shù)據(jù)集中找出項之間的關(guān)系,也稱之為購物藍分析(marketbasketanalysis)o例如,購買鞋的顧客,有10%的可能也會買襪子,60%的買面包的顧客,也會買牛奶。這其中最有名的例子就是尿布和啤酒的故事了。關(guān)聯(lián)規(guī)則的應(yīng)用場合。在商業(yè)銷售上,關(guān)聯(lián)規(guī)則可用于交叉銷售,以得到更大的收入;在保險業(yè)務(wù)方面,如果浮現(xiàn)了不常見的索賠要求組合,則可能為欺詐,需要作進一步的調(diào)查。在醫(yī)療方面,可找出可能的治療組合:在銀行方面,對顧客進行分析,可以推薦感興趣的服務(wù)等等。apriorialgorithm是關(guān)聯(lián)規(guī)則里一項基本算法。關(guān)聯(lián)算法的基本思想是:首先找出所有的頻集,這些項集浮現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部惟獨一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那末惟獨那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。apriori算法的兩大缺點:可能產(chǎn)生大量的候選集,以及可能需要重復掃描數(shù)據(jù)庫。篇二:數(shù)據(jù)挖掘讀書報告讀書報告數(shù)據(jù)挖掘可以看成是信息技術(shù)自然化的結(jié)果。數(shù)據(jù)挖掘(datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledge-discoveryindatabases,簡稱:kdd)中的一個步驟。數(shù)據(jù)挖掘普通是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性(屬于associationrulelearning)的信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計學的抽樣、估計和假設(shè)檢驗,⑵人工智能、模式識別和機器學習的搜索算法、建模技術(shù)和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特殊地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面往往是重要的。分布式技術(shù)也能匡助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。 數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,匡助決策者調(diào)整市場策略,減少風險,做出正確的決策。知識發(fā)現(xiàn)過程由以下三個階段組成:(1)數(shù)據(jù)準備(2)數(shù)據(jù)挖掘(3)結(jié)果表達和解釋。數(shù)據(jù)挖掘可以與用戶或者知識庫交互。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。數(shù)據(jù)挖掘完整的步驟如下:①理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)o②獲取相關(guān)知識與技術(shù)(acquisition)。③整合與檢查數(shù)據(jù)(integrationandchecking)o④去除錯誤或者不一致的數(shù)據(jù)(datacleaning)o⑤建立模型和假設(shè)(modelandhypothesisdevelopment)o⑥實際數(shù)據(jù)挖掘工作(datamining)。⑦測試和驗證挖掘結(jié)果(testingandverification)。⑧解釋和應(yīng)用(interpretationanduse)。數(shù)據(jù)挖掘應(yīng)用到生活的各個方面,數(shù)據(jù)挖掘的十大經(jīng)典算法也隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展而不斷的改進和完善,其中apriori算法是十大經(jīng)典算法中最為經(jīng)典的一種算法,該算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個領(lǐng)域。關(guān)聯(lián)規(guī)則的目的在于在一個數(shù)據(jù)集中找出項之間的關(guān)系,也稱之為購物藍分析(marketbasketanalysis)o例如,購買鞋的顧客,有10%的可能也會買襪子,60%的買面包的顧客,也會買牛奶。這其中最有名的例子就是尿布和啤酒的故事了。關(guān)聯(lián)規(guī)則的應(yīng)用場合。在商業(yè)銷售上,關(guān)聯(lián)規(guī)則可用于交叉銷售,以得到更大的收入;在保險業(yè)務(wù)方面,如果浮現(xiàn)了不常見的索賠要求組合,則可能為欺詐,需要作進一步的調(diào)查。在醫(yī)療方面,可找出可能的治療組合;在銀行方面,對顧客進行分析,可以推薦感興趣的服務(wù)等等。apriorialgorithm是關(guān)聯(lián)規(guī)則里一項基本算法。關(guān)聯(lián)算法的基本思想是:首先找出所有的頻集,這些項集浮現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部惟獨一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那末惟獨那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。11=findfrequentl-itemsets(d); //挖掘頻繁1-項集,比較容易for(k=2;lk-1;k++){ck=apriori_gen(lk-l,min_sup); //調(diào)用apriori_gen方法生成候選頻繁k-項集foreachtransactiont£d{ //掃描事務(wù)數(shù)據(jù)庫dct=subset(ck,t);foreachcandidatecWctc.count++; //統(tǒng)計候選頻繁k-項集的計數(shù)}Ik={ceck|c.count^min_sup}//滿足最小支持度的k-項集即為頻繁k-項集)return1=UkIk; //合并頻繁k-項集(k>0)apriori算法就是運用了關(guān)聯(lián)規(guī)則的算法思想。以下是apriori算法的流程圖:apriori算法的兩大缺點:可能產(chǎn)生大量的候選集,以及可能需要重復掃描數(shù)據(jù)庫。提高apriori算法的效率:基于散列的技術(shù)(散列項集到對應(yīng)的桶中)一種基于散列的技術(shù)可以用于壓縮候選k項集Ck(k>;l)o事務(wù)壓縮(壓縮未來迭代掃描的事務(wù)數(shù));不包含任何頻繁k項集的事務(wù)不可能包含任何頻繁(k+1)項集。因此,這種事務(wù)在其后的考慮時,可以加之標記或者刪除,因為產(chǎn)生j項集(j>k)的數(shù)據(jù)庫掃描再也不需要他們。劃分(為尋覓候選項集劃分數(shù)據(jù))抽樣(對給定數(shù)據(jù)的子集挖掘)動態(tài)項集技術(shù)(在掃描的不同點添加候選項集)關(guān)聯(lián)算法的C++簡單實現(xiàn)(1)算法數(shù)據(jù):對給定數(shù)據(jù)集用apriori算法進行挖掘,找出其中的頻繁集并生成關(guān)聯(lián)規(guī)則。對下面數(shù)據(jù)集進行挖掘:(2)算法步驟:①首先單趟掃描數(shù)據(jù)集,計算各個一項集的支持度,根據(jù)給定的最小支持度閔值,得到一項頻繁集11。②然后通過連接運算,得到二項候選集,對每一個候選集再次掃描數(shù)據(jù)集,得出每一個候選集的支持度,再與最小支持度比較。得到二項頻繁集12。 ③如此進行下去,直到不能連接產(chǎn)生新的候選集為止。④對于找到的所有頻繁集,用規(guī)則提取算法進行關(guān)聯(lián)規(guī)則的提取。(3)C++算法的簡單實現(xiàn)①首先要在工程名文件夾里自己定義date.txt文檔存放數(shù)據(jù),然后在main函數(shù)中用file*fp=fopen(date.txt,r);將數(shù)據(jù)導入算法。②定義intcountll[10];找到各一維頻繁子集浮現(xiàn)的次數(shù)。定義charcurll[20][2];實現(xiàn)浮現(xiàn)的一維子集。由于給出的數(shù)據(jù)最多有4個數(shù),所以同樣的我們要定義到4維來放數(shù)據(jù)。intcountl2[10]; 〃各二維頻繁子集浮現(xiàn)的次數(shù)charcur12[20][3];〃浮現(xiàn)的二維子集intcountl3[10]; 〃各三維頻繁子集浮現(xiàn)的次數(shù)charcurl3[20][4];〃浮現(xiàn)的三維子集charcur[50][4];③定義intsizestr(char*m)得到字符串的長度。實現(xiàn)代碼如下:intsizestr(char*m)(inti=0;while(*(m+i)!=0)(i++;}returni;)④比較兩個字符串,如果相等返回true,否則返回falseboolopd(char*x,char*y){篇三:《數(shù)據(jù)挖掘》讀書報告《數(shù)據(jù)挖掘?qū)д摗纷x書報告隨著網(wǎng)絡(luò)信息時代的到來,數(shù)據(jù)采集和數(shù)據(jù)存儲技術(shù)也在飛速發(fā)展,使得各組織機構(gòu)可以積累海量數(shù)據(jù)。然而,提取實用的信息已經(jīng)成為巨大的挑戰(zhàn)。由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)處理它們。有時,即使數(shù)據(jù)集相對較小,但由于數(shù)據(jù)本身具有的一些非傳統(tǒng)特點,也不能使用傳統(tǒng)的方法進行處理。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數(shù)據(jù)的分析處理而浮現(xiàn)的。它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復雜算法相結(jié)合,為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊有數(shù)據(jù)類型提供了令人振奮的機會。我所閱讀的《數(shù)據(jù)挖掘?qū)д摗放c其他同類圖書不同的是,這本書將重點放在如何用數(shù)據(jù)挖掘知識解決各種實際問題上。而且本書只要求很少的豫備知識,即使沒有數(shù)據(jù)庫背景,只需要很少的統(tǒng)計學或者數(shù)學知識背景,就能讀懂其中的內(nèi)容。《數(shù)據(jù)挖掘?qū)д摗饭卜譃槭?,主要涵蓋五個主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測。除異常檢測外,每一個主題都分兩章講述。對于分類、關(guān)聯(lián)分析和聚類,前面一章講述基本概念、代表性算法和評估技術(shù),后面一章深入討論高級概念和算法。第一章的緒論主要對數(shù)據(jù)挖掘進行了概述。什么是數(shù)據(jù)挖掘?用比較簡潔的話說,數(shù)據(jù)挖掘就是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)實用信息的過程,它是數(shù)據(jù)庫中知識發(fā)現(xiàn)全過程的一個核心步驟。作為一類深層次的數(shù)據(jù)分析方法,它利用了數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計等多方面的技術(shù),幫助人們對大規(guī)模數(shù)據(jù)進行高效的分析處理,以節(jié)約時間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。相對于傳統(tǒng)數(shù)據(jù)分析方法,數(shù)據(jù)挖據(jù)技術(shù)需具備以下特征:(1)由于數(shù)據(jù)挖掘通常要處理的數(shù)據(jù)是海量的,它的算法必須是可伸縮的;(2)為低維數(shù)據(jù)開辟的傳統(tǒng)數(shù)據(jù)分析技術(shù)通常不能很好地處理那些具有成千上百屬性的數(shù)據(jù)集,且隨著維度的增加,某些數(shù)據(jù)分析算法的計算復雜性也在迅速增加,這就要求數(shù)據(jù)挖掘技術(shù)具有高維性;(3)數(shù)據(jù)挖掘還需具備處理異種數(shù)據(jù)和復雜數(shù)據(jù)的能力;(4)需要開辟分布式數(shù)據(jù)挖掘技術(shù)來處理在地理上分布在屬于多個機構(gòu)的資源中的數(shù)據(jù);(5)能自動地產(chǎn)生和評估假設(shè)等。接著介紹了數(shù)據(jù)挖掘任務(wù):預(yù)測任務(wù)和描述任務(wù)。預(yù)測任務(wù)是通過分析數(shù)據(jù)建立一個或者一組模型,并試圖預(yù)測新數(shù)據(jù)集的行為,包括分類/預(yù)測分析、時間序列分析、離群點分析等。描述任務(wù)以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的普通性質(zhì)和規(guī)律,如聚類分析、關(guān)聯(lián)分析、數(shù)據(jù)匯總等。本章簡單介紹了四種主要數(shù)據(jù)挖掘任務(wù):預(yù)測建模、關(guān)聯(lián)分析、聚類分析和異常檢測。預(yù)測建模旨在以說明變量函數(shù)的方式為目標變量建立模型。預(yù)測建模任務(wù)分為兩類:分類,用于預(yù)測離散的目標變量;回歸,用于預(yù)測連續(xù)的目標變量。兩項任務(wù)的目標都是訓練一個模型,使目標預(yù)測值與實際之間的誤差達到最小。關(guān)聯(lián)分析用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式,它的目標是以有效的方式提取最有趣的模式。聚類分析旨在發(fā)現(xiàn)緊密相關(guān)的觀測值群組,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似,聚類分析通常用來對相關(guān)顧客分組等。異常檢測的任務(wù)則是識別其特征顯著不同于其他數(shù)據(jù)的觀測值,這樣的觀測值稱為離群點或者異常點。它的應(yīng)用包括檢測欺詐、網(wǎng)絡(luò)攻擊等。本書第二章討論了數(shù)據(jù)的基本類型、數(shù)據(jù)質(zhì)量、預(yù)處理技術(shù)以及相似性和相異性度量。數(shù)據(jù)挖掘是一種技術(shù),數(shù)據(jù)挖掘研究通常是為了適應(yīng)新的應(yīng)用領(lǐng)域和新的數(shù)據(jù)類型的需要而展開的,而數(shù)據(jù)的類型決定我們應(yīng)使用哪種工具和技術(shù)來分析數(shù)據(jù)。因此了解數(shù)據(jù)對于數(shù)據(jù)挖掘的成敗來說至關(guān)重要。數(shù)據(jù)對象用一組刻劃對象實體基本特性的屬性描述。屬性分為分類的(定性的)和數(shù)值的(定量的),分類屬性包括標稱屬性和序數(shù)屬性,它們不具有數(shù)的大部份性質(zhì)。數(shù)值屬性包括區(qū)間屬性和比率屬性,它們用數(shù)表示,且具有數(shù)的大部份性質(zhì)。書中還介紹了三種比較常見的數(shù)據(jù)集類型:記錄數(shù)據(jù)(如購物籃數(shù)據(jù))、基于圖形的數(shù)據(jù)、有序數(shù)據(jù)。而由于人的錯誤、測量設(shè)備的限制或者數(shù)據(jù)采集過程的漏洞等因素,數(shù)據(jù)普通存在質(zhì)量問題。數(shù)據(jù)質(zhì)量問題主要是在數(shù)據(jù)測量和采集方面產(chǎn)生的。測量誤差主要有:噪聲和偽像、精度、偏倚和準確率。數(shù)據(jù)采集錯誤主要由離群點、遺漏和不一致的值、重復數(shù)據(jù)構(gòu)成。特別地,數(shù)據(jù)質(zhì)量問題從應(yīng)用上考慮,存在時效性和相關(guān)性等問題。為了提高數(shù)據(jù)質(zhì)量,數(shù)據(jù)挖掘主要著眼于兩個方面:(1)數(shù)據(jù)質(zhì)量問題的檢測和糾正;(2)使用可以容忍低質(zhì)量數(shù)據(jù)的算法。而數(shù)據(jù)預(yù)處理過程則是為了改善數(shù)據(jù)挖掘分析工作,減少時間,降低成本和提高質(zhì)量,使數(shù)據(jù)更加適合挖掘。文中討論了一些數(shù)據(jù)預(yù)處理的思想和方法:會萃、抽樣、維歸約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換等。大致可以分為兩類:選擇分析所需要的數(shù)據(jù)對象和屬性以及創(chuàng)建或者改變屬性。其中,在數(shù)據(jù)屬性個數(shù)較低時,維歸約可以刪除不相關(guān)特征并降低噪聲,還可以使模型更容易理解,更容易使數(shù)據(jù)可視化。在這種情況下,采用維歸約進行數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘算法的效果會更好。最后本書還講述了相似性度量和相異性度量的含義及相關(guān)計算方法。普通使用鄰近度來表示相似性或者相異性。相似度通常在0和1之間取值,兩個對象越相似,它們的相似度越高,相異度就越低。距離通常用來表示特定類型的相異度。為了直接了當?shù)谋砻鲀蓚€對象之間的相似或者相異程度,鄰近度度量被定義為或者變換到區(qū)間[0,1]中的值,書中詳細介紹了鄰近度到[0,1]區(qū)間的變換方法。接下來首先介紹了包含簡單屬性的對象之間的鄰近度計算方法,然后考慮具有多個屬性的對象的鄰近度的計算方法。在選取鄰近度度量的過程中,應(yīng)注意以下幾點:(1)鄰近性度量的類型應(yīng)當與數(shù)據(jù)類型相適應(yīng):(2)對于許多稠密的、連續(xù)的數(shù)據(jù),通常使用距離度量,如歐幾里得距離等;(3)連續(xù)屬性之間的鄰近度通常用屬性值的差來表示,且距離度量提供了一些將這些差組合到總鄰近性度量的良好方法。在許多情況下,一旦計算出數(shù)據(jù)對象之間的相似性或者相異性,就再也不需要原始數(shù)據(jù)了。第三章,探索數(shù)據(jù),本章對數(shù)據(jù)進行初步的研究,以便更好地理解它的特殊性質(zhì)。以鶯尾花數(shù)據(jù)集為例,詳細介紹了匯總統(tǒng)計、可視化、聯(lián)機分析處理等用于數(shù)據(jù)探索的標準方法。數(shù)據(jù)探索有助于選擇合適的數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析技術(shù),它甚至可以處理一些通常由數(shù)據(jù)挖掘解決的問題。匯總統(tǒng)計是最常見的統(tǒng)計形式,本章集中討論了對單個屬性值的匯總統(tǒng)計,同時簡略介紹了某些多元匯總統(tǒng)計。對于分類屬性,往往考慮值的眾數(shù)和頻率;對于有序?qū)傩裕ǔ?紤]值集的百分位數(shù);對于連續(xù)屬性,兩個使用最廣泛的匯總統(tǒng)計是均值和中位數(shù)。連續(xù)屬性另一組常用匯總統(tǒng)計是值集的彌散或者擴散度量(極差和方差等)。對于多元數(shù)據(jù),每個屬性的擴散可以獨立于其他屬性,可使用極差和方差等擴散度量進行匯總統(tǒng)計。而具有連續(xù)變量的數(shù)據(jù),數(shù)據(jù)的擴散則更多的用協(xié)方差矩陣S表示。本章重點強調(diào)可視化技術(shù),數(shù)據(jù)可視化是指以圖形或者表格的形式顯示信息,數(shù)據(jù)探索中使用的可視化等技術(shù)可用于理解和解釋數(shù)據(jù)挖掘結(jié)果??梢暬牡谝徊骄褪菍⑿畔⒂成涑煽梢曅问剑簿褪钦f,數(shù)據(jù)對象、它們的屬性、以及數(shù)據(jù)對象之間的聯(lián)系要轉(zhuǎn)換成諸如點、線、形狀和顏色等圖形元素。普通來說,很難確保將對象和屬性的映射表示成圖形元素之間易于觀察的聯(lián)系,因此可視化的主要難點就是選擇一種技術(shù),讓關(guān)注的聯(lián)系易于觀察。本書主要討論了三種類型的可視化技術(shù):少量屬性的可視化、具有時間和/或者空間屬性的數(shù)據(jù)可視化,以及高維數(shù)據(jù)可視化。少量屬性的可視化可以采用直方圖、盒狀圖、百分位數(shù)圖和經(jīng)驗累計分布函數(shù)圖、餅圖、擴散圖、二維直方圖等技術(shù)??梢暬瘯r間空間數(shù)據(jù)則可采用等高線圖、曲面圖、矢量場圖、低維切片、動畫等技術(shù)??梢暬呔S數(shù)據(jù)可以采用平行坐標系、星形坐標和chernoff臉等技術(shù)。最后介紹了olap和多維數(shù)據(jù)分析。olap是一種新近開辟的包含一系列考察多維數(shù)組數(shù)據(jù)的技術(shù),它的分析功能集中在從多維數(shù)組中創(chuàng)建匯總表的各種方法。在用多維數(shù)組表示數(shù)據(jù)的過程中,我們需要注意兩點:維的識別和分析所關(guān)注的屬性的識別。本書主要討論數(shù)據(jù)立方體的創(chuàng)建和相關(guān)操作,如切片、切塊、維歸約、上卷和下鉆。其中,上卷和下鉆操作與會萃相關(guān)。但它們不同于迄今為止所討論的會萃操作,它們在一個維內(nèi)會萃單元,而不是在整個維上會萃。第四章和第五章涵蓋分類,第四章是基礎(chǔ),討論決策樹分類和一些重要的分類問題:過分擬合、性能評估和不同分類模型的比較。分類任務(wù)就是通過分析訓練集中的數(shù)據(jù),為每一個類別建立分類分析模型,然后用這個分類分析模型對數(shù)據(jù)庫中的其他記錄進行分類。分類模型可用于描述性建模和預(yù)測性建模。解決分類問題的方法有不少,第四章重點介紹決策樹分類法,它采用樹狀分岔的架構(gòu)來產(chǎn)生規(guī)則,合用于所有分類的問題。hunt算法是許多決策樹算法的基礎(chǔ),它采用貪心策略,在選擇劃分數(shù)據(jù)的屬性時,采取一系列局部最優(yōu)決策來構(gòu)造決策樹。在hunt算法中,通過將訓練記錄相繼劃分為較純的子集,以遞歸方式建立決策樹。書中以預(yù)測貸款申請者是否會按時歸還貸款為例,詳細介紹了hunt算法的相關(guān)步驟。在構(gòu)建決策樹的同時,決策樹歸納的學習算法必須解決下面兩個問題即如何分裂訓練記錄和如何住手分裂過程。為了實現(xiàn)分裂訓練記錄,算法必須為不同類型的屬性指定測試條件的方法,并提供評估每種測試條件的客觀度量,如不純性度量。對于如何住手分裂過程,一個可能的策略是分裂結(jié)點,直到所有的記錄都屬于同一個類,或者所有的記錄都具有相同的屬性值,還可以使用其他的標準提前終止樹的生長過程。此外,一個好的分類模型必須具有低訓練誤差和低泛化誤差。訓練誤差就是在訓練記錄上誤分類樣本比例,泛化誤差即模型在未知記錄上的期望誤差。所謂模型過分擬合就是對訓練數(shù)據(jù)擬合度過高的模型,其泛化誤差可能比具有較高訓練誤差的模型高。造成模型過分擬合的一些潛在因素:噪聲、缺乏代表性樣本、大量的候選屬性和少量的訓練記錄等。我們可以使用以下兩種方法在決策樹歸納上避免過分擬合:先剪枝(提前終止規(guī)則)和后剪枝。由于學習算法只能訪問訓練數(shù)據(jù)集,對檢驗數(shù)據(jù)集,它一無所知,我們所能做的就是估計決策樹的泛化誤差。文中提供了一些估計泛化誤差的方法:使用訓練誤差估計、結(jié)合模型復雜度估計、用訓練誤差的統(tǒng)計修正來估計、使用確認集估計。對于泛化誤差的可靠估計能讓學習算法搜索到準確的模型,且不會對訓練數(shù)據(jù)過分擬合。然后介紹了評估分類器性能的四種方法:保持方法、隨機二次抽樣、交叉驗證和自助法。最后詳細討論比較分類器的方法。在第四章基礎(chǔ)上,第五章介紹其他重要的分類技術(shù):基于規(guī)則的系統(tǒng)、最近鄰分類器、貝葉斯分類器、人工神經(jīng)網(wǎng)絡(luò)、支持向量機以及組合分類器,還介紹了類失衡和多類問題?;谝?guī)則的分類器是使用一組"if…then…”規(guī)則來對記錄進行分類的技術(shù),相對其他分類技術(shù)而言,它和最近鄰分類器是最簡單的。分類規(guī)則的質(zhì)量可以用覆蓋率和準確率來度量?;谝?guī)則的分類器是根據(jù)測試記錄所觸發(fā)的規(guī)則來對記錄進行分類的,書中以動物分類為例,做了詳細的介紹?;谧罱彽姆诸惼魇且活惢趯嵗膶W習,它使用具體的訓練實例進行預(yù)測,是一種消極學習方法,它不需要建立模型。貝葉斯分類方法是一種對屬性集和類變量的概率關(guān)系建模的方法。文中詳細介紹了貝葉斯分類器的兩種實現(xiàn):樸素貝葉斯和貝葉斯信念網(wǎng)絡(luò)。貝葉斯分類器從理論上講具有最小的出錯率,還可以用來為不直接使用貝葉斯定理的其他分類算法提供理論判定。其缺點主要來自于貝葉斯分類的假定,當假定成立時,與其分類算法相比最精確的,然而,在實踐中,假定不一定總是成立的。人工神經(jīng)網(wǎng)絡(luò)是有一組相互連接的結(jié)點和有向鏈構(gòu)成。本章重點介紹了如下兩種ann模型:感知器、多層人工神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)點是對其噪聲數(shù)據(jù)具有較高的承受能力,對未經(jīng)訓練的數(shù)據(jù)具有分類識別的能力。但是它的主要缺點是可解釋性差,這影響了神經(jīng)網(wǎng)絡(luò)技術(shù)的使用。相對于神經(jīng)網(wǎng)絡(luò)技術(shù),決策樹技術(shù)的優(yōu)點比較易于理解和解釋,而它的主要缺點是由于遞歸劃分方式導致數(shù)據(jù)子集變小,失去了進一步劃分的意義。支持向量機是一種更高級的分類技術(shù),它可以很好地應(yīng)用于高維數(shù)據(jù),避免了維災(zāi)難。它通過最大化決策邊界的邊緣來控制模型的能力。而組合方法則是通過會萃多個分類器的預(yù)測來提高分類的準確率。組合方法由訓練數(shù)據(jù)構(gòu)建一組基分類器,然后通過對每一個基分類器的預(yù)測進行投票來進行分類。文中主要介紹了構(gòu)建組合分類器的技術(shù)及組合方法比任意單分類器的效果好的原因??傊?,書中介紹的分類算法雖多,但各有優(yōu)缺點,因此在具體工作中,必須根據(jù)數(shù)據(jù)類型特點及數(shù)據(jù)集大小,選擇合適的算法,也可以通過對數(shù)據(jù)進行預(yù)處理來提高分類過程的準確性、有效性和可伸縮性。最后文中還給出了一些為處理不平衡類問題而開辟的方法和擴展二元分類器以處理多類問題的方法。第六章詳細介紹了關(guān)聯(lián)分析的基礎(chǔ):頻繁項集、關(guān)聯(lián)規(guī)則以及產(chǎn)生它們的一些算法。關(guān)聯(lián)分析是當前數(shù)據(jù)挖掘領(lǐng)域最常用的一種方法,主要用于發(fā)現(xiàn)隱藏在數(shù)據(jù)集中不同領(lǐng)域之間的聯(lián)系,它的目的在于在一個數(shù)據(jù)集中找出項的關(guān)系。書中介紹了一個很有名的例子:尿布和啤酒,表示成關(guān)聯(lián)規(guī)則的形式就是{尿布}一{啤酒}。這就是使用關(guān)聯(lián)分析方法所得到的結(jié)果,而關(guān)聯(lián)分析所得到的結(jié)果,我們可以用關(guān)聯(lián)規(guī)則或者頻繁項集的形式表示。關(guān)聯(lián)分析的挖掘分為兩步:(1)找出所有頻繁項集;(2)由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。而在搜索頻繁項集時,最基本的算法就是apriori算法。該算法開創(chuàng)性地使用了基于支持度的剪枝技術(shù),系統(tǒng)地控制候選項集指數(shù)增長。它的核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個領(lǐng)域。盡管apriori算法十分簡潔明了,但同時也存在一些難以克服的缺點。因此,書中還詳細介紹了一些替代方法,如頻繁樹算法等。此外,本章還介紹了一些特殊類型頻繁項集:極大頻繁項集和閉頻繁項集。最后討論了關(guān)聯(lián)分析的評估度量。在第六章中,主要針對的是非對稱的二元屬性,并且惟獨頻繁模式才被認為是有趣的。第七章則是將這種表示擴展到具有對稱二元屬性、分類屬性和連續(xù)屬性的數(shù)據(jù)集,并且詳細討論了三類對連續(xù)數(shù)據(jù)進行關(guān)聯(lián)分析的方法:(1)基于離散化的方法;(2)基于統(tǒng)計學的方法;(3)非離散化的方法。此外,還講述了概念分層的基本定義和處理方法及將它引入關(guān)聯(lián)規(guī)則的優(yōu)缺點。介紹了序列模式的基本概念和發(fā)現(xiàn)序列模式的算法,及頻繁子圖的挖掘問題。最后,本章還簡單概述了非頻繁模式的概念及相關(guān)算法。第八章主要講述聚類分析的基本概念和算法。首先介紹了不同的簇類型:明顯分離的、基于原型的、基于圖的、基于密度的、共同性質(zhì)的。然后給出三種特定的聚類技術(shù):k均值、凝結(jié)層次聚類和dbscan,最后討論驗證聚類算法結(jié)果的技術(shù)。聚類分析是指根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息將數(shù)據(jù)對象分組的分析過程。它與分類規(guī)則不同的是,聚類分析是一種探索性分析,進行聚類前并不知道將要劃分為幾個組和什么樣的組,也不確定根據(jù)哪些空間區(qū)分規(guī)則來定義組。聚類分析的目標就是在相似的基礎(chǔ)上采集數(shù)據(jù)來分類。組內(nèi)的相似性越大,組間差別越大,聚類就越好。聚類分析是數(shù)據(jù)挖掘的主耍任務(wù)之一,它篇四:《數(shù)據(jù)挖掘?qū)д摗纷x書報告數(shù)據(jù)采集和數(shù)據(jù)存儲技術(shù)的快速進步使得各組織機構(gòu)可以積累海量數(shù)據(jù)。然而,提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析丁具和技術(shù)處理它們。有時,即使數(shù)據(jù)集相對較小,但由于數(shù)據(jù)本身具有一些非傳統(tǒng)特點,也不能使用傳統(tǒng)的方法處理。在此外一些情況下,面臨的問題不能使用已有的數(shù)據(jù)分析技術(shù)來解決。這樣,就需要開辟新的方法。數(shù)據(jù)挖掘是一種技術(shù),它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復雜算法相結(jié)合。數(shù)據(jù)挖掘為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊有數(shù)據(jù)類型提供了令人振奮的機會。本章,我們概述數(shù)據(jù)挖掘,并列舉本書所涵蓋的關(guān)鍵主題。數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營銷、工作流管理、商店分布和欺詐檢測等。數(shù)據(jù)挖掘還能匡助零售商回答一些重要的商務(wù)問題,如“誰是最有價值的顧客?”“什么產(chǎn)品可以交叉銷售或者提升銷售?”“公司明年的收入前景如何?”這些問題催生了一種新的數(shù)據(jù)分析技術(shù)。醫(yī)學、科學與工程醫(yī)學、科學與工程技術(shù)界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),nasa己經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地采集地表、海洋和大氣的全球觀測數(shù)據(jù)。然而,由于這些數(shù)據(jù)的規(guī)模和時空特性,傳統(tǒng)的方法往往不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘開辟的技術(shù)可以匡助地球科學家回答如下問題:“干旱和颶風等生態(tài)系統(tǒng)擾動的頻度和強度與全球變暖之間有何聯(lián)系?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預(yù)測一個地區(qū)的生長季節(jié)的開始和結(jié)束?”什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)實用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的實用模式。數(shù)據(jù)挖掘還可以預(yù)測未來觀測結(jié)果,例如,預(yù)測一位新的顧客是否會在一家百貨公司消費100美元以上。并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或者通過因特網(wǎng)的搜索引擎查找特定的web頁面,則是信息檢索領(lǐng)域的任務(wù)。雖然這些任務(wù)非常重要,可能涉及使用復雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科學技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,人們也在利用數(shù)據(jù)挖掘技術(shù)增強信息檢索系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論