![人工智能通識教程 第2版 課件 第8章 數(shù)據(jù)挖掘_第1頁](http://file4.renrendoc.com/view9/M01/04/2F/wKhkGWceEV6ABnfnAADQw6f4Z0Q772.jpg)
![人工智能通識教程 第2版 課件 第8章 數(shù)據(jù)挖掘_第2頁](http://file4.renrendoc.com/view9/M01/04/2F/wKhkGWceEV6ABnfnAADQw6f4Z0Q7722.jpg)
![人工智能通識教程 第2版 課件 第8章 數(shù)據(jù)挖掘_第3頁](http://file4.renrendoc.com/view9/M01/04/2F/wKhkGWceEV6ABnfnAADQw6f4Z0Q7723.jpg)
![人工智能通識教程 第2版 課件 第8章 數(shù)據(jù)挖掘_第4頁](http://file4.renrendoc.com/view9/M01/04/2F/wKhkGWceEV6ABnfnAADQw6f4Z0Q7724.jpg)
![人工智能通識教程 第2版 課件 第8章 數(shù)據(jù)挖掘_第5頁](http://file4.renrendoc.com/view9/M01/04/2F/wKhkGWceEV6ABnfnAADQw6f4Z0Q7725.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2版人工智能通識教程第8章周蘇教授QQ:81505050數(shù)據(jù)挖掘?qū)ёx案例:葡萄酒的品質(zhì)奧利·阿什菲爾特是普林斯頓大學的一位經(jīng)濟學家,他的日常工作就是琢磨數(shù)據(jù),利用統(tǒng)計學,他從大量的數(shù)據(jù)資料中提取出隱藏在數(shù)據(jù)背后的信息。他說,“酒是一種農(nóng)產(chǎn)品,每年都會受到氣候條件的強烈影響。”因此奧利采集了法國波爾多地區(qū)的氣候數(shù)據(jù)加以研究,他給出的統(tǒng)計方程與數(shù)據(jù)高度吻合。01從數(shù)據(jù)到知識02數(shù)據(jù)挖掘方法03數(shù)據(jù)挖掘經(jīng)典算法04機器學習與數(shù)據(jù)挖掘目錄/CONTENTS數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,它是指從大量的數(shù)據(jù)中通過算法搜索其中隱含的、先前未知的并有潛在價值的信息的非平凡的決策支持過程(圖8-2)。持續(xù)重視數(shù)據(jù)挖掘,其主要原因是存在著可以廣泛使用的大量數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學探索等。數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計學、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)、模式識別和可視化技術(shù)等諸多方法來實現(xiàn)上述目標。第8章數(shù)據(jù)挖掘
圖8-2數(shù)據(jù)挖掘建模第8章數(shù)據(jù)挖掘PART01從數(shù)據(jù)到知識如今,現(xiàn)實社會有大量的數(shù)據(jù)唾手可得。就不同領(lǐng)域來說,大部分數(shù)據(jù)都十分有用,但前提是人們有能力從中提取出感興趣的內(nèi)容。例如,一家大型連鎖店有關(guān)于其數(shù)百萬顧客購物習慣的數(shù)據(jù),社會媒體和其他互聯(lián)網(wǎng)服務(wù)提供商有成千上萬用戶的數(shù)據(jù),但這只是記錄誰在什么時候買了什么的原始數(shù)字,似乎毫無用處。8.1從數(shù)據(jù)到知識數(shù)據(jù)不等于信息,而信息也不等于知識。了解數(shù)據(jù)(將其轉(zhuǎn)化為信息)并利用數(shù)據(jù)(再將其轉(zhuǎn)化為知識)是一項巨大的工程。如果某人需要處理100萬人的數(shù)據(jù),每個人僅用時10秒,這項任務(wù)還是需要一年才能完成。由于每個人可能一周要買好幾十件產(chǎn)品,等數(shù)據(jù)分析結(jié)果出來都已經(jīng)過了一年了。當然,這種人類需要花費大量時間才能完成的任務(wù)可以交由計算機來完成,但往往我們并不確定到底想要計算機尋找什么樣的答案。8.1從數(shù)據(jù)到知識數(shù)據(jù)存儲在稱為數(shù)據(jù)庫的計算機系統(tǒng)中,數(shù)據(jù)庫程序具有內(nèi)置功能,可以分析數(shù)據(jù),并按用戶要求呈現(xiàn)出不同形式。假如我們擁有充足的時間和敏銳的直覺,就可以從數(shù)據(jù)中分析出有用的規(guī)律來調(diào)整經(jīng)營模式,從而獲取更大的利潤。然而,時間和直覺是有所收獲的重要前提,如果能自動生成這些數(shù)據(jù)間的聯(lián)系無疑對商家來說更有吸引力。8.1從數(shù)據(jù)到知識所有人工智能方法都可以用于數(shù)據(jù)挖掘,特別是神經(jīng)網(wǎng)絡(luò)及模糊邏輯,但有一些格外特殊,其中一種技術(shù)就是決策樹(圖8-3),它是數(shù)據(jù)挖掘時常用的技術(shù),可用于市場定位,找出最相關(guān)的數(shù)據(jù)來預(yù)測結(jié)果。如果我們想要得到購買意大利通心粉的人口統(tǒng)計數(shù)據(jù),首先,將數(shù)據(jù)庫切分為購買意大利通心粉的顧客和不買的顧客,再檢查每個獨立個體的數(shù)據(jù),從中找到最不平均的切分。我們可能會發(fā)現(xiàn)最具差異的數(shù)據(jù)就是購買者的性別,與女性相比,男性更傾向于購買意大利通心粉,然后,可以將數(shù)據(jù)庫按性別分割,再分別對每一半數(shù)據(jù)重復同樣的操作。8.1.1決策樹分析圖8-3用于預(yù)測結(jié)果的決策樹示例8.1.1決策樹分析計算機可能會發(fā)現(xiàn)男性中差異最大的因素是年齡,而女性中差異最大的是平均收入。繼續(xù)這一過程將數(shù)據(jù)分析變得更加詳細,直到每一類別里的數(shù)據(jù)都少到無法再次利用為止。市場部一定十分樂于知道30%的意大利通心粉買家為20多歲的男子,職業(yè)女性買走了另外20%的意大利通心粉。針對這些人口統(tǒng)計數(shù)據(jù)設(shè)計廣告和特價優(yōu)惠一定會卓有成效。至于擁有大學學歷的20多歲未婚男子買走5%的意大利通心粉這樣的數(shù)據(jù),可能就無關(guān)緊要了。8.1.1決策樹分析購物車分析是十分流行的策略,它可以幫助我們找到顧客經(jīng)常一起購買的商品。假設(shè)研究發(fā)現(xiàn),許多購買意大利通心粉的顧客會同時購買意大利面醬,我們就可以確定那些只買意大利通心粉但沒有買面醬的個體,在他們下次購物時向其提供面醬的折扣。此外,我們還可以優(yōu)化貨物的擺放位置,既保證顧客能找到自己想要的產(chǎn)品,又能讓他們在尋找的過程中路過可能會沖動購物的商品。8.1.2購物車分析購物車分析面臨的問題是我們需要考慮大量可能的產(chǎn)品組合。一個大型超市可能有成千上萬條產(chǎn)品線,僅僅是考慮所有可能的配對就有上億種可能性,而三種產(chǎn)品組合的可能性將超過萬億。很明顯,采取這樣的方式是不實際的,但有兩種可以讓這一任務(wù)變簡單的方法。第一種是放寬對產(chǎn)品類別的定義。我們可以將所有冷凍魚的銷售捆綁起來考慮,而不是執(zhí)著于顧客買的到底是檸檬味的多佛比目魚還是油炸鱈魚。類似地,我們也可以只考慮散裝啤酒和特色啤酒,而不是追蹤每一個獨立品牌。8.1.2購物車分析第二種是只考慮購買量充足的產(chǎn)品。如果僅有10%的顧客購買尿片,所有尿片與其他產(chǎn)品的組合購買率最多只有10%。大大削減需要考慮的產(chǎn)品數(shù)量后,我們就可以把握所有的產(chǎn)品組合,放棄那些購買量不足的產(chǎn)品即可?,F(xiàn)在,有了成對的產(chǎn)品組合,可能設(shè)計三種產(chǎn)品的組合耗時更短,我們只需要考慮存在共同產(chǎn)品的兩組產(chǎn)品對。比如,知道顧客會同時購買啤酒和紅酒,并且也會同時購買啤酒和零食,那么我們就可以思考啤酒、紅酒和零食是否有可能被同時購買。接著,我們可以合并有兩件共同商品的三件商品組合,并依此類推。在此過程中,我們隨時可以丟棄那些購買量不足的組合方式。8.1.2購物車分析在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型(NBC)。樸素貝葉斯模型發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎(chǔ)以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時,NBC模型的性能最為良好。8.1.3貝葉斯網(wǎng)絡(luò)了解哪些數(shù)據(jù)常常共存固然有用,但有時候我們更需要理解為什么會發(fā)生這樣的情況。假設(shè)我們經(jīng)營一家婚姻介紹所,我們想要知道促成成功配對的因素有哪些。數(shù)據(jù)庫中包含所有客戶的信息以及用于評價約會經(jīng)歷的反饋表。我們可能會猜想,兩個高個子的人會不會比兩個身高差距懸殊的人相處得更好。為此,我們形成一個假說,即身高差對約會是否成功具有影響。有一種驗證此類假說的統(tǒng)計方法叫做貝葉斯網(wǎng)絡(luò),其數(shù)學計算極其復雜,但自動化操作相對容易得多。8.1.3貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)的核心是貝葉斯定理,該公式可以將數(shù)據(jù)的概率轉(zhuǎn)換為假說的概率。就本例而言,我們首先建立兩條相互矛盾的假說,一條認為兩組數(shù)據(jù)相互影響,另一條認為兩組數(shù)據(jù)彼此獨立,再根據(jù)收集到的信息計算兩條假說的概率,選擇可能性最大的作為結(jié)論。8.1.3貝葉斯網(wǎng)絡(luò)需要注意的是,我們無法分辨哪一塊數(shù)據(jù)是原因,哪一塊數(shù)據(jù)是結(jié)果。僅就數(shù)學而言,成功的交往關(guān)系可以推導出人們身高相同,盡管其他一些事實顯示并非如此,這也無法證明數(shù)據(jù)之間存在因果關(guān)系,只是暗示二者之間存在某種聯(lián)系??赡艽嬖谄渌麑⒍呗?lián)系起來的事實,只是我們沒有關(guān)注甚至沒有記錄,又或者數(shù)據(jù)間的這種聯(lián)系只是偶然而已。8.1.3貝葉斯網(wǎng)絡(luò)鑒于計算機的強大功能,我們不必手動設(shè)計每一條假設(shè),而是通過計算機來驗證所有假設(shè)。在本例中,我們考慮的客戶品質(zhì)特征不可能超過20種,所以要檢測的假設(shè)數(shù)量是有限的。如果我們認為有兩種可能影響結(jié)果的特征,那么假設(shè)數(shù)量將增加380條,但也還算合理。如果特征數(shù)量變成四條,那么工作量就將高達6840條,應(yīng)該還是可以接受的。購物車分析和貝葉斯網(wǎng)絡(luò)都是機器學習技術(shù),計算機的確在逐漸發(fā)掘以前未知的信息。8.1.3貝葉斯網(wǎng)絡(luò)PART02數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,作出正確的決策。知識發(fā)現(xiàn)過程由以下三個階段組成(圖8-4):①數(shù)據(jù)準備;②數(shù)據(jù)挖掘(規(guī)律尋找);③結(jié)果(規(guī)律)表達和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。8.2數(shù)據(jù)挖掘方法
圖8-4知識發(fā)現(xiàn)過程數(shù)據(jù)準備數(shù)據(jù)挖掘結(jié)果表達8.2數(shù)據(jù)挖掘方法數(shù)據(jù)準備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。8.2數(shù)據(jù)挖掘方法20世紀90年代,隨著數(shù)據(jù)庫系統(tǒng)的廣泛應(yīng)用和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,數(shù)據(jù)庫技術(shù)也進入一個全新的階段,即從過去僅管理一些簡單數(shù)據(jù)發(fā)展到管理由各種計算機所產(chǎn)生的圖形、圖像、音頻、視頻、電子檔案、Web頁面等多種類型的復雜數(shù)據(jù),并且數(shù)據(jù)量也越來越大。數(shù)據(jù)庫在給我們提供豐富信息的同時,也體現(xiàn)出明顯的海量信息特征。8.2.1數(shù)據(jù)挖掘的發(fā)展信息爆炸時代,海量信息給人們帶來許多負面影響,最主要的就是有效信息難以提煉,過多無用的信息必然會產(chǎn)生信息距離和有用知識的丟失,這也就是約翰·內(nèi)斯伯特稱為的“信息豐富而知識貧乏”窘境。這里,所謂信息狀態(tài)轉(zhuǎn)移距離,是對一個事物信息狀態(tài)轉(zhuǎn)移所遇到障礙的測度。因此,人們希望能對海量數(shù)據(jù)進行深入分析,發(fā)現(xiàn)并提取隱藏在其中的信息,以更好地利用這些數(shù)據(jù)。但僅以數(shù)據(jù)庫系統(tǒng)的錄入、查詢、統(tǒng)計等功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,更缺乏挖掘數(shù)據(jù)背后隱藏知識的手段。正是在這樣的條件下,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。8.2.1數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至是異構(gòu)型的。發(fā)現(xiàn)知識的方法可以是數(shù)學的、非數(shù)學的,也可以是歸納的。最終被發(fā)現(xiàn)了的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護等。數(shù)據(jù)挖掘的對象可以是任何類型的數(shù)據(jù)源??梢允顷P(guān)系數(shù)據(jù)庫,其中包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉庫、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時序數(shù)據(jù)、Web數(shù)據(jù),其中包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。8.2.2數(shù)據(jù)挖掘的對象發(fā)現(xiàn)知識的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護等。在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達到什么樣的目標是必要的,有了好的計劃才能保證數(shù)據(jù)挖掘有條不紊地實施并取得成功。很多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問公司都提供了一些數(shù)據(jù)挖掘過程模型,來指導他們的用戶一步步地進行數(shù)據(jù)挖掘工作。8.2.3數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘過程模型主要包括定義問題、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、準備數(shù)據(jù)、建立模型、評價模型和實施。(1)定義問題。在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。8.2.3數(shù)據(jù)挖掘的步驟(2)建立數(shù)據(jù)挖掘庫。包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護數(shù)據(jù)挖掘庫。(3)分析數(shù)據(jù)。目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。8.2.3數(shù)據(jù)挖掘的步驟(4)準備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。(5)建立模型。建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準確性。訓練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓練,另一個用于模型測試。8.2.3數(shù)據(jù)挖掘的步驟(6)評價模型。模型建立好之后,必須評價得到的結(jié)果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,需要進一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。經(jīng)驗證明,有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實世界中測試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測試數(shù)據(jù),覺得滿意之后再向大范圍推廣。8.2.3數(shù)據(jù)挖掘的步驟(7)實施。模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。例如,按上述思路建立的一個數(shù)據(jù)挖掘系統(tǒng)原型示意如右圖所示。8.2.3數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘分為有指導的數(shù)據(jù)挖掘和無指導的數(shù)據(jù)挖掘。有指導的數(shù)據(jù)挖掘是利用可用的數(shù)據(jù)建立一個模型,這個模型是對一個特定屬性的描述。無指導的數(shù)據(jù)挖掘是在所有的屬性中尋找某種關(guān)系。具體而言,分類、估值和預(yù)測屬于有指導的數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則和聚類屬于無指導的數(shù)據(jù)挖掘。圖8-6有指導的數(shù)據(jù)挖掘原型示意8.2.4數(shù)據(jù)挖掘分析方法(1)分類。它首先從數(shù)據(jù)中選出已經(jīng)分好類的訓練集,在該訓練集上運用數(shù)據(jù)挖掘技術(shù),建立一個分類模型,再將該模型用于對沒有分類的數(shù)據(jù)進行分類。(2)估值。估值與分類類似,但估值最終的輸出結(jié)果是連續(xù)型的數(shù)值,估值的量并非預(yù)先確定。估值可以作為分類的準備工作。(3)預(yù)測。它是通過分類或估值來進行,通過分類或估值的訓練得出一個模型,如果對于檢驗樣本組而言該模型具有較高的準確率,可將該模型用于對新樣本的未知變量進行預(yù)測。8.2.4數(shù)據(jù)挖掘分析方法(4)相關(guān)性分組或關(guān)聯(lián)規(guī)則。其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。(5)聚類。它是自動尋找并建立分組規(guī)則的方法,它通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。8.2.4數(shù)據(jù)挖掘分析方法數(shù)據(jù)挖掘有很多用途,例如可以在患者群的數(shù)據(jù)庫中查出某藥物和其副作用的關(guān)系。這種關(guān)系可能在1000人中也不會出現(xiàn)一例,但藥物學相關(guān)的項目就可以運用此方法減少對藥物有不良反應(yīng)的病人數(shù)量,還有可能挽救生命;但這當中還是存在著數(shù)據(jù)庫可能被濫用的問題。數(shù)據(jù)挖掘用其他方法不可能實現(xiàn)的方法來發(fā)現(xiàn)信息,但它必須受到規(guī)范,應(yīng)當在適當?shù)恼f明下使用。如果數(shù)據(jù)是收集自特定的個人,那么就會出現(xiàn)一些涉及保密、法律和倫理的問題。8.2.4數(shù)據(jù)挖掘分析方法與數(shù)據(jù)挖掘有關(guān)還存在隱私保護問題,例如:一個雇主可以通過訪問醫(yī)療記錄來篩選出那些有糖尿病或者嚴重心臟病的人,從而意圖削減保險支出。對于政府和商業(yè)數(shù)據(jù)的挖掘,可能會涉及到的,是國家安全或者商業(yè)機密之類的問題。這對于保密也是個不小的挑戰(zhàn)。8.2.4數(shù)據(jù)挖掘分析方法PART03數(shù)據(jù)挖掘經(jīng)典算法數(shù)據(jù)挖掘的經(jīng)典算法主要有神經(jīng)網(wǎng)絡(luò)法、決策樹法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等。8.3數(shù)據(jù)挖掘經(jīng)典算法神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過訓練來學習的非線性預(yù)測模型,它將每一個連接看作一個處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)的學習方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點是具有抗干擾、非線性學習、聯(lián)想記憶功能,對復雜情況能得到精確的預(yù)測結(jié)果;缺點首先是不適合處理高維變量,不能觀察中間的學習過程,具有“黑箱”性,輸出結(jié)果也難以解釋;其次是需較長的學習時間。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘的聚類技術(shù)中。8.3.1神經(jīng)網(wǎng)絡(luò)法決策樹是根據(jù)對目標變量產(chǎn)生效用的不同而建構(gòu)分類的規(guī)則,通過一系列的規(guī)則對數(shù)據(jù)進行分類的過程,其表現(xiàn)形式是類似于樹形結(jié)構(gòu)的流程圖。最典型的算法是J.R.昆蘭于1986年提出的ID3算法和在此基礎(chǔ)上提出的極其流行的C4.5分類決策樹算法。8.3.2決策樹法采用決策樹法的優(yōu)點是決策制定的過程是可見的,不需要長時間構(gòu)造過程、描述簡單,易于理解,分類速度快;缺點是很難基于多個變量組合發(fā)現(xiàn)規(guī)則。決策樹法擅長處理非數(shù)值型數(shù)據(jù),而且特別適合大規(guī)模的數(shù)據(jù)處理。決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷。8.3.2決策樹法C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改進:(1)用信息增益率選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;(2)在樹構(gòu)造過程中進行剪枝;(3)能夠完成對連續(xù)屬性的離散化處理;(4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。C4.5算法產(chǎn)生的分類規(guī)則易于理解,準確率較高。缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導致算法的低效。8.3.2決策樹法遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的,是一種基于進化理論的機器學習方法。它的基本觀點是“適者生存”原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要優(yōu)點是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù);缺點是需要的參數(shù)太多,編碼困難,一般計算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),能夠解決其他技術(shù)難以解決的問題。8.3.3遺傳算法粗糙集法也稱粗糙集理論,是由波蘭數(shù)學家帕拉克在20世紀80年代初提出的一種處理含糊、不精確、不完備問題的數(shù)學工具,可以處理數(shù)據(jù)約簡、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評估等問題。其優(yōu)點是算法簡單,在其處理過程中不需要數(shù)據(jù)的先驗知識,能自動找出問題的內(nèi)在規(guī)律;缺點是難以直接處理連續(xù)屬性,須先進行屬性離散化。粗糙集理論主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡、建立預(yù)測模型等問題。8.3.4粗糙集法模糊集法是利用模糊集合理論對問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性。系統(tǒng)的復雜性越高,模糊性就越強。8.3.5模糊集法關(guān)聯(lián)規(guī)則反映了事物之間的相互依賴性或關(guān)聯(lián)性,其算法思想是:首先找出頻繁性至少和預(yù)定意義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則給定的2個閾值。在這個意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。8.3.6關(guān)聯(lián)規(guī)則法關(guān)聯(lián)規(guī)則法中最著名的算法是R.阿格拉瓦爾等人提出的阿普里里算法,這是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推,分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。8.3.6關(guān)聯(lián)規(guī)則法PART04機器學習與數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度來看,數(shù)據(jù)挖掘與機器學習有相似之處也有不同之處。例如,數(shù)據(jù)挖掘并沒有機器學習探索人的學習機制這一科學發(fā)現(xiàn)任務(wù),數(shù)據(jù)挖掘中的數(shù)據(jù)分析是針對海量數(shù)據(jù)進行的。從某種意義上說,機器學習的科學成分更重一些,而數(shù)據(jù)挖掘的技術(shù)成分更重一些。機器學習是一門多領(lǐng)域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。其專門研究計算機是怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu),使之不斷改善自身的性能。8.4機器學習與數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘中用到了大量的機器學習界提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫界提供的數(shù)據(jù)管理技術(shù)。8.4機器學習與數(shù)據(jù)挖掘?qū)W習能力是智能行為的一個非常重要的特征,不具有學習能力的系統(tǒng)很難稱之為一個真正的智能系統(tǒng),而機器學習則希望(計算機)系統(tǒng)能夠利用經(jīng)驗來改善自身的性能,因此該領(lǐng)域一直是人工智能的核心研究領(lǐng)域之一。在計算機系統(tǒng)中,“經(jīng)驗”通常是以數(shù)據(jù)的形式存在的,因此,機器學習不僅涉及對人的認知學習過程的探索,還涉及對數(shù)據(jù)的分析處理。實際上,機器學習已經(jīng)成為計算機數(shù)據(jù)分析技術(shù)的創(chuàng)新源頭之一。由于幾乎所有的學科都要面對數(shù)據(jù)分析任務(wù),因此機器學習已經(jīng)開始影響到計算機科學的眾多領(lǐng)域,甚至影響到計算機科學之外的很多學科。8.4機器學習與數(shù)據(jù)挖掘機器學習是數(shù)據(jù)挖掘中的一種重要工具。然而數(shù)據(jù)挖掘不僅僅要研究、拓展、應(yīng)用一些機器學習方法,還要通過許多非機器學習技術(shù)解決數(shù)據(jù)倉儲、大規(guī)模數(shù)據(jù)、數(shù)據(jù)噪聲等實踐問題。機器學習的涉及面也很寬,常用在數(shù)據(jù)挖掘上的方法通常只是“從數(shù)據(jù)學習”。然而機器學習不僅僅可以用在數(shù)據(jù)挖掘上,一些機器學習的子領(lǐng)域甚至與數(shù)據(jù)挖掘關(guān)系不大,如增強學習與自動控制等。所以,數(shù)據(jù)挖掘是從目的而言的,機器學習是從方法而言的,兩個領(lǐng)域有相當大的交集,但不能等同。8.4機器學習與數(shù)據(jù)挖掘圖8-7所示是一個典型的推薦類應(yīng)用,需要找到“符合條件的”潛在人員。要從用戶數(shù)據(jù)中得出這張列表,首先需要挖掘出客戶特征,然后選擇一個合適的模型來進行預(yù)測,最后從用戶數(shù)據(jù)中得出結(jié)果。圖8-7典型的推薦類應(yīng)用示意8.4.1數(shù)據(jù)挖掘和機器學習典型過程把上述例子中的用戶列表獲取過程進行細分,有如下幾個部分(圖8-8)。圖8-8用戶列表獲取過程8.4.1數(shù)據(jù)挖掘和機器學習典型過程業(yè)務(wù)理解:理解業(yè)務(wù)本身,其本質(zhì)是什么?是分類問題還是回歸問題?數(shù)據(jù)怎么獲???應(yīng)用哪些模型才能解決?數(shù)據(jù)理解:獲取數(shù)據(jù)之后,分析數(shù)據(jù)里面有什么內(nèi)容、數(shù)據(jù)是否準確,為下一步的預(yù)處理做準備。數(shù)據(jù)預(yù)處理:原始數(shù)據(jù)會有噪聲,格式化也不好,所以為了保證預(yù)測的準確性,需要進行數(shù)據(jù)的預(yù)處理。特征提?。禾卣魈崛∈菣C器學習最重要、最耗時的一個階段。8.4.1數(shù)據(jù)挖掘和機器學習典型過程模型構(gòu)建:使用適當?shù)乃惴?,獲取預(yù)期準確的值。模型評估:根據(jù)測試集來評估模型的準確度。模型應(yīng)用:將模型部署、應(yīng)用到實際生產(chǎn)環(huán)境中。應(yīng)用效果評估:根據(jù)最終的業(yè)務(wù),評估最終的應(yīng)用效果。整個過程會不斷反復,模型也會不斷調(diào)整,直至達到理想效果。8.4.1數(shù)據(jù)挖掘和機器學習典型過程電商沃爾瑪利用數(shù)據(jù)挖掘工具對原始交易數(shù)據(jù)進行分析和挖掘,意外地發(fā)現(xiàn):跟尿布一起購買最多的商品竟然是啤酒!從而揭示出隱藏在“尿布與啤酒”背后的客戶的一種行為模式。數(shù)據(jù)挖掘技術(shù)對歷史數(shù)據(jù)進行分析,反映了數(shù)據(jù)的內(nèi)在規(guī)律。如今,這樣的故事隨時可能發(fā)生。8.4.2機器學習和數(shù)據(jù)挖掘應(yīng)用案例1.決策樹用于電信領(lǐng)域故障快速定位電信領(lǐng)域比較常見的應(yīng)用場景是決策樹,利用決策樹來進行故障定位。比如,用戶投訴上網(wǎng)慢,其中就有很多種原因,有可能是網(wǎng)絡(luò)的問題,也有可能是用戶手機的問題,還有可能是用戶自身感受的問題。怎樣快速分析和定位出問題,給用戶一個滿意的答復?這就需要用到?jīng)Q策樹。圖8-9就是一個典型的用戶投訴上網(wǎng)慢的決策樹的樣例。8.4.2機器學習和數(shù)據(jù)挖掘應(yīng)用案例
圖8-9決策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電商平臺在商業(yè)環(huán)境中的社會責任與可持續(xù)發(fā)展
- 電信行業(yè)的大數(shù)據(jù)應(yīng)用與創(chuàng)新服務(wù)
- 電子商務(wù)與電子化采購系統(tǒng)的協(xié)同發(fā)展
- 現(xiàn)貨貿(mào)易背景下的新型倉儲管理模式研究
- 電子商務(wù)在辦公用品領(lǐng)域的應(yīng)用分析
- 環(huán)保產(chǎn)業(yè)推動城市經(jīng)濟轉(zhuǎn)型的關(guān)鍵力量
- 生物質(zhì)能源行業(yè)的技術(shù)創(chuàng)新與市場策略
- 電商平臺運營與網(wǎng)絡(luò)營銷技巧
- 現(xiàn)代物流技術(shù)創(chuàng)新提升效率與競爭力的關(guān)鍵
- 環(huán)保技術(shù)在農(nóng)業(yè)可持續(xù)發(fā)展中的重要性
- GB/T 27697-2024立式油壓千斤頂
- 《消防機器人相關(guān)技術(shù)研究》
- 2024年考研政治真題及答案
- 【直播薪資考核】短視頻直播電商部門崗位職責及績效考核指標管理實施辦法-市場營銷策劃-直播公司團隊管理
- 項目設(shè)計報告范文高中
- 《千年古村上甘棠》課件
- 部編版小學語文二年級下冊電子課文《小馬過河》
- 《醫(yī)療機構(gòu)工作人員廉潔從業(yè)九項準則》專題解讀
- 愛車講堂 課件
- 成立商會的可行性報告5則范文
- 市場監(jiān)督管理局反電信網(wǎng)絡(luò)詐騙工作總結(jié)
評論
0/150
提交評論