《數(shù)據(jù)挖掘》讀書筆記_第1頁
《數(shù)據(jù)挖掘》讀書筆記_第2頁
《數(shù)據(jù)挖掘》讀書筆記_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、«DataAnalysis:withopensourcetools»第18章預測分析讀書筆記1. 一、全書概況作者簡介本書作者是PhilippK.Janer,他憑借著自己多年來擔任物理學家和軟件工程師的經(jīng)驗,為數(shù)據(jù)分析和數(shù)學建模提供咨詢服務(wù)。他是GnuplotinAction:UnderstandingDatawithGraphs(Manning出版)的作者,也在GReillyNetwork、RMdeveloperWorks和IEEESoftware發(fā)表過大量文章,擁有華盛頓大學理論物理學博士學位。2. 本書大綱本書中文名為數(shù)據(jù)之魅:基于開源工具的數(shù)據(jù)分析,共分為四個部分1

2、9章節(jié)。第一部分為1-6章,講述的是如何通過圖表技術(shù)來觀察數(shù)據(jù),分別介紹了單變量、雙變量、時間序列、多變量的圖表技術(shù)應(yīng)用。第二部分為7-11章,講述了如何通過各種建模方法來分析數(shù)據(jù),討論了數(shù)量級估計和不確定性因素、開發(fā)模型的基本組件。第三部分為12-15章,著重闡述如何進行數(shù)據(jù)挖掘,如何運用模擬、聚類等方法挖掘有用的知識。第四部分為16-19章,強調(diào)數(shù)據(jù)分析在商業(yè)和金融等領(lǐng)域的實際應(yīng)用。另外,本書每章的最后都有一個標題為“工作坊”的小節(jié),介紹通過各種開源工具和源碼庫來實踐當前意節(jié)所講述的理論,例如Python、Rgnuplot、Sage等。本書包含大量的模擬過程及結(jié)果展示,并通過實例來闡述如何

3、使用開源工具來進行數(shù)據(jù)分析。通過本書的閱讀,筆者可以活楚地了解這些方法的實際用法及用途。二、第18章預測分析本意討論的是如何直接根據(jù)數(shù)據(jù)來進行預測。在第二部分中,作者介紹了通過構(gòu)造某種概念模型來進行預測的方法,但當環(huán)境復雜時,我們可能面臨著沒辦法構(gòu)造概念模型的問題,所以本意的預測法很好的解決了這一難題。預測分析用于描述直接從數(shù)據(jù)中獲取預測信息為目的的各種任務(wù),其中以下三個應(yīng)用領(lǐng)域比較突出,分別是:1)分類或者監(jiān)督學習。將每個紀錄分配到已知的已經(jīng)定義好的類集合中,如垃圾郵件的過濾;2)聚類或無監(jiān)督學習。將紀錄歸并為簇,但簇是未知的。3)推薦。根據(jù)以往的興趣或者習慣來推薦一個合適的項目。其中,分類

4、毋庸置疑是最重要的領(lǐng)域也是研究最深入的領(lǐng)域,本章概括性的介紹最重要的幾種分類算法和技術(shù)。1) 六種主要的分類算法基于實例的分類和最近鄰分類算法基于實例的分類算法,即為了對一個未知的實例分類,為新實例尋找“最相似”的現(xiàn)有實例,分配已知實例的類標簽給新實例?;趯嵗姆诸悰]有一個獨立的訓練階段,分類中唯一可以調(diào)節(jié)的參數(shù)是鄰節(jié)點的個數(shù)k,因此分類的代價彳艮昂貴。2) 貝葉斯分類器3) 貝葉斯分類器采用的是一種概率性的分類法。給定一組屆性,它計算實例屆于這個或者哪個類的概率,然后一個實例被分配給概率最高的那個類標簽。貝葉斯分類器計算條件概率,給定一組特征的應(yīng)用以及訓練集合中可以完全確定的完整的表達式,

5、能夠表示一個實例屆于類C的概率。但在實際中,直接估算這個概率幾乎不可能。樸素貝葉斯大大簡化了問題,使得只需要一次確定一個單獨屆性中的屆性值出現(xiàn)的概率。貝葉斯網(wǎng)絡(luò)也可以達到不錯的效果,因為可以只保留那些彼此間由因果關(guān)系的組合,修剪掉所有可能的特征組合,回歸回歸分析指的是,當類標簽和特征集合之間存在函數(shù)關(guān)系時,可以在這種關(guān)系上通過調(diào)整對數(shù)據(jù)的一個合適的函數(shù)來建立一個分類器。通常會利用邏輯函數(shù)作為一個光滑的逼近代替階梯函數(shù)。邏輯回歸同所有的回歸分析方法一樣,是一種全局技術(shù),試圖優(yōu)化所有點的調(diào)整,而不是只適用于一個特別相關(guān)的子集上。4) 支持向量機支持向量機是基于一種簡單的幾何構(gòu)造的的算法。在二維特征

6、空間的訓練實例中,我們選擇“最好的”分界線(通常是曲線而非直線)來劃分實例屆于這個類而不是屆于另一個類。支持向量機給出的答案時“最好的”分界線。支持向量機首先把尋找決策邊界的任務(wù)轉(zhuǎn)化為從一組點中構(gòu)造一條線的集合任務(wù),再尋找擁有最大邊緣的決策邊界。另外,支持向量機的一個重要特性是它執(zhí)行嚴格的全局優(yōu)化,能夠找出最優(yōu)超平面。5) 決策樹和基于規(guī)則的分類器決策樹和基于規(guī)則的分類器乂被稱為非度量性分類器,因為它們不需要計算距離。決策樹由一個決策點(樹的節(jié)點)的層次結(jié)構(gòu)構(gòu)成。使用決策樹歸類一個未知的實例時,在每個樹節(jié)點檢查一個單一的特征?;谠撎卣髦?,選擇下一個節(jié)點。樹的業(yè)節(jié)點對應(yīng)類,一旦達到一個葉節(jié)點,

7、待歸類的實例就都已分配有相應(yīng)的類標簽。從訓練集獲得決策樹的主要算法采用的是貪婪算法。它不能保證會找到最佳解決方案,但能確保解決方案盡可能的好。決策樹和基于規(guī)則的分類器之間存在這等價關(guān)系。后者包含一組規(guī)則(即對屆性值的邏輯條件),在進行集合分類時,就根據(jù)它來決定一個測試實例的類標簽。6)其他分類算法線性判別分析法,它和主成分分析法(PCA類似。人工神經(jīng)網(wǎng)絡(luò),其思路是構(gòu)造一個節(jié)點網(wǎng)絡(luò);每個網(wǎng)絡(luò)從其他幾個節(jié)點接受輸入,構(gòu)成其輸入的權(quán)重平均值,然后將其發(fā)送到下一層節(jié)點。在學習階段,調(diào)整權(quán)重平均值中用到的權(quán)重,以盡量減少訓練誤差。主要的技術(shù)1)集成方法:Bagging和Boosting集成方法指的是為了

8、提高精確度,而將單獨的或者“基礎(chǔ)的”分類器的結(jié)果聯(lián)合起來的一組技術(shù)。其基本原理是,只要是獨立進行的實驗就可以進行預期,因為錯誤會被消除,平均結(jié)果會比單獨試驗的結(jié)果更精確。Bagging是引導思路在分類方面的應(yīng)用。通過放回抽樣這種方式從原始的訓練集產(chǎn)生額外的訓練集。最終的類標簽將基于多數(shù)決定少數(shù)或者類似技術(shù)進行分配。Boosting是另一種利用引導方法來產(chǎn)生額外訓練集的技術(shù)。與Bagging不同的是,Boosting是一個迭代的過程,它給前幾輪中錯誤分類的實例賦予較高權(quán)重,最后的結(jié)果有迭代過程中所有基本分類器產(chǎn)生的結(jié)果集合組成。2)估計預測誤差由于訓練錯誤率通常不能很好的衡量分離器再新的數(shù)據(jù)上能

9、達到的精確度。所以在訓練過程中,通常會保留一些數(shù)據(jù),用于之后的測試集合。分類器在測試集合中所達到的錯誤率可作為泛化錯誤率。如果集合中的可用數(shù)據(jù)較少,則可進行交義驗證。基本思路是將隨機分成同樣大小的k個塊的原始數(shù)據(jù),執(zhí)行k次訓練和測試運行。每次運行時從訓練集合中留出一個塊,將其用于測試集合。最后取k次運行中得到的泛化錯誤率平均值,以獲得預期的整體泛化錯誤率。3)類不平衡問題在數(shù)據(jù)集合中,會出現(xiàn)我們感興趣的類比其他類出現(xiàn)的頻率小很多的情況。這種類的實例稱為正事件,這個類本身稱為正類。評價分類器的慣用衡量標準,例如精確度、誤差率,在有明顯的類不平衡時不是特別有意義。更好的評價時召回率和準確率這兩個衡

10、量標準。準確率是所有被標記為正的實例中正確分類的比例;召回率是所有被標記為負的實例中正確分類的比例。一條ROC(受試者操作特性)曲線描述的是對于三種不同的分離器實現(xiàn),在真是的正(壞的事情被標記為壞一一“命中”)和虛假的正(好的事情被標記為壞的一一“假警報”)之間的權(quán)衡。1. 屬性的選擇屆性的選擇對分類的成功具有舉足輕重的作用,其重要性甚至勝過分類算法的選擇。不過,對比不同分類器算法及其理論屆性更細節(jié)的可用信息時,更難找到更好的指導叫我們?nèi)绾巫罴堰x擇、準備和分類器寫特征代碼。原因是缺乏嚴謹性,對于特征選擇和編碼的建議都是經(jīng)驗性和啟發(fā)式的。這導致規(guī)模龐大且廣味認知的成功應(yīng)用明顯缺乏,除了垃圾郵件過濾器、信用卡欺詐檢測和信用評分等被廣泛應(yīng)用。這表明每一個成功的分類器實現(xiàn)比起依賴算法的依賴更加依賴于特定問題的細節(jié)。三、總結(jié)本書邏輯框架活晰、分析深入淺出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論