大數據分析與挖掘_第1頁
大數據分析與挖掘_第2頁
大數據分析與挖掘_第3頁
大數據分析與挖掘_第4頁
大數據分析與挖掘_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

會計學1大數據分析與挖掘機器學習的常見用途第1頁/共28頁統(tǒng)計分析與數據挖掘技術上的定義應用一系列技術從大型數據庫或數據倉庫的數據中提取人們感興趣的信息和知識這些信息和知識是隱含的、未知的、潛在有用的表示為概念、規(guī)則、規(guī)律和模式等形式商業(yè)角度的定義新型的商業(yè)分析處理技術,幫助決策者尋找數據間潛在的關聯(lián),發(fā)現被忽略的因素這些信息和因素對預測趨勢和決策行為是至關重要的與傳統(tǒng)分析方法的區(qū)別在沒有明確假設的前提下去挖掘信息、發(fā)現知識所獲信息具有先前未知,有效和可實用三個特征什么是數據挖掘?第2頁/共28頁數據分析與數據挖掘的區(qū)別數據分析數據挖掘數據量數據量一般不大數據量通常很大約束從一個既定假設(目標)出發(fā)可以不需要既定的假設(目標)對象針對數字化的數據可以針對數字化的數據,還可以針對聲音,文本,圖像等結果對結果進行解釋,呈現有效的信息結果有時不容易解釋,著眼于預測未來,提出決策建議

數據分析只是在已定的假設、先驗約束上處理原有計算方法,統(tǒng)計方法,將數據分析轉化為信息,而這些信息如果需要進一步的獲得認知,轉化為有效的預測和決策,這時就需要數據挖掘

數據分析是把數據變成信息的工具,數據挖掘是把信息變成認知的工具,如果我們想要從數據中提取一定的規(guī)律(即認知)往往需要數據分析和數據挖掘結合使用。第3頁/共28頁大數據分析與挖掘的常見用途1、自動預測趨勢和行為數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。谷歌預測冬季流感的傳播初步鎖定與流感相關的關鍵詞條谷歌數據庫用戶搜索記錄美國疾控中心記錄的流感事件發(fā)生的區(qū)域和時間預測模型預測結果谷歌準確的預測出2009年甲型H1N1流感的爆發(fā),并明確指出爆發(fā)地所在的州以及時間。與滯后的官方數據相比,谷歌成為一個更有效及時的指示者。優(yōu)化詞條篩選第4頁/共28頁大數據分析與挖掘的常見用途2、關聯(lián)分析數據關聯(lián)是數據庫中存在的一類重要的可被發(fā)現的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數據庫中隱藏的關聯(lián)網。有時并不知道數據庫中數據的關聯(lián)函數,即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。購物籃分析顧客一次購買商品1面包、黃油、啤酒、尿布、牛奶2咖啡、糖、小甜餅、鮭魚3面包、黃油、咖啡、尿布、牛奶、雞蛋、啤酒4面包、黃油、鮭魚、雞5雞蛋、面包、黃油6啤酒、鮭魚、尿布、牛奶7番茄、啤酒、蝦、蘋果8土豆、面包、牛奶、生菜9啤酒、面包、尿布、咖啡10茶葉、雞蛋、鹽、啤酒經過關聯(lián)分析,發(fā)現顧客經常同時購買的產品中,啤酒與尿布同時出現的頻率最高第5頁/共28頁大數據分析與挖掘的常見用途3、聚類數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。經過對電信行業(yè)用戶的特征進行聚類,可以完成客戶的畫像,可以基于多個維度完成畫像,也可以基于關聯(lián)分析的基礎上進行降維處理后再開展畫像。年齡收入話費支出群體A:年齡50歲以上

年收入20K以下

月話費支出50元以下群體B:年齡30~50歲

年收入80K以上

月話費支出200元以上群體C:年齡20~30歲

年收入50K

月話費支出100元第6頁/共28頁大數據分析與挖掘的常見用途4、概念描述概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。序號按時還款婚姻狀態(tài)應納稅收入詐騙嫌疑1是單身125K否2否已婚100K否3否單身70K否4是已婚120K否5否離異95K是6否已婚60K否7是離異220K否8否單身85K是9否已婚75K否10否單身90K是按時還款否婚姻狀態(tài)是否應納稅收入否單身.離異已婚否是<80K>80K決策樹第7頁/共28頁大數據分析與挖掘的常見用途4、概念描述概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。第8頁/共28頁大數據分析與挖掘的常見用途5、偏差檢測數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。一個人的年齡為-999可能是程序處理缺省數據的方式導致的一個公司的高管工資明顯高于普通員工可能成為異常數據但也許是合理的一部住宅電話的話費由每月200元以內增加到數千元可能因為盜打或其他原因所致一張信用卡突然出現明顯的高額消費也許是因為盜用的信用卡1、異常數據與眾不同,往往具有相對性

如高與矮、瘋子與常人2、常用的檢測方法

異常挖掘、離群挖掘、例外挖掘、稀有事件挖掘第9頁/共28頁大數據分析與挖掘項目的特點1.1.大數據分析與挖掘經常是從技術角度切入:未知的探索1.2.比傳統(tǒng)項目多了很多嘗試成本:1.3.算法與模型的適用性與時間、地域以及其他外部條件影響1.4.經常要在目標要求與算法的復雜性、性能之間做出取舍第10頁/共28頁數據挖掘工作常見誤區(qū)只依賴一項技術/算法MCLP多目標線性規(guī)劃算法KNNK近鄰算法第11頁/共28頁數據挖掘工作常見誤區(qū)同樣研究對象應用一種模型算法模型的選擇,需要考慮模型對數據的適用性,只有結合數據的內在特征、模型的假設條件,才能建立合適的模型,也只有針對具體數據集,才能談模型的好壞。因此數據本身的差異,決定了算法模型選擇的差異。即使研究目的相同,研究對象相似,由于影響數據生成過程的因素差異性較大,數據的具體表現形態(tài)也有較大差異,算法也會有截然不同。隨著時間的推移,數據的形態(tài)發(fā)生改變,因此有可能需要重新選擇合適的模型,或者,對原有相同模型進行參數調整。第12頁/共28頁數據挖掘工作常見誤區(qū)缺乏數據對于分類問題或預估問題來說,常常缺乏準確標注的案例。例如:欺詐偵測(FraudDetection):在上百萬的交易中,可能只有屈指可數的欺詐交易,還有很多的欺詐交易沒有被正確標注出來,這就需要在建模前花費大量人力來修正。信用評分(CreditScoring):需要對潛在的高風險客戶進行長期跟蹤(比如兩年),從而積累足夠的評分樣本。第13頁/共28頁數據挖掘工作常見誤區(qū)同樣研究對象應用一種模型負荷較穩(wěn)定專業(yè)技術支持負荷總量逐步提高至穩(wěn)定周期性強節(jié)假日特性強日夜負荷差大有學校的臺變成熟小區(qū)臺變商鋪較多的臺變新建小區(qū)臺變第14頁/共28頁大數據分析與挖掘項目的開展大數據分析與挖掘的標準流程第15頁/共28頁數據挖掘方法論業(yè)務理解(BusinessUnderstanding)數據理解(DataUnderstanding)建模(Modeling)數據準備(DataPreparation)評估(Evaluation)部署(Deployment)跨行業(yè)數據挖掘標準流程(CRISP-DM)第16頁/共28頁

業(yè)務理解數據理解數據準備評估部署需求分析:從業(yè)務的角度理解項目的目的、范圍、業(yè)務定義。問題識別:識別需求中待所需業(yè)務問題的內涵。問題定義:對業(yè)務問題進行定義,確定問題概念范疇。問題分解:將復雜問題分解為幾個相當對簡單的子問題。問題轉化:將業(yè)務問題轉化為能夠被數據挖掘問題。關鍵要素:問題轉化工作內容將業(yè)務需求轉化為數據挖掘問題。如:分類、推薦、回歸、聚類、關聯(lián)規(guī)則分析、時間序列分析、特征選擇、流數據分析等。建模數據挖掘方法論第17頁/共28頁

關鍵要素:數據定義、數據質量分析工作內容熟悉并數據理解原始數據的含義及產生條件,識別數據的質量問題,發(fā)現數據的內部屬性。數據定義:識別并理解原始數據中屬性數據的含義。如:數據庫中表的結構,數據表之間的關系,數據表每一列的含義、格式、約束條件等等。數據質量分析:對數據的質量進行分析?;窘y(tǒng)計量:缺失值數量、均值、方差、中值、頻數、分位數、T檢驗、Z檢驗等等??梢暬狐c圖、箱型圖、柱狀圖等。異常值:聚類、異常值檢測業(yè)務理解數據理解數據準備評估部署建模數據挖掘方法論第18頁/共28頁

關鍵要素:數據選擇、數據整合、數據衍生、數據轉換、數據清洗工作內容從原始數據中構造最終數據集的所有活動。這些數據將是建模的輸入值。這個階段的任務有個能執(zhí)行多次,沒有任何規(guī)定的順序。任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗數據。數據選擇:在原始數據的基礎上進行篩選,根據問題定義進行數據選擇。如:使用全部數據、nfold分塊方式、按比例方式、Bootstrap等。數據衍生:從原始數據屬性的基礎上派生出新的數據屬性。基本派生:均值、中值、頻數、最?。ù螅┲?、線形變換等。根據業(yè)務的派生:凈資產、凈資產收益率、折現率等。

數據轉換:對原始數據進行變換,以滿足數據挖掘模型需要。離散化化處理:非數據型數據轉數值型,如性別、職業(yè)、區(qū)域等。數據平滑處理:非平滑數據轉化成平滑數據,如時序數據中股票價格、成交量等??梢暬狐c圖、箱型圖、柱狀圖等。異常值:聚類、異常值檢測業(yè)務理解數據準備數據理解評估部署建模數據挖掘方法論第19頁/共28頁

關鍵要素:數據選擇、數據整合、數據衍生、數據轉換、數據清洗工作內容從原始數據中構造最終數據集的所有活動。這些數據將是建模的輸入值。這個階段的任務有個能執(zhí)行多次,沒有任何規(guī)定的順序。任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗數據。數據清洗:對數據中的異常情況進行清理,提升數據質量。缺失值處理:均值、按類別取均值、聚類均值、BayesRule、近鄰學習異常值處理:裝箱、聚類、回歸、人工處理一致性處理:基于規(guī)則、人工數據整合:將多個數據源中的數據有機整合到一起。如:關系數據SQL查詢、按ID整合、Tag信息整合、異構數據整合。數據歸約:數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍接近地保持原數據的完整性,數據歸約可以解決海量數據上造成的效率與性能問題。

如:數據方聚集、維歸約、數據壓縮、離散化和概念分層產生。業(yè)務理解數據準備數據理解評估部署建模數據挖掘方法論第20頁/共28頁

關鍵要素:模型選擇、模型訓練、模型最優(yōu)參數選擇、模型優(yōu)化工作內容選擇并應用不同的數據挖掘模型,通過模型參數調整來獲得最佳模型。有些模型可以解決一類相同的數據挖掘問題。有些模型在數據生成上有特殊要求,因此可能需要經常返回到數據準備階段。模型選擇:根據業(yè)務理解階段的問題轉化選擇不同的數據挖掘模型分類:SVM、LogisticRegression、MCLP、DecisionTree等。推薦:基于內容、基于知識、協(xié)同過濾、基于效用等?;貧w:SVM、LinearRegression、GaussianProcess等。聚類:Kmeans、Kmedoids、AffinityPropagation、EM關聯(lián)規(guī)則:apriori、fp-tree等。模型訓練:使用數據準備階段所準備的數據對所選模型進行訓練。概率論、統(tǒng)計學、隨機過程;機器學習;人工智能;最優(yōu)化理論業(yè)務理解建模數據理解評估部署數據準備數據挖掘方法論第21頁/共28頁

關鍵要素:模型選擇、模型訓練、模型最優(yōu)參數選擇、模型優(yōu)化工作內容選擇并應用不同的數據挖掘模型,通過模型參數調整來獲得最佳模型。有些模型可以解決一類相同的數據挖掘問題。有些模型在數據生成上有特殊要求,因此可能需要經常返回到數據準備階段。模型最優(yōu)參數調整:在選定模型后,需要對模型的參數進行進一步的調整,以使模型對數據有良好泛化能力。

網格搜索(GridSearch):為每個模型參數設定一個候選集合,從全部參數的組合中根據評價指標選取最好的模型參數。

遺傳算法:每一個候選參數集合是遺傳算法中的一個個體,通過個體選擇、參數間交叉、變異來選擇較好的候選參數集合。模型優(yōu)化:進一步優(yōu)化模型以滿足具體的業(yè)務需求。如:時間復雜度、空間復雜度、計算成本復雜度等等。業(yè)務理解建模數據理解評估部署數據準備數據挖掘方法論第22頁/共28頁

關鍵要素:基本指標評估、業(yè)務指標評估工作內容從數據分析的角度已經建立了一個高質量的模型。檢查構造模型的步驟,確保模型可以完成業(yè)務目標。這個階段的關鍵目的是確定是否有重要業(yè)務問題沒有被充分的考慮。基本指標評估:從模型的角度對所選模型進行評估,判斷是否需要調整或重新選擇模型。如:混淆矩陣(ConfusionMatrix)、ROC、AUC、K-S指標等等。業(yè)務指標評估:從業(yè)務的角度對所選模型進行評估,判斷是否需要調整或重新選擇模型。如,存款額、營業(yè)額、利潤率、挽回客戶價值等等。業(yè)務理解評估數據理解建模部署數據準備數據挖掘方法論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論