版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據庫概論數據倉庫與數據挖掘簡介目錄數據倉庫鳥瞰:萬川匯海,吐納丹田數據挖掘算法原理:知其所以然數據挖掘應用示例:知行合一大規(guī)模數據分析:九天攬月,五洋捉鱉概念架構建模開發(fā)數據倉庫簡介囚徒困境囚徒乙坦白抵賴囚徒甲坦白(-8,-8)(0,-10)抵賴(-10,0)(-1,-1)titfortatonetitfortwotatstwotitsforonetat博弈智豬博弈小豬按等待大豬按(5,1)(4,4)等待(9,-1)(0,0)博弈決策支持系統正確決策—企業(yè)競爭優(yōu)勢錯、錯、錯在錯誤的時間、錯誤的地點、同錯誤的對手打了一場錯誤的戰(zhàn)爭噬臍何及合九州六十四縣鐵,不能鑄成此大錯也避免三拍決策拍腦袋決策拍巴掌通過拍屁股走人商務智能QueryDataAnalysisInformationDataminingKnowledge從數據到知識WearedrowningindatabutstarvedofinformationBusinessIntelligenceisaprocessofturningdataintoknowledgeandknowledgeintoactionforbusinessgain商務智能標準報告
多少、頻率及地點?發(fā)生了什么特定報告問題究竟出在哪里?質問、刨根問底警報為什么這件事會發(fā)生?需要采取什么行動?統計分析趨勢持續(xù)下去會怎樣?預測、外推下一步將發(fā)生什么?預測模型可能發(fā)生的最好結果是什么?優(yōu)化智能程度競爭優(yōu)勢報告型分析型企業(yè)活動的層次結構戰(zhàn)略計劃層管理控制和戰(zhàn)術計劃層作業(yè)計劃與控制層決定戰(zhàn)略目標資源有效利用完成具體活動安東尼模型面向高層的戰(zhàn)略信息哪些客戶對我們最有利?如何拓展與他們的聯系?哪些客戶給我們提供利潤?哪些客戶使我們遭受損失?根據他們經常光顧的商店,最好的客戶居住在哪里?哪些產品和服務能被最有效的進行交叉銷售,銷售對象是誰?哪些市場營銷案例是最成功的?為什么?哪些銷售渠道對于哪些產品是最有效的?如何才能改善我們用戶的總體經歷?戰(zhàn)略信息的特征綜合性完整性可用性及時性面向高層的戰(zhàn)略信息提供戰(zhàn)略信息的環(huán)境提供全局的、一致的信息視角提供統一的數據分析源滿足決策者動態(tài)變化的需求能夠讓決策者親力親為必須把分析型數據從事務處理環(huán)境中提取出來,按照DSS處理的需要進行重新組織,建立單獨的分析處理環(huán)境。數據倉庫應運而生為什么需要數據倉庫未有……之前搜索特定的數據源生成特定的抽取程序集成數據匯總數據尋找歷史數據需求決定服務分工提高效率上帝說:要有光基于數據倉庫的戰(zhàn)略信息環(huán)境提供對企業(yè)的綜合而完整的概括提供決策所需的當前和歷史數據決策處理不妨礙操作型系統提供一個靈活交互的戰(zhàn)略信息來源百分百用戶驅動非常適合提問-回答-再提問的模式信息的正確性、完備性、簡明性+訪問的靈活性數據倉庫是一個數據集合面向主題的集成的相對穩(wěn)定的反映歷史變化的用于支持管理決策ETL工具中央數據倉庫關系數據應用包歷史數據外部數據數據倉庫的定義數據倉庫是一個信息傳遞環(huán)境,使用所有已經存在的數據,通過清洗和轉化,提供有用的決策信息
采購數據庫銷售數據庫供應商商品顧客庫存數據庫數據倉庫的定義:面向主題的數據源1數據源2抽取器抽取器合成器數據倉庫數據倉庫的定義:集成的部門級數據倉庫小型的、面向部門或工作組的數據倉庫自頂向下vs自底向上是先了解公司整體情況,自頂向下地建立一個全局數據倉庫,還是根據部門具體需求,自底向上地建立部門級的數據集市?建設速度、實施風險、投資費用、數據一致、管理控制數據集市眼高手低:全局視角+逐步實施數據倉庫體系結構源數據庫數據抽取、轉換、裝載ETL工具數據建模工具中央元數據數據集市數據訪問和分析工具終端用戶DW工具中央數據倉庫中央數據倉庫中間層中間層數據集市數據集市局部元數據局部元數據局部元數據元數據交換終端用戶DW工具終端用戶DW工具多維數據庫關系數據應用包歷史數據外部數據數據清理工具關系數據庫關系數據庫DW管理工具獲取->存儲->傳遞多維MD體系結構企業(yè)信息工廠CIF體系結構獨立的數據集市架構聯邦式數據倉庫架構集中式架構集線器和車輪輻條架構總線架構數據倉庫架構類型數據倉庫總線結構令人生畏的企業(yè)數據倉庫規(guī)劃困境有什么:各種數據源要什么:滿足高層需要老死不相往來的獨立數據集市災難不兼容性有損于整體企業(yè)視圖的一致性獨立數據集市的實施妨礙整體數據倉庫的開發(fā)數據倉庫總線:整體視圖,逐步實施數據集市:逐步實施的數據倉庫一致性維度+標準化事實數據倉庫總線結構購買訂單商場庫存商場營銷日期產品存儲提升倉庫供應商運輸商維度建模基本概念ER模型蜘蛛網結構關注局部聯系適合部門業(yè)務處理爬行路徑發(fā)現實體間的聯系低層信息需求某一訂單的顧客是誰?某一訂單包括哪些商品?維度建?;靖拍铑櫩陀唵斡唵蚊骷毠蛦T貨運產品目錄供應商人口統計區(qū)域維度建?;靖拍罡邔有畔⑿枨箐N售量下降的原因是什么?哪些客戶的購物行為相同?金牌客戶的特征是什么?多維模型:維+度量對一些統計指標(銷售額)從不同角度(維:時間、地區(qū)、商品類型、客戶)展開分析維度建?;靖拍钣唵萎a品顧客貨運供貨商事實表+維表維度建模基本概念事實:業(yè)務度量值事實必須是數字類型和可加的事實表:存放大量的業(yè)務性能度量值每個商店每種商品每天的銷售數量和銷售額維:分析的角度禮、義、廉、恥,國之四維四維不張,國乃滅亡天柱折、地維絕維度表:富有意義的文字性描述,提供詳細的業(yè)務用語屬性,查詢與報表的來源維度建?;靖拍钚切湍J揭允聦崬橐罁苑蔀闇世K維度建?;靖拍钛┗J綌祿}庫項目:開發(fā)方法數據庫:基于確定的業(yè)務處理需求、確定的數據流數據倉庫:需求不確切,沒有固定模式,用戶對分析處理需求不甚明了給我看一下我說我想要的東西,然后我告訴你我真正想要什么既然我看到了我能夠做什么,我就能告訴你是真正有用的什么數據庫:開始于需求,結束于代碼數據倉庫:開始于數據,結束于需求數據倉庫項目:變革運動超過50%的數據倉庫項目是失敗的要點:數據倉庫項目會帶來組織結構上的變化協調部門利益,打破條塊分割改革中普遍的人性“曾經闊氣的要復古,正在闊氣的要保持現狀,未曾闊氣的要革新,大抵如此,大抵”“他的敵人會堅決報復他,而他的朋友則不會同樣熱心地保護他”關鍵:領導者的決心與參與數據倉庫項目:指導原則發(fā)起者的地位:來自管理者的強有力支持項目經理:應更多地面向用戶,而非技術團隊角色:對應每個獨立的數據倉庫項目需求數據質量:質量、質量、第三個質量用戶需求:驅動力考慮增長的因素:不斷增加的用戶和查詢及數據規(guī)模項目政治影響:會給各個層次的用戶帶來沖擊現實的期望:確立合理的、逐步的、可達的期望維度建模:數據倉庫藍圖外部數據:數據倉庫必需品培訓:數據倉庫價值體現在它的使用上數據倉庫項目:特別之處數據倉庫項目范圍更廣、更復雜、技術龐雜多請教領域專家要引起對元數據的足夠重視重視基礎結構的設計和建造讓最終用戶參與項目的每個階段并行開發(fā)迭代式開發(fā)數據倉庫項目:團隊執(zhí)行負責人決定方向,支持并仲裁項目經理分配任務,檢查并控制進度用戶聯絡經理與用戶群合并體系結構總設計設計體系結構基礎設施專家設計和建設基礎設施商業(yè)分析師需求定義數據建模人員相關性和維度建模數據倉庫管理員類似數據庫管理員的職能數據轉換專家數據抽取、整合、轉換質量保證分析師數據倉庫中的質量控制測試協調員程序、系統和工具測試最終用戶應用程序專家數據含義和關系的確認開發(fā)程序員內部程序和腳本的編寫培訓經理協調用戶和團隊的培訓數據倉庫項目:準備工作數據倉庫項目:起點區(qū)分業(yè)務需求優(yōu)先級主題A主題B主題C主題D潛在業(yè)務影響可行性高高低低數據倉庫項目:起點儀表盤、計分卡是合適的主題嗎?包含多個業(yè)務過程的關鍵績效度量需要從所有業(yè)務過程提取數據需要詳備的細節(jié)數據最大的誘惑,最壞的起點最大風險是不了解數據方面的困難數據倉庫項目:ETL數據的抽取、轉換、裝載數據清洗缺失數據噪音數據不一致數據數據集成ETL占數據倉庫項目總工作量的50%到70%超過50%的人認為數據質量是最大的挑戰(zhàn)數據倉庫項目:維度設計大維度客戶維、產品維快速變化維客戶人口統計信息蜈蚣狀星型模式其他:廢棄維度、多角色維度、多層次維度、多對多維度項目規(guī)劃業(yè)務需求定義技術架構設計產品選擇與安裝維度建模物理設計ETL設計與開發(fā)部署維護與增長BI應用程序規(guī)范BI應用程序開發(fā)項目管理數據倉庫開發(fā):業(yè)務維生命周期實時數據倉庫ODS實時分區(qū)面向主題的、集成的、細節(jié)的、可變的、當前的。用于支持全局業(yè)務處理和日常管理控制操作。延遲:啤酒商游戲主動:所有習慣中最好的那個信用卡欺詐檢測呼叫中心進行直接的客戶營銷商場及時補充特定日期的商品基于客戶價值,給予靈活的折扣情境感知商務智能SituationalBusinessIntelligence外部事件和企業(yè)業(yè)務流程的結合wordofmouse危機公關:謠言止于迅速、坦承敏感事件:受當前風暴影響的保險單有哪些?博客營銷:基于京東、淘寶、新浪博客,給出客戶對八百萬像素且價格低于2000元的數碼相機的反應情境感知商務智能Internet的半結構化數據與企業(yè)內部結構化數據的融合數據源識別實體抽取模式抽取數據清洗數據融合“水太涼”“頭皮癢”聯機分析處理數理統計掠影數據挖掘概念、流程關聯分析分類決策樹最近鄰貝葉斯分類神經網絡支持向量機聚類數據挖掘算法原理尋找影響指標的背后因素利潤率為什么大幅下降?(時間、地區(qū)、類別)sumJ1J2J4sum批發(fā)…...sum零售時間地區(qū)銷售渠道J3北京.上海廣東All,All,All時間地區(qū)銷售渠道銷售額J1北京批發(fā)1200J1北京零售2300J1上海批發(fā)1233J1上海零售2122………J2北京批發(fā)3312J2上海批發(fā)3423………關系表與數據立方體聯機分析處理聯機分析處理聯機分析處理一次分析會話有多個查詢步驟一個查詢形成下個查詢的基礎
建立查詢執(zhí)行查詢等待查詢結果
研究結果建立新查詢……只有提供快速靈活的訪問性能才能使用戶保持這樣一個思想隊列邊思考邊分析通過鉆取(drilldown)尋找原因立方體的實現方式ROLAP:基于關系MOLAP:多維數組HOLAP:混合式
東北西北華北
冰箱5060100彩電407080空調90120140
產品名稱地區(qū)銷售量冰箱
東北50冰箱西北60冰箱華北100彩電
東北40彩電西北70彩電華北80空調
東北90空調西北120空調華北140MDB中的數據組織RDB中的數據組織聯機分析處理MDX查詢select {[Measures].[UnitSales], [Measures].[StoreSales]}oncolumns, {[Time].[1997], [Time].[1998]}onrowsfrom Saleswhere ([Store].[USA].[CA])聯機分析處理概率問題,了解總體特性而對樣本的具體問題給出回答假設北大每年有五分之一的新生會在大二時選擇上雙學位,那么在校園內隨機抽取100人,上雙學位的超過20人的可能性有多大?統計問題:了解樣本信息而期望對總體特性加以推斷假設從校園內隨機抽樣100人,發(fā)現35人讀雙學位,根據這個樣本,我們可以認為北大學生中超過三分之一的人讀雙學位嗎?數理統計掠影tobeornottobe,thatisthequestion未知:最大的希望,最大的恐懼墨菲定律:壞事總會發(fā)生,發(fā)生的總是壞事數理統計掠影描述性統計中心趨勢:算術平均、幾何平均、調和平均、眾數、中位數離中趨勢:方差、標準差、四分位數統計指數拉氏指數、帕氏指數、費雪指數、埃奇沃斯指數、資本加權指數概率分布伯努利分布、帕斯卡分布、正態(tài)分布、泊松分布、超幾何分布數理統計掠影參數估計在新廣告追蹤過程中,隨機抽取400位觀眾,有240人記得廣告標語,求在95%的置信水平下,記得廣告標語占總體比率的估計區(qū)間假設檢驗學生成績服從正態(tài)分布,現從中抽取16名學生,判斷能否在0.05的顯著性水平下認為所有學生的平均成績?yōu)?0?數理統計掠影回歸分析確定多個變量間的相互依賴關系,一元與多元,線性與非線性y=ax+b用戶滿意度和產品質量;消費水平與工資水平、受教育程度、職業(yè)、地區(qū)、家庭負擔相關分析描述多個變量間的關系密切程度,用相關系數衡量出生率與經濟水平、營養(yǎng)水平與健康狀況、形態(tài)指標與機能指標數理統計掠影方差分析分析不同施肥量是否給農作物產量帶來顯著影響,考察地區(qū)差異是否影響婦女的生育率,研究學歷對工資收入的影響等組間差異遠遠大于組內差異,說明樣本來自不同的正態(tài)總體,說明造成差異的控制變量有統計意義主成份分析主成分分析法是一種降維的統計方法,它借助于一個正交變換,將原來相關的多個指標轉化成少量不相關的綜合指標數據挖掘:讓歷史告訴未來數據挖掘人類從歷史中學到的唯一不變的東西就是在不斷重復過去秦人不暇自哀,而后人哀之;后人哀之而不鑒之,亦使后人而復哀后人也赫魯曉夫的兩個錦囊前事不忘,后事之師
美國加州某個超市連鎖店通過數據挖掘從記錄著每天銷售和顧客基本情況的數據庫中發(fā)現:
在下班后前來購買嬰兒尿布的顧客多數是男性,他們往往也同時購買啤酒。 于是這個連鎖店經理當機立斷地重新布置了貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放上土豆片之類的佐酒小食品,同時把男士們需要的日常生活用品也就近布置。這樣一來,上述幾種商品的銷量幾乎馬上成倍增長。一個廣為流傳的例子數據挖掘是識別數據中有效的新穎的潛在有用的最終可被理解的模式的非平凡過程NeedleInAHaystack數據挖掘啤酒和尿片有效的:該模式具有足夠的通用性,即對于新數據,該模式同樣適用新穎的:該模式是深層次的,事先無法預料的潛在有用的:該模式可以指導一些有效的行為,不僅僅是檢索有效的新穎的模式,可以指導決策人員進行科學決策最終可被理解的:該模式必須簡單易懂數據挖掘OLAP:驗證型工具在過去3年里誰是我們最好的前100名客戶在過去3年里哪些客戶拖欠抵押和目標值相比上個季度各個區(qū)域的銷售情況如何去年哪些商店的銷售額超過了其前年的銷售額去年哪些客戶轉向了其他電話公司數據挖掘:預測型工具前100個具有最好利潤潛力的客戶將是誰哪些客戶可能具有壞賬風險明年各個地區(qū)的預期銷售額是多少接下來的兩年內哪些商店可能表現得最好明年哪些客戶有可能轉向競爭對手的懷抱OLAP和數據挖掘將商業(yè)問題轉換為數據挖掘問題選取合適數據設法理解數據創(chuàng)建模型集修復數據問題轉換數據建立模型評估模型部署模型評估結果數據挖掘方法論將商業(yè)問題轉換為數據挖掘問題挖掘任務分類、關聯、預測挖掘結果的應用與交付客戶列表、評分程序讓商業(yè)用戶和IT員工參與誰最喜歡酸奶酪分類算法給出按喜歡程度劃分的客戶列表,但卻不能滿足需求,因為他們想知道哪些年齡、收入和居住地的人最喜歡,以便進行定向廣告。按照購物行為而不是人口統計進行挖掘不能滿足需求數據挖掘方法論選取合適數據哪些數據可用:數據倉庫是最佳選擇多少數據夠用:適可而止,觀察樣本量加倍后的效果。“停在這里最好”需要多少歷史數據:需要足夠的歷史數據揭示周期性事件,但環(huán)境條件在變化,太久遠的數據反而會干擾挖掘效果。膠柱鼓瑟、刻舟求劍需要多少變量:有些被忽略的變量和其他變量結合,就會非常有預言價值。捧哏的數據必須包含什么:必須至少包含所有可能的有意義的結果的例子數據挖掘方法論設法理解數據
搞清楚所要處理的對象的含義檢查分布狀況:借助可視化工具比較變量值及其描述:發(fā)現業(yè)務處理中的不完整數據。商品數量字段存儲了商品重量驗證假設:借用底層數據驗證摘要數據是否正確提問問題:記錄下所有與期望或常識不符的數據為什么有很多1911年的客戶?為什么某地沒有人壽保險業(yè)務?活動客戶怎么在“取消理由”中有非空值?數據挖掘方法論創(chuàng)建模型集模型集是創(chuàng)建模型的所有數據集合創(chuàng)建平衡樣本:不能輕易拋棄奇異點。抽樣技術包含多種時間幀:模型應該在任何時候都運轉良好,必須基于多個時間段來建立,不能以偏概全(基于復活節(jié)前一周的購物數據進行關聯分析,得到:襪子->雞蛋)劃分模型集訓練集:創(chuàng)建初始模型驗證集:調整初始模型,使其更加通用,不過分依賴訓練集測試集:測試把模型用到未經訓練的數據時的有效性數據挖掘方法論修復數據問題擁有太多數值的分類變量具有傾斜分布和奇異點的數值變量缺失值含義隨時間變化的值不一致數據編碼數據轉換平滑處理:從數據中消除噪音數據聚集操作:對數據進行綜合數據概化:用高層次概念代替原始數據數據規(guī)范化:將數據集中到一個較小的范圍之中數據挖掘方法論數據挖掘任務描述相關技術數據劃分聚類分析:在預先沒有確定類別的情況下,根據數據的不同屬性,將數據分成不同的類別。分類分析:將數據映射到預先定義的數據類別中聚類分析Bayesian分類決策樹或分類樹人工神經網絡依賴分析找出各個屬性之間的依賴關系Bayesian網絡關聯分析奇異點分析找出與一般數據行為不一致的數據項聚類分析奇異點檢測趨勢檢測通常在時間序列上,對數據庫中的數據利用線性回歸或曲線擬合等方式進行綜合分析回歸分析序列模式分析數據挖掘的任務與方法關聯分析目的:發(fā)現數據間的相互關聯購物籃分析:給定一組商品,一個交易集合,通過分析交易記錄集合,推導出商品間的相關性基本形式給定:一組事務集,每一個事務中包含若干個數據項挖掘:各個數據項之間的關聯98%的顧客在購買電動剃須刀的同時會購買一些電池劉德華楊麗娟釋永信楊瀾方舟子李開復關聯分析支持度(Support):在關聯分析中表示滿足規(guī)則的記錄數與總記錄數的比,它表明了規(guī)則的模式在數據庫中出現的頻度
對于規(guī)則:X→Y,其支持度表示為S=總交易數同時購買商品X和Y的交易數購買商品Y的交易同時購買商品X和Y的交易購買商品X的交易關聯分析置信度(Confidence),在關聯分析中表示為滿足規(guī)則的記錄數與出現被分析數據項的記錄數之比
對于規(guī)則:X→Y,其支持度表示為C=購買商品X的交易數同時購買商品X和Y的交易數購買商品Y的交易同時購買商品X和Y的交易購買商品X的交易關聯分析TID項集1面包,牛奶2面包,啤酒,雞蛋,尿布3牛奶,啤酒,尿布,可樂4面包,牛奶,啤酒,尿布5面包,牛奶,尿布,可樂尿布→啤酒支持度3/5,置信度3/4啤酒→尿布支持度3/5,置信度3/3關聯分析頻繁項集:出現頻率超過預設支持度的項集關聯分析就是發(fā)現頻繁項集的過程先驗(Apriori)法則:一個頻繁項集的任何非空子集肯定也是頻繁項集{A,B}為頻繁項集,那么其子集{A}、{B}也都為頻繁項集反單調:一個集合如果不是頻繁的,則它的任何超集也不是頻繁的由低階頻繁項集構造高階頻繁項集關聯分析1階項計數啤酒3面包4可樂2尿布4牛奶4雞蛋12階項計數啤酒,面包2啤酒,尿布3啤酒,牛奶2面包,尿布3面包,牛奶3尿布,牛奶33階項計數面包,尿布,牛奶3最小支持度為3關聯分析面包,尿布→牛奶置信度3/33階項計數面包,尿布,牛奶3牛奶→面包,尿布置信度3/4關聯分析設min_sup=30%,min_conf=60%,將發(fā)現規(guī)則:游戲→錄像 [support=40%,confidence=66%]
實際上購買錄象的可能性是75%
所以游戲和錄象是負相關的游戲6000錄像75004000coorA,B
=P(AB)=0.4/(0.75*0.6)=0.89P(A)P(B)關聯分析買HDTV買健身器是否是9981180否5466120153147300{買HDTV=是→買健身器=是}的置信度99/180=55%{買HDTV=否→買健身器=是}的置信度54/120=45%關聯分析顧客組買HDTV買健身器是否大學生是1910否43034在職人員是9872170否503686{買HDTV=是→買健身器=是}的置信度1/10=10%{買HDTV=否→買健身器=是}的置信度4/34=11.8%{買HDTV=是→買健身器=是}的置信度98/170=57.7%{買HDTV=否→買健身器=是}的置信度50/86=58.1%大學生在職人員辛普森悖論多層關聯分析發(fā)現序列模式分析數據間的前后(因果)關系顧客在不同時間購買的商品間的前后(因果)關系序列關聯分析支持度S=總組數先購買商品X再購買商品Y的組數支持度S=先購買X的組數先購買商品X再購買商品Y的組數序列關聯分析序列關聯分析序列關聯分析構建模型:對預先確定的類別給出相應的描述先假設一個樣本集合中的每一個樣本屬于預先定義的某一個類別,由一個類標號屬性來確定這些元組樣本的集合稱為訓練集,用于構建模型;由于提供了每個訓練樣本的類標號,稱作有指導的學習對同類記錄的特征進行描述最終的模型用決策樹、分類規(guī)則或者數學公式等來表示模型應用:對未知的數據對象進行分類醫(yī)療診斷、性能預測、選擇購物、信譽證實等分類分析訓練數據分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’
分類器(分類模型)分類分析構建模型分類器測試數據未知數據(Jeff,Professor,4)Tenured?分類分析模型應用決策樹體溫胎生非哺乳動物哺乳動物非哺乳動物恒溫冷血是否界門綱目科屬種屬性順序由其信息增益決定雞蛋編號對著光線照射用手搖晃放在鹽水中雞蛋好壞1透明不搖沉好2透明不搖沉好3透明不搖沉好4透明不搖沉好5透明不搖沉好6渾濁不搖沉好7渾濁不搖沉壞8透明不搖浮壞9渾濁搖浮壞10渾濁搖浮壞決策樹利用決策樹進行數據分類隨機判定分類器雞蛋好壞的概率分別為6/10,4/10熵為-(6/10*log(6/10)+4/10*log(4/10))選擇用手搖晃判定的分類器不搖晃時雞蛋好壞的概率分別為6/8,2/8搖晃時雞蛋好壞的概率分別為0/2,2/2熵為-((6/8*log(6/8)+2/8*log(2/8))*8/10+(0/2*log(0/2)+2/2*log(2/2))*2/10)選擇鹽水判定的分類器沉下時雞蛋好壞的概率分別為6/7,1/7浮起時雞蛋好壞的概率分別為0/3,3/3熵為-((6/7*log(6/7)+1/7*log(1/7))*7/10+(0/3*log(0/3)+3/3*log(3/3))*3/10)鹽水照射壞蛋壞蛋好蛋沉浮混濁透明決策樹自動回歸樹ALLRose(t-1)>=135Rose(t-1)<135Month>=MarchMonth<MarchRed=942+0.78*Red(t-1)-6.5*Rose(t-1)?K-最近鄰投票選舉同聲相應,同氣相求走像鴨子,叫像鴨子,看起來像鴨子,那就是鴨子 P(A)是先驗概率,
P(A|B)是后驗概率 一座別墅在過去20年里一共發(fā)生過2次被盜,別墅的主人有一條狗,狗平均每周晚上叫3次,在盜賊入侵時狗叫的概率為0.9,在狗叫的時候發(fā)生入侵的概率是多少?假設A事件為狗在晚上叫,B為盜賊入侵,則P(A)=3/7,P(B)=2/(20·365)=2/7300,P(A|B)=0.9,于是P(B|A)=0.9*(2/7300)*(7/3)=0.00058貝葉斯分類你面前有三個門可選,其中一個門后面是寶馬,另兩個是空門?,F在你選了一個門準備打開,此時主持人打開一個空門。此時你可以繼續(xù)決定打開你之前選定的門,或者改換另一個門。
問:換還是不換?已知某酒鬼有90%的日子都會出去喝酒,喝酒只去固定三家酒吧。今天警察找了其中兩家酒吧都沒有找到酒鬼。
問:酒鬼在第三家酒吧的幾率?已知某家庭有兩個孩子。你打電話到他家里,接電話的是女孩。
問:另外一個也是女孩的幾率?
貝葉斯分類貝葉斯分類每個數據樣本用一個n維特征向量X表示假定有m個類C1,…Cm。給定一個未知的數據樣本X,貝葉斯分類將X分配給具有最高后驗概率的類條件獨立假設貝葉斯分類貝葉斯分類類標號屬性buys_computerC1對應buys_computer=“yes”,C2對應buys_computer=“no”未知樣本X=(age=“<=30”,income=“medium”,student=“yes”,credit_rating=“fair”)我們需要最大化P(X|Ci)P(Ci)P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357P(age=“<=30”|buys_computer=“yes”) =2/9=0.222P(age=“<=30”|buys_computer=“no”) =3/5=0.600P(income=“medium”|buys_computer=“yes”) =4/9=0.444P(income=“medium”|buys_computer=“no”) =2/5=0.400貝葉斯分類P(student=“yes”|buys_computer=“yes”) =6/9=0.333P(student=“yes”|buys_computer=“no”) =1/5=0.200P(credit_rating=“fair”|buys_computer=“yes”) =6/9=0.333P(credit_rating=“fair”|buys_computer=“no”) =2/5=0.400P(X|buys_computer=“yes”) =0.044P(X|buys_computer=“no”) =0.019P(X|buys_computer=“yes”)*P(buys_computer=“yes”) =0.028P(X|buys_computer=“no”)*P(buys_computer=“no”) =0.007于是對于樣本X,貝葉斯分類預測其buys_computer=“yes”貝葉斯信念網絡BBNFamilyHistorySomkerLungCancerEmphysemaPositiveXRayDyspneaFH,SFH,~S~FH,S~FH,~SLC0.1~LC0.9P(LungCancer=“yes”|FamilyHistory=“yes”,Somker=“yes”)=0.8P(LungCancer=“no”|FamilyHistory=“no”,Somker=“no”)=0.8有向無環(huán)圖+概率表神經網絡ANN………輸入層隱藏層輸出層神經元:聚合和激活∑f神經網絡ANN分配初始權值對每個樣本基于當前權值計算輸出計算輸出誤差,反向傳播過程為每個神經元計算誤差,調整權值重復(2),直至滿足條件123456123456(1,1,0,1)支持向量機SVM線性支持向量機:最大邊緣超平面支持向量機SVM線性支持向量機:軟邊緣支持向量機SVM非線性支持向量機線性不可分g(x)=(x-a)(x-b)g(x)>=0,屬于C1g(x)<0,屬于C2ab支持向量機SVM非線性支持向量機非線性變換低維高維聚類把一組對象按照相似性歸成若干類別,即“物以類聚”。它的目的是使得屬于同一類別的個體之間的距離盡可能的小而不同類別上的個體間的距離盡可能的大無監(jiān)督學習相似性基于距離基于概率應用場景市場或客戶分割、模式識別、基因分類、Web文檔分類聚類聚類:基于劃分算法:k-平均輸入:簇的數目k,包含n個對象的數據庫輸出:k個簇,使平方誤差最小步驟:任意選擇k個對象作為初始的簇中心Repeat根據簇中對象的平均值,將每個對象賦給最類似的簇更新簇的平均值,即計算每個簇中對象的平均值Until平方誤差小于某個閾值或不再發(fā)生變化平方方差函數:++++++++++++聚類:基于劃分聚類:基于密度pqMinPts=5Eps=1cmpqp1pqo從q到p是直接密度可達的從q到p是密度可達的q和p是密度相連的DBSCANQMPRSO聚類:基于密度聚類:層次方法Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)層次方法是將數據對象組成一棵聚類的樹自底向上的層次樹的建立(凝聚的,AGNES算法)自頂向下的層次樹的建立(分裂的,DIANA算法)序列聚類序列:DNA、天氣預報、點擊流根據當前狀態(tài)預測下一可能的步驟馬爾可夫鏈+EM聚類ShoppingGameMusicShoppingMusicMovie0.490.730.52IBMIntelligentMinerOracleDataminingsuiteSQLServerAnalysisServicesSASEnterpriseMinerSPSSClementine開源軟件Weka http://www.cs.waikato.ac.nz/ml/weka/相關工具CREATEMININGSTRUCTURECollegePlan_Structure(StudentId LONGKEY,Gender TEXTDISCRETE,ParentIncome LONGCONTINUOUS,IQ LONGCONTINUOUS,ParentEncouragement TEXTDISCRETE,CollegePlans TEXTDISCRETE)WITHHOLDOUT(10PERCENT)DMX:創(chuàng)建挖掘結構ALTERMININGSTRUCTURECollegePlan_StructureADDMININGMODELCollegePlan(StudentId,Gender,ParentIncome,IQ,ParentEncouragement,CollegePlans PREDICT)USINGMicrosoft_Decision_TreesDMX:添加挖掘模型INSERTINTOCollegePlan_Structure (StudentId,Gender,IQ,ParentEncouragement, ParentIncome,CollegePlans)OPENQUERY(CollegePlans, 'SELECT StudentId,Gender,IQ,ParentEncouragement, ParentIncome,CollegePlans FROMCollegePlans‘)DMX:填充數據SELECT t.StudentID,CollegePlan.CollegePlans, PredictProbability(CollegePlans)AS[Probability]FROM CollegePlanPREDICTIONJOINOPENQUERY(CollegePlans, 'SELECT StudentID,Gender,IQ,ParentEncouragement,ParentIncome FROMNewStudents')AStON CollegePlan.ParentIncome=t.ParentIncomeAND CollegePlan.IQ=t.IQAND CollegePlan.Gender=t.GenderAND CollegePlan.ParentEncouragement=t.ParentEncouragementDMX:預測社交網絡網絡特征平均路徑長度聚類系數:朋友的朋友也是朋友節(jié)點重要性中介度:結點的影響力緊密度:結點傳播信息的能力無所不在的關系:至簡至繁twitter,facebook,微博,航班社交網絡小世界高聚類,小的平均路徑長度六度分離(sixdegreesofseparation):地球上任意兩個人之間的平均距離是6KevinBacon數:與Bacon合作出演電影Erdos數:與Erdos合作著寫文章社交網絡社交網絡細分方法細分基礎應用人口統計細分人口統計、生命周期客戶獲取及保持生活方式細分行為差異、個性、心理特征客戶獲取及保持,新產品研發(fā)行為細分行為模式、行為特征RFM分析業(yè)務戰(zhàn)略制定、歷史數據分析客戶價值細分客戶生命周期利潤資源最優(yōu)化配置、差別化服務社交網絡的客戶細分社交網絡SoLoMoSocial(社交的)、Local(本地的)、Mobile(移動的)基于社交網絡的精準廣告讀心術:分析用戶行為,揣摩用戶心理,然后適時為每個獨特行為習慣的用戶提供更有針對性的服務社交網絡的時空分析法一些領袖的興起和衰落、隨時間變化而變化的信任以及特定網絡社區(qū)人群的遷移和流動。性格透視:某些節(jié)點很具有親和力,能快而有效地形成人際關系,另一些則顯得謹慎、被動數據來源通話記錄通信記錄信用卡記錄法院記錄工資單和稅務單固定資產和租房信息駕駛記錄犯罪網絡關聯類別可信關聯:親緣,同學,戰(zhàn)友任務關聯:共同旅行,電話通信等經濟關聯:相互的資金流動目標關聯:開會,協商,談判等犯罪網絡關聯稀疏平均距離遠組內成員甚至無直接聯系打擊中層效果更佳犯罪網絡軌跡數據挖掘人生到處知何似,應似飛鴻踏雪泥世界在移動:RFID,GPS交通管理、天氣預報、位置服務、國土安全軌跡數據挖掘熱路徑:通過該路徑的軌跡數量超過閾值軌跡數據挖掘軌跡聚類:在很長一段時間內很接近的對象集軌跡數據挖掘異常軌跡類:與其他軌跡顯著不同軌跡數據倉庫OLAP移動模式動機--用戶日常行為總是表現出一定的規(guī)律數據源--移動日志序列模式云計算按列存儲流處理統計與數據庫MapReduce大規(guī)模數據分析當梁山伯遇上祝英臺,當潘金蓮遇上西門慶,當丘處機路過牛家莊,當凱撒跨過盧比孔,當太祖際會中國革命…歷史的機遇:偶然中的必然,必然中的偶然當BigData遇上DeepAnaliticsBigDataPB級LSSTebayfacebookDeepAnalitics數理統計數據挖掘XLDB當BigData遇上DeepAnalitics問題:數據庫分析功能有限進出數據庫代價較高許多算法受內存限制
重復發(fā)明輪子需求:分布式存儲:局部性并行計算:負載均衡流處理:低延遲、低IO按列存儲:高壓縮、高帶寬云計算商業(yè)模式:效用計算UtilityComputing,Pay-as-you-go,XaaS外觀形態(tài):互聯網數據中心InternetDataCenter技術關鍵:高效能計算HighProductivity云計算=(數據+軟件+平臺+基礎設施)×服務Google云計算數據中心云計算WebService移動互動應用程序未來屬于那些能向人提供實時響應的服務超級計算計算密集型桌面應用程序的擴展諸如Matlab等進行復雜計算的桌面應用程序可以無縫地擴展到云大規(guī)模數據分析數據處理的資源平衡點從事務轉向商業(yè)分析TB級的數據分析將可以在數小時內完成云計算應用場景天河一號神威藍光存儲墻Waston云汽車提高帶寬利用率按列存儲時,只有那些被查詢訪問的屬性才會從磁盤讀出按行存儲時,周圍的屬性也被一并讀出提高數據壓縮率將同一個屬性域的數據存儲在一起,提高了局部性以及壓縮比率傳輸壓縮數據同樣減少了帶寬按列存儲的優(yōu)點MonetDBVerticaSybaseIQ增加了磁盤尋道時間如果需要并行讀取多個列,在各個塊讀之間需要進行磁盤尋道增加插入操作的代價對于插入操作,按列存儲的性能很差,因為對每條插入的元組都需要在磁盤的多個不同位置更新增加重構元組的代價按列存儲如果想支持標準的關系數據庫接口,它們就必須將多個列拼合起來,構成一條元組輸出按列存儲的缺點數據倉庫批量寫、高帶寬要求、查詢計劃經常是表掃描寬表按列存儲時,如果一個查詢訪問固定數目的屬性,它只會讀入需要的這些列進行處理電子商務目錄包含2百萬個零件,分成500個目錄,每個目錄包含4000個屬性4000列的寬表對于按行存儲是性能災難,為了讀取一個所需屬性,需要順帶讀出周邊不需要的3999個屬性稀疏表按列存儲具有更好的壓縮比按列存儲適合的場合數據流連續(xù)、無界的元組序列數據驅動型處理方式應用場景實時數據流
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度石油勘探開發(fā)數據服務與成品油銷售合作協議4篇
- 小學數學教學中的師生互動策略
- 2025版?zhèn)€人房產買賣合同風險評估范本4篇
- 二零二五年度網紅門面房經營權租賃及品牌合作協議4篇
- 教育創(chuàng)新視角下的小學課后托管模式分析
- 個性化客戶合作2024版合同樣例一
- 二零二五版食品添加劑安全采購與使用合同3篇
- 二零二五版夫妻離婚購房及權益補償協議書3篇
- 2025年度綠色蜜蜂養(yǎng)殖基地購銷合作合同3篇
- 二零二五年度特種車輛定制設計與制造合同4篇
- 醫(yī)學脂質的構成功能及分析專題課件
- 高技能人才培養(yǎng)的策略創(chuàng)新與實踐路徑
- 人教版(2024新版)七年級上冊英語期中+期末學業(yè)質量測試卷 2套(含答案)
- 2024年湖北省中考數學試卷(含答案)
- 油煙機清洗安全合同協議書
- 2024年云南省中考數學試題(原卷版)
- 污水土地處理系統中雙酚A和雌激素的去除及微生物研究
- 氣胸病人的護理幻燈片
- 《地下建筑結構》第二版(朱合華)中文(2)課件
- JB T 7946.1-2017鑄造鋁合金金相
- 包裝過程質量控制
評論
0/150
提交評論