培訓(xùn)_數(shù)據(jù)挖掘 - 副本_第1頁
培訓(xùn)_數(shù)據(jù)挖掘 - 副本_第2頁
培訓(xùn)_數(shù)據(jù)挖掘 - 副本_第3頁
培訓(xùn)_數(shù)據(jù)挖掘 - 副本_第4頁
培訓(xùn)_數(shù)據(jù)挖掘 - 副本_第5頁
已閱讀5頁,還剩87頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

版權(quán)所有 嚴(yán)禁拷貝 BIhuman培訓(xùn)中心 數(shù)據(jù)挖掘數(shù)據(jù)倉庫培訓(xùn) 中國 杭州 2010-07-03 版權(quán)所有 嚴(yán)禁拷貝 數(shù)據(jù)挖掘基本概念與應(yīng)用分類 不同類型的數(shù)據(jù)挖掘 流失預(yù)測(cè) 交易量 /業(yè)務(wù)量預(yù)測(cè) 序列模式提取 客戶欺詐識(shí)別 業(yè)務(wù)量收入量預(yù)測(cè) 數(shù)據(jù)探索 客戶分群 套餐交叉銷售 文本分析 . 探索 驗(yàn)證 獲取內(nèi)容的不同,可分為 分析對(duì)象的不同,可分為 結(jié)構(gòu)化數(shù)據(jù)挖掘 文本挖掘 圖像挖掘 空間數(shù)據(jù)挖掘 Web 數(shù)據(jù)挖掘 多媒體挖掘 生物醫(yī)學(xué)數(shù)據(jù)挖掘 流數(shù)據(jù)的挖掘 數(shù)據(jù)挖掘 是 “從數(shù)據(jù)中獲取 不平凡的、 隱含的、 預(yù)先未知的 ,、 具有潛在價(jià)值的 信息 G. Piatetsky-Shapiro, W. J. Frawley 首次出現(xiàn)在 1989年 數(shù)據(jù)挖掘是多學(xué)科交叉研究的領(lǐng)域 Data Mining Database Systems Statistics Other Disciplines Algorithm Machine Learning Visualization . 數(shù)據(jù)挖掘在很多領(lǐng)域得到很好的應(yīng)用 大約 20個(gè) NBA球隊(duì)使用了 IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件 Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合 2004 美國聯(lián)邦政府會(huì)計(jì)總署報(bào)告 顯示 ,美國政府部門積極參與或正在籌劃的數(shù)據(jù)挖掘項(xiàng)目為 199個(gè) 采用鏈路分析方法,分析特定的行為特征和恐怖犯罪之間的聯(lián)系 FBI對(duì)聯(lián)邦探員提交的情報(bào)進(jìn)行分析,尋找和爆炸事件的關(guān)聯(lián) + 啤酒尿布捆綁銷售 NBA賽場背后的數(shù)據(jù)挖掘 . 反恐領(lǐng)域的數(shù)據(jù)挖掘 營銷領(lǐng)域的數(shù)據(jù)挖掘 7 關(guān)聯(lián) Association 我的數(shù)據(jù)中存在哪種項(xiàng)關(guān)系(“規(guī)則”)? Beer = Diapers 單一事務(wù) Apriori/FreqTree 序列 Sequence 序列模式 sequence pattern 我的數(shù)據(jù)中存在哪種連續(xù)模式? Love = Marriage = Baby Products 連續(xù)事務(wù) 時(shí)間序列 time series 和時(shí)間相關(guān)的,周期性變化值 已知 2000-2008年數(shù)據(jù),預(yù)測(cè) 2009年交易量 Arima/指數(shù)平滑 聚類 clustering 我的數(shù)據(jù)中存在哪些群組? 客戶資源集、存儲(chǔ)資源源 人口統(tǒng)計(jì)學(xué) Demographic/神經(jīng)元 Neural (Kohonen) 分類 classfication 如何預(yù)測(cè)我的數(shù)據(jù)中各個(gè)類別的值? 病人是否受到粗魯?shù)膶?duì)待、是否受到傷害、是否感 受 不到關(guān)愛? Classification ( 決策樹 )/貝葉斯算法 Bayes/RBF算法 預(yù)測(cè) regression 如何預(yù)測(cè)我的數(shù)據(jù)中的數(shù)值? 客戶對(duì)改進(jìn)做出反應(yīng)的可能性有多大? 每個(gè)客戶本年度的消費(fèi)是多少? 轉(zhuǎn)換回歸 /線性回歸多項(xiàng)式回歸 Select Transform Mine Assimilate Extracted Information Assimilated Information Selected Data Data Warehouse 數(shù)據(jù)挖掘 工作臺(tái) 挖掘模式庫 業(yè)務(wù)分析 擴(kuò)展的洞察力 數(shù)據(jù)挖掘的常見模式(函數(shù)) Clustering分群 最常用的聚類算法 K平均值算法,初始給定 k個(gè)類 , 按照四步完成 : 任意選擇 k個(gè)對(duì)象作為初始的分區(qū) 計(jì)算當(dāng)前簇的重心點(diǎn),即當(dāng)前簇中所有點(diǎn)的平均值 將其他數(shù)據(jù)對(duì)象賦給最近似的簇集 重復(fù)第二步操作,直到不在發(fā)生變化 . 典型的分群算法 Kmeans 從數(shù)據(jù)集中尋找有趣的、關(guān)聯(lián)和相關(guān)性、頻繁出現(xiàn)的模式 電信應(yīng)用上兩種不同類型的關(guān)聯(lián)規(guī)則 Association Rule關(guān)聯(lián)規(guī)則挖掘 產(chǎn)品的正關(guān)聯(lián)與負(fù)關(guān)聯(lián) 用戶產(chǎn)品關(guān)聯(lián)模型 客戶 -渠道 -產(chǎn)品適配模型 規(guī)則 Item A = Item D, A為規(guī)則體, D為規(guī)則頭 支持度 Support 代表規(guī)則出現(xiàn)頻繁程度 supp(A)=p(A)=0.75 supp(B)=p(B)= 0.67 置信度 Confidence代表規(guī)則出現(xiàn)強(qiáng)度 . conf(A=D)=p(D|A)=0.67 提升值 Lift 反映規(guī)則中個(gè)要素之間的附加信息 . Lift(A=D)=p(B|A)/p(B)=0.89 Lift 1 (complementary items). 互補(bǔ)關(guān)系 Lift 40 no no yes yes yes 30.40 a g e i n co me st u d e n t cre d i t _ ra t i n g b u ys_ co mp u t e r4 0 me d i u m no f a i r ye s4 0 l o w ye s f a i r ye s4 0 l o w ye s e x ce l l e n t no3 1 4 0 l o w ye s e x ce l l e n t ye s4 0 me d i u m ye s f a i r ye s4 0 me d i u m no e x ce l l e n t noDecision Tree 決策樹分類 信息熵增益 Information Entropy 決策樹 選取節(jié)點(diǎn)的規(guī)則 選取節(jié)點(diǎn)評(píng)分 (預(yù)測(cè) ) 理想模型 該模型 隨機(jī)評(píng)級(jí) 字段重要性 (對(duì)預(yù)測(cè)目標(biāo)字段的相對(duì)貢獻(xiàn)度 ) PhotoTV 手機(jī)電視潛在客戶預(yù)測(cè) 重要字段列表 建立流失預(yù)測(cè)模型 數(shù)據(jù) ETL流程 ( 數(shù)據(jù)取樣、合并、過濾、隨機(jī)分割等); 預(yù)測(cè)建模流程(采用 CART決策樹算法) 測(cè)試流程(對(duì)未知流失狀態(tài)的客戶進(jìn)行預(yù)測(cè),輸出結(jié)果到表) 客戶流失的決策規(guī)則分析 例如,通過挖掘得到如下的決策規(guī)則: 如果客戶 ARPU值在 40 60之間,在網(wǎng)時(shí)長小于 3年,且 IP費(fèi)用小于 10, 那么這個(gè)客戶下月流失的可能性為 90。 同樣條件,如果使用了 11808業(yè)務(wù)則流失的可能性為 10。 根據(jù)這條信息,我們可以搜索數(shù)據(jù)集中的所有滿足這幾條特性的客戶,進(jìn)行針對(duì)性地營銷策略,如推銷 IP,以及 11808業(yè)務(wù),進(jìn)行挽留。 挖掘時(shí)間序列數(shù)據(jù) 時(shí)間序列數(shù)據(jù) 有序列值或者隨時(shí)間交替變化的時(shí)間組成 數(shù)據(jù)每隔一定的時(shí)間間隔建立 時(shí)間序列數(shù)據(jù)的主要特征 趨勢(shì),周期,季節(jié),反常( Trend, cycle, seasonal, irregular) 應(yīng)用場景 金融:股票價(jià)格 , 通貨膨脹 /緊縮 Industry: 電力消耗 power consumption Scientific: 實(shí)驗(yàn)結(jié)果 Meteorological: 氣象預(yù)報(bào) 時(shí)間序列分析 時(shí)間序列運(yùn)動(dòng)的歸類 長期或者趨勢(shì)運(yùn)動(dòng)( Long-term or Trend movements ) 在一段長期的時(shí)間范圍內(nèi),運(yùn)動(dòng)大的走向,趨勢(shì)。 周期性運(yùn)動(dòng)或周期性波動(dòng)( Cyclic movements or cycle variations): l 圍繞趨勢(shì)線 /曲線長期擺動(dòng),如業(yè)務(wù)周期,交易量等隨著時(shí)間周期性波動(dòng)。 季節(jié)性運(yùn)動(dòng)或者季節(jié)性波動(dòng) (Seasonal movements or seasonal variations) 在連續(xù)個(gè)年份,每月的數(shù)字呈現(xiàn)季節(jié)性變動(dòng)。 不規(guī)則運(yùn)動(dòng)或者隨即運(yùn)動(dòng) Irregular movements 時(shí)間序列分析 :分解一個(gè)時(shí)間序列為一下四種運(yùn)動(dòng) 加法模型 Additive Modal: TS=T+C+S+I 乘法模型 Multiplicative Modal: TS=TC S I 時(shí)間序列挖掘 Airline 航空公司旅客流量分析 歐洲一家航空公司,利用 2000年 -2008年間每月旅客數(shù),預(yù)測(cè)下一個(gè)月的旅客數(shù)量。 ARIMA Autoregressive Integrated Moving Average Exponential Smoothing Seasonal Trend Decomposition 數(shù)據(jù)挖掘基本概念 常見的幾種挖掘模式 文本挖掘介紹 社會(huì)網(wǎng)絡(luò)及其在垃圾短信監(jiān)控中的應(yīng)用 IBM Infosphere Warehouse/Intelligent Miner 介紹 內(nèi)容提綱 大量保存的非結(jié)構(gòu)化信息 (文本 ) 呼叫中心 問題報(bào)告 修理報(bào)告 保險(xiǎn)單 病歷信息 產(chǎn)品介紹 案件登記信息 問題 . .解決方法 將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),利用這些數(shù)據(jù)和已經(jīng)存在在數(shù)據(jù)倉庫與中的結(jié)構(gòu)化數(shù)據(jù)一起進(jìn)行分析,輔助我們決策 不能直接采用現(xiàn)有的 BI工具進(jìn)行分析,提取其中有用的信息,并且實(shí)現(xiàn)業(yè)務(wù)上對(duì)各種非結(jié)構(gòu)化信息的需求 . 網(wǎng)站訪問記錄 電子郵件 留言信箱 短信文本 事件處理說明 調(diào)查問卷數(shù)據(jù) 客戶投訴記錄 文本分析 /文本挖掘 文本分析或文本挖掘覆蓋如下內(nèi)容 : 文檔歸類 clustering, 自動(dòng)歸類具有相似性的文檔,文檔聚類或者無監(jiān)督歸類 unsupervised categorization 自動(dòng)文檔分類 classfication 分類文檔到預(yù)先定義好的類別中,有監(jiān)督的歸類 supervised categorization 信息抽取 Information extraction 從文檔中抽取結(jié)構(gòu)化的信息 ,輔助結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析與挖掘 信息提取 Information Extraction (IE) 實(shí)體或者關(guān)系的抽取 Entity & Relationship extraction 從 人員,組織,電話號(hào)碼,電子郵件,網(wǎng)址,地址等 實(shí)體解析 Entity resolution George W. Bush mentioned in line 14 of doc 5 same as President Bush mentioned in line 10 of doc 15 語義識(shí)別 從文本中提取意見 Opinions, 觀點(diǎn) Reviews, 時(shí)間 Time, 事件 Events, 情緒 Sentiments, . 術(shù)語 抽取到的結(jié)構(gòu)化數(shù)據(jù) 注解 Annotations 信息提取程序 注解器 Annotators 結(jié)構(gòu)化的實(shí)體抽取種類 基于規(guī)則的實(shí)體抽取 Rule based 正則表達(dá)式模式抽取電話號(hào)碼,身份證,網(wǎng)址,電子郵件地址,手機(jī)號(hào)碼等 基于字典的實(shí)體抽取 List/dictionary based 采用公司的 LDAP 目錄去查找相應(yīng)的人名字,從產(chǎn)品介紹材料中抽取產(chǎn)品實(shí)體,從客服信息中提取 意義一致,但表述不一致的實(shí)體,如客戶投訴信息中“信號(hào)不好”、“信號(hào)差”、“經(jīng)常掉線”等表達(dá)的是同一信息 頻繁模式搜索 抽取頻繁出現(xiàn)的模式,基于頻繁出現(xiàn)模式構(gòu)建字典, 如從流失客戶的客服記錄中提取“信號(hào)差”、“費(fèi)用高”、“服務(wù)不及時(shí)”等文本,以及這些頻繁出現(xiàn)的模式之間的關(guān)聯(lián) 復(fù)雜的方法 Advanced 自然語言處理 Natural Language Processing,機(jī)器學(xué)習(xí) Machine learning,統(tǒng)計(jì)方法Statistical approaches 文本數(shù)據(jù)分析引擎 非結(jié)構(gòu)化數(shù)據(jù) 結(jié)構(gòu)化 數(shù)據(jù) 詞頻統(tǒng)計(jì) 規(guī)則查詢 字典查找 文本挖掘 其他文本數(shù)據(jù) 結(jié)構(gòu)化 數(shù)據(jù) 分析數(shù)據(jù) UIMA是一個(gè)開放的,面向行業(yè)的 ,可擴(kuò)展的文本分析開放平臺(tái) , 用于構(gòu)建 /集成 /發(fā)布文本分析應(yīng)用 . UIMA是一個(gè)免費(fèi)的平臺(tái), InfoSphere Warehouse中采用 UIMA來進(jìn)行實(shí)現(xiàn)文本分析中的信息抽取 為集成的文本分析模塊定義一個(gè)通用的接口 ,使得不同分析方案和企業(yè)應(yīng)用之間協(xié)同工作 提供 文本分析的 SDK ,用于構(gòu)建,組織文本分析應(yīng)用 , 利用現(xiàn)有的分析組件,開發(fā)新的,可重用的文本分析組件 UIMA: 一個(gè)新的內(nèi)容處理和分析的標(biāo)準(zhǔn) Unstructured Information Management Architecture IBM Internal Component Repository 80+ Analysis Components and 23+ UIMA-based systems/solutions E.g., Deep and Shallow Parsing深淺解析 , Categorization歸類 , Summarization摘要 , Semantic Class Detection語義分類 , POS, English/Chinese/Japanese NE 實(shí)體解析 , Classifier Trainers分類 , Machine Translation機(jī)器翻譯 , Video and Speech Analytics視頻音頻分析 , BioInformatics生物智能分析 基于 UIMA實(shí)現(xiàn)的產(chǎn)品 Lotus Workplace, Websphere Portal Server, OmniFind IBM 基于 UIMA 上的一些研究項(xiàng)目 Open-Domain Question Answering (ARDA/AQUAINT) Life Sciences/BioInformatics (Joint Program with Mayo Clinic, Sloan Kettering Cancer Center) Search and Categorization (IBM websites) Machine Translation (DARPA) Multi-Lingual/Multi-Modal Search (DARPA/TALES) Automatic Content Extraction (DARPA/ACE) Knowledge Integration and Knowledgebase Population (ARDA(DTO)/NIMD) Video Analysis (ARDA(DTO)/VACE, Marvel) Standard Analysis Component Plug-in Architecture in Streaming Analytic project Customer Relationship Management UIMA in IBM , 2002年發(fā)布 文本分析輔助客戶流失預(yù)測(cè)挖掘 Volumes of structured, well-organized demographic and transactional data Volumes of unorganized, unstructured data from call-center notes Volumes of unorganized, unstructured data from call-center notes 文本分析與挖掘 1. 字典查找 2. 頻繁模式搜索 3. 正則表達(dá)式規(guī)則查找 4. 文檔分類 文本分析輔助客戶流失預(yù)測(cè)挖掘 文本分析提高客戶流失預(yù)測(cè)模型的精度 2 2. 引入文本分析后模型的 lift 值增量 1 1. 傳統(tǒng)客戶流失預(yù)測(cè)模型的 lift 值 正則表達(dá)式規(guī)則抽取 regular expression 電話號(hào)碼 (0086)21-23063185 網(wǎng)址: CIA book 數(shù)據(jù)集, 提取國家的地理數(shù)據(jù),經(jīng)緯度,面積等 正則表達(dá)式規(guī)則抽取 -規(guī)則定義 正則表達(dá)式規(guī)則抽取 -挖掘流程定義 字典查找 Dictionary lookup JK supermark公司,為了提高人員的 IT技能水平,從全球 500強(qiáng)企業(yè)的招聘網(wǎng)站, job description信息中提取目前最常用的 IT技能 字典查找 dictionary lookup字典定義 - C# , c#, C #, c # - C/C+, C, C+, c+, c +, C + - Database skills, Database, RBDMS, DB - DB2, DB/2, db/2, IBM DB2, IBM db2, db2 - Java, J2EE, j2ee, JSP, Java Server Pages - JavaScript, Javascript, javascript - Mac OS, MAC OS, MAC Os, Mac Os - MS SQL Server, Microsoft SQL Server - MySQL, MYSQL, MySql - Network, TCP/IP, TCP, IP, DNS - Oracle, oracle - Others OS, Solaris - Perl - PL/SQL, PL, SQL, Sql, sql - Python - Script, scripting languages, scripting, bash, ch, Ch, csh, sh, shell, tcsh - Unix/Linux, Unix, Linux, Debian, FreeBSD, GNU, gnu, GNU/Linux, Madriva, RedHat,AIX - Visual Basic, VB, VisualBasic - Web Services, SOA, WSDL, CORBA, SOAP - Web skills, Ajax, ajax, ASP, asp, html, HTML, php, PHP, XML, XSLT - Windows 字典查找 dictionary lookup挖掘流程構(gòu)建 37 年齡 性別 疼痛類型 血壓 膽固醇 心電圖 心率 是否絞痛 疾病史 不良習(xí)慣 家族史 完整的例子:貝葉斯 /文本分析輔助病人心臟病診斷 38 Volumes of structured, well-organized demographic and transactional data 來自于電子病歷中的非結(jié)構(gòu)化的數(shù)據(jù) 3-5年吸煙史,過度飲酒 缺乏鍛煉,輕微肥胖 呼吸急促,曾經(jīng)有過糖尿病 其他不良習(xí)慣 。 。 。 貝葉斯 /文本分析輔助病人心臟病診斷 語義文本分析方法 : 1. 語義分析 2. 頻繁模式搜索 3. 字典查找 貝葉斯 /文本分析輔助病人心臟病診斷 文本分析輔助數(shù)據(jù)挖掘 頻繁模式查找 Smokes and smokes for the keyword smoke 語義分析 obesity, adiposity, adiposeness and alimentary obesity 文本分析輔助數(shù)據(jù)挖掘 構(gòu)建字典 文本分析輔助數(shù)據(jù)挖掘 字典查找 構(gòu)建挖掘模型 采用文本分析后的模型精度比較 基于文本挖掘結(jié)果的關(guān)聯(lián)規(guī)則挖掘 highlighted factor physical inactivity increases the mortality risk by 1.82 or 82%. Furthermore, you learn that the factor was found with 23.75% of the patients, and 78.08% of these patients actually died. 分析結(jié)果在 Cognos中的展現(xiàn) -心臟病風(fēng)險(xiǎn)報(bào)告 根據(jù)分析結(jié)果,確定是否需要做進(jìn)一步的診療 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?挖掘 -技術(shù) or藝術(shù) ? 方法論 數(shù)據(jù)挖掘方法論 實(shí)際工程中指導(dǎo)項(xiàng)目實(shí)施的方法 每一階段的目標(biāo)、采用方法、輸出結(jié)果形式 人員安排、方法、時(shí)間進(jìn)度安排等 實(shí)施數(shù)據(jù)挖掘方法論所要達(dá)到的目的 針對(duì)不同行業(yè)的數(shù)據(jù)挖掘方法論是挖掘項(xiàng)目開展的標(biāo)準(zhǔn)和指南指南 控制數(shù)據(jù)挖掘工程項(xiàng)目中的風(fēng)險(xiǎn),確保項(xiàng)目的成功實(shí)施,提供了保障 CRISP-DM 方法論 SEMMA 數(shù)據(jù)挖掘方法論 目前業(yè)界公認(rèn)的兩種方法論: /polls/2004/data_mining_methodology.htm kdnuggets數(shù)據(jù)挖掘方法論的問卷調(diào)查: 數(shù)據(jù)挖掘方法論 Fayyad 的數(shù)據(jù)挖掘多階段處理過程模型 數(shù)據(jù)挖掘方法論 由 SPSS、 NCR、 Daimler-Benz在 1996年制定 CRISP-DM是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一 它強(qiáng)調(diào)數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用,解決商業(yè)中存在的問題,而不是 把數(shù)據(jù)挖掘局限在研究領(lǐng)域 CRISP-DM(CRoss-Industry Standard Process Data Mining) Chapman,1996 數(shù)據(jù)挖掘方法論 Data Understanding Data Preparation Modelling Data Data Data Business Understanding Deployment Evaluation Data Unde standing Data Preparation Mode ing Deployment Evaluation usinessUnderstanding NCR,ISL, Daimler-Benz, OHRA CRISP-DM CRoss-Industry Standard Process-Data Mining 數(shù)據(jù)挖掘方法論 SEMMA數(shù)據(jù)挖掘系統(tǒng)模型 SAS,1998 Sample-數(shù)據(jù)取樣 Explore-數(shù)據(jù)特征探索、分析和預(yù)處理 Modify-數(shù)據(jù)調(diào)整和技術(shù)選擇 Model-模型的研發(fā)和知識(shí)的發(fā)現(xiàn) Assess-模型和知識(shí)的綜合解釋和評(píng)價(jià) 數(shù)據(jù)挖掘方法論 數(shù)據(jù)挖掘方法論 IBM 閉環(huán)數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 選擇的 數(shù)據(jù) 選擇 轉(zhuǎn)換 挖掘 理解 轉(zhuǎn)換后的數(shù)據(jù) 可理解的信息 抽取的信息 一個(gè)過程,從大型數(shù)據(jù)庫中抽取以前沒有發(fā)現(xiàn),可理解的,可操作的信息,用以支持企業(yè)關(guān)鍵性決策。 數(shù)據(jù)挖掘 -技術(shù) or 藝術(shù) 算法及其展望 常見的挖掘算法 Y軸X 軸過擬合 局部極值 孤立點(diǎn)影響 局部極值 過擬合 欠學(xué)習(xí) “維度災(zāi)難“ “黑箱模型” 傳統(tǒng)的數(shù)據(jù)挖掘方法面臨的挑戰(zhàn) 傳統(tǒng)算法的弊端的根源: 傳統(tǒng)的數(shù)據(jù)挖掘算法都是以經(jīng)典統(tǒng)計(jì)學(xué)中的大數(shù)定理為基礎(chǔ),算法的結(jié)論都是在訓(xùn)練樣本趨于無窮的假設(shè)下得到的 , 然而在實(shí)際中訓(xùn)練樣本總是有限。 傳統(tǒng)的算法 (如神經(jīng)網(wǎng)絡(luò)等)往往會(huì)出現(xiàn)如下弊端: 過擬合用一個(gè)復(fù)雜的模型代表一個(gè)簡單的規(guī)律; 局部極值得到的結(jié)果不是全局最優(yōu); 推廣能力差訓(xùn)練時(shí)效果好,預(yù)測(cè)時(shí)精度差; Support Vector Machine,最早由 Vapnik教授 1995年提出,最初用于求解兩類樣本的最優(yōu)分類面;后被應(yīng)用與分類、回歸、聚類等數(shù)據(jù)挖掘領(lǐng)域。 同時(shí)控制模型的結(jié)構(gòu)風(fēng)險(xiǎn)(復(fù)雜度)和經(jīng)驗(yàn)風(fēng)險(xiǎn)(準(zhǔn)確度),避免過學(xué)習(xí)。 211m i n | | | |2s . t . ( ) 1 , 1 , 2 , . . . , .li ii i iCy b i l wwx結(jié)構(gòu)風(fēng)險(xiǎn) 經(jīng)驗(yàn)風(fēng)險(xiǎn) 兩類樣本最優(yōu)分類 面 數(shù)據(jù)挖掘中的新方法 SVM具有以下獨(dú)有的特點(diǎn): 解決局部極值問題求解二次優(yōu)化,得到全局最優(yōu)解, 解決非線性難題將復(fù)雜的非線性問題轉(zhuǎn)變?yōu)榫€性求解; 解決小樣本學(xué)習(xí)難題基于小樣本統(tǒng)計(jì)學(xué)習(xí)理論; 解決海量數(shù)據(jù)難題理論上復(fù)雜度與樣本維數(shù)無關(guān); 解決欠學(xué)習(xí)、過學(xué)習(xí)難題同時(shí)優(yōu)化算法復(fù)雜性和學(xué)習(xí)精度; 堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ), 良好的推廣能力, 處理海量數(shù)據(jù)的高效率, 非常適合用于海量數(shù)據(jù)挖掘中, 數(shù)據(jù)挖掘中一個(gè)熱點(diǎn)。 數(shù)據(jù)挖掘中的新方法 兩個(gè)有價(jià)值的方向: SVM聚類、 SVM規(guī)則挖掘。 用于發(fā)現(xiàn)任意空間分布形狀的類別 自動(dòng)決定類別數(shù) 高維數(shù)據(jù)的高速聚類 避免類別之間相互重疊 數(shù)據(jù)挖掘中的新方法 SVM聚類 SVM關(guān)聯(lián)規(guī)則挖掘 消除孤立點(diǎn)對(duì)關(guān)聯(lián)規(guī)則的影響 處理海量數(shù)據(jù)非常有效 數(shù)據(jù)挖掘中的新方法 核系列方法 (Kernel methods):傳統(tǒng)的方法是將高維的問題映射到低維的空間,但是Kernel method,剛好相反。 事實(shí)上 SVM就是 kernel method中的一種,還有很多種核方法 核主元分析 Kernel PCA-用于數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理中; 核邏輯回歸 Kernel Logistic Regression-用于海量數(shù)據(jù)的回歸分析 核聚類分析 Kernel clustering; 核(偏)最小二乘 Kernel Least Squares . 數(shù)據(jù)挖掘中的新方法 但一切不是絕對(duì)的! 數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) ? 挖掘調(diào)優(yōu) 數(shù)據(jù)挖掘項(xiàng)目的調(diào)優(yōu) 數(shù)據(jù)挖掘項(xiàng)目的成功需要不斷地優(yōu)化挖掘流程 營銷流程調(diào)優(yōu) 挖掘建模流程調(diào)優(yōu) 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 數(shù)據(jù)挖掘項(xiàng)目的調(diào)優(yōu) 營銷流程的調(diào)優(yōu) 目標(biāo)客戶群的調(diào)整 套餐定價(jià) /組合的更改 更改營銷渠道與流程 根據(jù)不同生活習(xí)慣的人群選擇外呼的時(shí)段 挖掘建模流程調(diào)優(yōu) 挖掘建模數(shù)據(jù)集的劃分 合理的數(shù)據(jù)采樣、分層采樣、隨即采樣、順序采樣,處理小概率事件 訓(xùn)練集、測(cè)試集、校驗(yàn)集合 模型訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)采用相同的尺度變換 挖掘建模流程調(diào)優(yōu) 算法調(diào)優(yōu) 根據(jù)數(shù)據(jù)分布特性選擇不同的算法 避免盲目追求算法精度、選擇合適學(xué)習(xí)率、避免模型過擬合 模型校驗(yàn)集用于最大化模型泛化能力 不平衡樣本的算法及類別權(quán)值確定,必要時(shí)改變挖掘模式 挖掘建模流程調(diào)優(yōu) 兩個(gè)定理 “奧卡姆剃刀”定理簡單就是最好的 “沒有免費(fèi)午餐”定理,“丑小鴨”定理 沒有一種算法會(huì)在任何方面都占優(yōu) 分群過程中的建模流程調(diào)優(yōu) 群體數(shù)目確定 群體數(shù)目奇數(shù)為佳,一般為 5-9個(gè)左右,加減 2進(jìn)行調(diào)整 如需減少群體數(shù)目,加入總量變量,減少分量變量,減少相似度閾值 增加群體數(shù)目,減少總量變量,增加分量變量,加大相似度閾值 如果某類包含個(gè)體數(shù)量超過 50,考慮進(jìn)行迭代分群 分群過程中的建模流程調(diào)優(yōu) 輸入變量的調(diào)整 變量取值大部分為 0或其他固定值的變量不建議使用 多個(gè)聰明變量之間相互重疊導(dǎo)致類別相互重疊時(shí),增加變量個(gè)數(shù) 排除業(yè)務(wù)上有重疊的變量,如夜間通話時(shí)長和打折時(shí)段通話時(shí)長 分群過程中的建模流程調(diào)優(yōu) 算法調(diào)優(yōu) K-Means 孤立點(diǎn)敏感、群體重疊、差別大時(shí)效果差;局部最優(yōu);可擴(kuò)展性好,大數(shù)據(jù)集 Kohonan 結(jié)果對(duì)樣本次序有關(guān)、初始參數(shù)值的選擇 DBSCAN 可以發(fā)現(xiàn)任意形狀邊界,處理孤立點(diǎn)、需要更多的內(nèi)存、 I/O消耗 Distribution-Based Cluster 可以自動(dòng)發(fā)現(xiàn)群體個(gè)數(shù),孤立點(diǎn)不敏感 Neural Cluster 有時(shí)候會(huì)陷入局部最優(yōu)解 SVC可以自動(dòng)確定群體個(gè)數(shù),任意形狀邊界群,復(fù)雜性和字段數(shù)無關(guān) 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 數(shù)據(jù)調(diào)優(yōu)增加數(shù)據(jù)質(zhì)量 數(shù)據(jù)探索:發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn),了解數(shù)據(jù)分別模式 處理缺失值,屬性變換,離散值變連續(xù)值 解決數(shù)據(jù)分布不一致的問題, 0-1變換、 Z變換 從業(yè)務(wù)角度看,無意義的變量不建議做挖掘模型的輸入變量 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 變量之間的相關(guān)性 發(fā)現(xiàn)輸入樣本的變量之間的相關(guān)性 變量之間耦合性強(qiáng)的變量不建議選取 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 設(shè)計(jì)派生變量 盡量反映動(dòng)態(tài)的特性,加入時(shí)長、趨勢(shì)、占比、集中度 派生變量要適當(dāng),總量和分量、占比變量不宜同時(shí)出現(xiàn) 1 取景(尋找業(yè)務(wù)問題尋找業(yè)務(wù)增長空間) 2 構(gòu)建畫面的背景(定義業(yè)務(wù)問題) 4 根據(jù)天氣和光線的情況調(diào)整曝光程度等(調(diào)整建模方法和參數(shù)) 5 沖洗選擇一張最佳的照片(選擇一個(gè)最佳的模型) 6 后期美化處理(業(yè)務(wù)含義解釋和建議) 7 裝裱起來,掛在該掛的位置例如床邊,書桌或者客廳什么的(模 型部署,用于改善實(shí)際的業(yè)務(wù)) 數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) 數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) 更多的參考: (關(guān)于 PMML) (關(guān)于 CRISP-DM) /sigs/sigkdd(關(guān)于 KDD) (數(shù)據(jù)挖掘論壇) (Kernel Method與 SVM) 數(shù)據(jù)挖掘技巧 會(huì)找:發(fā)現(xiàn)問題,以及解決問題的數(shù)據(jù)挖掘方法 會(huì)用:處理數(shù)據(jù),操作軟件 會(huì)說:對(duì)挖掘結(jié)果給出解釋分析 會(huì)試:需要不斷的調(diào)優(yōu),改進(jìn)挖掘效果 電信數(shù)據(jù)挖掘應(yīng)用 電信運(yùn)營商面臨巨大客戶群,每個(gè)客戶需求不一樣; “ 一對(duì)一 ” 營銷模式; 最大化組間差異性,最小化組內(nèi)差異性; 了解客戶的構(gòu)成,發(fā)現(xiàn)客戶的需求,提高營銷的針對(duì)性。 客戶分群 客戶流失預(yù)測(cè)模型 客戶流失預(yù)測(cè)背景 客戶流失率高, 移動(dòng)每月 2.2%, 每年損失將近 27客戶; 吸引新客戶成本高,吸引新客戶 /保留現(xiàn)有客戶 6-8倍。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論