




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘功能簡介
Page1Page2主要內(nèi)容一、數(shù)據(jù)挖掘概念及流程二、數(shù)據(jù)挖掘方法分類介紹
二-1、分類算法及案例二-2、聚類分析及案例二-3、關聯(lián)規(guī)則及案例二-4、時間序列分析及案例二-5、回歸分析及案例二-6、異常分析及案例二-7、文本挖掘二-8、推薦系統(tǒng)三、常用數(shù)據(jù)挖掘軟件介紹四:數(shù)據(jù)挖掘和分析應避免的誤區(qū)誤區(qū)Page3一、數(shù)據(jù)挖掘概念及流程數(shù)據(jù)挖掘(DataMining)就是對觀測到的數(shù)據(jù)集(經(jīng)常是龐大的、不完全的、有噪聲的、模糊的、隨機的)進行分析,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,目的是發(fā)現(xiàn)未知的關系和以數(shù)據(jù)擁有者可以理解并對其有價值的新穎方式來總結數(shù)據(jù)。數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowledge預處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估一、數(shù)據(jù)挖掘概念及流程Page4二:數(shù)據(jù)挖掘方法分類介紹數(shù)據(jù)挖掘聚類分析預測K-meansK-中心點算法分類分析KNN算法Bayes算法時間序列統(tǒng)計回歸分類算法決策樹神經(jīng)網(wǎng)絡相關性分析回歸分析關聯(lián)規(guī)則Apriori算法線性回歸邏輯回歸序列模式挖掘異常分析非時間序列SLIQC4.5CARTCHAID概率回歸統(tǒng)計分析方差、極差、偏度等統(tǒng)計特征值異常點分析Page5時間序列決策樹算法Page6挖掘模式預測型(Predictive)描述型(Descriptive)實際功能分為以下幾種模式:分類:對沒有分類的數(shù)據(jù)進行分類;預測:用歷史來預測未來;關聯(lián)分析:關聯(lián)規(guī)則;聚類:物以類聚;序列模式:在多個數(shù)據(jù)序列中發(fā)現(xiàn)共同的行為模式;異常分析:從數(shù)據(jù)分析中發(fā)現(xiàn)異常情況。文本數(shù)據(jù)挖掘:從大量文字中尋找共性進行分析。二:數(shù)據(jù)挖掘方法分類介紹Page7二-1:分類算法及案例分析分類:
預測種類字段基于訓練集形成一個模型,訓練集中的類標簽是已知的。使用該模型對新的數(shù)據(jù)進行分類預測:
對連續(xù)性字段進行建模和預測。典型應用信用評分DirectMarketing醫(yī)療診斷性用卡欺詐判斷客戶ID年齡學歷是否有房是否結婚變量5變量6變量7……是否欺詐訓練數(shù)據(jù)119中專無11230大學有00328高中有01測試數(shù)據(jù)440大學有10518中專無11633大學無11客戶ID年齡學歷是否有房是否結婚變量5變量6變量7……是否欺詐需要判斷的新數(shù)據(jù)727高中有0?848高中無1?934大學有1?需要的歷史數(shù)據(jù)表需要判斷的新業(yè)務數(shù)據(jù)表結論:可以得出ID為7的客戶卡屬于欺詐的可能性為90%,ID為8和9的客戶不是欺詐的可能性為95%。二-1:分類算法及案例分析Page8二-1:分類算法及案例分析Page9年齡overcast學歷?是否結婚?010118<=2230-351001023-30決策樹結論規(guī)則:第一類:年齡在18-35歲之間,學歷是高中,還沒有住房的人群,可能發(fā)生信用卡欺詐的概率是97%.第二類:年齡在23-45歲之間,學歷是本科,有住房的人群,可能發(fā)生信用卡欺詐的概率是1%.第三類:年齡在30-55歲之間,學歷是小學,無住房的人群,可能發(fā)生信用卡欺詐的概率是80%.
根據(jù)規(guī)則去執(zhí)行相應的措施和政策方針:一:第一類和第三類人群,不通過信用卡審批或者降低信用卡額度,增加調查力度。二:信用卡用戶的營銷策略,按使用情況和年限增加額度.業(yè)務主要針對此類人群宣傳或者增加第二類信用卡用戶的比率。
二-1:分類算法及案例分析Page10
行業(yè)應用:1)城市綜合環(huán)境質量評價2)保險、醫(yī)療、信用卡等等反欺詐模型3)客戶、企業(yè)信用評級模型4)公安犯罪預警預測5)氣候分類、農(nóng)業(yè)區(qū)劃、土地類型劃分中有著廣泛的應用二-1:分類算法及案例分析Page11Page12二-2:聚類分析及案例簇(Cluster):一個數(shù)據(jù)對象的集合聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇;在同一個簇(或類)中,對象之間具有相似性;不同簇(或類)的對象之間是相異的。聚類是一種無監(jiān)督分類法:沒有預先指定的類別;典型的應用作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布;聚類之后分析異常數(shù)據(jù);作為其它算法的一個數(shù)據(jù)預處理步驟;Page13二-2:聚類分析及案例聚類方法也常用于進行異常數(shù)據(jù)鑒別。Page14二-2:聚類分析及案例案例背景
隨著現(xiàn)代人力資源管理理論的迅速發(fā)展,績效考評技術水平也在不斷提高??冃У亩嘁蛐?、多維性,要求對績效實施多標準大樣本科學有效的評價。對企業(yè)來說,對上千人進行多達50~60個標準的考核是很常見的現(xiàn)象。但是,目前多標準大樣本大型企業(yè)績效考評問題仍然困擾著許多人力資源管理從業(yè)人員。本案例將列舉某企業(yè)的具體情況確定適當?shù)目己藰藴剩捎弥鞒煞址治鲆约熬垲惙治龇椒?,比較出各員工績效水平,從而為企業(yè)績效管理提供一定的科學依據(jù)。Page15二-2:聚類分析及案例職工代號工作產(chǎn)量工作質量工作出勤工砟損耗工作態(tài)度工作能力19.689.628.378.639.869.7428.098.839.389.799.989.7337.468.736.745.598.838.4646.088.255.045.928.338.2956.618.366.677.468.388.1467.698.856.447.458.198.177.468.935.77.068.588.3687.69.286.758.038.688.2297.68.267.57.638.797.63107.168.625.727.118.198.18116.048.173.958.088.248.65126.277.9434.527.167.81136.618.54.345.618.528.36147.398.445.925.378.837.47157.838.793.855.358.588.03167.368.535.397.098.238.04177.248.614.693.989.048.07186.498.034.567.188.548.57195.437.674.223.878.417.6204.577.42.963.028.747.97216.438.384.874.878.788.37225.887.893.876.348.378.19233.946.912.976.778.178.16244.827.33.075.876.326.01254.027.262.285.639.669.07263.876.962.794.925.326.23274.157.51.564.818.448.38284.997.522.116.238.38.14表——某企業(yè)28位職工績效考評結果Page16二-2:聚類分析及案例聚類分析結論:
表中可以看到第一類別的樣本的工作績效成績得分最高,其次是第二類別、第三類別,得分最低的是第四類別,因此,根據(jù)我們可以把最終的分類結果和計劃分類結合起來,即:(1)“優(yōu)秀”為第一類,包括職工1、2;(2)“良好”為第二類,包括職工3、4、5、6、7、8、9、10、11、13、14、15、16、17、18、21、22;(3)“及格”為第三類,包括職工12、19、20、23、25、27、28;(4)“不及格”為第四類,包括職工24、26。決策建議:1、針對不同的員工決定績效工資、獎金等。2、針對不同的員工類別安排不同性質的工作。注釋:數(shù)據(jù)挖據(jù)方法經(jīng)常混合使用,比如這里先進行聚類分析,得出了員工績效判別的4種方式,然后新進員工績效考核則可以在此基礎上進行分類分析,判別此員工屬于哪一類型。Page17二-2:聚類分析及案例零售業(yè)將經(jīng)常同時購買的數(shù)據(jù)項聚類到一起有利于改善商品的布置,提高銷售利潤。將具有相似的購買模式的顧客聚類到一起,分析每一類顧客的特征,有利于對特定的顧客群進行特定商品的宣傳和銷售保險對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶;醫(yī)療分析對一組新型疾病聚類,得到每類疾病的特征描述,一些特定的癥狀的聚集可能預示一個特定的疾病分類。城市規(guī)劃-根據(jù)類型、價格、地理位置等來劃分不同類型的住宅;傳統(tǒng)制造業(yè)-成本控制社保行業(yè)中如:1、具有什么樣特征的人群醫(yī)療欺詐的幾率大?然后應該怎么樣制定政策去應對此類人群?2、具有什么樣特征的人群醫(yī)療費用高,高多少?然后制定什么樣的政策去降低醫(yī)療費用高的人群的自費負擔?比如當前的55歲以上人群的醫(yī)保個人賬戶劃入比例是55歲以下的高,這個年齡間隔的判斷依據(jù)就是分群的分類。
二-3:關聯(lián)規(guī)則及案例Page18關聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯(lián)、相關性、或因果結構。應用:購物籃分析、交叉銷售、產(chǎn)品目錄設計、賠本銷售分析(loss-leaderanalysis)、聚集、分類等。舉例:規(guī)則形式:“Body?Head[support,confidence]”.buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)?grade(x,“A”)[1%,75%]二-3:關聯(lián)規(guī)則及案例
沃爾瑪現(xiàn)有五種商品的交易記錄表,用關聯(lián)分析方法試找出三種商品關聯(lián)銷售情況,最小支持度>=50%。Page19買尿布的客戶二者都買的客戶買啤酒的客戶二-3:關聯(lián)規(guī)則及案例算法結論:第一類:30%的人群同時購買了牛奶,礦泉水和筆;第二類:20%的人群同時買了尿布、啤酒;而在買尿布的人群中40%的人同時買了啤酒。業(yè)務調查和分析:1、第一類不合理。牛奶和礦泉水本身都屬于飲品類,功能不同,給消費者的感受也不同,當需求不同時,買礦泉水的人可能不會再去買牛奶,因為礦泉水比牛奶更能達到解渴的效果。2、按常規(guī)思維,尿布與啤酒風馬牛不相及,產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而他們中有30%到40%的人同時也為自己買一些啤酒。決策建議:把啤酒和尿布放在靠近的位置出售,達到的效果:此后兩者的銷售額都提高了2-3倍。Page20二-3:關聯(lián)規(guī)則及案例行業(yè)案例:1)超市產(chǎn)品組合分析(產(chǎn)品的互相擺放和針對性銷售);2)讀者行為分析,書籍推薦(如互聯(lián)網(wǎng)京東、淘寶上的各種產(chǎn)品的推薦);3)保險行業(yè)的保險產(chǎn)品推薦。Page21二-4:時間序列分析及案例
時間序列分析:描述時間序列數(shù)據(jù)隨時間變化的數(shù)據(jù)的規(guī)律或趨勢,并對其建模。包括時間序列趨勢分析、周期模式匹配等。例如:通過對交易數(shù)據(jù)的演變分析,可能會得到"89%情況股票X上漲一周左右后,股票Y會上漲"這樣一條序列知識。歷史往往是重復過去的故事加上一定的變化規(guī)律。應用場景:預測未來。Page22一次指數(shù)平滑
(例題分析)Page23一次指數(shù)平滑
(例題分析)二-4:時間序列分析及案例案例:某企業(yè)1992年~2006年的銷售收入時間序列如下表所示.試用時間序列算法預測2008年的銷售收入,并計算預測的標準誤差。
時間
19921994199619982000200220042006銷售收入(萬元)50000.860574.687306.9120649.8139241153772201816231892.7Page24二-4:時間序列分析及案例
結論:2008年的預測值為261840萬元,公司可以根據(jù)預測收入來進行下一年政策的調整和各種財務預算的調整工作。Page25二-4:時間序列分析及案例行業(yè)案例:可用于任何行業(yè)時間序列數(shù)據(jù)。各種保險基金收支結的預測股票價格和波動預測廠家的材料、成本、銷售額等預測航班旅客成行率的預測中國年底總人口預測中國城鎮(zhèn)人口預測中國GDP的預測(不變價格)中國航空運輸年度總周轉量的預測中國航空運輸月度總周轉量的預測Page26二-5:回歸分析及案例Page27
回歸分析是對具有因果關系的影響因素(自變量)和預測對象(因變量)所進行的數(shù)理統(tǒng)計分析處理。二-5:回歸分析及案例Page28二-5:回歸分析及案例Page29算法結果:物流人才需求量=-28+25*職工總人數(shù)結論:只要知道當?shù)芈毠た側藬?shù),則可以估算出當?shù)厮枰奈锪魅瞬牛愃频娜缧枰嗌俟珓杖藛T,需要多少社保管理人員,需要多少警察等)。社保方面:類似醫(yī)療保險總費用和當?shù)厝丝谥g的關系,各類社?;鹗杖牒彤?shù)亟?jīng)濟情況之間的關系等等。二-5:回歸分析及案例案例描述:消費是宏觀經(jīng)濟必不可少的環(huán)節(jié),完善消費模型可以為宏觀調控提供重要的依據(jù)。下面給出了我國20年的人均消費性支出、人均現(xiàn)金收入和人均實物收入的數(shù)據(jù),對其三者之間的關系可以利用回歸的方法進行分析研究。Page30二-5:回歸分析及案例Page31二-5:回歸分析及案例
模型結論:在人均實物收入不變的情況下每增加1元人均現(xiàn)金收入,則人均消費支出將增加0.5762元,人均實物收入同理增
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年軍隊文職人員招聘之軍隊文職教育學題庫與答案
- 2025年軍隊文職人員招聘之軍隊文職管理學與服務考試題庫
- 2021-2022學年廣東省廣州市白云區(qū)六校七年級(下)期中數(shù)學試卷(含答案)
- 企業(yè)級數(shù)據(jù)安全合規(guī)策略制定服務協(xié)議
- 網(wǎng)絡直播平臺合作項目表
- 四川省成都市武侯區(qū)2024-2025學年七年級上學期期末生物學試題(含答案)
- 湖南省岳陽市岳陽縣2024-2025學年七年級上學期期末生物學試題(含答案)
- 語言學英語翻譯技能測試卷
- 濕地松采脂承包合同
- 團隊目標與績效考核表
- 2025版年度城市綠化活動策劃及實施服務合同范本
- 2025年誠通證券招聘筆試參考題庫含答案解析
- 人教版高一上學期數(shù)學(必修一)期末考試卷(附答案)
- 專題17 全等三角形模型之奔馳模型解讀與提分精練(全國)(解析版)
- 智能制造能力成熟度模型(-CMMM-)介紹及評估方法分享
- 臨床康復專科護士主導神經(jīng)重癥患者早期漸進式離床活動實踐應用
- 《搜索引擎使用方法》課件
- DBJT14-100-2013 外墻外保溫應用技術規(guī)程(改性酚醛泡沫板薄抹灰外墻外保溫系統(tǒng))
- 《兒科補液》課件
- 2024解析:第六章質量和密度-講核心(解析版)
- 基爾霍夫定律課件(共17張課件)
評論
0/150
提交評論