數(shù)據(jù)挖掘算法及軟件介紹_第1頁
數(shù)據(jù)挖掘算法及軟件介紹_第2頁
數(shù)據(jù)挖掘算法及軟件介紹_第3頁
數(shù)據(jù)挖掘算法及軟件介紹_第4頁
數(shù)據(jù)挖掘算法及軟件介紹_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘功能簡介

Page1Page2主要內(nèi)容一、數(shù)據(jù)挖掘概念及流程二、數(shù)據(jù)挖掘方法分類介紹

二-1、分類算法及案例二-2、聚類分析及案例二-3、關(guān)聯(lián)規(guī)則及案例二-4、時(shí)間序列分析及案例二-5、回歸分析及案例二-6、異常分析及案例二-7、文本挖掘二-8、推薦系統(tǒng)三、常用數(shù)據(jù)挖掘軟件介紹四:數(shù)據(jù)挖掘和分析應(yīng)避免的誤區(qū)誤區(qū)Page3一、數(shù)據(jù)挖掘概念及流程數(shù)據(jù)挖掘(DataMining)就是對觀測到的數(shù)據(jù)集(經(jīng)常是龐大的、不完全的、有噪聲的、模糊的、隨機(jī)的)進(jìn)行分析,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價(jià)值的新穎方式來總結(jié)數(shù)據(jù)。數(shù)據(jù)清理篩選數(shù)據(jù)目標(biāo)數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估一、數(shù)據(jù)挖掘概念及流程Page4二:數(shù)據(jù)挖掘方法分類介紹數(shù)據(jù)挖掘聚類分析預(yù)測K-meansK-中心點(diǎn)算法分類分析KNN算法Bayes算法時(shí)間序列統(tǒng)計(jì)回歸分類算法決策樹神經(jīng)網(wǎng)絡(luò)相關(guān)性分析回歸分析關(guān)聯(lián)規(guī)則Apriori算法線性回歸邏輯回歸序列模式挖掘異常分析非時(shí)間序列SLIQC4.5CARTCHAID概率回歸統(tǒng)計(jì)分析方差、極差、偏度等統(tǒng)計(jì)特征值異常點(diǎn)分析Page5時(shí)間序列決策樹算法Page6挖掘模式預(yù)測型(Predictive)描述型(Descriptive)實(shí)際功能分為以下幾種模式:分類:對沒有分類的數(shù)據(jù)進(jìn)行分類;預(yù)測:用歷史來預(yù)測未來;關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則;聚類:物以類聚;序列模式:在多個數(shù)據(jù)序列中發(fā)現(xiàn)共同的行為模式;異常分析:從數(shù)據(jù)分析中發(fā)現(xiàn)異常情況。文本數(shù)據(jù)挖掘:從大量文字中尋找共性進(jìn)行分析。二:數(shù)據(jù)挖掘方法分類介紹Page7二-1:分類算法及案例分析分類:

預(yù)測種類字段基于訓(xùn)練集形成一個模型,訓(xùn)練集中的類標(biāo)簽是已知的。使用該模型對新的數(shù)據(jù)進(jìn)行分類預(yù)測:

對連續(xù)性字段進(jìn)行建模和預(yù)測。典型應(yīng)用信用評分DirectMarketing醫(yī)療診斷性用卡欺詐判斷客戶ID年齡學(xué)歷是否有房是否結(jié)婚變量5變量6變量7……是否欺詐訓(xùn)練數(shù)據(jù)119中專無11230大學(xué)有00328高中有01測試數(shù)據(jù)440大學(xué)有10518中專無11633大學(xué)無11客戶ID年齡學(xué)歷是否有房是否結(jié)婚變量5變量6變量7……是否欺詐需要判斷的新數(shù)據(jù)727高中有0?848高中無1?934大學(xué)有1?需要的歷史數(shù)據(jù)表需要判斷的新業(yè)務(wù)數(shù)據(jù)表結(jié)論:可以得出ID為7的客戶卡屬于欺詐的可能性為90%,ID為8和9的客戶不是欺詐的可能性為95%。二-1:分類算法及案例分析Page8二-1:分類算法及案例分析Page9年齡overcast學(xué)歷?是否結(jié)婚?010118<=2230-351001023-30決策樹結(jié)論規(guī)則:第一類:年齡在18-35歲之間,學(xué)歷是高中,還沒有住房的人群,可能發(fā)生信用卡欺詐的概率是97%.第二類:年齡在23-45歲之間,學(xué)歷是本科,有住房的人群,可能發(fā)生信用卡欺詐的概率是1%.第三類:年齡在30-55歲之間,學(xué)歷是小學(xué),無住房的人群,可能發(fā)生信用卡欺詐的概率是80%.

根據(jù)規(guī)則去執(zhí)行相應(yīng)的措施和政策方針:一:第一類和第三類人群,不通過信用卡審批或者降低信用卡額度,增加調(diào)查力度。二:信用卡用戶的營銷策略,按使用情況和年限增加額度.業(yè)務(wù)主要針對此類人群宣傳或者增加第二類信用卡用戶的比率。

二-1:分類算法及案例分析Page10

行業(yè)應(yīng)用:1)城市綜合環(huán)境質(zhì)量評價(jià)2)保險(xiǎn)、醫(yī)療、信用卡等等反欺詐模型3)客戶、企業(yè)信用評級模型4)公安犯罪預(yù)警預(yù)測5)氣候分類、農(nóng)業(yè)區(qū)劃、土地類型劃分中有著廣泛的應(yīng)用二-1:分類算法及案例分析Page11Page12二-2:聚類分析及案例簇(Cluster):一個數(shù)據(jù)對象的集合聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇;在同一個簇(或類)中,對象之間具有相似性;不同簇(或類)的對象之間是相異的。聚類是一種無監(jiān)督分類法:沒有預(yù)先指定的類別;典型的應(yīng)用作為一個獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布;聚類之后分析異常數(shù)據(jù);作為其它算法的一個數(shù)據(jù)預(yù)處理步驟;Page13二-2:聚類分析及案例聚類方法也常用于進(jìn)行異常數(shù)據(jù)鑒別。Page14二-2:聚類分析及案例案例背景

隨著現(xiàn)代人力資源管理理論的迅速發(fā)展,績效考評技術(shù)水平也在不斷提高??冃У亩嘁蛐?、多維性,要求對績效實(shí)施多標(biāo)準(zhǔn)大樣本科學(xué)有效的評價(jià)。對企業(yè)來說,對上千人進(jìn)行多達(dá)50~60個標(biāo)準(zhǔn)的考核是很常見的現(xiàn)象。但是,目前多標(biāo)準(zhǔn)大樣本大型企業(yè)績效考評問題仍然困擾著許多人力資源管理從業(yè)人員。本案例將列舉某企業(yè)的具體情況確定適當(dāng)?shù)目己藰?biāo)準(zhǔn),采用主成分分析以及聚類分析方法,比較出各員工績效水平,從而為企業(yè)績效管理提供一定的科學(xué)依據(jù)。Page15二-2:聚類分析及案例職工代號工作產(chǎn)量工作質(zhì)量工作出勤工砟損耗工作態(tài)度工作能力19.689.628.378.639.869.7428.098.839.389.799.989.7337.468.736.745.598.838.4646.088.255.045.928.338.2956.618.366.677.468.388.1467.698.856.447.458.198.177.468.935.77.068.588.3687.69.286.758.038.688.2297.68.267.57.638.797.63107.168.625.727.118.198.18116.048.173.958.088.248.65126.277.9434.527.167.81136.618.54.345.618.528.36147.398.445.925.378.837.47157.838.793.855.358.588.03167.368.535.397.098.238.04177.248.614.693.989.048.07186.498.034.567.188.548.57195.437.674.223.878.417.6204.577.42.963.028.747.97216.438.384.874.878.788.37225.887.893.876.348.378.19233.946.912.976.778.178.16244.827.33.075.876.326.01254.027.262.285.639.669.07263.876.962.794.925.326.23274.157.51.564.818.448.38284.997.522.116.238.38.14表——某企業(yè)28位職工績效考評結(jié)果Page16二-2:聚類分析及案例聚類分析結(jié)論:

表中可以看到第一類別的樣本的工作績效成績得分最高,其次是第二類別、第三類別,得分最低的是第四類別,因此,根據(jù)我們可以把最終的分類結(jié)果和計(jì)劃分類結(jié)合起來,即:(1)“優(yōu)秀”為第一類,包括職工1、2;(2)“良好”為第二類,包括職工3、4、5、6、7、8、9、10、11、13、14、15、16、17、18、21、22;(3)“及格”為第三類,包括職工12、19、20、23、25、27、28;(4)“不及格”為第四類,包括職工24、26。決策建議:1、針對不同的員工決定績效工資、獎金等。2、針對不同的員工類別安排不同性質(zhì)的工作。注釋:數(shù)據(jù)挖據(jù)方法經(jīng)常混合使用,比如這里先進(jìn)行聚類分析,得出了員工績效判別的4種方式,然后新進(jìn)員工績效考核則可以在此基礎(chǔ)上進(jìn)行分類分析,判別此員工屬于哪一類型。Page17二-2:聚類分析及案例零售業(yè)將經(jīng)常同時(shí)購買的數(shù)據(jù)項(xiàng)聚類到一起有利于改善商品的布置,提高銷售利潤。將具有相似的購買模式的顧客聚類到一起,分析每一類顧客的特征,有利于對特定的顧客群進(jìn)行特定商品的宣傳和銷售保險(xiǎn)對購買了汽車保險(xiǎn)的客戶,標(biāo)識那些有較高平均賠償成本的客戶;醫(yī)療分析對一組新型疾病聚類,得到每類疾病的特征描述,一些特定的癥狀的聚集可能預(yù)示一個特定的疾病分類。城市規(guī)劃-根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅;傳統(tǒng)制造業(yè)-成本控制社保行業(yè)中如:1、具有什么樣特征的人群醫(yī)療欺詐的幾率大?然后應(yīng)該怎么樣制定政策去應(yīng)對此類人群?2、具有什么樣特征的人群醫(yī)療費(fèi)用高,高多少?然后制定什么樣的政策去降低醫(yī)療費(fèi)用高的人群的自費(fèi)負(fù)擔(dān)?比如當(dāng)前的55歲以上人群的醫(yī)保個人賬戶劃入比例是55歲以下的高,這個年齡間隔的判斷依據(jù)就是分群的分類。

二-3:關(guān)聯(lián)規(guī)則及案例Page18關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用:購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、賠本銷售分析(loss-leaderanalysis)、聚集、分類等。舉例:規(guī)則形式:“Body?Head[support,confidence]”.buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)?grade(x,“A”)[1%,75%]二-3:關(guān)聯(lián)規(guī)則及案例

沃爾瑪現(xiàn)有五種商品的交易記錄表,用關(guān)聯(lián)分析方法試找出三種商品關(guān)聯(lián)銷售情況,最小支持度>=50%。Page19買尿布的客戶二者都買的客戶買啤酒的客戶二-3:關(guān)聯(lián)規(guī)則及案例算法結(jié)論:第一類:30%的人群同時(shí)購買了牛奶,礦泉水和筆;第二類:20%的人群同時(shí)買了尿布、啤酒;而在買尿布的人群中40%的人同時(shí)買了啤酒。業(yè)務(wù)調(diào)查和分析:1、第一類不合理。牛奶和礦泉水本身都屬于飲品類,功能不同,給消費(fèi)者的感受也不同,當(dāng)需求不同時(shí),買礦泉水的人可能不會再去買牛奶,因?yàn)榈V泉水比牛奶更能達(dá)到解渴的效果。2、按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而他們中有30%到40%的人同時(shí)也為自己買一些啤酒。決策建議:把啤酒和尿布放在靠近的位置出售,達(dá)到的效果:此后兩者的銷售額都提高了2-3倍。Page20二-3:關(guān)聯(lián)規(guī)則及案例行業(yè)案例:1)超市產(chǎn)品組合分析(產(chǎn)品的互相擺放和針對性銷售);2)讀者行為分析,書籍推薦(如互聯(lián)網(wǎng)京東、淘寶上的各種產(chǎn)品的推薦);3)保險(xiǎn)行業(yè)的保險(xiǎn)產(chǎn)品推薦。Page21二-4:時(shí)間序列分析及案例

時(shí)間序列分析:描述時(shí)間序列數(shù)據(jù)隨時(shí)間變化的數(shù)據(jù)的規(guī)律或趨勢,并對其建模。包括時(shí)間序列趨勢分析、周期模式匹配等。例如:通過對交易數(shù)據(jù)的演變分析,可能會得到"89%情況股票X上漲一周左右后,股票Y會上漲"這樣一條序列知識。歷史往往是重復(fù)過去的故事加上一定的變化規(guī)律。應(yīng)用場景:預(yù)測未來。Page22一次指數(shù)平滑

(例題分析)Page23一次指數(shù)平滑

(例題分析)二-4:時(shí)間序列分析及案例案例:某企業(yè)1992年~2006年的銷售收入時(shí)間序列如下表所示.試用時(shí)間序列算法預(yù)測2008年的銷售收入,并計(jì)算預(yù)測的標(biāo)準(zhǔn)誤差。

時(shí)間

19921994199619982000200220042006銷售收入(萬元)50000.860574.687306.9120649.8139241153772201816231892.7Page24二-4:時(shí)間序列分析及案例

結(jié)論:2008年的預(yù)測值為261840萬元,公司可以根據(jù)預(yù)測收入來進(jìn)行下一年政策的調(diào)整和各種財(cái)務(wù)預(yù)算的調(diào)整工作。Page25二-4:時(shí)間序列分析及案例行業(yè)案例:可用于任何行業(yè)時(shí)間序列數(shù)據(jù)。各種保險(xiǎn)基金收支結(jié)的預(yù)測股票價(jià)格和波動預(yù)測廠家的材料、成本、銷售額等預(yù)測航班旅客成行率的預(yù)測中國年底總?cè)丝陬A(yù)測中國城鎮(zhèn)人口預(yù)測中國GDP的預(yù)測(不變價(jià)格)中國航空運(yùn)輸年度總周轉(zhuǎn)量的預(yù)測中國航空運(yùn)輸月度總周轉(zhuǎn)量的預(yù)測Page26二-5:回歸分析及案例Page27

回歸分析是對具有因果關(guān)系的影響因素(自變量)和預(yù)測對象(因變量)所進(jìn)行的數(shù)理統(tǒng)計(jì)分析處理。二-5:回歸分析及案例Page28二-5:回歸分析及案例Page29算法結(jié)果:物流人才需求量=-28+25*職工總?cè)藬?shù)結(jié)論:只要知道當(dāng)?shù)芈毠た側(cè)藬?shù),則可以估算出當(dāng)?shù)厮枰奈锪魅瞬牛愃频娜缧枰嗌俟珓?wù)人員,需要多少社保管理人員,需要多少警察等)。社保方面:類似醫(yī)療保險(xiǎn)總費(fèi)用和當(dāng)?shù)厝丝谥g的關(guān)系,各類社?;鹗杖牒彤?dāng)?shù)亟?jīng)濟(jì)情況之間的關(guān)系等等。二-5:回歸分析及案例案例描述:消費(fèi)是宏觀經(jīng)濟(jì)必不可少的環(huán)節(jié),完善消費(fèi)模型可以為宏觀調(diào)控提供重要的依據(jù)。下面給出了我國20年的人均消費(fèi)性支出、人均現(xiàn)金收入和人均實(shí)物收入的數(shù)據(jù),對其三者之間的關(guān)系可以利用回歸的方法進(jìn)行分析研究。Page30二-5:回歸分析及案例Page31二-5:回歸分析及案例

模型結(jié)論:在人均實(shí)物收入不變的情況下每增加1元人均現(xiàn)金收入,則人均消費(fèi)支出將增加0.5762元,人均實(shí)物收入同理增

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論