![建模數(shù)據(jù)挖掘_第1頁(yè)](http://file4.renrendoc.com/view/95a3764f9ed9e286b4045617532d976c/95a3764f9ed9e286b4045617532d976c1.gif)
![建模數(shù)據(jù)挖掘_第2頁(yè)](http://file4.renrendoc.com/view/95a3764f9ed9e286b4045617532d976c/95a3764f9ed9e286b4045617532d976c2.gif)
![建模數(shù)據(jù)挖掘_第3頁(yè)](http://file4.renrendoc.com/view/95a3764f9ed9e286b4045617532d976c/95a3764f9ed9e286b4045617532d976c3.gif)
![建模數(shù)據(jù)挖掘_第4頁(yè)](http://file4.renrendoc.com/view/95a3764f9ed9e286b4045617532d976c/95a3764f9ed9e286b4045617532d976c4.gif)
![建模數(shù)據(jù)挖掘_第5頁(yè)](http://file4.renrendoc.com/view/95a3764f9ed9e286b4045617532d976c/95a3764f9ed9e286b4045617532d976c5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、說(shuō)實(shí)話,建模期間學(xué)到的知識(shí)量比較大,但是不深入,建模期間時(shí)間緊張,也是效率優(yōu)先, 掘(Data Mining)是通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、 規(guī)律尋找和規(guī)律表示 3 個(gè)步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常 分析、特異群組分析和演變分析等。 來(lái)自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息 引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。 分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。看得出來(lái)該方法與遺傳算法的聯(lián)系,完全可以考慮在兩者之間建立一些聯(lián)
2、系11)數(shù)據(jù)挖掘能做以下七種不同事情數(shù)據(jù)挖掘 估計(jì)(Estimation) 預(yù)測(cè)(Prediction) 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 聚類(Clustering) 描述和可視化(Description and Visualization)(Text, Web ,圖形圖像,視頻,音頻等)(分析方法):22)數(shù)據(jù)挖掘分類以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘 解成數(shù)據(jù)庫(kù)中表的屬性,即列)進(jìn)行描述。 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后四種屬于間接數(shù)據(jù)挖掘3)各種分析方法的簡(jiǎn)介分類 (Classif
3、ication ) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對(duì)于沒(méi)有分類的數(shù)據(jù)進(jìn)行分類。 a. 信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn)b. 故障診斷:中國(guó)寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對(duì)鋼材 估計(jì)(Estimation ) 估計(jì)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類數(shù)據(jù)挖掘的類別是確定數(shù)目的,估值的量是不確定的。a. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)b. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的收入 續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)
4、客戶記分(Score 01)。然后,根據(jù)閾值,將貸款級(jí)別分類。 預(yù)測(cè)(Prediction) 對(duì)未知變 量的預(yù)言。從這種意義上說(shuō),預(yù)言其實(shí)沒(méi)有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的 是對(duì)未來(lái)未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來(lái)驗(yàn)證的,即必須經(jīng)過(guò)一定時(shí)間后, 才知道預(yù)言準(zhǔn)確性是多少。 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 決定哪些事情將一起發(fā)生。b. 客戶在購(gòu)買 A 后,隔一段時(shí)間,會(huì)購(gòu)買 B (序列分析) 聚類(Clustering) 義好的類,不需要訓(xùn)練集。a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病 整個(gè)客戶做聚集,將客戶分組在
5、各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問(wèn)題,可能效 果更好。 描述和可視化(Description and Visualization)是對(duì)數(shù)據(jù)挖掘結(jié)果的數(shù)數(shù)據(jù)挖掘的步驟會(huì)隨不同領(lǐng)域的應(yīng)用而有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會(huì)有各自的特性和 使用步驟,針對(duì)不同問(wèn)題和需求所制定的數(shù)據(jù)挖掘過(guò)程也會(huì)存在差異。此 外,數(shù)據(jù)的完整在各不同領(lǐng)在各不同領(lǐng)域中的運(yùn)用、規(guī)劃,以及流程的差異性,即使 同一產(chǎn)業(yè),也會(huì)因?yàn)榉治黾夹g(shù)和 如此一來(lái),不僅可以較容易地跨領(lǐng)域應(yīng) 用,也可以結(jié)合不同的專業(yè)知識(shí),發(fā)揮數(shù)據(jù)挖掘的 如下: 理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding)。 獲取相關(guān)知識(shí)與技術(shù)(acquisition)
6、。 整合與檢查數(shù)據(jù)(integration and checking)。 去除錯(cuò)誤或不一致的數(shù)據(jù)(data cleaning)。 建立模型和假設(shè)(model and hypothesis development)。 實(shí)際數(shù)據(jù)挖掘工作(data mining)。 測(cè)試和驗(yàn)證挖掘結(jié)果(testing and verification)。 解釋和應(yīng)用(interpretation and use)。 套數(shù)據(jù)挖 掘的過(guò)程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈 化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接??梢?jiàn),在進(jìn)行數(shù)據(jù)挖掘技術(shù)的 分析之 前,還有許多準(zhǔn)備工作要完成。 編輯本
7、段數(shù)據(jù)挖掘在行業(yè)中的應(yīng)用電信行業(yè) 價(jià)格競(jìng)爭(zhēng) 中國(guó)電信業(yè)改革的加速推進(jìn)形成了新的競(jìng)爭(zhēng)態(tài)勢(shì),移動(dòng)運(yùn)營(yíng) 市場(chǎng)的競(jìng)爭(zhēng)廣度和強(qiáng)度將進(jìn)一 爭(zhēng)、獲取持續(xù)增長(zhǎng)的新引擎。 隨著國(guó)內(nèi)三足鼎立全業(yè)務(wù)競(jìng)爭(zhēng)態(tài)勢(shì)和 3G 牌照發(fā)放,各運(yùn)營(yíng)商為集團(tuán)客戶提供融合的信息化解決方案 將是大勢(shì)所趨,而移動(dòng)信息化將成為全面進(jìn) 入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動(dòng)運(yùn)營(yíng)商因此面臨著從傳統(tǒng)個(gè)人業(yè)務(wù)轉(zhuǎn)向同時(shí)拓展集 團(tuán)客戶信息化業(yè)務(wù)領(lǐng)域的挑 戰(zhàn)。如何應(yīng)對(duì)來(lái)自內(nèi)外部的挑戰(zhàn),迅速以移動(dòng)信息化業(yè)務(wù)作為 拓展集團(tuán)客戶信息化市場(chǎng)的過(guò)程中所面 臨的外部挑戰(zhàn)主要來(lái)自三個(gè)方面,即市場(chǎng)需求不成 熟,技術(shù)與業(yè)務(wù)融合,全業(yè)務(wù)的競(jìng)爭(zhēng)。同時(shí),運(yùn)營(yíng)商在自身發(fā)展上也存在諸
8、多問(wèn)題,例如目 標(biāo)市場(chǎng)細(xì)分不清晰,信 息化需求挖掘與評(píng)估不足;產(chǎn)品規(guī)劃和管理難以滿足客戶信息化需 求;渠道較為單一,無(wú)法有效覆蓋客戶;對(duì)合作伙伴吸引力較弱,尚未形成共贏的價(jià)值鏈;數(shù)數(shù)據(jù)挖掘十大經(jīng)典算法1 。C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類決策樹(shù)算法,其核心算法是ID3 算法。 2. K-means 算法:是一種聚類算法。 3.SVM:一種監(jiān)督式學(xué)習(xí)方法,廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中 4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 7. Adaboost:是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱 分類器*起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器。
9、 8.KNN:是一個(gè)理論上比較成熟的的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。9.Naive Bayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹(shù)模型和樸素貝葉斯( Naive 10.Cart:分類與回歸樹(shù),在分類樹(shù)下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法,第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。基本參考書 簡(jiǎn)單推薦最負(fù)盛名的數(shù)據(jù)挖掘著作,但版本較老,對(duì)讀者的計(jì)算機(jī)尤其是數(shù)據(jù)庫(kù)背景要求較高。 應(yīng)用到各自的領(lǐng)域”。覆蓋了多學(xué)科應(yīng)用實(shí)例,對(duì)讀者數(shù)學(xué)和計(jì)算機(jī)背景要求較低。海書局Yuchun Lee et al. (1998), Solving Data Mining Problems Throug
10、h Pattern Recognition , ISBN 0-13-095083-1Oded Maimon and Mark Last (2000), Knowledge Discovery and Data Mining - The Info-Fuzzy Network (IFN) Methodology, Kluwer Academic Publishers. ISBN 0-7923-6647-6Sholom Weiss and Nitin Indurkhya(1998). Predictive Data Mining. Morgan Kaufman. ISBN 1-55860-403-0Ian Witten and Eibe Fran
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度城市道路回填工程承包合同
- 上海居間合同范本
- 保密條款合同范本
- 2025年建筑門窗安裝與智能化管理系統(tǒng)合同
- 養(yǎng)殖工人安全合同范本
- 與飯店合作合同范例
- 烏魯木齊離婚律師合同范例
- 包招聘合同范本
- 公園木棧道維修合同范本
- 農(nóng)副產(chǎn)購(gòu)銷合同范本
- 西方經(jīng)濟(jì)學(xué)考試題庫(kù)(含參考答案)
- 《納米技術(shù)簡(jiǎn)介》課件
- 2024年青海省西寧市選調(diào)生考試(公共基礎(chǔ)知識(shí))綜合能力題庫(kù)帶答案
- 部編版語(yǔ)文二年級(jí)下冊(cè)第三單元教材解讀大單元集體備課
- HYT 235-2018 海洋環(huán)境放射性核素監(jiān)測(cè)技術(shù)規(guī)程
- ISO28000:2022供應(yīng)鏈安全管理體系
- 中國(guó)香蔥行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告2024-2034版
- 婦科惡性腫瘤免疫治療中國(guó)專家共識(shí)(2023)解讀
- 2024年浪潮入職測(cè)評(píng)題和答案
- 小班數(shù)學(xué)《整理牛奶柜》課件
- 中考語(yǔ)文真題雙向細(xì)目表
評(píng)論
0/150
提交評(píng)論