![進(jìn)行數(shù)據(jù)挖掘之前與R語言_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/1/fd782a5f-5b69-4f7b-b06e-32405f6e5a42/fd782a5f-5b69-4f7b-b06e-32405f6e5a421.gif)
![進(jìn)行數(shù)據(jù)挖掘之前與R語言_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/1/fd782a5f-5b69-4f7b-b06e-32405f6e5a42/fd782a5f-5b69-4f7b-b06e-32405f6e5a422.gif)
![進(jìn)行數(shù)據(jù)挖掘之前與R語言_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/1/fd782a5f-5b69-4f7b-b06e-32405f6e5a42/fd782a5f-5b69-4f7b-b06e-32405f6e5a423.gif)
![進(jìn)行數(shù)據(jù)挖掘之前與R語言_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/1/fd782a5f-5b69-4f7b-b06e-32405f6e5a42/fd782a5f-5b69-4f7b-b06e-32405f6e5a424.gif)
![進(jìn)行數(shù)據(jù)挖掘之前與R語言_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/1/fd782a5f-5b69-4f7b-b06e-32405f6e5a42/fd782a5f-5b69-4f7b-b06e-32405f6e5a425.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、進(jìn)行數(shù)據(jù)挖掘之前數(shù)據(jù)集成數(shù)據(jù)集成數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放一個一致的數(shù)據(jù)存儲的過程數(shù)據(jù)集成包括數(shù)據(jù)集成和模式集成。例如:在一個企業(yè)的兩個數(shù)據(jù)源中我們分別以cust-id 和customer-no來標(biāo)識用戶,數(shù)據(jù)集成時,把標(biāo)識相同的客戶和在一起A.cust-id=B.customer-no用戶標(biāo)識的定義不同A表:ID=”23442” B表:ID=”SH23442”String(A.cust-id)= String(B. customer-no).Substr(2,length-2)進(jìn)行數(shù)據(jù)挖掘之前-數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理原因:現(xiàn)實世界的數(shù)據(jù)是“雜亂的”
2、。 數(shù)據(jù)挖掘需要高質(zhì)量的數(shù)據(jù)。如何對數(shù)據(jù)進(jìn)行預(yù)處理如何對數(shù)據(jù)進(jìn)行預(yù)處理數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)的規(guī)約數(shù)據(jù)的規(guī)約數(shù)據(jù)清理o 格式標(biāo)準(zhǔn)化o 異常數(shù)據(jù)清除 o 錯誤糾正 o 重復(fù)數(shù)據(jù)的清除o 處理缺失數(shù)據(jù)o 處理重復(fù)數(shù)據(jù)o 處理噪聲數(shù)據(jù)o 處理異常數(shù)據(jù) 目標(biāo):目標(biāo):提高數(shù)據(jù)質(zhì)量的四個環(huán)節(jié)提高數(shù)據(jù)質(zhì)量的四個環(huán)節(jié)數(shù)據(jù)轉(zhuǎn)換分類:o 常規(guī)數(shù)據(jù)轉(zhuǎn)換 通常通過線性或非線性的數(shù)學(xué)變換方法等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。o 非常規(guī)數(shù)據(jù)的數(shù)據(jù)變換 根據(jù)數(shù)據(jù)的特性會有較多的形式各異的轉(zhuǎn)換方式。數(shù)據(jù)轉(zhuǎn)換常見轉(zhuǎn)換方法:o 為了減少數(shù)據(jù)復(fù)雜度,用高層概念替換底層概念。o 專注于數(shù)據(jù)規(guī)范化,是數(shù)據(jù)按比例縮
3、放,落入特定區(qū)域。o 做屬性構(gòu)選,通過一個或多個屬性的變換計算構(gòu)造出新的屬性。數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化所謂標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化是將各個記錄值減去記錄值的平均值在除以記錄值的標(biāo)準(zhǔn)差X=(Xij-Xia)/Si nXia為平均值,表達(dá)式為 Xia=1/nXij j=1 n設(shè)Sij是標(biāo)準(zhǔn)差有:Si=1/n (Xij-Xia) j=1數(shù)據(jù)轉(zhuǎn)換(2)極差標(biāo)準(zhǔn)化極差標(biāo)準(zhǔn)化極差標(biāo)準(zhǔn)化變換是將各個記錄值減去記錄值的平均值,在除以記錄值的極差。Xij=(Xij-Xia)/(max(Xij)-min(Xij)(3)極差正規(guī)化極差正規(guī)化 Xij=(Xij-min(Xij)/(max(Xij)-min(Xij)將各個
4、記錄值減去記錄值的極小值,在除以記錄值的極差 。數(shù)據(jù)轉(zhuǎn)換最小最小最大規(guī)范化處理最大規(guī)范化處理 將所有數(shù)據(jù)轉(zhuǎn)化到我們新設(shè)定的最小和最大值的區(qū)間內(nèi)。數(shù)據(jù)的規(guī)約o 更少的數(shù)據(jù),提高挖掘效果o 更高的數(shù)據(jù)挖掘處理精度o 簡單的數(shù)據(jù)挖掘處理結(jié)果o 更少的數(shù)據(jù)特征o 刪除列 o 刪除行o 減少列中的值效果:效果:由于數(shù)據(jù)規(guī)約對原始數(shù)據(jù)通常都是有損的,盡量不使用規(guī)約。基本操作:基本操作:R語言簡介R語言基本語法結(jié)構(gòu)語言基本語法結(jié)構(gòu)o標(biāo)準(zhǔn)的和基于各種設(shè)備的輸入/輸出o面向?qū)ο缶幊谭绞胶蛿?shù)學(xué)編程方式o分布式計算結(jié)構(gòu)o引用程序包o數(shù)學(xué)和統(tǒng)計學(xué)各種函數(shù)包括:基本數(shù)學(xué)函數(shù),模擬和隨數(shù)產(chǎn)生函數(shù)基本統(tǒng)計函數(shù)和概率分布函數(shù)
5、o機器語言學(xué)習(xí)功能o信號處理功能o統(tǒng)計學(xué)建模和測試功能o靜態(tài)和動態(tài)的圖形展示R語言簡介R語言在數(shù)據(jù)挖掘中的優(yōu)勢:o 最廉價(免費)o 最全面的算法o 最完美多樣的數(shù)據(jù)展示o 最狂熱的愛好者社區(qū)R語言的整個語法結(jié)構(gòu)完全來自S語言,突出兩個特點是:函數(shù)或編程和向量化計算。背景特點背景特點簡介R語言常用的包o CORElearn包:程序包集合了多種分類算法和回歸模型 例如:樸素貝葉斯,隨機森林,決策樹,回歸分析等。o E1071包:綜合了眾多數(shù)數(shù)據(jù)挖掘的包,其中被使用較多的SUM()函數(shù)實現(xiàn)支持向量化。o Rpart包:提供有效處理稀疏二元數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),而且提供函數(shù)用Apriori算法和Edat算
6、法來挖掘頻繁項集最大頻繁項集,閉頻繁項集合和關(guān)聯(lián)規(guī)則。o Random forest包:實現(xiàn)隨機森林算法。o ROCR包:是專門用于做模型評估的,可以方便的繪出ROC圖。MATLAB(MATtrix LABoratary)矩陣實驗室o 功能: MATLAB將數(shù)值分析,矩陣計算,科學(xué)數(shù)據(jù)可視化以及非線性動態(tài)系統(tǒng)的建模和仿真等諸多強大功能集成在一個易于使用的視窗環(huán)境中。 可以輕易地描繪二維和三維圖形。o 特點:高效的數(shù)學(xué)表達(dá)式表現(xiàn)方式,數(shù)值計算及符號計算功能。o 語言:MATLAB語言是簡化版的類C+語言。其他商用數(shù)據(jù)挖掘工具o SPSS Modeler 支持整個數(shù)據(jù)挖掘流程,包括從數(shù)據(jù)獲取,轉(zhuǎn)化
7、,建模,評估到最終部署的全部過程。o SAS Enter Miner 可利用具有圖形化的模塊將數(shù)據(jù)挖掘單元組成處理流程圖并依此來組織數(shù)據(jù)挖掘的過程。o Intellgent Miner for Data 它是用來數(shù)據(jù)挖掘包含在數(shù)據(jù)庫,數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。開源數(shù)據(jù)挖掘工具WekaWeka(Waikato Environment for knowledge Analysis)全名:懷卡托智能分析環(huán)境Weka是用Java語言開發(fā)和開源的數(shù)據(jù)挖掘軟件。Weka可以使用的數(shù)據(jù)挖掘算法:分類算法,聚類算法和并聯(lián)算法。Weka在R語言中時,使用RWeka程序包調(diào)用Weka中所有算法。開源數(shù)據(jù)挖掘工具Weka-四個組成部分四個組成部分o Explorer,在該環(huán)境中,我們可以實現(xiàn)各種數(shù)據(jù)挖掘算法,并提供可視法結(jié)果。o Experimenter:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷凍產(chǎn)品購銷合同年
- 單位租車合同協(xié)議
- 航空物流與服務(wù)作業(yè)指導(dǎo)書
- 購買信報箱合同
- 互聯(lián)網(wǎng)金融產(chǎn)品開發(fā)作業(yè)指導(dǎo)書
- 經(jīng)營部國際合作處外事接待管理員崗位說明書
- 裝修合同大全
- 2025年吉林市b2貨運資格證全題
- 2025年岳陽貨運從業(yè)資格證考試試題及答案
- 2025年鄭州駕??荚囏涍\從業(yè)資格證模擬考試
- 周口2024年河南周口市公安機關(guān)招聘輔警458人筆試歷年參考題庫附帶答案詳解
- 《頭面部穴位按摩》課件
- 2024美團(tuán)簡化版商家合作合同標(biāo)準(zhǔn)文本一
- 2025年貴州黔源電力股份有限公司招聘筆試參考題庫含答案解析
- 《休閑食品加工技術(shù)》 課件 1 休閑食品生產(chǎn)與職業(yè)生活
- 春季開學(xué)安全第一課
- 《病史采集》課件
- 十大護(hù)理安全隱患
- 2025年新生兒黃疸診斷與治療研究進(jìn)展
- 廣東大灣區(qū)2024-2025學(xué)年度高一上學(xué)期期末統(tǒng)一測試英語試題(無答案)
- 失效模式和效應(yīng)分析護(hù)理
評論
0/150
提交評論