Clementine 第二講_第1頁
Clementine 第二講_第2頁
Clementine 第二講_第3頁
Clementine 第二講_第4頁
Clementine 第二講_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、ClementineClementine的數據讀入和集成的數據讀入和集成主要內容n變量類型變量類型nClementineClementine數據的讀入操作數據的讀入操作nClementineClementine數據的集成操作數據的集成操作變量類型n從數據挖掘角度看變量類型:數值型變量、分類型變從數據挖掘角度看變量類型:數值型變量、分類型變量(定類型、定序型),量(定類型、定序型),ClementineClementine中的變量類型:中的變量類型:n連續(xù)數值型(連續(xù)數值型(RangeRange)n二分類型(二分類型(FlagFlag)n多分類型(多分類型(SetSet)n定序型(定序型(Ord

2、ered SetsOrdered Sets)n無類型(無類型(TypelessTypeless)n離散型(離散型(DiscreteDiscrete)n缺省型(缺省型(DefaultDefault)ClementineClementine變量狀態(tài):變量狀態(tài):非實例化:變量的存儲非實例化:變量的存儲類型和取值均未知時類型和取值均未知時半實例化:僅知道變量半實例化:僅知道變量的存儲類型,但取值范的存儲類型,但取值范圍未知圍未知實例化:變量的存儲類實例化:變量的存儲類型和取值均已確定型和取值均已確定變量類型n從計算機存儲角度看變量類型從計算機存儲角度看變量類型n整數型(整數型(IntergerInte

3、rger):存儲整型數):存儲整型數n實數型(實數型(RealReal):存儲小數):存儲小數n字符串型(字符串型(StringString):存儲字符串型數據):存儲字符串型數據n時間型(時間型(TimeTime):存儲持續(xù)時間數據):存儲持續(xù)時間數據n日期型(日期型(DateDate):存儲日期數據):存儲日期數據n時間戳型(時間戳型(Time StampTime Stamp):存儲時間點數據):存儲時間點數據n不同角度的變量類型之間是相關聯的不同角度的變量類型之間是相關聯的讀入數據nClementineClementine支持的數據格式支持的數據格式n自由格式文本自由格式文本nExcel

4、Excel電子表格電子表格n數據庫文件數據庫文件nSPSSSPSS格式格式n以讀自由格式文本為例(以讀自由格式文本為例(Drgu.txtDrgu.txt)()(Var.FileVar.File節(jié)點節(jié)點) )nFileFile選項卡:指定所讀入數據的基本格式選項卡:指定所讀入數據的基本格式nDataData選項卡:指定所讀變量的存儲類型和輸入格式選項卡:指定所讀變量的存儲類型和輸入格式nFilterFilter選項卡:指定不讀哪些變量或重命名變量名選項卡:指定不讀哪些變量或重命名變量名nTypesTypes選項卡:指定變量的計量類型,對變量的缺失選項卡:指定變量的計量類型,對變量的缺失值和取值合

5、理性等進行檢查值和取值合理性等進行檢查數據集成n數據集成包括:數據集成包括:n第一,兩份或多份數據的縱向合并第一,兩份或多份數據的縱向合并n第二,兩份或多份數據的橫向合并第二,兩份或多份數據的橫向合并n數據的縱向合并數據的縱向合并( ( Append Append 節(jié)點節(jié)點) ):Student.xlsStudent.xls數據集成n數據的橫向合并數據的橫向合并(Merge(Merge節(jié)點節(jié)點) )n以客戶瀏覽網頁數據(以客戶瀏覽網頁數據(WebData.mdbWebData.mdb)為例)為例數據集成n數據的橫向合并的聯接方式:內連接(數據的橫向合并的聯接方式:內連接(inner joini

6、nner join)、)、全外連接(全外連接(full outer joinfull outer join)、局部外連接)、局部外連接(partial outer joinpartial outer join)和反連接()和反連接(anti-joinanti-join)ClementineClementine的數據理解的數據理解主要內容n變量說明變量說明n數據質量評估和調整數據質量評估和調整n數據的有序瀏覽數據的有序瀏覽n多維度匯總多維度匯總變量說明n變量說明是確保高質量數據的有效途徑變量說明是確保高質量數據的有效途徑n變量說明包括:變量說明包括:n第一,對數據流中變量取值的有效性進行第一,對

7、數據流中變量取值的有效性進行限定、檢查和調整限定、檢查和調整n第二,對各個變量在未來數據建模中的角第二,對各個變量在未來數據建模中的角色進行說明色進行說明變量說明(Type節(jié)點)n以以Students.xlsStudents.xls為例,數據存在的問題:為例,數據存在的問題:n家庭人均年收入變量,有部分樣本取值家庭人均年收入變量,有部分樣本取值$null$null$,表示空缺;有一個樣本取值為,表示空缺;有一個樣本取值為999999999999。n是否無償獻血變量值,填寫不規(guī)范。規(guī)范是否無償獻血變量值,填寫不規(guī)范。規(guī)范值應為值應為YesYes和和NoNo,但有些樣本卻取,但有些樣本卻取1 1(

8、表示(表示YesYes)和)和0 0(表示(表示NoNo)n重新實例化重新實例化n有效變量值和無效值調整有效變量值和無效值調整n有效變量值是變量正常取值范圍內的值有效變量值是變量正常取值范圍內的值n無效值,通常指缺失值。無效值,通常指缺失值。ClementineClementine中的中的缺失值通常包括兩類:缺失值通常包括兩類:n一類是系統(tǒng)缺值,用一類是系統(tǒng)缺值,用$null$null$表示,還包表示,還包括空串和空格等。括空串和空格等。n另一類是用戶缺失值另一類是用戶缺失值變量說明(Type節(jié)點)nMissingMissing列:列:nOn(On(* *) ):表示允許相應變量取用戶缺失值和

9、系統(tǒng)缺失:表示允許相應變量取用戶缺失值和系統(tǒng)缺失值,且不進行調整值,且不進行調整nOffOff:表示不允許相應變量取用戶缺失值:表示不允許相應變量取用戶缺失值nSpecifySpecify:說明變量的有效取值范圍等,并指定數據:說明變量的有效取值范圍等,并指定數據調整方法調整方法nCoerceCoerce:表示調整為指定值:表示調整為指定值nFlagFlag型變量調整為型變量調整為FalseFalse類對應的值類對應的值nSetSet型變量調整為第一個變量值型變量調整為第一個變量值n數值型變量,大于上限調整為上限值,小于下限調數值型變量,大于上限調整為上限值,小于下限調整為下限值,其余值調整為

10、(最大值整為下限值,其余值調整為(最大值+ +最小值)最小值)/2/2變量說明(Type節(jié)點)變量說明(Type節(jié)點)n變量角色變量角色nInIn:作為輸入變量:作為輸入變量nOutOut:作為輸出變量:作為輸出變量nBothBoth:即作為輸入角色,也作為輸出角色:即作為輸入角色,也作為輸出角色nPartitionPartition:樣本集分割角色,是數據挖掘:樣本集分割角色,是數據挖掘中的特有角色中的特有角色nNoneNone:不參與分析:不參與分析數據質量的評估和調整(Data Audit節(jié)點)n以以Telephone.savTelephone.sav為例為例nQualityQualit

11、y選項卡選項卡Missing valueMissing value框框nCount of records with valid valuesCount of records with valid values,計算各變量的有效樣本量;計算各變量的有效樣本量;nbreakdown counts of records with breakdown counts of records with invalid valuesinvalid values,計算各變量取,計算各變量取各種各種無效無效值的樣本個數值的樣本個數nQualityQuality選項卡選項卡Outliers & Extrem

12、e valuesOutliers & Extreme values框框n指定離群點和極端值的診斷標準指定離群點和極端值的診斷標準數據質量的評估和調整(Data Audit節(jié)點)n變量值的調整變量值的調整n離群點和極端值的調整離群點和極端值的調整(Action(Action列列) )nCoerceCoerce:調整為距其最近的正常值:調整為距其最近的正常值n缺失值的調整缺失值的調整(Impute Missing(Impute Missing列列) )n找出高質量的變量找出高質量的變量nGenerateGenerate下的下的Filter NodeFilter Node項項n篩掉無效樣本(

13、指定變量上取無效值的樣本)篩掉無效樣本(指定變量上取無效值的樣本)nGenerateGenerate下的下的Select NodeSelect Node項項數據理解的其他n數據的有序瀏覽(數據的有序瀏覽(SortSort節(jié)點)節(jié)點)n以以Telephone.savTelephone.sav為例,目標:為例,目標:n第一,按基本費用的降序排序數據;第一,按基本費用的降序排序數據;n第二,根據客戶最終是否流失,將數據第二,根據客戶最終是否流失,將數據按基本費用的降序排序按基本費用的降序排序數據理解的其他n數據的分類匯總數據的分類匯總(Aggregate(Aggregate節(jié)點節(jié)點) )n以以Tel

14、ephone.savTelephone.sav為例,目標:為例,目標:n第一,分別計算未流失客戶和流失客戶第一,分別計算未流失客戶和流失客戶的基本費用的平均值和標準差的基本費用的平均值和標準差n第二,分別針對未流失客戶和流失客戶第二,分別針對未流失客戶和流失客戶群,計算選用不同類套餐類型的客戶,群,計算選用不同類套餐類型的客戶,其基本費用的平均值和標準差其基本費用的平均值和標準差ClementineClementine的數據準備的數據準備主要內容n變量轉換變量轉換n變量派生變量派生n數據精簡數據精簡n數據篩選數據篩選變量轉換n變量轉換是對變量的原有取值進行轉換處理,變量轉換是對變量的原有取值進

15、行轉換處理,覆蓋變量的原來取值覆蓋變量的原來取值n CLEMCLEM表達式:表達式:( (Clementine Language for Clementine Language for Expression Manipulation)Expression Manipulation)專門用于表述運算專門用于表述運算操作,描述算術表達式和條件表達式操作,描述算術表達式和條件表達式nCLEMCLEM的算術表達式是用于算術運算的式子,的算術表達式是用于算術運算的式子,由常量、變量、算術運算符和函數等組成由常量、變量、算術運算符和函數等組成n普通函數和專業(yè)函數(普通函數和專業(yè)函數( )nCLEMCLEM

16、的條件表達式是用于表述條件是否滿的條件表達式是用于表述條件是否滿足的式子,由常量、變量、條件運算符和足的式子,由常量、變量、條件運算符和函數等組成,且條件表達式的計算結果只函數等組成,且條件表達式的計算結果只有真和假兩個取值有真和假兩個取值變量轉換n變量的重新計算變量的重新計算(Filler(Filler節(jié)點節(jié)點) )n以以Students.xlsStudents.xls為例,目標:對在校綜合為例,目標:對在校綜合評價指數進行標準化處理,使其能夠直觀評價指數進行標準化處理,使其能夠直觀反映學生在校綜合的水平。反映學生在校綜合的水平。n變量類別值的重新調整變量類別值的重新調整(Reclassif

17、y(Reclassify節(jié)點節(jié)點) )n以以Students.xlsStudents.xls為例,目標:是否無償獻為例,目標:是否無償獻血取值不規(guī)范,將取值血取值不規(guī)范,將取值1 1和和0 0應分別調整為應分別調整為YesYes和和No No 變量派生n生成新變量(生成新變量(DeriveDerive節(jié)點)節(jié)點)n以以ReportCard.xlsReportCard.xls為例,目標:為例,目標:n第一,計算每個學生的總成績第一,計算每個學生的總成績n第二,對每個學生的每門成績進行兩級第二,對每個學生的每門成績進行兩級評定計算,大于等于評定計算,大于等于6060分,則評定為合分,則評定為合格,

18、否則評定為不合格格,否則評定為不合格n第三,對每個學生的每門成績按第三,對每個學生的每門成績按A A、B B、C C、D D、E E進行多級評定計算進行多級評定計算n第四,根據思想品德課程的得分對每個第四,根據思想品德課程的得分對每個學生的總成績進行調整學生的總成績進行調整變量派生n生成服從正態(tài)分布的新變量生成服從正態(tài)分布的新變量(Transform(Transform節(jié)點節(jié)點) )n以以Telephone.savTelephone.sav為例,目標:分析客戶的為例,目標:分析客戶的收入、開通月數以及各種費用,應做怎樣收入、開通月數以及各種費用,應做怎樣的轉換處理才接近正態(tài)分布的轉換處理才接近

19、正態(tài)分布n派生啞變量派生啞變量(SetToFlag(SetToFlag節(jié)點節(jié)點) )n以以Telephone.savTelephone.sav為例,目標:將服務套餐為例,目標:將服務套餐類型轉換成啞變量的形式類型轉換成啞變量的形式數據精簡n數據精簡包括以下方面:數據精簡包括以下方面:n第一,從壓縮樣本入手,通過減少樣本量第一,從壓縮樣本入手,通過減少樣本量,提高建模效率。主要有借助概率抽樣隨,提高建模效率。主要有借助概率抽樣隨機抽取樣本,或選取特定樣本。(本章)機抽取樣本,或選取特定樣本。(本章)n第二,從壓縮變量取值入手,通過減少變第二,從壓縮變量取值入手,通過減少變量取值個數,提高建模效率

20、。主要指變量量取值個數,提高建模效率。主要指變量值的分箱處理;值的分箱處理;n第三,從壓縮變量個數入手,通過減少變第三,從壓縮變量個數入手,通過減少變量維度,提高建模效率。主要借助統(tǒng)計方量維度,提高建模效率。主要借助統(tǒng)計方法降維,或依據相關性進行特征選擇法降維,或依據相關性進行特征選擇數據精簡n隨機抽樣(隨機抽樣(SampleSample節(jié)點)節(jié)點)n以以Telephone.savTelephone.sav為例,目標:為例,目標:n第一,隨機抽取第一,隨機抽取70%70%的客戶數據;的客戶數據;n第二,對流失和未流失客戶,分別抽取第二,對流失和未流失客戶,分別抽取70%70%的樣本的樣本n根據

21、條件選取樣本(根據條件選取樣本(SelectSelect節(jié)點)節(jié)點)n以以ReportCard.xlsReportCard.xls為例,目標:篩選出總為例,目標:篩選出總成績大于成績大于500500分的所有男生(性別為分的所有男生(性別為1 1)樣)樣本本數據篩選:樣本的平衡處理n數據篩選,是指為服務于后續(xù)建模所進行的樣數據篩選,是指為服務于后續(xù)建模所進行的樣本平衡處理和樣本集劃分本平衡處理和樣本集劃分n樣本平衡處理的意義:一般用于非平衡數據集樣本平衡處理的意義:一般用于非平衡數據集(imbalanced data set)的建模準備。的建模準備。n非平衡數據集,是指數據集中某一類或者非平衡數

22、據集,是指數據集中某一類或者某些類的樣本數量遠遠大于其它類的樣本某些類的樣本數量遠遠大于其它類的樣本數。通常樣本數量多的一類或幾類樣本成數。通常樣本數量多的一類或幾類樣本成為多數類,也稱正類。樣本數量較少的類為多數類,也稱正類。樣本數量較少的類稱為少數類或稀有類,也稱負類。稱為少數類或稀有類,也稱負類。數據篩選:樣本的平衡處理n非平衡樣本建模存在的問題非平衡樣本建模存在的問題n傳統(tǒng)的分類方法傾向于對多數類有較高的傳統(tǒng)的分類方法傾向于對多數類有較高的識別率,對少數類的識別率較低,有時的識別率,對少數類的識別率較低,有時的模型是沒有實用性的模型是沒有實用性的82%82%總的正確率意義總的正確率意義

23、不大!不大!TPTP和和TNTN的占比都較的占比都較高才好!高才好!數據篩選:樣本的平衡處理n非平衡樣本的處理:再抽樣(非平衡樣本的處理:再抽樣(Re-sampleingRe-sampleing)n過抽樣過抽樣( (Over-sampling):Over-sampling):增加負類樣本數增加負類樣本數量改變樣本的分布量改變樣本的分布n欠抽樣欠抽樣(Under-sampling):(Under-sampling):減少正類樣本數減少正類樣本數量改變數據的分布量改變數據的分布n樣本的平衡處理樣本的平衡處理(Balance(Balance節(jié)點節(jié)點) ),隨機過抽樣,隨機過抽樣和隨機欠抽樣和隨機欠抽

24、樣n以以Drug.txtDrug.txt為例,目標:對不同藥物隨機為例,目標:對不同藥物隨機再抽樣再抽樣數據篩選:樣本子集的劃分n樣本子集劃分的意義:便于得到相對準確的模樣本子集劃分的意義:便于得到相對準確的模型誤差估計型誤差估計n做法:做法:n將全部樣本隨機劃分成兩個或三個子集將全部樣本隨機劃分成兩個或三個子集n訓練(訓練(TrainingTraining)樣本集:用于建立和)樣本集:用于建立和訓練模型訓練模型n測試(測試(TestingTesting)樣本集:用于模型的誤)樣本集:用于模型的誤差估計差估計數據篩選:樣本子集的劃分n樣本子集的常見劃分方法:樣本子集的常見劃分方法:n旁置(旁置

25、(HoldOutHoldOut)法和反復旁置法)法和反復旁置法n交叉驗證交叉驗證( (Cross Validation) )法法n留一留一( (Leave-one-out)Leave-one-out)交叉驗證法交叉驗證法nN N折交叉驗證法折交叉驗證法( (N Cross-Validation) )n重抽樣自舉法(重抽樣自舉法(BootStrapBootStrap)ClementineClementine的基本分析的基本分析主要內容n數值型變量的基本分析數值型變量的基本分析n兩分類型變量相關性的研究兩分類型變量相關性的研究n兩個總體的均值比較兩個總體的均值比較nRFMRFM分析分析計算基本描述

26、統(tǒng)計量nStatisticsStatistics節(jié)點節(jié)點n以以Telephone.savTelephone.sav為例,目標:為例,目標:n計算基本服務累計開通月數、上月基本費計算基本服務累計開通月數、上月基本費用的基本描述統(tǒng)計量用的基本描述統(tǒng)計量n分析上述變量與年齡、家庭月收入(百元分析上述變量與年齡、家庭月收入(百元)、家庭人口之間,以及開通月數與基本)、家庭人口之間,以及開通月數與基本費用之間的相關性費用之間的相關性n篩選出相關程度較高的變量篩選出相關程度較高的變量繪制散點圖nPlotPlot節(jié)點節(jié)點n以以Telephone.savTelephone.sav為例,目標:為例,目標:n展示

27、流失和保留客戶,上月基本費用和開展示流失和保留客戶,上月基本費用和開通月數情況通月數情況nJitterJitter選項:數據中存在大量重復值時,變量選項:數據中存在大量重復值時,變量值修正為臨近實際值的隨機值值修正為臨近實際值的隨機值nWhen number of records greater thanWhen number of records greater than:樣本:樣本量大于指定值時的處理策略量大于指定值時的處理策略nClementineClementine的圖數交互、圖數共享、圖形編輯的圖數交互、圖數共享、圖形編輯繪制線圖n以以 ExportApple.savExportApple.sav為例,目標:為例,目標:n一般線圖(一般線圖(PlotPlot節(jié)點)節(jié)點)n鮮蘋果出口量的時序線圖、鮮蘋果出口量的年鮮蘋果出口量的時序線圖、鮮蘋果出口量的年度對比度對比n多線圖(多線圖( Time Plo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論