版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第三章 資料前置處理1第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)2資料未經(jīng)處理的問題資料不完整 (data incomplete)資料中某些屬性值有遺缺缺少某些分析時需要用到的屬性,Ex:性別資料有雜訊 (noise)資料有錯誤或是特例(outlier)造成資料不一致 (data inconsistency)由不同來源整合而得所產(chǎn)生商品在臺灣是以臺幣,在美國則是美金計價有高品質(zhì)的資料,才有高品質(zhì)的探勘結(jié)果3第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料
2、模糊化*總結(jié)4前置處理的主要工作資料整合整合後的資料(貯存室=資料倉儲)清理過的資料資料轉(zhuǎn)換準備進行探勘的資料各種不同來源的資料資料清理5資料整合資料整合 (data integration) 解決多重資料來源的整合問題主要工作消除資料不一致數(shù)值不一致 (data value conflict),Ex :單位不一綱目不一致 (schema conflict),Ex:屬性名稱不一,會員姓名和顧客姓名消除資料重複性數(shù)值重複,Ex:A和B資料表有同一會員資料綱目重複,Ex:生日和年齡6資料清理 (1)確認資料正確性、完整性常見的資料正確性問題7資料清理 (2)確認資料完整性常見的資料完整性問題:8資
3、料清理 (3)其它清理工作遺缺填補:人工填補或自動填補雜訊消除:雜訊使探勘結(jié)果有相當大的偏差,必須將雜訊移除或?qū)①Y料做平緩化處理 (smoothing) 9資料轉(zhuǎn)換資料統(tǒng)整化(data aggregation) 加總、統(tǒng)計或是建立資料方塊(data cube) 目的:將資料做初步整理,使得資料更適合探勘一種資料精簡化處理資料一般化(data generalization) 資料的概念階層 (concept hierarchy) 向上提升會員地址用城市或是北中南東四區(qū)取代可將某屬性中所包含的不同數(shù)值減少,資料精簡的方法之一建立新屬性(attribute construction) 利用舊屬性將探
4、勘所需的新屬性建立生日屬性產(chǎn)生年齡屬性10第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)11資料遺缺原因資料建立時未輸入故意或是不小心造成資料沒有被輸入設(shè)備故障例如收銀機故障,導(dǎo)致顧客消費明細無法輸入因資料內(nèi)容不一致而被刪除當資料內(nèi)容不一致時,為了避免錯誤的資料影響分析的準確性,可能會將該項資料以空值取代,因此產(chǎn)生資料的遺缺12資料遺缺處理方法-直接忽略法處理資料遺缺最簡單的方法適用時機進行分類探勘時,若資料的分類標記 (class label)為空值,這筆資料因無法被正確分類,便可直接刪除,Ex:信用等級適用對象蒐集
5、資料量很多、遺缺資料只佔一小部分缺點資料遺缺比例很可觀時,會造成大量資料流失13資料遺缺處理方法-人工填補法處理資料遺缺的現(xiàn)象,可採用人工來填補範例當某會員資料的生日屬性有遺缺,可打電話詢問該會員,以取得其生日並加以填補。缺點當資料遺缺較多時,耗時且人力負擔沉重。14資料遺缺處理方法-自動填補法主要兩種方式填入一個通用的常數(shù)值如填入 “未知/unknown” ,成為一個新的類別填入該屬性的整體平均值不會對統(tǒng)計結(jié)果造成太大的影響優(yōu)點:可以在不影響統(tǒng)計結(jié)果的情況下,保留此資料屬性缺點是不夠客觀更精確作法是用推論法求出較可能的值來填入方法基本上有兩種,一種是貝式方程式 (Bayesian formu
6、la),另一種方法是利用決策樹 (decision tree) 15第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)16雜訊的處理方法結(jié)合電腦和人工檢視結(jié)合電腦偵測與人工檢視,Ex:大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再利用人工方式確認缺點:需要人力介入,曠日費時,不實際資料平緩化處理回歸分析法 (regression analysis) 將資料套入回歸函數(shù)以消除雜訊裝箱法 (binning method)將資料排序並切割成數(shù)個箱子用所有資料的平均值、中位數(shù)或邊界值來取代箱子中的每一筆資料以消除雜訊包
7、括等寬分割法(或稱等距分割法)和等深分割法(或稱等頻分割法)17裝箱法 - 等寬分割法等寬分割法(或稱等距分割法,Equal Width/Distance)將資料的數(shù)值範圍劃分為N 個間隔相同的區(qū)間若A和B分別為此屬性中的最小與最大值,則每個區(qū)間的間隔大小為:W = (B-A)/N.Ex:假設(shè)欲分析顧客年齡與購買商品種類的關(guān)係,將12個顧客年齡資料排序依序如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52 , 60 , 80 欲分割為四個箱子則箱子寬度=(80-12)/4=17箱子 1 (12-28): 12, 15, 18, 21, 28箱子 2 (29-45
8、): 33, 36, 45箱子 3 (46-62): 50, 52 , 60箱子 4 (63-80): 80最直覺的分割法,但資料有雜訊或特例對分割結(jié)果的影響很大(探勘結(jié)果影響很大)不適用於偏斜的資料(skew data)18等寬分割法示意圖12,15,18,21,28 箱子箱子33,36,45 箱子50,52,60 80 箱子19裝箱法 - 等深分割法等深分割法(或稱等頻分割法, Equal Depth/Frequency)將資料劃分為N 個資料數(shù)量大致相同的區(qū)間(個數(shù))例同上,將12個顧客年齡資料排序依序如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52 ,
9、 60 , 80四個箱子則每個箱子均含三筆資料(寬度12/4=3)箱子 1 : 12, 15, 18箱子 2 : 21, 28, 33箱子 3 : 36, 45, 50箱子 4 :52 , 60 , 80資料分布(scaling)良好但類別屬性(categorical attributes)較難處理20等深分割法示意圖12, 15, 18 箱子21, 28, 33 箱子箱子52, 60, 80 36, 45, 50 箱子21等深分割法裝箱資料的平緩處理 以平均值消除雜訊箱子 1 (12,15, 18 ): 15,15,15 箱子 2 (21, 28, 33) :28, 28, 28箱子 3 (
10、36, 45, 50): 44, 44, 44箱子 4 (52, 60, 80): 64, 64, 64以中位數(shù)消除雜訊箱子 1 (12,15, 18 ): 15,15,15 箱子 2 (21, 28, 33) : 28, 28, 28箱子 3 (36, 45, 50): 45, 45, 45箱子 4 (52, 60, 80): 60, 60, 60以邊界值消除雜訊箱子 1 (12,15, 18 ): 12, 18, 18 箱子 2 (21, 28, 33) :21, 33, 33箱子 3 (36, 45, 50): 36, 50, 50箱子 4 (52, 60, 80): 52, 52, 8
11、022等寬分割法裝箱資料的平緩處理 以平均值消除雜訊箱子 1 (12, 15, 18, 21, 28): 19, 19, 19, 19, 19 箱子 2 (33, 36, 45) :38, 38, 38箱子 3 (50, 52 , 60): 54, 54, 54箱子 4 (80): 80以中位數(shù)消除雜訊箱子 1 (12, 15, 18, 21, 28): 18, 18, 18, 18, 18 箱子 2 (33, 36, 45) :36, 36, 36箱子 3 (50, 52 , 60): 52, 52, 52箱子 4 (80): 80以邊界值消除雜訊箱子 1 (12, 15, 18, 21,
12、28): 12, 12, 12, 28, 28箱子 2 (33, 36, 45) :33, 33, 45箱子 3 (50, 52 , 60): 50, 50, 60箱子 4 (80): 8023第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)24資料正規(guī)化 資料正規(guī)化(Data normalization)將資料重新分布在一個較小且特定的範圍內(nèi)例如: 臺灣的平均所得遠高於菲律賓, 即使年收入均以臺幣作單位, 直接將兩國顧客的年收入用數(shù)值相比仍然不夠客觀, 此時便需要正規(guī)化到同一個標準下做評比。資料正規(guī)化的方法極值正規(guī)化(
13、Min-max normalization)Z-分數(shù)正規(guī)化(Z-score normalization)十進位正規(guī)化(Normalization by decimal scaling)25極值正規(guī)化公式範例: :假設(shè)一般臺灣上班族的月收入範圍為 20000, 100000,而一般菲律賓上班族的月收入範圍為 2000, 10000;在臺灣收入30000元相當於在菲律賓收入多少?適合用在需要將資料規(guī)範在某一個指定範圍內(nèi)的情況P3-12 :正規(guī)化前數(shù)值,範圍a, b:正規(guī)化後數(shù)值,範圍c, d26Z-分數(shù)正規(guī)化公式範例:假設(shè)臺灣人月收入平均為35000元, 標準差是10000元,利用Z-分數(shù)法將月
14、收入30000元做正規(guī)化,將得到 負數(shù)表示收入低於平均,正數(shù)表示高於平均適合用在需要了解數(shù)值與平均分佈之間的關(guān)係時P3-1327十進位正規(guī)化公式範例:假設(shè)臺灣上班族最高月收入為100000元,因此使得正規(guī)化後的結(jié)果小於或等於1的最小整數(shù)為5。則月收入30000元經(jīng)由十進位正規(guī)化之後將會得到適合用在要將數(shù)字壓縮到區(qū)間 0,1 的情況 i是使得Max(| |)1的最小整數(shù)28第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)29資料探勘中的資料形式資料形式 (data forms) 分為四種本文形式:內(nèi)容或是文件,可看作是字串
15、集合時間形式:存時間序列(time series) ,記錄隨時間 而變的資料交易形式:記錄交易的項目關(guān)聯(lián)形式:即關(guān)聯(lián)式資料庫中的表格30資料探勘技術(shù)適用之資料形式多層次資料一般化 (multilevel data generalization)發(fā)掘之知識:資料庫中發(fā)掘較高層次的資料觀點(view) ,也就是發(fā)掘出所謂的概念階層 (concept hierarchy) 合適之資料形式:關(guān)聯(lián)形式分類法 (data classification)發(fā)掘之知識:在訓(xùn)練樣本中發(fā)掘分類規(guī)則,分類新資料合適之資料形式:關(guān)聯(lián)形式群集分析 (cluster analysis)發(fā)掘之知識:根據(jù)資料樣本的樣式 (pa
16、ttern), 將相似的資料樣本分成一個群集合適之資料形式:關(guān)聯(lián)形式31資料探勘技術(shù)適用之資料形式關(guān)連法則探勘 (association rules mining)發(fā)掘之知識:龐大交易資料中找出交易的關(guān)連性合適之資料形式:交易形式資料時間序列分析 (time series analysis)發(fā)掘之知識:分析不同時間點的資料值變化,發(fā)掘規(guī)則合適之資料形式:時間形式資料以樣式為基礎(chǔ)的相似搜尋 (pattern-based similarity search)發(fā)掘之知識:預(yù)先設(shè)定目標樣式及差異容忍度,找出與目標樣式之相似度在差異容忍度範圍內(nèi)的物件,可分成文字搜尋以及時間序列搜尋合適之資料形式:文字搜
17、尋本文形式 時間序列時間形式32資料探勘與資料形式的關(guān)係資料探勘技術(shù)多層次資料一般化分類法群集分析關(guān)連法則探勘時間序列分析以樣式為基礎(chǔ)的相似搜尋 關(guān)聯(lián)形式交易形式時間形式本文形式33資料型式的轉(zhuǎn)換 以購物網(wǎng)站所用的資料庫為例記錄顧客所買的每樣商品資料,包括:交易編號、會員帳號、商品編號、交易時間、交易數(shù)量、付款方式若分析顧客同一天購買的商品間關(guān)連性,目前交易表內(nèi)所存的資料 格式並無法直接套用關(guān)連法則探勘演算法,要經(jīng)以下步驟轉(zhuǎn)化Step 1 - 選取相關(guān)屬性:選出會員帳號、商品編號、交易時間三個屬性。 Step 2 - 精簡資料:將精確至年月日時分秒的交易時間簡化為只包含年月日的交易日期。 St
18、ep 3- 轉(zhuǎn)換資料形式:依照會員帳號及交易日期將同一會員同一天的交易紀錄集合成一筆交易形式的資料。 34第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)35資料探勘中的資料型態(tài) 離散型 (discrete)預(yù)先定義的資料集合所組成集合中兩個值的距離無法直接計算像布林型態(tài)(例如:性別)、列舉型態(tài)(例如:職業(yè)等)、或是字串型態(tài)(例如:地址)均屬於此類型連續(xù)型 (continuous)數(shù)字型態(tài)(例如:平均月收入)或是日期型態(tài)(例如:生日)均屬於此類型36資料探勘技術(shù)適用之資料型態(tài)(1)離散型監(jiān)督式學(xué)習(xí)法 ( supervis
19、ed learning )分類法連續(xù)型監(jiān)督式學(xué)習(xí)法非監(jiān)督式學(xué)習(xí)法( unsupervised learning )群集分析法37資料探勘技術(shù)適用之資料型態(tài)(2)特性型態(tài)資料型態(tài)範例兩值間的距離分類探勘群集分析理解度離散型布林型態(tài)列舉型態(tài)字串型態(tài)較難計算適合不適合較高連續(xù)型數(shù)字型態(tài)日期型態(tài)較易計算適合適合較低38資料型態(tài)的轉(zhuǎn)換離散型轉(zhuǎn)換成連續(xù)型資料Step1:用相似性矩陣定義值與值的距離或相似度Step2:再利用值與值的距離或是相似度把離散的 資料形態(tài)表示成連續(xù)的資料型態(tài)連續(xù)型轉(zhuǎn)換成離散型資料Step1:利用群集分析法將數(shù)值型態(tài)資料分群Step2:接著將群集做合適名稱,再利用群集的名稱 代替群集
20、內(nèi)所包含的數(shù)值型資料轉(zhuǎn)換成離 散型資料39第三章 資料前置處理簡介資料前置處理的主要工作 遺缺填補法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化*總結(jié)40資料模糊化在二進位邏輯中只有兩個可能的值(成立或不成立)現(xiàn)實生活中的許多概念的表達,並非只有成立或是不成立這樣極端的值所能描述 不適合用來處理不確定性 (uncertainty) 1965年Zadeh提出模糊集合 (fuzzy sets) 與 模糊邏輯 (fuzzy logic) 的概念描述真實世界中許多不明確、含糊不清的事物 41模糊集合與模糊邏輯模糊集合 (fuzzy sets)傳統(tǒng)集合:只有是與否兩種情況模糊集合:每個元素
21、均有特定的歸屬程度例如:160cm(0.0) 170cm(0.5) 175cm(0.75) 180cm(1.0)模糊邏輯(fuzzy logic) 利用模糊定量詞(fuzzy quantifiers) 來表達大多數(shù)的、相當多、不很多模糊命題(fuzzy propositions) 湯姆很年輕或是明天可能下雨 42模糊資料探勘包括四個主要的處理程序:模糊化(fuzzification)模糊資料探勘 (Fuzzy Data Mining)模糊推論(fuzzy inference)解模糊化(defuzzification)。 43模糊化主要是將所有語言變數(shù)的實際輸入值(如年齡、 年收入)透過語言值
22、(linguistic value)的模糊成員函數(shù) (membership function)求得模糊輸入值 (fuzzy input)後,接著進行資料探勘 找出大量資料當中的模糊規(guī)則,進行模糊推論, 得出模糊輸出值,最後再經(jīng)由解模糊化將推論完 成所獲得的最終結(jié)果值轉(zhuǎn)換為另一個語言變數(shù)的語言值 44模糊化範例範例定義年齡成員函數(shù),輸入數(shù)值 “約翰是67歲”,取67歲平行於縱軸,分別與年輕和年老 函數(shù)曲線相交約翰年輕的程度為0.46 ,約翰年老的程度為0.92年老年青1.00.920.4600 67 100年齡程度45模糊資料探勘 模糊化語句所呈現(xiàn)的知識規(guī)則稱為模糊規(guī)則模糊規(guī)則 Rj 可表示其中
23、 xi (i = 1, 2, ., n) 為輸入,y 為輸出;輸入 語意值 Aij 和輸出語意值 Bj (j = 1, 2, , N) 分別 是定義於 Xi 和 Y 的模糊集合範例IF 股價近期上漲AND 上漲持續(xù)時間短AND 成交量變小 THEN 未來股價會可能會持續(xù)上漲46模糊推論主要以近似推理 (approximate reasoning) 的方式,根據(jù)知識庫中的規(guī)則進行模糊推論得出結(jié)果運算方式將模糊規(guī)則的前件部 (antecedent part) 各項輸入值與語意值 所得進行模糊匹配轉(zhuǎn)換成模糊集合後規(guī)則庫中有關(guān)的模糊邏輯運算子AND、OR、NOT, 便等效於模糊集合的交集、聯(lián)集、補集運算, 所得的結(jié)果稱為該條規(guī)則的觸發(fā)強度 (firing strength) 47模糊推論過程觸發(fā)強度 (firing strength):代表第j條規(guī)則的觸發(fā)強度,交集 代表AND運算 經(jīng)由觸發(fā)強度可得出第j個模糊基底函數(shù) 48模糊推論範例STEP1 假設(shè)模糊規(guī)則如下:規(guī)則 1:IF X
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022年大學(xué)輕工紡織食品專業(yè)大學(xué)物理下冊開學(xué)考試試題C卷-附解析
- 石河子大學(xué)《云計算概論》2023-2024學(xué)年期末試卷
- 大學(xué)生舉辦母親節(jié)策劃書集合10篇
- 學(xué)校配套設(shè)施施工組織設(shè)計
- 石河子大學(xué)《體操》2021-2022學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《農(nóng)村社會學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《畜產(chǎn)品加工工藝學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 沈陽理工大學(xué)《模擬電子技術(shù)基礎(chǔ)》2021-2022學(xué)年期末試卷
- 沈陽理工大學(xué)《機械制造基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 收費站收費班安全培訓(xùn)
- 隧洞施工勞務(wù)分包合同
- 《大學(xué)生性教育》
- 20道游標卡尺題目及答案
- 22G101系列圖集常用點全解讀
- 食品行業(yè)安全風險分級管控清單(臺賬)
- 決策心理學(xué)第三講課件
- 清潔驗證新方法-toc法
- 小學(xué)語文古詩詞教學(xué)探究的開題報告
- 動靜脈內(nèi)瘺栓塞的原因分析及干預(yù)措施課件
- 小學(xué)一年級10以內(nèi)加減法口訣表
- 換熱站的安裝調(diào)試
評論
0/150
提交評論