版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘概念與技術(shù)(原書(shū)第3版)第三章課后習(xí)題及解答習(xí)題數(shù)據(jù)質(zhì)量可以從多方面評(píng)估,包括準(zhǔn)確性、完整性和一致性問(wèn)題。對(duì)于以上每個(gè)問(wèn)題,討論數(shù)據(jù)質(zhì)量的評(píng)估如何依賴于數(shù)據(jù)的應(yīng)用目的,給出例子。提出數(shù)據(jù)質(zhì)量的兩個(gè)其他尺度。答:數(shù)據(jù)的質(zhì)量依賴于數(shù)據(jù)的應(yīng)用。準(zhǔn)確性和完整性:如對(duì)于顧客的地址信息數(shù)據(jù),有部分缺失或錯(cuò)誤,對(duì)于市場(chǎng)分析部門(mén),這部分?jǐn)?shù)據(jù)有80%是可以用的,就是質(zhì)量比較好的數(shù)據(jù),而對(duì)于需要一家家拜訪的銷售而言,有錯(cuò)誤地址的數(shù)據(jù),質(zhì)量就很差了。一致性:在不涉及多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)時(shí),商品的編碼是否一致并不影響數(shù)據(jù)的質(zhì)量,但涉及多個(gè)數(shù)據(jù)庫(kù)時(shí),就會(huì)影響。數(shù)據(jù)質(zhì)量的另外三個(gè)尺度是時(shí)效性,可解性釋,可信性。在現(xiàn)實(shí)世界的數(shù)據(jù)中,某些屬性上缺失值得到元組是比較常見(jiàn)的。討論處理這一問(wèn)題的方法。答:對(duì)于有缺失值的元組,當(dāng)前有6種處理的方法:(1)忽略元組:當(dāng)缺少類標(biāo)號(hào)時(shí)通常這么做(假定挖掘任務(wù)涉及分類)。除非元組有多個(gè)屬性缺少值,否則該方法不是很有效。當(dāng)每個(gè)屬性缺失值的百分比變化很大時(shí),它的性能特別差。采用忽略元組,你不能使用該元組的剩余屬性值。這些數(shù)據(jù)可能對(duì)手頭的任務(wù)是有利的。(2)人工填寫(xiě)缺失值:一般來(lái)說(shuō),該方法很費(fèi)時(shí),并且當(dāng)數(shù)據(jù)集很大、缺失值很多時(shí),該方法可能行不通。(3)使用一個(gè)全局常量填充缺失值:將缺失的屬性值用同一個(gè)常量(如“unknown”或-)替換。如果缺失值都用“unknown”替換,則挖掘程序可能誤以為它們形成了一個(gè)有趣的概念,因?yàn)樗鼈兌季哂邢嗤闹怠皍nknown”。因此,盡管該方法簡(jiǎn)單,但是并不十分可靠。(4)使用屬性的中心度量(如均值或中位數(shù))填充缺失值:第2章討論了中心趨勢(shì)度量,它們指示數(shù)據(jù)分布的“中間”值。對(duì)于正常的(對(duì)稱的)數(shù)據(jù)分布,可以使用均值,而傾斜分布的數(shù)據(jù)則應(yīng)使用中位數(shù)。。(5)使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù)(6)使用最可能的值填充缺水值:可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹(shù)歸納確定。在習(xí)題中,屬性age包括如下值(以遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)使用深度為3的箱,用箱均值光滑以上的數(shù)據(jù)。說(shuō)明你的步驟,討論這種技術(shù)對(duì)給定數(shù)據(jù)的效果。答:首先將排好序的age數(shù)據(jù)劃分到大小為3的等頻的箱中,如下:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.其次用箱均值光滑數(shù)據(jù):13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.,,;,,;21,21,21;24,24,24;,,;,,;35,35,35;,,;56,56,56箱均值光滑技術(shù)確實(shí)使給定的數(shù)據(jù)光滑了。(b)如何確定該數(shù)據(jù)中的離群點(diǎn)答:可以用聚類來(lái)檢測(cè)離群點(diǎn)。聚類將類似的值組織成群或“簇”,直觀的,落在簇之外的值被視為離群點(diǎn)。(c)還有什么其他方法來(lái)光滑數(shù)據(jù)答:還可以用回歸來(lái)光滑數(shù)據(jù)。討論數(shù)據(jù)集成需要考慮的問(wèn)題。答:1.實(shí)體識(shí)別問(wèn)題;2.冗余和相關(guān)分析;3.元組重復(fù);4.數(shù)據(jù)值沖突的檢測(cè)與處理。如下規(guī)范化方法的值域是什么(a)最小-最大規(guī)范化(b)z分?jǐn)?shù)規(guī)范化(c)z分?jǐn)?shù)規(guī)范化,使用均值絕對(duì)偏差而不是標(biāo)準(zhǔn)差(d)小數(shù)定標(biāo)規(guī)范化答:(a)最小-最大規(guī)范化:[指定的最小,最大值](-∞,+∞)(c)z分?jǐn)?shù)規(guī)范化,使用均值標(biāo)規(guī)范化:(-1,1)(b)z分?jǐn)?shù)規(guī)范化:絕對(duì)偏差而不是標(biāo)準(zhǔn)差:(-∞,+∞)(d)小數(shù)定使用如下方法規(guī)范化如下數(shù)據(jù)組:200,300,400,600,1000(a)另min=0,max=1,最小-最大規(guī)范化(b)z分?jǐn)?shù)規(guī)范化(c)z分?jǐn)?shù)規(guī)范化,使用均值絕對(duì)偏差而不是標(biāo)準(zhǔn)差(d)小數(shù)定標(biāo)規(guī)范化答:(a)另min=0,max=1,最小-最大規(guī)范化200變?yōu)?300變?yōu)椋?00-200)/(1000-200)*(1-0)+0=400變?yōu)椋?00-200)/(1000-200)*(1-0)+0=600變?yōu)椋?00-200)/(1000-200)*(1-0)+0=1000變?yōu)椋?000-200)/(1000-200)*(1-0)+0=1規(guī)范化后的數(shù)據(jù)組為:0,,,,1(b)z分?jǐn)?shù)規(guī)范化求得數(shù)據(jù)組均值為500,標(biāo)準(zhǔn)差為200變?yōu)?00變?yōu)?00變?yōu)?00變?yōu)?000變?yōu)橐?guī)范化后的數(shù)據(jù)組為:,,,,(c)z分?jǐn)?shù)規(guī)范化,使用均值絕對(duì)偏差而不是標(biāo)準(zhǔn)差求得數(shù)據(jù)組均值為500,均值絕對(duì)差為240200變?yōu)?00變?yōu)?00變?yōu)?00變?yōu)?000變?yōu)橐?guī)范化后的數(shù)據(jù)組為:,,,,(d)小數(shù)定標(biāo)規(guī)范化,,,,使用習(xí)題中給出的age數(shù)據(jù),回答以下問(wèn)題:(a)使用最小-最大規(guī)范化將age值35變換到[,]區(qū)間(b)使用z分?jǐn)?shù)規(guī)范化變換age值35,其中age的標(biāo)準(zhǔn)差為歲(c)使用小數(shù)定標(biāo)規(guī)范化變換age值35(d)指出對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。答:(a)(35-13)/(70-13)*(1-0)+0=(b)()/=(c)(d)對(duì)于給定的數(shù)據(jù),我愿意使用小數(shù)定標(biāo)規(guī)范化,最簡(jiǎn)單使用習(xí)題中給出的age和%fat數(shù)據(jù),回答如下問(wèn)題:(a)基于z分?jǐn)?shù)規(guī)范化,規(guī)范化這兩個(gè)屬性(b)計(jì)算相關(guān)系數(shù)(pearson矩陣系數(shù))。這兩個(gè)變量是正相關(guān)還是負(fù)相關(guān)計(jì)算他們的協(xié)方差。答:(a)原始數(shù)據(jù)如下:A222234445ge337791790%1fat7..8A555524467555668801ge%fat規(guī)范化后的數(shù)據(jù)如下:Age%A%fatgefat(b)相關(guān)系數(shù)(pearson矩陣系數(shù))r(age,%fat)=這兩個(gè)變量是正相關(guān)協(xié)方差cov(A,B)=假設(shè)12個(gè)銷售記錄價(jià)格已經(jīng)排序,如下所示:5,10,11,13,15,35,50,55,72,92,204,215使用如下方法使它們劃分成三個(gè)箱(a)等頻(等深)劃分(b)等寬劃分(c)聚類答:(a)箱1:5,10,11,13箱2:15,35,50,55箱3:72,92,204,215(b)箱1:5,10,11,13,15,35,50,55箱2:72,箱3:204,215(c)使用k-means聚類,聚為三類箱1:5,10,11,13,15,箱2:50,箱3:204,215923555,72,92使用流程圖概述如下屬性子集選擇過(guò)程:(a)逐步向前選擇(b)逐步向后刪除(c)結(jié)合逐步向前選擇和逐步向后刪除答:(a)逐步向前選擇(b)逐步向后刪除(c)結(jié)合逐步向前選擇和逐步向后刪除初始屬性集:初始屬性集:{A1,A2,A3,A4,A5,A6}{A1,A2,A3,A4,A5,A6}1、初始化規(guī)約集:1、初始屬性集:{A1,A2,A3,A4,A5,A6}{}{A1,A2,A3,A4,A5}1、初始化規(guī)約集:2、{A1}3、{A1,A2}4、{A1,A2,A3}>規(guī)約后的屬性集2、{A1,A2,A3,A4}3、{A1,A2,A3}>規(guī)約{}初始屬性集{A1,A2,A3,A4,A5,A6}2、后的屬性集{A1}U{A2,A3,A4,A5}3、{A1,A2}U{A3,A4}4、{A1,A2,A3}>規(guī)約后的屬性集使用習(xí)題中給出的age數(shù)據(jù)(a)畫(huà)一個(gè)寬度為10的等寬的直方圖(b)簡(jiǎn)要描述如下每種抽樣技術(shù)的例子:SRSWOR,SRSWR,簇抽樣,分層抽樣。5的樣本以及層“young”、使用大小為“middle_aged”和“senior”答:(a)略。橫軸為(b)SRSWOR:?jiǎn)坞S機(jī)抽樣,從age中抽回age中age,縱軸為頻次無(wú)放回簡(jiǎn)取5個(gè)樣本,每次抽取一個(gè),不放SRSWR:有放回簡(jiǎn)單隨機(jī)抽樣,從age中抽取5個(gè)樣本,每次抽取一個(gè),放回age中簇抽樣:用無(wú)放回簡(jiǎn)單隨機(jī)抽樣將age數(shù)據(jù)分為分層抽樣:將age數(shù)據(jù)對(duì)年齡層進(jìn)行分層,分為“young”、幾個(gè)不相交的簇?!癿iddle_aged”和“senior”,對(duì)每層數(shù)據(jù),分別隨機(jī)抽取2,2,1個(gè)[Ker92]是監(jiān)督的、自底向上的(即基于合并的)數(shù)據(jù)離散化方法。它依賴于卡方分析:具有最小卡方值的相鄰區(qū)間合并在一起,直到滿足確定的停止標(biāo)準(zhǔn)。(a)簡(jiǎn)略描述ChiMerge如何工作(b)取鳶尾花數(shù)據(jù)集作為待離散化的數(shù)據(jù)集合,鳶尾花數(shù)據(jù)集可以從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)得到。使用ChiMerge方法,對(duì)四個(gè)數(shù)值屬性分別進(jìn)行離散化。(令停止條件為:max-interval=6)。你需要寫(xiě)一個(gè)小程序,以避免麻煩的數(shù)值計(jì)算。提交你的簡(jiǎn)要分析和檢驗(yàn)結(jié)果:分裂點(diǎn)、最終的區(qū)間以及源程序文檔。答:對(duì)如下問(wèn)題,使用偽代碼或你喜歡用的程序設(shè)計(jì)語(yǔ)言,給出一個(gè)算法:(a)對(duì)于標(biāo)稱數(shù)據(jù),基于給定模式中屬性的不同值的個(gè)數(shù),自動(dòng)產(chǎn)生概念分層(b)對(duì)于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)體育工作年度報(bào)告
- 計(jì)算機(jī)網(wǎng)絡(luò)試題及答案
- 發(fā)展經(jīng)濟(jì)與改善生活課件圖文
- 二零二五年企業(yè)兼職項(xiàng)目管理師合同3篇
- 2024年浙江藝術(shù)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 2024年浙江紡織服裝職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 中國(guó)石拱橋二章節(jié)時(shí)教材課程
- 2024年陜西省公路局職工醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 人教版二年級(jí)下冊(cè)寓言兩則
- 語(yǔ)言文字運(yùn)用之圖文轉(zhuǎn)換
- 分期還款協(xié)議書(shū)
- 小區(qū)住戶手冊(cè)范本
- 海康威視-視頻監(jiān)控原理培訓(xùn)教材課件
- 《鄭伯克段于鄢》-完整版課件
- 土壤肥料全套課件
- 畢業(yè)生延期畢業(yè)申請(qǐng)表
- 學(xué)校6S管理制度
- 肽的健康作用及應(yīng)用課件
- T.C--M-ONE效果器使用手冊(cè)
- 8小時(shí)等效A聲級(jí)計(jì)算工具
- 人教版七年級(jí)下冊(cè)數(shù)學(xué)計(jì)算題300道
評(píng)論
0/150
提交評(píng)論