版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Data Mining Take Home Exam學(xué)號: xxxx 姓名: xxx 1. (20分)考慮下表的數(shù)據(jù)集。顧客ID性別車型襯衣尺碼類1234567891011121314151617181920男男男男男男女女女女男男男男女女女女女女家用運動運動運動運動運動運動運動運動豪華家用家用家用豪華豪華豪華豪華豪華豪華豪華小中中大加大加大小小中大大加大中加大小小中中中大C0C0C0C0C0C0C0C0C0C0C1C1C1C1C1C1C1C1C1C1(1)計算整個數(shù)據(jù)集的Gini指標(biāo)值。(2)計算屬性性別的Gini指標(biāo)值(3)計算使用多路劃分屬性車型的Gini指標(biāo)值(4)計算使用多路劃分屬性
2、襯衣尺碼的Gini指標(biāo)值(5)下面哪個屬性更好,性別、車型還是襯衣尺碼?為什么?解:(1)類顧客c010c110Gini=1-(10/20)2-(10/20)2=0.5(2)性別男女c064c146Gini=1-(6/10)2-(4/10)2*1/2*2=0.48(3)車型家用運動豪華c0181c1307Gini=1-(1/4)2-(3/4)2*4/20+1-(8/8)2-(0/8)2*8/20+1-(1/8)2-(7/8)2*8/20=26/160=0.1625(4)尺碼小中大加大c03322c12422Gini=1-(3/5)2-(2/5)2*5/20+1-(3/7)2-(4/7)2*7/
3、20+1-(2/4)2-(2/4)2*4/20*2=8/25+6/35=0.4914(5)比較上面各屬性的Gini值大小可知,車型劃分Gini值0.1625最小,即使用車型屬性更好。2. (20分)考慮下表中的購物籃事務(wù)數(shù)據(jù)集。顧客ID事務(wù)ID購買項1122334455001002400120031001500220029004000330038a,d,ea,b,c,ea,b,d,ea,c,d,eb,c,eb,d,ec,da,b,ca,d,ea,b,e (1) 將每個事務(wù)ID視為一個購物籃,計算項集e,b,d 和b,d,e的支持度。 (2)使用(1)的計算結(jié)果,計算關(guān)聯(lián)規(guī)則 b,de和eb,d
4、 的置信度。 (3)將每個顧客ID作為一個購物籃,重復(fù)(1)。應(yīng)當(dāng)將每個項看作一個二元變量(如果一個項在顧客的購買事務(wù)中至少出現(xiàn)一次,則為1,否則,為0)。 (4)使用(3)的計算結(jié)果,計算關(guān)聯(lián)規(guī)則b,de和eb,d 的置信度。 答:(1)由上表計數(shù)可得的支持度為8/10=0.8;,的支持度為2/10=0.2;b,d,e的支持度為2/10=0.2。(2)cb,de=2/8=0.25; ceb,d=8/2=4。(3)同理可得:e的支持度為4/5=0.8,b,d的支持度為5/5=1, b,d,e的支持度為4/5=0.8。(4)cb,de=5/4=1.25,ceb,d=4/5=0.8。3. (20分
5、)以下是多元回歸分析的部分R輸出結(jié)果。> ls1=lm(yx1+x2)> anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 10021.2 10021.2 62.038 0.0001007 *x2 1 4030.9 4030.9 24.954 0.0015735 * Residuals 7 1130.7 161.5 > ls2<-lm(yx2+x1)> anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 3363.4 3363.4 20.822 0.00259
6、5 * x1 1 10688.7 10688.7 66.170 8.193e-05 *Residuals 7 1130.7 161.5 (1)用F檢驗來檢驗以下假設(shè) ( = 0.05) H0: 1 = 0 Ha: 1 0 計算檢驗統(tǒng)計量;是否拒絕零假設(shè),為什么?(2)用F檢驗來檢驗以下假設(shè) ( = 0.05) H0: 2 = 0 Ha: 2 0 計算檢驗統(tǒng)計量;是否拒絕零假設(shè),為什么?(3)用F檢驗來檢驗以下假設(shè) ( = 0.05) H0: 1 = 2 = 0 Ha: 1 和 2 并不都等于零 計算檢驗統(tǒng)計量;是否拒絕零假設(shè),為什么?解:(1)根據(jù)第一個輸出結(jié)果F=62.083>F(2,
7、7)=4.74,p<0.05,所以可以拒絕原假設(shè),即得到不等于0。(2)同理,在=0.05的條件下,F(xiàn)=20.822>F(2,7)=4.74,p<0.05,即拒絕原假設(shè),得到不等于0。(3)F=(10021.2+4030.9)/2/(1130.7/7)=43.4973>F=(2,7)=4.74,即拒絕原假設(shè),得到和并不都等于0。4. (20分)考慮下面20個觀測值:1 -20.00 -0.516 -1.249 -0.510 25.0006 -0.561 -0.928 -0.023 0.714 0.37411 -0.377 0.830 0.838 0.874 -1.306
8、16 1.138 1.087 -1.489 2.524 0.713(1)用3*S 標(biāo)準(zhǔn)來檢測該數(shù)據(jù)中是否存在異常值。(2)用1.5*IQR 標(biāo)準(zhǔn)來檢測該數(shù)據(jù)中是否存在異常值。要求提供均值、標(biāo)準(zhǔn)差、IQR值和所用的區(qū)間,以及你判斷的依據(jù)。解:數(shù)據(jù)放入R運行得> hhh=c(-20.00,-0.516,-1.249,-0.510,25.000, + + -0.561,-0.928,-0.023,0.714,0.374, + + -0.377,0.830,0.838,0.874,-1.306,+ + 1.138,1.087,-1.489,2.524,0.713)> mean(hhh)1
9、0.35665> sqrt(var(hhh)1 7.405346> jjj<-(hhh-mean(hhh)/sqrt(var(hhh)> which(abs(jjj)>=3)1 5> Q1=quantile(hhh,0.25)> Q3=quantile(hhh,0.75)> IQR=Q3-Q1> Q1 25% -0.65275 > Q3 75% 0.847 > IQR 75% 1.49975 > kk<-Q1-1.5*IQR> ll<-Q3+1.5*IQR> which(hhh<kk)1 1&
10、gt; which(hhh>ll)1 5>(1)由以上數(shù)據(jù)處理可得第五個數(shù)據(jù)25.00為異常值。(2)由數(shù)據(jù)分析可以得出第一個-20.00和第五個25.00均為異常值。5. 簡述題 (20分)。 (1) 在這門課中你學(xué)習(xí)了幾種聚類分析的算法?簡述這幾種算法的基本工作原理。答:(1)學(xué)習(xí)了三種聚類分析算法,分別為系統(tǒng)聚類分析、K均值分析和DBSCAN分析。其中系統(tǒng)聚類又分為許多種計算規(guī)則,主要的有最短距離法、最長距離法、重心法、離差平方和法及類平均法等,其主要思想是在不同方法下把客觀認(rèn)為最相近的兩類合并為一類,再次執(zhí)行并類步驟,那么就可以把所有的觀測值都聚為一類,對于想要知道分多少類
11、的具體情況有很大的幫助,可以依照樹狀聚類圖得到清晰的表示。K-均值聚類原理是依一定觀測值的均值來確定聚類中心,從而根據(jù)其他的觀測值和中心的距離來判斷歸為哪一類中。該聚類方法事先需要確定要分的類別數(shù)據(jù),計算量要小得多,效率比層次聚類要高。但對于想要知道其他幾類的分類情況就需要重新計算分析。DBSCAN分析算法工作原理是對一組觀測值優(yōu)先聚合靠的最近的兩個值,然后再尋找下一個靠的最近的值,依次類推,最后得到用戶想要的簇的種類。其中可能會出現(xiàn)噪聲點,那么根據(jù)區(qū)間半徑考慮是否舍棄的情況。(2)關(guān)聯(lián)規(guī)則挖掘任務(wù)主要分為哪幾個主要的子任務(wù)?簡述你學(xué)到的算法在這些子任務(wù)中的工作原理。答:主要分為兩個子任務(wù):頻繁項集的產(chǎn)生和關(guān)聯(lián)規(guī)則的產(chǎn)生。第一種算法是Apriori算法是基于支持度的剪枝技術(shù),系統(tǒng)地控制候選項集指數(shù)增長。根據(jù)先驗原理,對一個系統(tǒng)所有的項集從最簡單的集合到最復(fù)雜的集合采
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版小區(qū)商業(yè)街物業(yè)社區(qū)文化活動贊助與支持服務(wù)合同2篇
- 2025年陶瓷行業(yè)標(biāo)準(zhǔn)制定與實施合同3篇
- 2025年私家車租賃車輛檢測與評估服務(wù)合同3篇
- 2025年勞務(wù)派遣合同審查協(xié)議
- 2025年云服務(wù)監(jiān)控協(xié)議
- 2025版?zhèn)€人房屋產(chǎn)權(quán)轉(zhuǎn)移合同模板4篇
- 二零二五年度綠色建筑改造項目合同書4篇
- 2025年垃圾處理和解協(xié)議
- 2025年混合贈與合同與贈與稅
- 2025版協(xié)議離婚法律援助與調(diào)解服務(wù)協(xié)議3篇
- 第1課 隋朝統(tǒng)一與滅亡 課件(26張)2024-2025學(xué)年部編版七年級歷史下冊
- 2025-2030年中國糖醇市場運行狀況及投資前景趨勢分析報告
- 冬日暖陽健康守護(hù)
- 水處理藥劑采購項目技術(shù)方案(技術(shù)方案)
- 2024級高一上期期中測試數(shù)學(xué)試題含答案
- 山東省2024-2025學(xué)年高三上學(xué)期新高考聯(lián)合質(zhì)量測評10月聯(lián)考英語試題
- 不間斷電源UPS知識培訓(xùn)
- 三年級除法豎式300道題及答案
- 2024年江蘇省徐州市中考一模數(shù)學(xué)試題(含答案)
- 新一代飛機(jī)維護(hù)技術(shù)
- 幼兒園教師培訓(xùn):計數(shù)(數(shù)數(shù))的核心經(jīng)驗
評論
0/150
提交評論