![數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)-試題答案_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/24/fba669b4-1887-4e88-a4dd-975ce9a29d16/fba669b4-1887-4e88-a4dd-975ce9a29d161.gif)
![數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)-試題答案_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/24/fba669b4-1887-4e88-a4dd-975ce9a29d16/fba669b4-1887-4e88-a4dd-975ce9a29d162.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、可編輯范本數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)答案一、簡答1.為什么需要對數(shù)據(jù)進行預(yù)處理?數(shù)據(jù)預(yù)處理主要包括哪些工作(需要對數(shù)據(jù)進行哪些方面預(yù)處理) ?( 1)現(xiàn)實世界的數(shù)據(jù)是雜亂的,數(shù)據(jù)多了什么問題會出現(xiàn)。數(shù)據(jù)庫極易受到噪音數(shù)據(jù)(包含錯誤或孤立點) 、遺漏數(shù)據(jù)(有些感興趣的屬性缺少屬性值或僅包含聚集數(shù)據(jù))和不一致 數(shù)據(jù)(在編碼或者命名上存在差異)的侵擾,因為數(shù)據(jù)庫太大,常常多達幾 G 或更多。進 行數(shù)據(jù)預(yù)處理,提高數(shù)據(jù)質(zhì)量,從而提高挖掘結(jié)果質(zhì)量。( 2)數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清理:去除數(shù)據(jù)中的噪音、糾正不一致;數(shù)據(jù)集成:將 數(shù)據(jù)由多個源合并成一致的數(shù)據(jù)存儲, 如數(shù)據(jù)倉庫或數(shù)據(jù)方; 數(shù)據(jù)交換: 規(guī)范化或聚
2、集可以 改進涉及距離度量的挖掘算法精度和有效性; 數(shù)據(jù)歸約: 通過聚集、 刪除冗余特征或聚類等 方法來壓縮數(shù)據(jù)。 數(shù)據(jù)離散化: 屬于數(shù)據(jù)歸約的一部分, 通過概念分層和數(shù)據(jù)的離散化來規(guī) 約數(shù)據(jù),對數(shù)字型數(shù)據(jù)特別重要。2.什么叫有監(jiān)督學習?什么叫無監(jiān)督學習?監(jiān)督學習( Supervised learning) 是通過發(fā)現(xiàn)數(shù)據(jù)屬性和類別屬性之間的關(guān)聯(lián)模式,并通 過利用這些模式來預(yù)測未知數(shù)據(jù)實例的類別屬性。監(jiān)督學習又稱為分類 Classification 或歸納 學習 InductiveLearning 。無監(jiān)督學習(Un supervised learni ng)即聚類技術(shù)。在一些應(yīng)用中,數(shù)據(jù)的類別
3、屬性是缺 失的,用戶希望通過瀏覽數(shù)據(jù)來發(fā)現(xiàn)其的某些內(nèi)在結(jié)構(gòu)。 聚類就是發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù)。3.什么是數(shù)據(jù)倉庫的星形模式?它與雪花模式有何不同?雪花模式與星形模式不同在于:雪花模式的維表可能是規(guī)范化形式,以便減少冗余。這種 表易于維護,并節(jié)省存儲空間, 因為當維結(jié)構(gòu)作為列包含在內(nèi)時, 大維表可能非常大。 然而, 與巨大的事實表相比,這種空間的節(jié)省可以忽略。 此外, 由于執(zhí)行查詢更多的連接操作,雪 花結(jié)構(gòu)可能降低瀏覽的性能。這樣系統(tǒng)的性能可能受影響。因此,在數(shù)據(jù)倉庫設(shè)計中, 雪花模式不如星形模式流行??删庉嫹侗?、寫出偽代碼Inputs:I =J* (tnstances to be cluste
4、red)n Number of clusters)Outputs:C = ci,Jq fclilstet cetitioids m I C (cluster membership)procedure KMeansSet C to iiiLti.al vaLue e.g. rauidom selection of I)For each匚E f了= ajgmLti distance(ij, ) fcl nEndWhile m has changed Foreach j 1. .nRecompute as the centroid of= jEndR?r each i】P mi i.) distan
5、ced7ckiel.nEndEndreturn CEnd3,(15分)一個數(shù)據(jù)庫由F?J 5個事務(wù)(transaction)紐成*假設(shè)用戶指走的最小支持度為60%最小置信度為嘰TILh tT10OT2M)T3K)I4X)T5GGM, O, N. K,巳 Y PttN. KE, Y MsA, K, E M. U G K Y 4 GOFO, KJ i(1)基于Apriori算法產(chǎn)生所有的頻繁項集;(2)構(gòu)進所冇的強關(guān)聯(lián)規(guī)則。答:(1 所有頻繁項集為:E,K,O K,M K,Y關(guān)聯(lián)規(guī)則:可編輯范本O-E,K1.0E,0 - K1.0K,0 - E1.0 M - K 1.0 Y - K 1.04.口n
6、g data taLJe dtsmbing peoplt, litre亡b站(0 or 1) is tilt clasiof the exainpki icr tranimg ii lasuikri) Which at iribiKe u til be selected by decision tree mdimion站the root 01 tiie wee/Awhich artribT.attnburfs can be reiiMved, and %hy*bailkcaiiouchildifiiSINchssbiounotiawa3bif6507S62Sf0blondtoicntoJ*ma
7、ll56S326546-IbiouuOttilia3應(yīng)*748402101btawTiTOre mo3btf*3121409660biortuOttawa3b罡3674329280biouiiTOinnfo3imalli789032M3,1 blondOttawa3umall124780945*1blOWTktore mo3bg6432643770bhnd3maiknd| Ottawa(3small439TS216711答:a)決策樹表示一種樹型結(jié)構(gòu),它由它的分來對該類型對象依靠屬性進行分類。每個決策樹 可以依靠對源數(shù)據(jù)庫的分割進行數(shù)據(jù)測試。這個過程以遞歸的方式對樹進
8、行修剪。當不 能再分割時,遞歸完成。因此決策樹不會無限循環(huán)。b)0c)sized)Childre n,SIN,class5.(20分個定有冊下的訓練數(shù)據(jù)(類別礙性為Class).保存在一個Train.txt的文件中,每一條訓練樣洌列在一行上,不同屬性之間用空格隔開匚hatrlocanonthildrm$lZf泗tla弭brownorrawaJbis6507S628r0bkxllorontoSIIULD$683265461Ottawa-big7432$40210brownlofonto14匕big342140W6-0brtAvaorrawaJbig174329280brownloronioJsm
9、nll789O32MJ1blondOttawa3small1247809451可編輯范本brownloronro%3bigW38264J70bk) )ndoctawa%3small54S93109S1blondOttawa3SUHD4397S216711請用G O+或Java設(shè)計程序.利用上述訓練數(shù)據(jù)訓練Naive Bayes分類器然后 利用訓練好的分類器對任意一個人(如cbrowrv toranto, 3tbig;r455859595J)進 行分類。public classBayesClassifierprivate TrainingDataManager tdm; 訓練集管理器privat
10、e String trainnigDataPath;/ 訓練集路徑private static double zoomFactor = 10.0f;/*默認的構(gòu)造器,初始化訓練集*/public BayesClassifier()tdm = new Trainin gDataMa nager();*計算給定的文本屬性向量X 在給定的分類 Cj 中的類條件概率* ClassConditionalProbability 連乘值* param X 給定的文本屬性向量* param Cj 給定的類別* return 分類條件概率連乘值,即*/float calcProd(Stri ng X, Stri
11、 ng Cj)float ret = 1.0F;/類條件概率連乘for (int i = 0; i X.len gth; i+)Stri ng Xi = Xi; ret *=ClassConditionalProbability.calculatePxc(Xi, Cj)*zoomFactor;/ 再乘以先驗概率ret *= PriorProbability.calculatePc(Cj); return ret;/* 去掉停用詞* param text 給定的文本* return 去停用詞后結(jié)果*/public String DropStopWords(String oldWords)可編輯范
12、本Vector v1 = new Vector();for (int i=0;ioldWords.length;+i) if(StopWordsHandler.IsStopWord(oldWordsi)= false)/ 不是停用詞v1.add(oldWordsi);String newWords = new Stringv1.size();v1.toArray(newWords);return newWords;/* 對給定的文本進行分類* param text 給定的文本* return 分類結(jié)果*/SuppressWarnings(unchecked)public String clas
13、sify(String text)String terms = null;terms= ChineseSpliter.split(text, ).split( ); / 中文分詞處理 ( 分詞后結(jié)果可能還包含有停 用詞)terms = DropStopWords(terms); / 去掉停用詞,以免影響分類String Classes = tdm.getTraningClassifications()/;/ 分類 float probility = 0.0F;List crs = new ArrayList(); / 分類結(jié)果 for (int i = 0; iClasses.length;
14、i+)String Ci = Classesi;/ 第 i 個分類probility = calcProd(terms, Ci);/計算給定的文本屬性向量terms 在給定的分類 Ci 中的分類條件概率/保存分類結(jié)果ClassifyResult cr = new ClassifyResult();cr.classification = Ci;/ 分類bility = probility; /關(guān)鍵字在分類的條件概率System.out.pri ntl n(l n process .);System.out.pri ntln (Ci + : + probility);crs.add(c
15、r);/對最后概率結(jié)果進行排序java.util.Collect ion s.sort(crsnew Comparator()可編輯范本public int comparefinal Object o1,final Object o2)final ClassifyResult m1 = (ClassifyResult) o1;final ClassifyResult m2 = (ClassifyResult) o2;final double ret = bility - bility;if (ret 0)return 1;elsereturn -1;);/返回概率最大的
16、分類return crs.get(O).classification;6.GO分為什么說KNN算法屆于”懶脅”的機器學刀算法?請蛤山KNN算 法的偽代碼.(1)最臨近分類是基于要求的或懶散的學習法。因為它存放所有訓練樣本,并且直至新的 樣本需要分類時才建立分類。beg in初始化 n x n 距離矩陣 D,初始化混淆矩陣 C,設(shè)置 t=0 , TotAcc = 0 , Numlterations為要迭代次數(shù)。計算所有輸入樣本和存儲在D 矩陣中的距離For t=1 to Numlterati ons doSet c = 0 , Ntotal=0將輸入樣本劃分為 k 個同等大小的分組For fold=1 to k do可編輯范本指定第 fold 個樣本進行測試,并且使用原來訓練樣本。設(shè)置Ntest 為要測試樣本數(shù)量。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 1《白鷺》說課稿-2024-2025學年統(tǒng)編版語文五年級上冊
- 2025技術(shù)咨詢合同書
- 2025大連市住宅小區(qū)物業(yè)管理委托合同
- 2024年五年級品社下冊《同是炎黃子孫》說課稿 山東版001
- 5《玲玲的畫》說課稿-2024-2025學年語文二年級上冊統(tǒng)編版
- 2023二年級數(shù)學下冊 6 有余數(shù)的除法第5課時 解決問題(1)說課稿 新人教版
- 27我的伯父魯迅先生(說課稿)-2024-2025學年六年級上冊語文統(tǒng)編版001
- 2024-2025學年高中地理下學期第4周說課稿(世界的自然資源)
- 2023三年級數(shù)學上冊 一 動物趣聞-克、千克、噸的認識 信息窗2噸的認識說課稿 青島版六三制
- 蕪湖廠房推拉棚施工方案
- 客戶服務(wù)中心操作手冊
- 運動技能學習與控制課件第五章運動中的中樞控制
- 財務(wù)部規(guī)范化管理 流程圖
- 蘇教版2023年小學四年級數(shù)學下冊教學計劃+教學進度表
- 小學作文指導(dǎo)《難忘的一件事》課件
- 斷絕關(guān)系協(xié)議書范文參考(5篇)
- 量子力學課件1-2章-波函數(shù)-定態(tài)薛定諤方程
- 最新變態(tài)心理學課件
- 【自考練習題】石家莊學院概率論與數(shù)理統(tǒng)計真題匯總(附答案解析)
- 農(nóng)村集體“三資”管理流程圖
- 高中英語 牛津譯林版必修第三冊 Unit 2詞匯全解
評論
0/150
提交評論