




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中國(guó)礦業(yè)大學(xué)銀川學(xué)院期末考試試題2010至2011學(xué)年第2學(xué)期考試科目數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W分2年級(jí)2008系機(jī)電動(dòng)力與信息工程系專業(yè)計(jì)算機(jī)一、填空題(15分)1。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)分別是面向主題、集成、相對(duì)穩(wěn)定、反映歷史變化。2。元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。根據(jù)元數(shù)據(jù)用途的不同可將元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3。OLAP技術(shù)多維分析過(guò)程中,多維分析操作包括切片、切塊、鉆取、旋轉(zhuǎn)等。4?;谝蕾囆蛿?shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)常常被稱為“中心和輻射”架構(gòu),其中企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)是中心,源數(shù)據(jù)系統(tǒng)和數(shù)據(jù)集市在輸入和輸出范圍的兩端。5.ODS實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的、企業(yè)級(jí)的、詳細(xì)的數(shù)據(jù)庫(kù),也叫運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)。二、多項(xiàng)選擇題(10分)6。在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘包括(ACD)A分類B關(guān)聯(lián)A分類B關(guān)聯(lián)C估值D預(yù)言7。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程中,ETL軟件的主要功能包括(ABC)A數(shù)據(jù)抽取B數(shù)據(jù)轉(zhuǎn)換C數(shù)據(jù)加載D數(shù)據(jù)稽核8。數(shù)據(jù)分類的評(píng)價(jià)準(zhǔn)則包括(ABCD)A精確度B查全率和查準(zhǔn)率CF-MeasureD幾何均值9。層次聚類方法包括(BC)A劃分聚類方法B凝聚型層次聚類方法C分解型層次聚類方法D基于密度聚類方法10。貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是(AD)A網(wǎng)絡(luò)結(jié)構(gòu)B先驗(yàn)概率C后驗(yàn)概率D條件概率表三、計(jì)算題(30分)11.一個(gè)食品連鎖店每周的事務(wù)記錄如下表所示,其中每一條事務(wù)表示在一項(xiàng)收款機(jī)業(yè)務(wù)中賣出的項(xiàng)目,假定supmin=40%,confmin=40%,minmin使用Apriori算法計(jì)算生成的關(guān)聯(lián)規(guī)則,標(biāo)明每趟數(shù)據(jù)庫(kù)掃描時(shí)的候選集和大項(xiàng)目集。(15分)事務(wù)項(xiàng)目事務(wù)項(xiàng)目T1面包、果凍、花生醬T4啤酒、面包T2面包、花生醬T5啤酒、牛奶T3面包、牛奶、花生醬解:(1)由1={面包、果凍、花生醬、牛奶、啤酒}的所有項(xiàng)目直接產(chǎn)
生1-候選C[,計(jì)算其支持度,取出支持度小于sup?的項(xiàng)集,形成11min—頻繁集如下表所示:項(xiàng)集C1支持度項(xiàng)集L1支持度{面包}4/5{面包}4/5{花生醬}3/5{花生醬}3/5{牛奶}2/5{牛奶}2/5{啤酒}2/5{啤酒}2/5(2)組合連接L1中的各項(xiàng)目,產(chǎn)生2—候選集C2,計(jì)算其支持度,取出支持度小于supminmin的項(xiàng)集,形成2-頻繁集L2,如下表所示:項(xiàng)集c2支持度項(xiàng)集l2支持度{面包、花生醬}3/5{面包、花生醬}3/5至此,所有頻繁集都被找到,算法結(jié)束,所以,confidence({面包}—{花生醬})=(4/5)/(3/5)=4/3>conf.minconfminconfidence({花生醬}f{面包})=(3/5)/(4/5)=3/4confmin所以,關(guān)聯(lián)規(guī)則{面包}f{花生醬}、{花生醬}—{面包}均是強(qiáng)關(guān)聯(lián)規(guī)則。12。給定以下數(shù)據(jù)集(2,4,10,12,15,3,21),進(jìn)行K—Means聚類,設(shè)定聚類數(shù)為2個(gè),相似度按照歐式距離計(jì)算。(15分)解:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別,由題可知k=2,則可設(shè)m]=2,m2=4:(2)對(duì)于X中的任意數(shù)據(jù)樣本x(1〈xvtotal),計(jì)算它與k個(gè)初mm始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=2時(shí),樣本(2,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為2,8,10,13,1,19.當(dāng)m2=4時(shí),樣本(2,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-2,6,8,11,—1,17.最小距離是1或者-1將該元素放入m1=2的聚類中,則該聚類為(2,3),另一個(gè)聚類m2=4為(4,10,12,15,21)。(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn):ml=2o5,m2=12:(4)對(duì)于X中的任意數(shù)據(jù)樣本xm(1〈xm〈total),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=2.5時(shí),樣本(2,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-0。5,0.5,1o5,7.5,9o5,12.5,18。5.當(dāng)m2=12時(shí),樣本(2,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-10,-9,—8,2,3,9。最小距離是1。5將該元素放入m1=2.5的聚類中,則該聚類為(2,3,4),另一個(gè)聚類m2=12為(10,12,15,21)。(5)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn):m]=3,m2=14。5:(6)對(duì)于X中的任意數(shù)據(jù)樣本xm(1〈xmvtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=3時(shí),樣本(2,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為—1,1,7,9,12,18,。當(dāng)m2=14。5時(shí),樣本(2,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為—12。58,-11。5,-10.5,—4.5,—2。5,0。5,6.5.最小距離是0.5將該元素放入m1=3的聚類中,則該聚類為(2,3,4),另一個(gè)聚類m2=14。5為(10,12,15,21).至此,各個(gè)聚類不再發(fā)生變化為止,即誤差平方和準(zhǔn)則函數(shù)的值達(dá)到最優(yōu).四.設(shè)計(jì)題(45分)13。按照題目給定的3個(gè)數(shù)據(jù)文件,任選一個(gè)建立數(shù)據(jù)流圖,要求至少包括記錄選項(xiàng)、字段選項(xiàng)、圖形結(jié)點(diǎn)各一個(gè)。任選關(guān)聯(lián)規(guī)則Apriori算法、貝葉斯網(wǎng)絡(luò)、K—Means聚類、決策樹C5.0(C4。5)算法、神經(jīng)網(wǎng)絡(luò)中的一個(gè)進(jìn)行挖掘,并給出數(shù)據(jù)流圖.(10分)
churnGhurnStchurnGhurnSt14。對(duì)以上數(shù)據(jù)流圖中使用的每個(gè)結(jié)點(diǎn)做一簡(jiǎn)短說(shuō)明.(10分)選擇:age〉25.過(guò)濾:過(guò)濾后的字段。Region,tenure,age,marital,churn.字段類型regiontenure1earu9-IharrcFlaFlEJF1HJ二一二二一■三一十日+邑2.3-72I.77.1J.1J字段類型regiontenure1earu9-IharrcFlaFlEJF1HJ二一二二一■三一十日+邑2.3-72I.77.1J.1JI8oO缺失方向'無(wú)無(wú)無(wú)無(wú)無(wú)\4flu.A.\輸A、輸入、輸永?輸出給出以上數(shù)據(jù)流圖中模型的執(zhí)行結(jié)果(生成模型完全展開后的數(shù)據(jù)),對(duì)于執(zhí)行結(jié)果太多的,可節(jié)選部分結(jié)果。(10分)
li^al】l于…于:‘于:+?。杭蒝-4>-尋占S=口口C日=31li^al】l于…于:‘于:+?。杭蒝-4>-尋占Ste-ri■_-!re-c:■曰::■r=a11=1r-1Cl—AI口口曰曰t-S=S5=對(duì)以上模型生成的結(jié)果做一簡(jiǎn)要的分析,包括算法采用的基本原理、數(shù)學(xué)模型、算法步驟等.(15分)答:k—means聚類算法基本原理:將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),算法的主要思想是通過(guò)迭代過(guò)程把數(shù)據(jù)劃分為不同的類別,使得評(píng)價(jià)聚集類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每個(gè)聚集類的緊湊,類間獨(dú)立。操作步驟:輸入:數(shù)據(jù)集,其中的數(shù)據(jù)樣本只包含描述屬性,不包含類別屬性。聚類個(gè)數(shù)K輸出:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別(2)對(duì)于X中的任意數(shù)據(jù)樣本xm(1〈xmvtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別(3)完成數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子巡更施工方案
- 礦物電纜施工方案
- 墻壁暗管延長(zhǎng)施工方案
- 電力館 施工方案
- 二零二五年度現(xiàn)代農(nóng)業(yè)土地承包租賃協(xié)議
- 二零二五年度企業(yè)集團(tuán)內(nèi)部公對(duì)公匯款合作協(xié)議
- 2025年度電影宣傳演員聘用合同
- 二零二五年度餐館服務(wù)員勞動(dòng)合同與勞動(dòng)權(quán)益維護(hù)協(xié)議
- 二零二五年度戶外帳篷露營(yíng)設(shè)施裝修承攬合同
- 2025年度蔬菜批發(fā)市場(chǎng)租賃及銷售合作合同模板
- 大班科學(xué)《燈的故事》PPT優(yōu)質(zhì)課件
- 雅馬哈電子琴KB290說(shuō)明書
- 新課標(biāo)初中語(yǔ)文7-9年級(jí)必背古詩(shī)文言文
- 培訓(xùn)中的基本學(xué)習(xí)原理-課件
- 現(xiàn)代文閱讀《有聲電影》答案詳細(xì)解析
- 銷售合同模板英文銷售合同模板
- 自體血液回收機(jī)使用(精京3000P型)課件
- 非法捕撈水產(chǎn)品罪
- 大學(xué)計(jì)算機(jī)基礎(chǔ)(Windows10+Office2016)PPT完整全套教學(xué)課件
- 精素材:描寫植物的好詞好句好段
- 中鋁中州礦業(yè)有限公司禹州市方山鋁土礦礦山地質(zhì)環(huán)境保護(hù)和土地復(fù)墾方案
評(píng)論
0/150
提交評(píng)論