數(shù)據(jù)挖掘模擬試題(二)_第1頁
數(shù)據(jù)挖掘模擬試題(二)_第2頁
數(shù)據(jù)挖掘模擬試題(二)_第3頁
數(shù)據(jù)挖掘模擬試題(二)_第4頁
數(shù)據(jù)挖掘模擬試題(二)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘模擬題B一、選擇題1.以下數(shù)據(jù)挖掘任務(wù)中,哪些屬于非定向數(shù)據(jù)挖掘任務(wù)〔D〕A分類 B回歸 C預(yù)測 D聚類2.數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗”最主要是應(yīng)用了(C)數(shù)據(jù)挖掘方法。A分類B預(yù)測 C組合或關(guān)聯(lián)法那么 D聚類3.數(shù)據(jù)挖掘技術(shù)包括三個主要的局部〔C〕A.數(shù)據(jù)、模型、技術(shù)B.算法、技術(shù)、領(lǐng)域知識C.數(shù)據(jù)、建模能力、算法與技術(shù)D.建模能力、算法與技術(shù)、領(lǐng)域知識4.在有指導(dǎo)的數(shù)據(jù)挖掘中,有關(guān)測試集的說法錯誤的選項是〔A〕A.測試集和訓(xùn)練集是相互聯(lián)系的B.測試集是用以測試模型的數(shù)據(jù)集C.通常測試集大約占總樣本的三分之一D.K-次交叉驗證中,測試集只有1個,訓(xùn)練集有K-1個。5.在ID3算法中信息增益是指〔D〕A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵減少的程度最大6.下面關(guān)于時間系列分析與回歸分析的關(guān)系中,錯誤的選項是〔D〕A時間序列分析方法明確強調(diào)變量值順序的重要性,而回歸分析方法那么不必如此B時間序列各觀察值之間存在一定的依存關(guān)系,而回歸分析一般要求每一變量各自獨立C時間序列分析根據(jù)序列自身的變化規(guī)律來預(yù)測未來,而其它統(tǒng)計分析那么根據(jù)某一變量與其它變量間的因果關(guān)系來預(yù)測該變量的未來D時間序列分析就是以時間變量為自變量、時間序列為因變量的回歸分析。7.在利用D.W.檢驗回歸自相關(guān)性時,以下表達錯誤的選項是〔D〕A當時,如果,認為存在正自相關(guān)B當時,如果,認為無自相關(guān)C當時,如果,認為存在負自相關(guān)D時,如果,認為正自相關(guān)8.K—均值類別偵測要求輸入的數(shù)據(jù)類型必須是(B)。A整型B數(shù)值型C字符型D邏輯型9.以下說明錯誤的選項是〔C〕A性別=“男”=>職業(yè)=“司機”,是布爾型關(guān)聯(lián)規(guī)那么B性別=“女”=>avg〔收入〕=2300,是一個數(shù)值型關(guān)聯(lián)規(guī)那么C肝炎=>ALT〔丙氨酸轉(zhuǎn)氨酶〕升高,是一個單層關(guān)聯(lián)規(guī)那么D性別=“女”=>職業(yè)=“秘書”,是多維關(guān)聯(lián)規(guī)那么。10.歸分析的以下說法中錯誤的選項是〔D〕A作回歸分析的變量之間要有實際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象隨意進行回歸分析,要結(jié)合專業(yè)知識對兩事物之間是否存在因果關(guān)系作出合理解釋和結(jié)論。B在進行線性回歸分析進行的數(shù)據(jù)準備的時候,要求因變量y和自變量x都是符合總體正態(tài)的隨機變量。C回歸直線不要隨意外延D所有非線性回歸都可以轉(zhuǎn)化為線性回歸二、填空題1.預(yù)測模型成功應(yīng)用的三個假定分別是(過去是將來的預(yù)言家)(數(shù)據(jù)是可以獲得的)和(數(shù)據(jù)中應(yīng)包括我們的預(yù)期目標)2.使用無監(jiān)督的數(shù)據(jù)挖掘方法必須(人機交互)3.在利用SQLSERVER2005進行數(shù)據(jù)挖掘時,〔鍵〕是一個唯一確定每個事例的屬性4.利用最小二乘法進行參數(shù)的估計時,要求滿足的假設(shè)條件有〔隨機擾動項是一個隨機變量〕〔隨機擾動項的均值為零〕〔隨機擾動項的方差為常量〕〔隨機擾動項相互獨立〕〔隨機擾動項與自變量無關(guān)〕5.確定性時間序列分析就是設(shè)法消除隨機型波動,擬合確定性趨勢,因而形成了〔長期趨勢分析〕〔季節(jié)變動分析〕和〔循環(huán)變動測定〕等一系列確定性時間序列分析方法。6.人腦中的神經(jīng)網(wǎng)絡(luò)是一種高度〔并行〕的〔非線性〕信息處理系統(tǒng)。7.神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特征包括〔并行式處理〕〔分布式存儲〕〔容錯性〕8.單層感知器的局限性是〔僅對線性可分問題具有分類能力〕9.神經(jīng)網(wǎng)絡(luò)如何學(xué)習包括〔有導(dǎo)師學(xué)習〕〔無導(dǎo)師學(xué)習〕〔死記式學(xué)習〕三種方式10.置信度〔confidence〕等于〔P(B/A)〕11聚類分析中,相似或相似的描述是基于數(shù)據(jù)描述屬性的取值來確定的,常常用〔距離〕來表示。三、問答題〔答案略〕1.數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有那些相似之處?2.舉例說明在進行數(shù)據(jù)挖掘時如何選擇及綜合利用決策樹、聚類分析、關(guān)聯(lián)分析、神經(jīng)網(wǎng)絡(luò)、回歸與時序數(shù)據(jù)挖掘技術(shù)。3.數(shù)據(jù)挖掘可以在何種數(shù)據(jù)上進行?4.簡述怎樣填充空缺值?5.簡述有損壓縮和無損壓縮。6.簡述直線回歸與直線相關(guān)的區(qū)別與聯(lián)系。7.表達k-means法的聚類過程,指出它的優(yōu)缺點。8.ARIMA預(yù)測模型由哪幾個子預(yù)測模型構(gòu)成?應(yīng)用ARIMA時對數(shù)據(jù)有哪些根本要求?9.BP神經(jīng)網(wǎng)絡(luò)的主要原理是什么?10.舉例說明Apriori算法的優(yōu)化方法11.簡述聚類分析數(shù)據(jù)的處理方法12.簡述判別分析的概念,與聚類分析的聯(lián)系與區(qū)別是什么?13.簡述利用SQLSERVER2005進行聚類分析時如何解釋模型四、分析計算題〔答案略〕1.為什么說強關(guān)聯(lián)規(guī)那么不一定都是有趣的,舉例說明。2.Apriori的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分為幾個不重疊的局部。證明在D中是頻繁的任何項集至少在D中的一個局部中是頻繁的。3.利用以下數(shù)據(jù)進行分析編號12345678910腎重(克)333357361305269340369312268354心重(克)271439328326276305404262255350請用以上數(shù)據(jù):建立腎重〔x〕對心重〔y〕的預(yù)測回歸方程?求回歸系數(shù)的95%置信區(qū)間。4.某醫(yī)院在對某單位職工的冠心病普查中,欲研究冠心病與眼底動脈硬化的關(guān)系,資料如下表。問兩者之間是否存在線性趨勢關(guān)系?某單位職工冠心病與眼底動脈硬化普查結(jié)果眼底動脈硬化級別冠心病診斷合計正??梢晒谛牟?340116357Ⅰ7313692Ⅱ971818133Ⅲ3216合計51344315885.據(jù)下表資料分析新舊劑型與測量時間對血藥濃度的影響。16名受試者服藥后的血藥濃度〔ol/L〕編號舊劑型編號新劑型0小時4小時8小時12小時0小時4小時8小時12小時190.53142.1265.5473.28870.5397.38112.1258.50288.43163.1748.9571.77968.4395.27133.1756.903100.01144.7586.0680.011057.3778.4383.1648.34446.32126.3348.9539.5411105.80120.54136.3384.03573.69138.9670.0260.891280.01104.75114.7565.616105.27126.3375.0183.661356.3275.2796.3347.52786.32121.0678.9570.241453.69110.02138.9645.441585.27110.01126.3369.471666.32115.27129.0655.296.下表是對24個菌株用氣相色譜法測得的12種脂肪酸的百分含量〔X1~X12〕,試用系統(tǒng)聚類中的最大相似系數(shù)法將下表中的變量聚類;用系統(tǒng)聚類中的類平均法和k-means法分別將表中的樣品分成3類,繪制系統(tǒng)聚類圖。24個菌株氣相色譜法測得的12種脂肪酸的百分含量編號X1X2X3X4X5X6X7X8X9X10X11X1210.1225.420.007.720.000.000.0029.0625.920.0011.760.0020.097.300.005.040.000.000.0024.6522.540.0039.580.0030.024.940.004.020.000.000.0027.1223.381.8238.520.0040.027.520.033.760.000.030.0015.0219.202.5451.970.0050.0329.130.009.060.000.000.0014.3110.993.1934.020.0061.1923.790.008.160.000.000.0021.0337.640.008.260.0070.0312.391.664.170.000.020.0020.7019.111.3441.050.0080.2112.580.025.370.000.000.0020.3430.113.0028.290.0090.145.590.123.170.000.060.0020.0542.305.4322.970.00100.004.150.0036.3221.150.000.000.0036.060.000.000.00110.005.330.0037.848.590.000.000.0048.250.000.000.00120.009.960.0037.9620.180.000.000.0025.303.350.000.00130.0010.450.0045.656.210.000.000.0022.020.0015.670.00140.001.620.0041.3616.270.000.000.0030.654.6515.450.00150.005.760.7534.527.140.000.000.0031.750.0019.930.00160.0012.930.0046.535.410.000.000.0020.390.0014.720.00170.0015.680.0034.7719.850.000.000.0017.520.007.720.00180.007.600.0035.8821.460.000.000.0029.705.340.000.00190.007.230.0041.785.510.000.000.0027.830.0017.670.00200.001.870.0035.131.910.000.000.0051.890.009.300.00210.413.340.2133.5911.450.0014.790.2326.310.009.350.30222.262.231.6627.8115.640.0011.711.7717.690.0017.921.31234.494.500.2031.6215.440.0012.445.8917.960.006.640.83243.856.760.1938.9510.100.0012.242.4718.950.006.400.107.下表是某醫(yī)院1999年~2007年門診的就診人次變化情況,試用指數(shù)曲線擬合門診量的變化趨勢,并對2008年~2010年的門診量進行預(yù)測。某醫(yī)院1999年~2007年門診量(千人次)年份199920002001200220032004200520062007門診量1922112302342763514285406578.某神經(jīng)網(wǎng)絡(luò)采用雙極性sigmoid函數(shù),學(xué)習率η=0.25,初始權(quán)向量W(0)=(1,0,1)T,兩對輸入樣本為X1=(2,0,-1)T,d1=-1;X2=(1,-2,-1)T,d2=1。試用delta學(xué)習規(guī)那么進行訓(xùn)練,并寫出〔提示:雙極性sigmoid函數(shù)的導(dǎo)數(shù)為f(net)=1/2(1-o2)。〕9.調(diào)查某市412名艾滋病高危人群的CCR2-64I基因和SDF1-3′A基因的基因型分布情況如下表,問兩個基因型之間是否有關(guān)聯(lián)?某市412名艾滋病高危人群CCR2-64I基因和SDF1-3′A基因的基因型分布SDF1-3′A基因型CCR2-64I基因型合計Wt/wtWt/mtMt/mtWt/wt1215211184Wt/mt367254162Mt/mt851766合計1651757241210.下表是對加何種油的調(diào)查表,請根據(jù)ID3算法畫出決策樹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論