《數(shù)據(jù)挖掘》課程期末考試試卷

上傳人：新*** IP屬地：河北上傳時間：2024-12-21 格式：PDF 頁數(shù)：184 大?。?4.35MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩179頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷（A卷）

考核方式：閉卷考試日期：2015年1月日

適用專業(yè)、班級：13經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

應(yīng)評卷人

款

（共五大題）

一、判斷題（以下各題正確的打錯誤的打X。每題2分，共20分）

1.DBSCAN是相對抗噪聲的，并且能夠處理任意形狀和大小的簇。（對）

2.聚類分析可以看作是一種非監(jiān)督的分類。（對）

命3.分類模型的誤差大致分為兩種：訓(xùn)練誤差（trainingerror）和泛化誤差（generalizationerror）.（對）

料

4.具有較高的支持度的項集具有較高的置信度。（錯）

5.利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)（對）八

6.商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于：后者把結(jié)構(gòu)強(qiáng)加于商務(wù)之上，一旦

系統(tǒng)設(shè)計完畢，其程序和規(guī)那么不會輕易改變；而前者那么是一個學(xué)習(xí)型系統(tǒng)，能自動適應(yīng)商務(wù)不

斷變化的要求。（對）

7.離群點可以是合法的數(shù)據(jù)對象或者值。（對）

8.可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。［錯）

9.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)那么，從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。

（對）

10.從點作為個體簇開始，每一步合并兩個最接近的簇，這是一種分裂的層次聚類方法。（錯）

二、單項選擇題（每題2分，共30分）

1.以下說明錯誤的選項是（C）

A性別="男”=>職業(yè)="司機(jī)”，是布爾型關(guān)聯(lián)規(guī)那么

B性別="女”=>avg（收入）=2300,是一個數(shù)值型關(guān)聯(lián)規(guī)那么

C肝炎=>ALT（丙氨酸轉(zhuǎn)氨酶）升高，是一個單層關(guān)聯(lián)規(guī)那么

D性別:“女”=>職業(yè)=“秘書”，是多維關(guān)聯(lián)規(guī)那么。

2.在有指導(dǎo)的數(shù)據(jù)挖掘中，有關(guān)測試集的說法錯誤的選項是（A）

A.測試集和訓(xùn)練集是相互聯(lián)系的

B.測試集是用以測試模型的數(shù)據(jù)集

C.通常測試集大約占總樣本的三分之一

D.K-次交叉驗證中，測試集只有1個，訓(xùn)練集有K-1個。

3.一個對象的離群點得分是該對象周圍密度的逆。這是基于（C）的離群點定義。

A.概率B、鄰近度C、密度D、聚類

4.考慮這么一種情況：一個對象碰巧與另一個對象相對接近，但屬于不同的類，因為這兩個對象一般不

會共享許多近鄰，所以應(yīng)該選擇（D）的相似度計算方法。

A、平方歐兒里德距離B、余弦距離C、直接相似度D、共享最近鄰

5.（D）將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量，它是一種凝聚層次聚類技術(shù)v

A、MIN（單鏈）B、MAX（全鏈）C、組平均D、Ward方法

6.（C）是一個觀測值，它與其他觀測值的差異如此之大，以至于疑心它是由不同的機(jī)制產(chǎn)生的。

A、邊界點B、質(zhì)心C、離群點D、核心點

7.考慮兩隊之間的足球比賽：隊。和隊1。假設(shè)65%的比賽隊0勝出，剩余的比賽隊1獲勝。隊0獲勝

的比賽中只有30%是在隊1的主場，而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1

的主場進(jìn)行隊1獲勝的概率為（C）

A,0.75B,0.35C,0.4678D,0.5738

8.在基于規(guī)那么分類器的中，依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序，保證每一個測試記錄都是由覆

蓋它的“最好的”規(guī)格來分類，這種方案稱為（B）

A.基于類的排序方案

B.基于規(guī)那么的排序方案

C.基于度量的排序方案

D.基于規(guī)格的排序方案。

9.以下_（A）_不是將主觀信息參加到模式發(fā)現(xiàn)任務(wù)中的方法。

A、與同一時期其他數(shù)據(jù)比照

B、可視化

C、基于模板的方法

D、主觀興趣度量

10.關(guān)rOLAP和OLTP的區(qū)別描述，小止確的選項是：（C）

A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.

B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).

C.OLAP的特點在于事務(wù)量大，但事務(wù)內(nèi)容比擬簡單且重復(fù)率高.

D.OLAP是以數(shù)據(jù)倉庫為根底的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng)，兩者面對

的用戶是相同的.

11.在有關(guān)數(shù)據(jù)倉庫測試，以下說法不正誨的選項是：（D）

A.在完成數(shù)據(jù)倉庫的實施過程中，需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元測試和系統(tǒng)

測試.

B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后，就需要對他們進(jìn)行單元測試.

C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.

D.在測試之前沒必要制定詳細(xì)的測試方案.

12.關(guān)于根木數(shù)據(jù)的元數(shù)據(jù)是指：（D）

A.根本元數(shù)據(jù)與數(shù)據(jù)源，數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息；

B.根本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息；

C.根本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息；

D.根本元數(shù)據(jù)包括關(guān)于裝載和更新處理，分析處理以及管理方面的信息.

13,問題：使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑，箱的深度為3。第二個箱子值為：（A）

A18.3B22.6C26.8D27.9

14.建立一個模型，通過這個模型根據(jù)的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)？（C）

A.根據(jù)內(nèi)容檢索B.建模描述

C.預(yù)測建模D.尋找模式和規(guī)那么

15.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時，可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相別離？

（B）

A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈

三、程序設(shè)計（10分）

有10個同類企業(yè)的生產(chǎn)性固定資產(chǎn)價值O）和工業(yè)總產(chǎn)值（V）資料如下

企業(yè)編號生產(chǎn)性固定資產(chǎn)價值工業(yè)總產(chǎn)值

（力兀）（萬元）

1318524

29101019

3200638

4409815

5425913

6502928

7314605

812101516

910221219

1012251624

合計65259801

要求用R語言按以下要求寫出相應(yīng)程序：

①寫出數(shù)據(jù)輸入程序；

②畫出它們的散點圖

③工業(yè)總產(chǎn)值對生產(chǎn)性固定資產(chǎn)線性回歸方程。

>x<-c(318,910,200,409,415,502,314,1210,1022,1225)

>y<-c(524,1019,638,815,913,928,605,1516,1219,1624)

>plot(x,y)

>lm.reg<-lm(y~l+x)

>summary(lm.reg)

四、程序編寫(10分)

用R語言寫出求y=x2+\最大值、最小值的程序。

>x<-seq(-5,5,0,01)

>y<-l+x"2

>plot(y)

>max(y)

>min(y)

五、程序分析：這是某個程序運行結(jié)果。(15分)

Call:

Im（formula=y~xl+x2zdata=sales）

Residuals:

MinIQMedian3QMax

-3.8312-1.2063-0.24361.49193.3025

Coefficients:

EstiHiateStd.ErrorzvaluePr(>|t|)

(Intercept)3.44572842.42669341.4200.181

xl0.49597240.006045582.039<2e-16***

x20.00920490.00D966S9.5216.07e-07***

Signif.codes:0'****0.0D1、**'0.01、*'0.05、?'0.1

Residualstandarderror:2.173on12degreesoffreedom

MultipleR-squared:0.9989,AdjustedR-squared:0.99SS

F-statistic:5699on2and12DF,p-value:<2.2e-16

寫出：⑴殘差情況。

⑵回歸方程的具體形式。

⑶分析方程與回歸參數(shù)的顯著性情況。

⑴殘差情況。

殘差最小值為-3.8312殘差下四分位數(shù)為T.2063殘差中位數(shù)-0.2436

殘差上四分位數(shù)1.4819殘差最大值3.3025（5分）

⑵回歸方程的具體形式。

）,=3.4457+0.496x1+0.0092x2（5分）

⑶分析方程與回歸參數(shù)的顯著性情況。

方程F值為5699相應(yīng)概率為2.2e16回歸方程具有顯著性

xl參數(shù)的t值為82.039,概率為2eT6,回歸參數(shù)顯著

x2參數(shù)的t值為9.521,概率為6.07e-07,回歸參數(shù)顯著

六、簡答題：評述數(shù)據(jù)缺失常見的處理方法。

解：常見的數(shù)據(jù)缺失處理有四種方法：

⑴將含有缺失值的案例刪除。（3分）

當(dāng)數(shù)據(jù)較多，缺失數(shù)據(jù)記錄所占比重較小時可用該方法。

⑵根據(jù)變量之間的相關(guān)關(guān)系填補(bǔ)缺失值。（3分）

⑶根據(jù)案例之間的相似性填補(bǔ)缺失值。（4分）

⑷使用能夠處理缺失值數(shù)據(jù)的工具。（5分）

（15分）

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷（A卷）

考核方式：閉卷考試日期：2015年1月日

適用專業(yè)、班級：13經(jīng)濟(jì)統(tǒng)計

題號一二三四五六七A九十總分

得分

評卷人

款

（共五大題）

一、判斷題（以下各題正確的打錯誤的打X。每題2分，共20分）

1.序列數(shù)據(jù)沒有時間戳。（對）

2.定量屬性可以是整數(shù)值或者是連續(xù)值。（對）

篇3.可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。［錯）

njp

卦4.DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。（對）

5.OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息，是繼數(shù)據(jù)庫技術(shù)開展之后迅猛

開展起來的一種新技術(shù)。（對）

6.SVM是這樣一個分類器，他尋找具有最小邊緣的超平面，因此它也經(jīng)常被稱為最小邊緣分類器

（minimalmarginclassifier）（錯）

7.在聚類分析當(dāng)中，簇內(nèi)的相似性越大，簇間的差異越大，聚類的效果就越差。（錯）

8.聚類分析可以看作是一種非監(jiān)督的分類。（對）

9.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法，簇的個數(shù)由算法自動地確定。（錯

10.給定由兩次運行K均值產(chǎn)生的兩個不同的簇集，誤差的平方和最大的那個應(yīng)該被視為較優(yōu)。（錯）

二、單項選擇題（每題2分，共30分）

1.端是為消除不確定性所需要獲得的信息量，投擲均勻正六面體般子的埼是：（B）

A1二匕特B2.6比特C3.2比特D3.8比特

2.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小標(biāo)準(zhǔn)化的方法將屬性的值

映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為：（D）

A0.821B1.224C1.458D0.716

3.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下（按遞增序）：13,15,16,16,19,20,

20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題：使用按箱平均

值平滑方法對上述數(shù)據(jù)進(jìn)行平滑，箱的深度為3。第二個箱子值為：（A）

A18.3B22.6C26.8D27.9

4.考慮值集{12243324556826},其四分位數(shù)極差是：（A）

A31B24C55D3

5.一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為：一年級200人，二年級160人，三年級130人，四年級110人。那

么年級屬性的眾數(shù)是：（A）

A一年級B二年級C三年級D四年級

6.（C）是一個觀測值，它與其他觀測值的差異如此之大，以至于疑心它是由不同的機(jī)制產(chǎn)生的。

A、邊界點B、質(zhì)心C、離群點D、核心點

7.BIRCH是一種（B

A、分類器B、聚類算法C、關(guān)聯(lián)分析算法D、特征選擇算法

8.檢測一元正態(tài)分布中的離群點，屬于異常檢測中的基于（A）的離群點檢測。

A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術(shù)

9.（C）將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度，它是一種凝聚層次聚類技術(shù)。

A、MIN（單鏈JB、MAX（全鏈JC、組平均D、Ward方法

10.(D)將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量，它是?種凝聚層次聚類技術(shù)。

A、MIN(單鏈)B、MAX卜全鏈)C、組平均D、Ward方法

11.DBSCAN在最壞情況下的時間復(fù)雜度是(B)o

A、O(m)B、O(m2)C^O(logm)D、O(m*logm)

12.在基于圖的簇評估度量表里面，如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那么它的類型是

(C)o

A、基于圖的凝聚度B、基于原型的凝聚度C、基于原型的別離度D、基于圖的凝

聚度和別離度

13.關(guān)于K均值和DBSCAN的比擬，以下說法不正確的選項是(A)。

A、K均值丟棄被它識別為噪聲的對象，而DBSCAN一般聚類所有對象。

B、K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。

C,K均值很難處理毛球形的簇和不司大小的簇，DBSCAN可以處理不同大小和不同形狀的簇。

D、K均值可以發(fā)現(xiàn)不是明顯別離的簇，即便簇有重疊也可以發(fā)現(xiàn)，但是DBSCAN會合并有重疊的

14.以下是哪一個聚類算法的算法流程：①構(gòu)造k—最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat：

合并關(guān)于相對互連性和相對接近性而言，最好地保持簇的自相似性的簇。④until：不再有可以合并的簇。

A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)

15.考慮這么一種情況：一個對象碰巧與另一個對象相對接近，但屬于不同的類，因為這兩個對象一般

不會共享許多近鄰，所以應(yīng)該選擇(D)的相似度計算方法。

A、平方歐幾里德距離B、余弦距離C、直接相似度D、共享最近鄰

三、程序設(shè)計（10分）

用函數(shù)rep構(gòu)造一個向量x,它由5個3,10個2,9個1構(gòu)成。

四、程序編寫（10分）

自已編寫個程序求數(shù)據(jù)y=1yLy2,y3…yn)的均值標(biāo)，準(zhǔn)差，偏度與峰度

五、程序分析：這是某個程序運行結(jié)果。(15分)

Binomialdistribution,n=20,p=0.2

(

)

￡

寫出此圖程序

>n<-20

>p<-0.2

>k<-seq(0,n)

>plot(k,dbinom(k,n,p),type-h,,main-Binomialdistribution,n=20,p=0.2*,xlab='k')

六、簡答題：說出常用分布的概率函數(shù)中的三種(15分)

正念分布

>curve(dnorm(x,0,1),xlim=c(-5,5),ylim=c(0,.8),

col=red',lwd=2,lty=3)

>curve(dnorm(x,0,2),add=T,col=*blue\lwd=2,lty=2)

>curve(dnorm(x,0,1/2),add=T,lwd=2,lty=l)

>title(main="Gaussiandistributions0)

>Iegend(par('usr')[2],par(*usr')[4],xjust=l,

c(,sigma=l',,sigma=2\,sigma=l/2'),

lwd=c(2,2,2),

lty=c(3,2,l),

col=c('red','blue',par(,'fg',)?

超幾何分布

>N<-30

>M<-10

>n<-10

>k<-seq(0J0)

>plot(k,dhyper(k,N,M,n),type-h',

main='Hypergeometricdistribution,

N=30,M=10,n=10,,xlab='k,)

幾何分布

>p<-0.5

>k<-seq(0,10)

>plot(k,dgeom(k,p),type=,h,,

main='Geometricdistribution,p=0.5',xlab='k')

泊松分布

>lambda<-4.0

>k<-seq(0,20)

>plot(k,dpois(k,lambda),type='h',

mair.=,Poissondistribution,lambda=5.5',xlab='k,)

>n<-20

>p<-0.2

>k<-seq(0,n)

>plol(k,dbinom(k,n,p)jype='h',

mair-Binomialdistribution,n=20,p=0.2,,Klab=,k,)

浙江財經(jīng)大學(xué)2015~2016學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷（A卷）

考核方式：閉卷考試日期：2015年1月日

適用專業(yè)、班級：14經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

評卷人

（共五大題）

一、判斷題（以下各題正確的打錯誤的打X。每題2分，共20分）

1、數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)那么，從而能更好的完成描述數(shù)據(jù)、預(yù)

測數(shù)據(jù)等任務(wù)。（對）

2、尋找模式和規(guī)那么主要是對數(shù)據(jù)進(jìn)行干擾，使其符合某種規(guī)那么以及模式。（錯）

3、離群點可以是合法的數(shù)據(jù)對象或者值。（對）

4、離散屬性總是具有有限個值。（錯）

5、序列數(shù)據(jù)沒有時間戳。（對）

6、定量屬性可以是整數(shù)值或者是連續(xù)值。（對）

7、關(guān)聯(lián)規(guī)那么挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)那么。（錯）

8、分類和回歸都可用于預(yù)測，分類的輸出是離散的類別值，而回歸的輸出是連續(xù)數(shù)值。

（對）

9、可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。（錯）

s10、聚類分析可以看作是一種非監(jiān)督的分類。（對）

“

叩

二、單項選擇題（每題2分，共30分）

料1、在數(shù)據(jù)挖掘的分析方法中，直接數(shù)據(jù)挖掘不包括（D）

A分類B關(guān)聯(lián)C估值D預(yù)言

，

手2、下面不屬于創(chuàng)立新屬性的相關(guān)方法的是：（C）

布A特征提取

B特征修改

C映射數(shù)據(jù)到新的空間

D特征構(gòu)造

3、數(shù)據(jù)分類的評價準(zhǔn)那么包括（C）

a精確度b查全率和查準(zhǔn)率cF-Measured兒何均值

Aa、b、cBb、c、dCa、b、dDa、b、c、d

4、層次聚類方法包括（A）

a劃分聚類方法b凝聚型層次聚類方法c分解型層次聚類方法d基于密度聚類方法

Aa、bBa、cCb、cDb、d

5、將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)？（D）

A.頻繁模式挖掘B.分類和預(yù)測

C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘

6、什么是KDD?（A）

A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B.領(lǐng)域知識發(fā)現(xiàn)

C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn)

7、下面哪種不屬于數(shù)據(jù)預(yù)處理的方法？（D）

A變量代換B離散化C聚集D估計遺漏值

8、下面哪個不屬于數(shù)據(jù)的屬性類型：（D）

A標(biāo)稱B序數(shù)C區(qū)間D相異

9、以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法：（D）

A嵌入B過濾C包裝D抽樣

10、以下哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)：（B）

A等高線圖B餅圖C曲面圖D矢量場圖

11、在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu)，這樣的任務(wù)稱為（B）

A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘

12、以下哪些分類方法可以較好地防止樣本的不平衡問題，（A）

AKNNBSVMCBayesD神經(jīng)網(wǎng)絡(luò)

13、在基于規(guī)那么分類器的中，依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序，保證每一個測

試記錄都是由覆蓋它的“最好的”規(guī)格來分類，這種方案稱為（B）

A.基于類的排序方案

B.基于規(guī)那么的排序方案

C.基于度量的排序方案

D.基于規(guī)格的排序方案

14、檢測一元正態(tài)分布中的離群點，屬于異常檢測中的基于（A）的離群點檢測。

A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術(shù)

15、在基于圖的簇評估度量表里面，如果簇度量為proximity（Ci,C）,簇權(quán)值為mi,那

么它的類型是（C）o

A、基于圖的凝聚度

B、基于原型的凝聚度

C、基于原型的別離度

D、基丁圖的凝聚度和別離度

三、程序設(shè)計（10分）

表有關(guān)15個地區(qū)某種食物年需求量（X,單位：10噸）和地區(qū)人口增加量（X,單位：千人）

的資料.利用此表數(shù)據(jù)展示一元回歸模型的統(tǒng)計分析過程。

某種食物年需求量與人口增加量

要求用R語言按以下要求寫出相應(yīng)程序：

①寫出數(shù)據(jù)輸入程序；

②畫出它們的散點圖

③食物年需求量對地區(qū)人口增加量線性回歸方程。

編123456789101112131415

號

X274180375205862659833019553430372236157370

Y162120223131671698119211655252234144103212

<-c(274,180,375,205,86,265,98,330,195,53,430,372,236,157,370)

>y<-c(162,120,223,131,67,169,81,192,116,55,252,234,144,103,212)

>plot(x,y)

>lm.reg<-lm(y~x)

>summary(lm.reg)

四、程序編寫(10分)

用R語言寫出求y=2入2+3最大值、最小值的程序

>x<-seq(-5,5,0.01)

>y<-3+2*xA2

>plot(y)

>max(y)

>min(y)

五、程序分析：這是某個程序運行結(jié)果。(15分)

Call:

lm(fbrmula=y~x1+x2+x3,data=blood)

Residuals:

MinIQMedian3QMax

-3.2692-1.2305-0.20231.48864.6570

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Inlercept)6.49962.39622.7130.01242*

x10.40230.15412.6120.01559?

X2-0.28700.1117-2.5700.01712*

X30.66320.23032.8800.00845**

Sigmt.codes:0'*"'0.001'"'0.01'*'0.0510.1''1

Residualstandarderror:1.972on23degreesoffreedom

MultipleR-squared:0.5981,AdjustedR-squared:0.5456

F-statistic:11.41on3and23DF,p-value:8.793e-05

寫出：⑴殘差情況。

⑵回歸方程的具體形式。

⑶分析方程與回歸參數(shù)的顯著性情況。

⑴殘差情況。

殘差最小值為-3.2692殘差下四分位數(shù)為T.2305殘差中位數(shù)-0.2023

殘差上四分位數(shù)1.4886殘差最人值4.6570（5分）

⑵回歸方程的具體形式。

7=6.4996+0.4023x1-0.2870x2+0.6632%3（5分）

⑶分析方程與回歸參數(shù)的顯著性情況。

方程F值為11.41相應(yīng)概率為8.793e-05回歸方程具有顯著性

xl參數(shù)的t值為2.612,概率為0.01559,回歸參數(shù)顯著

x2參數(shù)的t值為-2.570,概率為0.01712,回歸參數(shù)顯著（5分）

x3參數(shù)的I值為2.880,概率為0.00845,回歸參數(shù)顯著

六、簡答題：數(shù)據(jù)挖掘的分類方法有哪些，請詳細(xì)闡述之.（15分）

分類方法歸結(jié)為四種類型：

基于距離的分類方法（3分）

決策樹分類方法（3分）

貝葉斯分類方法（3分）

規(guī)那么歸納有四種策略：減法、加法，先加后減、先減后加策略（6分）

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷（A卷）

考核方式：閉卷考試日期：2015年1月日

適用專業(yè)、班級：14經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

應(yīng)評卷人

款

（共五大題）

一、判斷題（以下各題正確的打錯誤的打X。每題2分，共20分）

1、模式為對數(shù)據(jù)集的全局性總結(jié)，它對整個測量空間的每一點做出描述；模型那么對變量

變化空間的一個有限區(qū)域做出描述。（錯）

命2、Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)

料

過程中提取信息.（錯）

3、序列數(shù)據(jù)沒有時間戳。（對）

4、商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于：后者把結(jié)構(gòu)強(qiáng)加于商

務(wù)之上，一旦系統(tǒng)設(shè)計完畢，其程序和規(guī)那么不會輕易改變；而前者那么是一個學(xué)習(xí)型

系統(tǒng)，能自動適應(yīng)商務(wù)不斷變化的要求。（對）

5、在決策樹中，隨著樹中結(jié)點數(shù)變得太大，即使模型的訓(xùn)練誤差還在繼續(xù)減低，但是檢驗

誤差開始增大，這是出現(xiàn)了模型擬合缺乏的問題。（錯）

6、模式為對數(shù)據(jù)集的全局性總結(jié)，它對整個測量空間的每一點做出描述：模型那么對變量

變化空間的一個有限區(qū)域做出描述。（錯）

7、如果規(guī)那么不滿足置信度閾值，那么形如的規(guī)那么一定也不滿足置信度閾值，其中是

X的子集。（對）

8、給定由兩次運行K均值產(chǎn)生的兩個不同的簇集，誤差的平方和最大的那個應(yīng)該被視為較

優(yōu)。（錯）

9、數(shù)據(jù)倉庫中間層0LAP效勞器只能采用關(guān)系型0LAP（錯）

10、利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)（對）

二、單項選擇題(每題2分，共30分)

1.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時，可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽

的數(shù)據(jù)相別離？(B)

A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈

2.對于向量v〈-c(4,7,23.5,76.2,80)來說，length(v)顯示的應(yīng)該是：(C)

(A)4(B)5(C)80(D)76.2

3,為數(shù)據(jù)的總體分布建模；把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)？

(B)

A.探索性數(shù)據(jù)分析B.建模描述

C,預(yù)測建模D.尋找模式和規(guī)那么

4.假設(shè)12個銷售價格記錄組已經(jīng)排序如下：5,10,11,13,15,35,50,55,72,92,

204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時，15在第幾個箱

子內(nèi)？(B)

A第一個B第二個C第三個D第四個

5.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序)：13,

15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,

46,52,70,問題：使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑，箱的深度為3。第二

個箱子值為：(A)

A18.3B22.6C26.8D27.9

6.關(guān)于根本數(shù)據(jù)的元數(shù)據(jù)是指：(D)

A.根本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;

B.根本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息；

C.根本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息；

D.根本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.

7.在有關(guān)數(shù)據(jù)倉庫測試，以下說法不正確的選項是：(D)

A.在完成數(shù)據(jù)倉庫的實施過程中，需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元

測試和系統(tǒng)測試.

B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進(jìn)行單元測試.

C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.

D.在測試之前沒必要制定詳細(xì)的測試方案.

8.OLAM技術(shù)一般簡稱為"數(shù)據(jù)聯(lián)機(jī)分析挖掘”，下面說法正確的選項是：（D）

A.OLAP和OLAM都基于客戶機(jī)/效勞器模式，只有后者有與用戶的交互性；

B.由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.

C.基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.

D.OLAM效勞器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體

作一定的操作.

9.下面選項中t不是s的子序列的是（C）

A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>

B、s=<{2,4},{3,5,6）,{8}>t=<{2},{8}>

C、s=<{1,2},{3,4}>t=<{l},{2}>

D、s=<{2,4},{2,4}>t=<{2},{4}>

10.以下哪些分類方法可以較好地防止樣本的不平衡問題（A）

A,KNNB,SVMC,BayesD,神經(jīng)網(wǎng)絡(luò)

11.在基于規(guī)那么分類器的中，依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序，保證每一

個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類，這種方案稱為（）

A.基于類的排序方案B

B.基于規(guī)那么的排序方案

C.基于度量的排序方案

D.基于規(guī)格的排序方案。

12.如果允許一條記錄觸發(fā)多條分類規(guī)那么，把每條被觸發(fā)規(guī)那么的后件看作是對相

應(yīng)類的一次投票，然后計票確定測試記錄的類標(biāo)號，稱為1A）

A,無序規(guī)那么B,窮舉規(guī)那么C,互斥規(guī)那么D,有序規(guī)那么

13.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集，使得每個數(shù)據(jù)對象恰在一個子集中，這種

聚類類型稱作（B）

A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類

14.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集，使得每個數(shù)據(jù)對象恰在一個子集中，這種

聚類類型稱作（B）

A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類

15.回歸分析的以下說法中錯誤的選項是（D）

A作回歸分析的變量之間要有實際意義，不能把毫無關(guān)聯(lián)的兩種現(xiàn)象隨意進(jìn)行回歸分析，

要結(jié)合專業(yè)知識對兩事物之間是否存在因果關(guān)系作出合理解釋和結(jié)論。

B在進(jìn)行線性回歸分析進(jìn)行的數(shù)據(jù)準(zhǔn)備的時候，要求因變量y和自變量x都是符合總體正

態(tài)的隨機(jī)變量。

C回歸直線不要隨意外延

D所有非線性回歸都可以轉(zhuǎn)化為線性回歸

三、程序設(shè)計（10分）

.應(yīng)用R圖表對各類產(chǎn)品供貨走勢圖分析

類別'月份123456789101112

彩電Al

冰箱A2

空調(diào)A3

洗衣機(jī)A4

（1）要求：數(shù)據(jù)由R隨機(jī)數(shù)函數(shù)生成，產(chǎn)生［20,50］間的均勻隨機(jī)數(shù)。

（2）制作趨勢線圖：

解：首先對R進(jìn)行初始化，設(shè)定參數(shù)，再生成隨機(jī)數(shù)，代碼如下:

rm(list=ls())

options(digits=4)

par(mar=c(4,4,2,1)+0.1,cex=0.75)

Al=runif(12,20,50);Al

A2=runif(12,20,50);A2

A3=runif(12,20,50);A3

A4=runif(12,20,50);A4

四、程序編寫(10分)

設(shè)y=2+3*x+e,試用R擬合y=a+bx的線性回歸模型

解：x=runif(25,10,30)

e=rnorm(25,0,0.3)

y=c(2+3*x+e)

fm=lm(y-x)

Call:

lm(formula=y~x)

Coefficients:

(Intercept)x

2.063.00

故y=2.06+3.00x.

五、程序分析：這是某個程序運行結(jié)果。（15分）

在一個農(nóng)業(yè)試驗中，考慮四種不同的種子品種Al,A2,A3,A4和三種不同的施肥方法B1,

B2,B3得到產(chǎn)量數(shù)據(jù)如表所示。

BithB3

A\325292316

317310318

310320318

330370365

DfSumSqMeanSqFvaluePr(>F)

A33824.31274.755.22620.04126

B2162.581.250.33310.72915

Residuals61463.5243.92

Signif.codes:0、***'0.0010.01、*'0.05'?'0?l''1

試分析種子與施肥對產(chǎn)量有無顯著影響：

結(jié)果數(shù)據(jù)中Df表示自由度，SumSq表示平方和，MeanSq表示均方，F(xiàn)value表

示F值，即F比。PrOF)表示P值，A就是因素A,Rwsiduals是殘差，即誤差。

門)種子P值=0.041266.05,故應(yīng)拒絕H0即不同的種子品種對產(chǎn)量有顯著的影響。

(2)施肥P值=0.72915X).05,沒有充分的理由說明H0不正確，也就是說應(yīng)該接受H0。

即不同的施肥方法對產(chǎn)量無顯著的差異。

六、簡答題：簡述1.安裝R添加包、2.了解已安裝添加包、3.獲取添加包、4.檢查gengxin

版本、5.更新已安裝R軟件包的代碼(15分)

1.>install.packages('DMwR')

2.>installed.packages()

3.library()

4.old.packages()

5.update,packages()

三、程序設(shè)計(10分)

(1)解：首先對R進(jìn)行初始化，設(shè)定參數(shù)，再生成隨機(jī)數(shù)，代碼如下：

rm(list=ls())

options(digits=4)

par(mar=c(4,4,2,1)+0.1,cex=0.75)

Al=runif(12,20,50);Al

A2=runif(12,20,50);A2

A3=runif(l2,20,50);A3

A4=runif(12,20,50);A4

(2)解：趨勢線圖如下

彩電(A1)冰箱(A2)

空調(diào)(A3)洗衣機(jī)(A4)

代碼如下：

par(mfrow=c(2,2))

plot(A1,type=nr\ylab=n銷售量”,xlab="月份二main=”彩電

(Al)n,xlim=c(l,12),ylim=c(0,50))

plot(A2,type二T,ylab=”銷售量”,xlab="月份",main=M冰箱

(A2)",xlim=c(l,12),ylim=c(0,50))

plot(A3,type=T,ylab二”銷售量”,xlab="月份",main="空調(diào)

(A3)",xlim=c(l,l2),ylim=c(0,50))

plot(A4,type=*'r\ylab=n銷售量,',xlab=u月份”,main="洗衣機(jī)

(A4)n,xlim=c(l,l2),ylim=c(0,50))

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷（A卷）

考核方式：閉卷考試日期：2015年1月日

適用專業(yè)、班級：13經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

應(yīng)評卷人

款

（共五大題）

一、判斷題（以下各題正確的打錯誤的打X。每題2分，共20分）

1、數(shù)據(jù)挖掘這課用的編程語言為R語言（對）

2、這門課任課老師名字黃秀海（對）

命3、R是一個有著強(qiáng)大統(tǒng)計分析及作圖功能的軟件系統(tǒng)，在GNU協(xié)議General

料

PublicLicence下免費發(fā)行。（對）

4、R可以看作是貝爾實驗室（BellLaboratories）的RickBecker,John

Chambers和AllanWilks開發(fā)的S語言的一種實現(xiàn)或形式.（對）

5、R的核心開發(fā)與維護(hù)小組通過R的主頁，即R工程（RProject）網(wǎng)

站（://r-project.org）及時發(fā)布有關(guān)信息（對）

6、R語言不能在winxp系統(tǒng)上運行（錯）

7、數(shù)據(jù)挖掘這門課期末考試方式為閉卷（）

8、數(shù)據(jù)挖掘上課地點在zufe-F樓（）

9、這學(xué)期數(shù)據(jù)挖掘一周課時為3課時（）

10、這門課同學(xué)們都希望能通過。（）

二、單項選擇題（每題2分，共30分）

1.以下數(shù)據(jù)挖掘任務(wù)中，哪些屬于非定向數(shù)據(jù)挖掘任務(wù)（D）

A分類B回歸C預(yù)測D聚類

2、對于向量（4,7,23.5,76.2,80）來說，length（v）顯示的應(yīng)該是：（B）

(A)4(B)5(C)80(D)76.2

3、以下哪種軟件是集成的窗口型的R語言的編程環(huán)境C

ARwindowBRgoCRstudioDR-111

4、以下哪種軟件

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《數(shù)據(jù)挖掘》課程期末考試試卷

文檔簡介

溫馨提示

最新文檔

評論

《數(shù)據(jù)挖掘》課程期末考試試卷

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔