《數(shù)據(jù)挖掘》課程期末考試試卷_第1頁
《數(shù)據(jù)挖掘》課程期末考試試卷_第2頁
《數(shù)據(jù)挖掘》課程期末考試試卷_第3頁
《數(shù)據(jù)挖掘》課程期末考試試卷_第4頁
《數(shù)據(jù)挖掘》課程期末考試試卷_第5頁
已閱讀5頁,還剩179頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)

考核方式:閉卷考試日期:2015年1月日

適用專業(yè)、班級:13經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

應(yīng)評卷人

(共五大題)

一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)

1.DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。(對)

2.聚類分析可以看作是一種非監(jiān)督的分類。(對)

命3.分類模型的誤差大致分為兩種:訓(xùn)練誤差(trainingerror)和泛化誤差(generalizationerror).(對)

4.具有較高的支持度的項集具有較高的置信度。(錯)

5.利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)(對)八

6.商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強(qiáng)加于商務(wù)之上,一旦

系統(tǒng)設(shè)計完畢,其程序和規(guī)那么不會輕易改變;而前者那么是一個學(xué)習(xí)型系統(tǒng),能自動適應(yīng)商務(wù)不

斷變化的要求。(對)

7.離群點可以是合法的數(shù)據(jù)對象或者值。(對)

8.可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。[錯)

9.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)那么,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。

(對)

10.從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。(錯)

二、單項選擇題(每題2分,共30分)

1.以下說明錯誤的選項是(C)

A性別="男”=>職業(yè)="司機(jī)”,是布爾型關(guān)聯(lián)規(guī)那么

B性別="女”=>avg(收入)=2300,是一個數(shù)值型關(guān)聯(lián)規(guī)那么

C肝炎=>ALT(丙氨酸轉(zhuǎn)氨酶)升高,是一個單層關(guān)聯(lián)規(guī)那么

D性別:“女”=>職業(yè)=“秘書”,是多維關(guān)聯(lián)規(guī)那么。

2.在有指導(dǎo)的數(shù)據(jù)挖掘中,有關(guān)測試集的說法錯誤的選項是(A)

A.測試集和訓(xùn)練集是相互聯(lián)系的

B.測試集是用以測試模型的數(shù)據(jù)集

C.通常測試集大約占總樣本的三分之一

D.K-次交叉驗證中,測試集只有1個,訓(xùn)練集有K-1個。

3.一個對象的離群點得分是該對象周圍密度的逆。這是基于(C)的離群點定義。

A.概率B、鄰近度C、密度D、聚類

4.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不

會共享許多近鄰,所以應(yīng)該選擇(D)的相似度計算方法。

A、平方歐兒里德距離B、余弦距離C、直接相似度D、共享最近鄰

5.(D)將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)v

A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Ward方法

6.(C)是一個觀測值,它與其他觀測值的差異如此之大,以至于疑心它是由不同的機(jī)制產(chǎn)生的。

A、邊界點B、質(zhì)心C、離群點D、核心點

7.考慮兩隊之間的足球比賽:隊。和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝

的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1

的主場進(jìn)行隊1獲勝的概率為(C)

A,0.75B,0.35C,0.4678D,0.5738

8.在基于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序,保證每一個測試記錄都是由覆

蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)

A.基于類的排序方案

B.基于規(guī)那么的排序方案

C.基于度量的排序方案

D.基于規(guī)格的排序方案。

9.以下_(A)_不是將主觀信息參加到模式發(fā)現(xiàn)任務(wù)中的方法。

A、與同一時期其他數(shù)據(jù)比照

B、可視化

C、基于模板的方法

D、主觀興趣度量

10.關(guān)rOLAP和OLTP的區(qū)別描述,小止確的選項是:(C)

A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.

B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).

C.OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比擬簡單且重復(fù)率高.

D.OLAP是以數(shù)據(jù)倉庫為根底的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對

的用戶是相同的.

11.在有關(guān)數(shù)據(jù)倉庫測試,以下說法不正誨的選項是:(D)

A.在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元測試和系統(tǒng)

測試.

B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進(jìn)行單元測試.

C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.

D.在測試之前沒必要制定詳細(xì)的測試方案.

12.關(guān)于根木數(shù)據(jù)的元數(shù)據(jù)是指:(D)

A.根本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;

B.根本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;

C.根本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;

D.根本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.

13,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個箱子值為:(A)

A18.3B22.6C26.8D27.9

14.建立一個模型,通過這個模型根據(jù)的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)

A.根據(jù)內(nèi)容檢索B.建模描述

C.預(yù)測建模D.尋找模式和規(guī)那么

15.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相別離?

(B)

A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈

三、程序設(shè)計(10分)

有10個同類企業(yè)的生產(chǎn)性固定資產(chǎn)價值O)和工業(yè)總產(chǎn)值(V)資料如下

企業(yè)編號生產(chǎn)性固定資產(chǎn)價值工業(yè)總產(chǎn)值

(力兀)(萬元)

1318524

29101019

3200638

4409815

5425913

6502928

7314605

812101516

910221219

1012251624

合計65259801

要求用R語言按以下要求寫出相應(yīng)程序:

①寫出數(shù)據(jù)輸入程序;

②畫出它們的散點圖

③工業(yè)總產(chǎn)值對生產(chǎn)性固定資產(chǎn)線性回歸方程。

>x<-c(318,910,200,409,415,502,314,1210,1022,1225)

>y<-c(524,1019,638,815,913,928,605,1516,1219,1624)

>plot(x,y)

>lm.reg<-lm(y~l+x)

>summary(lm.reg)

四、程序編寫(10分)

用R語言寫出求y=x2+\最大值、最小值的程序。

>x<-seq(-5,5,0,01)

>y<-l+x"2

>plot(y)

>max(y)

>min(y)

五、程序分析:這是某個程序運行結(jié)果。(15分)

Call:

Im(formula=y~xl+x2zdata=sales)

Residuals:

MinIQMedian3QMax

-3.8312-1.2063-0.24361.49193.3025

Coefficients:

EstiHiateStd.ErrorzvaluePr(>|t|)

(Intercept)3.44572842.42669341.4200.181

xl0.49597240.006045582.039<2e-16***

x20.00920490.00D966S9.5216.07e-07***

Signif.codes:0'****0.0D1、**'0.01、*'0.05、?'0.1

Residualstandarderror:2.173on12degreesoffreedom

MultipleR-squared:0.9989,AdjustedR-squared:0.99SS

F-statistic:5699on2and12DF,p-value:<2.2e-16

寫出:⑴殘差情況。

⑵回歸方程的具體形式。

⑶分析方程與回歸參數(shù)的顯著性情況。

⑴殘差情況。

殘差最小值為-3.8312殘差下四分位數(shù)為T.2063殘差中位數(shù)-0.2436

殘差上四分位數(shù)1.4819殘差最大值3.3025(5分)

⑵回歸方程的具體形式。

),=3.4457+0.496x1+0.0092x2(5分)

⑶分析方程與回歸參數(shù)的顯著性情況。

方程F值為5699相應(yīng)概率為2.2e16回歸方程具有顯著性

xl參數(shù)的t值為82.039,概率為2eT6,回歸參數(shù)顯著

x2參數(shù)的t值為9.521,概率為6.07e-07,回歸參數(shù)顯著

六、簡答題:評述數(shù)據(jù)缺失常見的處理方法。

解:常見的數(shù)據(jù)缺失處理有四種方法:

⑴將含有缺失值的案例刪除。(3分)

當(dāng)數(shù)據(jù)較多,缺失數(shù)據(jù)記錄所占比重較小時可用該方法。

⑵根據(jù)變量之間的相關(guān)關(guān)系填補(bǔ)缺失值。(3分)

⑶根據(jù)案例之間的相似性填補(bǔ)缺失值。(4分)

⑷使用能夠處理缺失值數(shù)據(jù)的工具。(5分)

(15分)

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)

考核方式:閉卷考試日期:2015年1月日

適用專業(yè)、班級:13經(jīng)濟(jì)統(tǒng)計

題號一二三四五六七A九十總分

得分

評卷人

(共五大題)

一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)

1.序列數(shù)據(jù)沒有時間戳。(對)

2.定量屬性可以是整數(shù)值或者是連續(xù)值。(對)

篇3.可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。[錯)

njp

卦4.DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。(對)

5.OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)開展之后迅猛

開展起來的一種新技術(shù)。(對)

6.SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器

(minimalmarginclassifier)(錯)

7.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差異越大,聚類的效果就越差。(錯)

8.聚類分析可以看作是一種非監(jiān)督的分類。(對)

9.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(錯

10.給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應(yīng)該被視為較優(yōu)。(錯)

二、單項選擇題(每題2分,共30分)

1.端是為消除不確定性所需要獲得的信息量,投擲均勻正六面體般子的埼是:(B)

A1二匕特B2.6比特C3.2比特D3.8比特

2.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小標(biāo)準(zhǔn)化的方法將屬性的值

映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)

A0.821B1.224C1.458D0.716

3.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,

20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均

值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個箱子值為:(A)

A18.3B22.6C26.8D27.9

4.考慮值集{12243324556826},其四分位數(shù)極差是:(A)

A31B24C55D3

5.一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。那

么年級屬性的眾數(shù)是:(A)

A一年級B二年級C三年級D四年級

6.(C)是一個觀測值,它與其他觀測值的差異如此之大,以至于疑心它是由不同的機(jī)制產(chǎn)生的。

A、邊界點B、質(zhì)心C、離群點D、核心點

7.BIRCH是一種(B

A、分類器B、聚類算法C、關(guān)聯(lián)分析算法D、特征選擇算法

8.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A)的離群點檢測。

A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術(shù)

9.(C)將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。

A、MIN(單鏈JB、MAX(全鏈JC、組平均D、Ward方法

10.(D)將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是?種凝聚層次聚類技術(shù)。

A、MIN(單鏈)B、MAX卜全鏈)C、組平均D、Ward方法

11.DBSCAN在最壞情況下的時間復(fù)雜度是(B)o

A、O(m)B、O(m2)C^O(logm)D、O(m*logm)

12.在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那么它的類型是

(C)o

A、基于圖的凝聚度B、基于原型的凝聚度C、基于原型的別離度D、基于圖的凝

聚度和別離度

13.關(guān)于K均值和DBSCAN的比擬,以下說法不正確的選項是(A)。

A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。

B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。

C,K均值很難處理毛球形的簇和不司大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。

D、K均值可以發(fā)現(xiàn)不是明顯別離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的

O

14.以下是哪一個聚類算法的算法流程:①構(gòu)造k—最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat:

合并關(guān)于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。

(C

A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)

15.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般

不會共享許多近鄰,所以應(yīng)該選擇(D)的相似度計算方法。

A、平方歐幾里德距離B、余弦距離C、直接相似度D、共享最近鄰

三、程序設(shè)計(10分)

用函數(shù)rep構(gòu)造一個向量x,它由5個3,10個2,9個1構(gòu)成。

四、程序編寫(10分)

自已編寫個程序求數(shù)據(jù)y=1yLy2,y3…yn)的均值標(biāo),準(zhǔn)差,偏度與峰度

五、程序分析:這是某個程序運行結(jié)果。(15分)

Binomialdistribution,n=20,p=0.2

(

d

c

±

)

E

O

q

p

k

寫出此圖程序

>n<-20

>p<-0.2

>k<-seq(0,n)

>plot(k,dbinom(k,n,p),type-h,,main-Binomialdistribution,n=20,p=0.2*,xlab='k')

六、簡答題:說出常用分布的概率函數(shù)中的三種(15分)

正念分布

>curve(dnorm(x,0,1),xlim=c(-5,5),ylim=c(0,.8),

col=red',lwd=2,lty=3)

>curve(dnorm(x,0,2),add=T,col=*blue\lwd=2,lty=2)

>curve(dnorm(x,0,1/2),add=T,lwd=2,lty=l)

>title(main="Gaussiandistributions0)

>Iegend(par('usr')[2],par(*usr')[4],xjust=l,

c(,sigma=l',,sigma=2\,sigma=l/2'),

lwd=c(2,2,2),

lty=c(3,2,l),

col=c('red','blue',par(,'fg',)?

超幾何分布

>N<-30

>M<-10

>n<-10

>k<-seq(0J0)

>plot(k,dhyper(k,N,M,n),type-h',

main='Hypergeometricdistribution,

N=30,M=10,n=10,,xlab='k,)

幾何分布

>p<-0.5

>k<-seq(0,10)

>plot(k,dgeom(k,p),type=,h,,

main='Geometricdistribution,p=0.5',xlab='k')

泊松分布

>lambda<-4.0

>k<-seq(0,20)

>plot(k,dpois(k,lambda),type='h',

mair.=,Poissondistribution,lambda=5.5',xlab='k,)

>n<-20

>p<-0.2

>k<-seq(0,n)

>plol(k,dbinom(k,n,p)jype='h',

mair-Binomialdistribution,n=20,p=0.2,,Klab=,k,)

浙江財經(jīng)大學(xué)2015~2016學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)

考核方式:閉卷考試日期:2015年1月日

適用專業(yè)、班級:14經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

評卷人

(共五大題)

一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)

1、數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)那么,從而能更好的完成描述數(shù)據(jù)、預(yù)

測數(shù)據(jù)等任務(wù)。(對)

2、尋找模式和規(guī)那么主要是對數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)那么以及模式。(錯)

3、離群點可以是合法的數(shù)據(jù)對象或者值。(對)

4、離散屬性總是具有有限個值。(錯)

5、序列數(shù)據(jù)沒有時間戳。(對)

6、定量屬性可以是整數(shù)值或者是連續(xù)值。(對)

7、關(guān)聯(lián)規(guī)那么挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)那么。(錯)

8、分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。

(對)

9、可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。(錯)

s10、聚類分析可以看作是一種非監(jiān)督的分類。(對)

二、單項選擇題(每題2分,共30分)

料1、在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘不包括(D)

A分類B關(guān)聯(lián)C估值D預(yù)言

,

手2、下面不屬于創(chuàng)立新屬性的相關(guān)方法的是:(C)

布A特征提取

B特征修改

C映射數(shù)據(jù)到新的空間

D特征構(gòu)造

3、數(shù)據(jù)分類的評價準(zhǔn)那么包括(C)

a精確度b查全率和查準(zhǔn)率cF-Measured兒何均值

Aa、b、cBb、c、dCa、b、dDa、b、c、d

4、層次聚類方法包括(A)

a劃分聚類方法b凝聚型層次聚類方法c分解型層次聚類方法d基于密度聚類方法

Aa、bBa、cCb、cDb、d

5、將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(D)

A.頻繁模式挖掘B.分類和預(yù)測

C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘

6、什么是KDD?(A)

A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B.領(lǐng)域知識發(fā)現(xiàn)

C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn)

7、下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)

A變量代換B離散化C聚集D估計遺漏值

8、下面哪個不屬于數(shù)據(jù)的屬性類型:(D)

A標(biāo)稱B序數(shù)C區(qū)間D相異

9、以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:(D)

A嵌入B過濾C包裝D抽樣

10、以下哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):(B)

A等高線圖B餅圖C曲面圖D矢量場圖

11、在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為(B)

A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘

12、以下哪些分類方法可以較好地防止樣本的不平衡問題,(A)

AKNNBSVMCBayesD神經(jīng)網(wǎng)絡(luò)

13、在基于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序,保證每一個測

試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)

A.基于類的排序方案

B.基于規(guī)那么的排序方案

C.基于度量的排序方案

D.基于規(guī)格的排序方案

14、檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A)的離群點檢測。

A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術(shù)

15、在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那

么它的類型是(C)o

A、基于圖的凝聚度

B、基于原型的凝聚度

C、基于原型的別離度

D、基丁圖的凝聚度和別離度

三、程序設(shè)計(10分)

表有關(guān)15個地區(qū)某種食物年需求量(X,單位:10噸)和地區(qū)人口增加量(X,單位:千人)

的資料.利用此表數(shù)據(jù)展示一元回歸模型的統(tǒng)計分析過程。

某種食物年需求量與人口增加量

要求用R語言按以下要求寫出相應(yīng)程序:

①寫出數(shù)據(jù)輸入程序;

②畫出它們的散點圖

③食物年需求量對地區(qū)人口增加量線性回歸方程。

編123456789101112131415

X274180375205862659833019553430372236157370

Y162120223131671698119211655252234144103212

>x

<-c(274,180,375,205,86,265,98,330,195,53,430,372,236,157,370)

>y<-c(162,120,223,131,67,169,81,192,116,55,252,234,144,103,212)

>plot(x,y)

>lm.reg<-lm(y~x)

>summary(lm.reg)

四、程序編寫(10分)

用R語言寫出求y=2入2+3最大值、最小值的程序

>x<-seq(-5,5,0.01)

>y<-3+2*xA2

>plot(y)

>max(y)

>min(y)

五、程序分析:這是某個程序運行結(jié)果。(15分)

Call:

lm(fbrmula=y~x1+x2+x3,data=blood)

Residuals:

MinIQMedian3QMax

-3.2692-1.2305-0.20231.48864.6570

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Inlercept)6.49962.39622.7130.01242*

x10.40230.15412.6120.01559?

X2-0.28700.1117-2.5700.01712*

X30.66320.23032.8800.00845**

Sigmt.codes:0'*"'0.001'"'0.01'*'0.0510.1''1

Residualstandarderror:1.972on23degreesoffreedom

MultipleR-squared:0.5981,AdjustedR-squared:0.5456

F-statistic:11.41on3and23DF,p-value:8.793e-05

寫出:⑴殘差情況。

⑵回歸方程的具體形式。

⑶分析方程與回歸參數(shù)的顯著性情況。

⑴殘差情況。

殘差最小值為-3.2692殘差下四分位數(shù)為T.2305殘差中位數(shù)-0.2023

殘差上四分位數(shù)1.4886殘差最人值4.6570(5分)

⑵回歸方程的具體形式。

7=6.4996+0.4023x1-0.2870x2+0.6632%3(5分)

⑶分析方程與回歸參數(shù)的顯著性情況。

方程F值為11.41相應(yīng)概率為8.793e-05回歸方程具有顯著性

xl參數(shù)的t值為2.612,概率為0.01559,回歸參數(shù)顯著

x2參數(shù)的t值為-2.570,概率為0.01712,回歸參數(shù)顯著(5分)

x3參數(shù)的I值為2.880,概率為0.00845,回歸參數(shù)顯著

六、簡答題:數(shù)據(jù)挖掘的分類方法有哪些,請詳細(xì)闡述之.(15分)

分類方法歸結(jié)為四種類型:

基于距離的分類方法(3分)

決策樹分類方法(3分)

貝葉斯分類方法(3分)

規(guī)那么歸納有四種策略:減法、加法,先加后減、先減后加策略(6分)

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)

考核方式:閉卷考試日期:2015年1月日

適用專業(yè)、班級:14經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

應(yīng)評卷人

(共五大題)

一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)

1、模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型那么對變量

變化空間的一個有限區(qū)域做出描述。(錯)

命2、Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)

過程中提取信息.(錯)

3、序列數(shù)據(jù)沒有時間戳。(對)

4、商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強(qiáng)加于商

務(wù)之上,一旦系統(tǒng)設(shè)計完畢,其程序和規(guī)那么不會輕易改變;而前者那么是一個學(xué)習(xí)型

系統(tǒng),能自動適應(yīng)商務(wù)不斷變化的要求。(對)

5、在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗

誤差開始增大,這是出現(xiàn)了模型擬合缺乏的問題。(錯)

6、模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述:模型那么對變量

變化空間的一個有限區(qū)域做出描述。(錯)

7、如果規(guī)那么不滿足置信度閾值,那么形如的規(guī)那么一定也不滿足置信度閾值,其中是

X的子集。(對)

8、給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應(yīng)該被視為較

優(yōu)。(錯)

9、數(shù)據(jù)倉庫中間層0LAP效勞器只能采用關(guān)系型0LAP(錯)

10、利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)(對)

二、單項選擇題(每題2分,共30分)

1.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽

的數(shù)據(jù)相別離?(B)

A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈

2.對于向量v〈-c(4,7,23.5,76.2,80)來說,length(v)顯示的應(yīng)該是:(C)

(A)4(B)5(C)80(D)76.2

3,為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?

(B)

A.探索性數(shù)據(jù)分析B.建模描述

C,預(yù)測建模D.尋找模式和規(guī)那么

4.假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,

204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱

子內(nèi)?(B)

A第一個B第二個C第三個D第四個

5.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,

15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,

46,52,70,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二

個箱子值為:(A)

A18.3B22.6C26.8D27.9

6.關(guān)于根本數(shù)據(jù)的元數(shù)據(jù)是指:(D)

A.根本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;

B.根本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;

C.根本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;

D.根本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.

7.在有關(guān)數(shù)據(jù)倉庫測試,以下說法不正確的選項是:(D)

A.在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元

測試和系統(tǒng)測試.

B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進(jìn)行單元測試.

C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.

D.在測試之前沒必要制定詳細(xì)的測試方案.

8.OLAM技術(shù)一般簡稱為"數(shù)據(jù)聯(lián)機(jī)分析挖掘”,下面說法正確的選項是:(D)

A.OLAP和OLAM都基于客戶機(jī)/效勞器模式,只有后者有與用戶的交互性;

B.由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.

C.基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.

D.OLAM效勞器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體

作一定的操作.

9.下面選項中t不是s的子序列的是(C)

A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>

B、s=<{2,4},{3,5,6),{8}>t=<{2},{8}>

C、s=<{1,2},{3,4}>t=<{l},{2}>

D、s=<{2,4},{2,4}>t=<{2},{4}>

10.以下哪些分類方法可以較好地防止樣本的不平衡問題(A)

A,KNNB,SVMC,BayesD,神經(jīng)網(wǎng)絡(luò)

11.在基于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序,保證每一

個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為()

A.基于類的排序方案B

B.基于規(guī)那么的排序方案

C.基于度量的排序方案

D.基于規(guī)格的排序方案。

12.如果允許一條記錄觸發(fā)多條分類規(guī)那么,把每條被觸發(fā)規(guī)那么的后件看作是對相

應(yīng)類的一次投票,然后計票確定測試記錄的類標(biāo)號,稱為1A)

A,無序規(guī)那么B,窮舉規(guī)那么C,互斥規(guī)那么D,有序規(guī)那么

13.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種

聚類類型稱作(B)

A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類

14.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種

聚類類型稱作(B)

A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類

15.回歸分析的以下說法中錯誤的選項是(D)

A作回歸分析的變量之間要有實際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象隨意進(jìn)行回歸分析,

要結(jié)合專業(yè)知識對兩事物之間是否存在因果關(guān)系作出合理解釋和結(jié)論。

B在進(jìn)行線性回歸分析進(jìn)行的數(shù)據(jù)準(zhǔn)備的時候,要求因變量y和自變量x都是符合總體正

態(tài)的隨機(jī)變量。

C回歸直線不要隨意外延

D所有非線性回歸都可以轉(zhuǎn)化為線性回歸

三、程序設(shè)計(10分)

.應(yīng)用R圖表對各類產(chǎn)品供貨走勢圖分析

類別'月份123456789101112

彩電Al

冰箱A2

空調(diào)A3

洗衣機(jī)A4

(1)要求:數(shù)據(jù)由R隨機(jī)數(shù)函數(shù)生成,產(chǎn)生[20,50]間的均勻隨機(jī)數(shù)。

(2)制作趨勢線圖:

解:首先對R進(jìn)行初始化,設(shè)定參數(shù),再生成隨機(jī)數(shù),代碼如下:

rm(list=ls())

options(digits=4)

par(mar=c(4,4,2,1)+0.1,cex=0.75)

Al=runif(12,20,50);Al

A2=runif(12,20,50);A2

A3=runif(12,20,50);A3

A4=runif(12,20,50);A4

四、程序編寫(10分)

設(shè)y=2+3*x+e,試用R擬合y=a+bx的線性回歸模型

解:x=runif(25,10,30)

e=rnorm(25,0,0.3)

y=c(2+3*x+e)

fm=lm(y-x)

fm

Call:

lm(formula=y~x)

Coefficients:

(Intercept)x

2.063.00

故y=2.06+3.00x.

五、程序分析:這是某個程序運行結(jié)果。(15分)

在一個農(nóng)業(yè)試驗中,考慮四種不同的種子品種Al,A2,A3,A4和三種不同的施肥方法B1,

B2,B3得到產(chǎn)量數(shù)據(jù)如表所示。

BithB3

A\325292316

317310318

310320318

330370365

DfSumSqMeanSqFvaluePr(>F)

A33824.31274.755.22620.04126

B2162.581.250.33310.72915

Residuals61463.5243.92

Signif.codes:0、***'0.0010.01、*'0.05'?'0?l''1

試分析種子與施肥對產(chǎn)量有無顯著影響:

結(jié)果數(shù)據(jù)中Df表示自由度,SumSq表示平方和,MeanSq表示均方,F(xiàn)value表

示F值,即F比。PrOF)表示P值,A就是因素A,Rwsiduals是殘差,即誤差。

門)種子P值=0.041266.05,故應(yīng)拒絕H0即不同的種子品種對產(chǎn)量有顯著的影響。

(2)施肥P值=0.72915X).05,沒有充分的理由說明H0不正確,也就是說應(yīng)該接受H0。

即不同的施肥方法對產(chǎn)量無顯著的差異。

六、簡答題:簡述1.安裝R添加包、2.了解已安裝添加包、3.獲取添加包、4.檢查gengxin

版本、5.更新已安裝R軟件包的代碼(15分)

1.>install.packages('DMwR')

2.>installed.packages()

3.library()

4.old.packages()

5.update,packages()

三、程序設(shè)計(10分)

(1)解:首先對R進(jìn)行初始化,設(shè)定參數(shù),再生成隨機(jī)數(shù),代碼如下:

rm(list=ls())

options(digits=4)

par(mar=c(4,4,2,1)+0.1,cex=0.75)

Al=runif(12,20,50);Al

A2=runif(12,20,50);A2

A3=runif(l2,20,50);A3

A4=runif(12,20,50);A4

(2)解:趨勢線圖如下

彩電(A1)冰箱(A2)

空調(diào)(A3)洗衣機(jī)(A4)

代碼如下:

par(mfrow=c(2,2))

plot(A1,type=nr\ylab=n銷售量”,xlab="月份二main=”彩電

(Al)n,xlim=c(l,12),ylim=c(0,50))

plot(A2,type二T,ylab=”銷售量”,xlab="月份",main=M冰箱

(A2)",xlim=c(l,12),ylim=c(0,50))

plot(A3,type=T,ylab二”銷售量”,xlab="月份",main="空調(diào)

(A3)",xlim=c(l,l2),ylim=c(0,50))

plot(A4,type=*'r\ylab=n銷售量,',xlab=u月份”,main="洗衣機(jī)

(A4)n,xlim=c(l,l2),ylim=c(0,50))

浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期

《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)

考核方式:閉卷考試日期:2015年1月日

適用專業(yè)、班級:13經(jīng)濟(jì)統(tǒng)計

題號—二三四五六七A九十總分

得分

應(yīng)評卷人

(共五大題)

一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)

1、數(shù)據(jù)挖掘這課用的編程語言為R語言(對)

2、這門課任課老師名字黃秀海(對)

命3、R是一個有著強(qiáng)大統(tǒng)計分析及作圖功能的軟件系統(tǒng),在GNU協(xié)議General

PublicLicence下免費發(fā)行。(對)

4、R可以看作是貝爾實驗室(BellLaboratories)的RickBecker,John

Chambers和AllanWilks開發(fā)的S語言的一種實現(xiàn)或形式.(對)

5、R的核心開發(fā)與維護(hù)小組通過R的主頁,即R工程(RProject)網(wǎng)

站(://r-project.org)及時發(fā)布有關(guān)信息(對)

6、R語言不能在winxp系統(tǒng)上運行(錯)

7、數(shù)據(jù)挖掘這門課期末考試方式為閉卷()

8、數(shù)據(jù)挖掘上課地點在zufe-F樓()

9、這學(xué)期數(shù)據(jù)挖掘一周課時為3課時()

10、這門課同學(xué)們都希望能通過。()

二、單項選擇題(每題2分,共30分)

1.以下數(shù)據(jù)挖掘任務(wù)中,哪些屬于非定向數(shù)據(jù)挖掘任務(wù)(D)

A分類B回歸C預(yù)測D聚類

2、對于向量(4,7,23.5,76.2,80)來說,length(v)顯示的應(yīng)該是:(B)

(A)4(B)5(C)80(D)76.2

3、以下哪種軟件是集成的窗口型的R語言的編程環(huán)境C

ARwindowBRgoCRstudioDR-111

4、以下哪種軟件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論