版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期
《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)
考核方式:閉卷考試日期:2015年1月日
適用專業(yè)、班級:13經(jīng)濟(jì)統(tǒng)計
題號—二三四五六七A九十總分
得分
應(yīng)評卷人
款
(共五大題)
一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)
1.DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。(對)
2.聚類分析可以看作是一種非監(jiān)督的分類。(對)
命3.分類模型的誤差大致分為兩種:訓(xùn)練誤差(trainingerror)和泛化誤差(generalizationerror).(對)
料
4.具有較高的支持度的項集具有較高的置信度。(錯)
5.利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)(對)八
6.商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強(qiáng)加于商務(wù)之上,一旦
系統(tǒng)設(shè)計完畢,其程序和規(guī)那么不會輕易改變;而前者那么是一個學(xué)習(xí)型系統(tǒng),能自動適應(yīng)商務(wù)不
斷變化的要求。(對)
7.離群點可以是合法的數(shù)據(jù)對象或者值。(對)
8.可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。[錯)
9.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)那么,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。
(對)
10.從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。(錯)
二、單項選擇題(每題2分,共30分)
1.以下說明錯誤的選項是(C)
A性別="男”=>職業(yè)="司機(jī)”,是布爾型關(guān)聯(lián)規(guī)那么
B性別="女”=>avg(收入)=2300,是一個數(shù)值型關(guān)聯(lián)規(guī)那么
C肝炎=>ALT(丙氨酸轉(zhuǎn)氨酶)升高,是一個單層關(guān)聯(lián)規(guī)那么
D性別:“女”=>職業(yè)=“秘書”,是多維關(guān)聯(lián)規(guī)那么。
2.在有指導(dǎo)的數(shù)據(jù)挖掘中,有關(guān)測試集的說法錯誤的選項是(A)
A.測試集和訓(xùn)練集是相互聯(lián)系的
B.測試集是用以測試模型的數(shù)據(jù)集
C.通常測試集大約占總樣本的三分之一
D.K-次交叉驗證中,測試集只有1個,訓(xùn)練集有K-1個。
3.一個對象的離群點得分是該對象周圍密度的逆。這是基于(C)的離群點定義。
A.概率B、鄰近度C、密度D、聚類
4.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不
會共享許多近鄰,所以應(yīng)該選擇(D)的相似度計算方法。
A、平方歐兒里德距離B、余弦距離C、直接相似度D、共享最近鄰
5.(D)將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)v
A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Ward方法
6.(C)是一個觀測值,它與其他觀測值的差異如此之大,以至于疑心它是由不同的機(jī)制產(chǎn)生的。
A、邊界點B、質(zhì)心C、離群點D、核心點
7.考慮兩隊之間的足球比賽:隊。和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝
的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1
的主場進(jìn)行隊1獲勝的概率為(C)
A,0.75B,0.35C,0.4678D,0.5738
8.在基于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序,保證每一個測試記錄都是由覆
蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)
A.基于類的排序方案
B.基于規(guī)那么的排序方案
C.基于度量的排序方案
D.基于規(guī)格的排序方案。
9.以下_(A)_不是將主觀信息參加到模式發(fā)現(xiàn)任務(wù)中的方法。
A、與同一時期其他數(shù)據(jù)比照
B、可視化
C、基于模板的方法
D、主觀興趣度量
10.關(guān)rOLAP和OLTP的區(qū)別描述,小止確的選項是:(C)
A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.
B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).
C.OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比擬簡單且重復(fù)率高.
D.OLAP是以數(shù)據(jù)倉庫為根底的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對
的用戶是相同的.
11.在有關(guān)數(shù)據(jù)倉庫測試,以下說法不正誨的選項是:(D)
A.在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元測試和系統(tǒng)
測試.
B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進(jìn)行單元測試.
C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.
D.在測試之前沒必要制定詳細(xì)的測試方案.
12.關(guān)于根木數(shù)據(jù)的元數(shù)據(jù)是指:(D)
A.根本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;
B.根本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;
C.根本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;
D.根本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.
13,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個箱子值為:(A)
A18.3B22.6C26.8D27.9
14.建立一個模型,通過這個模型根據(jù)的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)
A.根據(jù)內(nèi)容檢索B.建模描述
C.預(yù)測建模D.尋找模式和規(guī)那么
15.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相別離?
(B)
A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈
三、程序設(shè)計(10分)
有10個同類企業(yè)的生產(chǎn)性固定資產(chǎn)價值O)和工業(yè)總產(chǎn)值(V)資料如下
企業(yè)編號生產(chǎn)性固定資產(chǎn)價值工業(yè)總產(chǎn)值
(力兀)(萬元)
1318524
29101019
3200638
4409815
5425913
6502928
7314605
812101516
910221219
1012251624
合計65259801
要求用R語言按以下要求寫出相應(yīng)程序:
①寫出數(shù)據(jù)輸入程序;
②畫出它們的散點圖
③工業(yè)總產(chǎn)值對生產(chǎn)性固定資產(chǎn)線性回歸方程。
>x<-c(318,910,200,409,415,502,314,1210,1022,1225)
>y<-c(524,1019,638,815,913,928,605,1516,1219,1624)
>plot(x,y)
>lm.reg<-lm(y~l+x)
>summary(lm.reg)
四、程序編寫(10分)
用R語言寫出求y=x2+\最大值、最小值的程序。
>x<-seq(-5,5,0,01)
>y<-l+x"2
>plot(y)
>max(y)
>min(y)
五、程序分析:這是某個程序運行結(jié)果。(15分)
Call:
Im(formula=y~xl+x2zdata=sales)
Residuals:
MinIQMedian3QMax
-3.8312-1.2063-0.24361.49193.3025
Coefficients:
EstiHiateStd.ErrorzvaluePr(>|t|)
(Intercept)3.44572842.42669341.4200.181
xl0.49597240.006045582.039<2e-16***
x20.00920490.00D966S9.5216.07e-07***
Signif.codes:0'****0.0D1、**'0.01、*'0.05、?'0.1
Residualstandarderror:2.173on12degreesoffreedom
MultipleR-squared:0.9989,AdjustedR-squared:0.99SS
F-statistic:5699on2and12DF,p-value:<2.2e-16
寫出:⑴殘差情況。
⑵回歸方程的具體形式。
⑶分析方程與回歸參數(shù)的顯著性情況。
⑴殘差情況。
殘差最小值為-3.8312殘差下四分位數(shù)為T.2063殘差中位數(shù)-0.2436
殘差上四分位數(shù)1.4819殘差最大值3.3025(5分)
⑵回歸方程的具體形式。
),=3.4457+0.496x1+0.0092x2(5分)
⑶分析方程與回歸參數(shù)的顯著性情況。
方程F值為5699相應(yīng)概率為2.2e16回歸方程具有顯著性
xl參數(shù)的t值為82.039,概率為2eT6,回歸參數(shù)顯著
x2參數(shù)的t值為9.521,概率為6.07e-07,回歸參數(shù)顯著
六、簡答題:評述數(shù)據(jù)缺失常見的處理方法。
解:常見的數(shù)據(jù)缺失處理有四種方法:
⑴將含有缺失值的案例刪除。(3分)
當(dāng)數(shù)據(jù)較多,缺失數(shù)據(jù)記錄所占比重較小時可用該方法。
⑵根據(jù)變量之間的相關(guān)關(guān)系填補(bǔ)缺失值。(3分)
⑶根據(jù)案例之間的相似性填補(bǔ)缺失值。(4分)
⑷使用能夠處理缺失值數(shù)據(jù)的工具。(5分)
(15分)
浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期
《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)
考核方式:閉卷考試日期:2015年1月日
適用專業(yè)、班級:13經(jīng)濟(jì)統(tǒng)計
題號一二三四五六七A九十總分
得分
評卷人
款
(共五大題)
一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)
1.序列數(shù)據(jù)沒有時間戳。(對)
2.定量屬性可以是整數(shù)值或者是連續(xù)值。(對)
篇3.可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。[錯)
njp
卦4.DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。(對)
5.OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)開展之后迅猛
開展起來的一種新技術(shù)。(對)
6.SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器
(minimalmarginclassifier)(錯)
7.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差異越大,聚類的效果就越差。(錯)
8.聚類分析可以看作是一種非監(jiān)督的分類。(對)
9.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(錯
10.給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應(yīng)該被視為較優(yōu)。(錯)
二、單項選擇題(每題2分,共30分)
1.端是為消除不確定性所需要獲得的信息量,投擲均勻正六面體般子的埼是:(B)
A1二匕特B2.6比特C3.2比特D3.8比特
2.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小標(biāo)準(zhǔn)化的方法將屬性的值
映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)
A0.821B1.224C1.458D0.716
3.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,
20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均
值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個箱子值為:(A)
A18.3B22.6C26.8D27.9
4.考慮值集{12243324556826},其四分位數(shù)極差是:(A)
A31B24C55D3
5.一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。那
么年級屬性的眾數(shù)是:(A)
A一年級B二年級C三年級D四年級
6.(C)是一個觀測值,它與其他觀測值的差異如此之大,以至于疑心它是由不同的機(jī)制產(chǎn)生的。
A、邊界點B、質(zhì)心C、離群點D、核心點
7.BIRCH是一種(B
A、分類器B、聚類算法C、關(guān)聯(lián)分析算法D、特征選擇算法
8.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A)的離群點檢測。
A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術(shù)
9.(C)將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。
A、MIN(單鏈JB、MAX(全鏈JC、組平均D、Ward方法
10.(D)將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是?種凝聚層次聚類技術(shù)。
A、MIN(單鏈)B、MAX卜全鏈)C、組平均D、Ward方法
11.DBSCAN在最壞情況下的時間復(fù)雜度是(B)o
A、O(m)B、O(m2)C^O(logm)D、O(m*logm)
12.在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那么它的類型是
(C)o
A、基于圖的凝聚度B、基于原型的凝聚度C、基于原型的別離度D、基于圖的凝
聚度和別離度
13.關(guān)于K均值和DBSCAN的比擬,以下說法不正確的選項是(A)。
A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C,K均值很難處理毛球形的簇和不司大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。
D、K均值可以發(fā)現(xiàn)不是明顯別離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的
O
14.以下是哪一個聚類算法的算法流程:①構(gòu)造k—最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat:
合并關(guān)于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。
(C
A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)
15.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般
不會共享許多近鄰,所以應(yīng)該選擇(D)的相似度計算方法。
A、平方歐幾里德距離B、余弦距離C、直接相似度D、共享最近鄰
三、程序設(shè)計(10分)
用函數(shù)rep構(gòu)造一個向量x,它由5個3,10個2,9個1構(gòu)成。
四、程序編寫(10分)
自已編寫個程序求數(shù)據(jù)y=1yLy2,y3…yn)的均值標(biāo),準(zhǔn)差,偏度與峰度
五、程序分析:這是某個程序運行結(jié)果。(15分)
Binomialdistribution,n=20,p=0.2
(
d
c
±
)
E
O
£
q
p
k
寫出此圖程序
>n<-20
>p<-0.2
>k<-seq(0,n)
>plot(k,dbinom(k,n,p),type-h,,main-Binomialdistribution,n=20,p=0.2*,xlab='k')
六、簡答題:說出常用分布的概率函數(shù)中的三種(15分)
正念分布
>curve(dnorm(x,0,1),xlim=c(-5,5),ylim=c(0,.8),
col=red',lwd=2,lty=3)
>curve(dnorm(x,0,2),add=T,col=*blue\lwd=2,lty=2)
>curve(dnorm(x,0,1/2),add=T,lwd=2,lty=l)
>title(main="Gaussiandistributions0)
>Iegend(par('usr')[2],par(*usr')[4],xjust=l,
c(,sigma=l',,sigma=2\,sigma=l/2'),
lwd=c(2,2,2),
lty=c(3,2,l),
col=c('red','blue',par(,'fg',)?
超幾何分布
>N<-30
>M<-10
>n<-10
>k<-seq(0J0)
>plot(k,dhyper(k,N,M,n),type-h',
main='Hypergeometricdistribution,
N=30,M=10,n=10,,xlab='k,)
幾何分布
>p<-0.5
>k<-seq(0,10)
>plot(k,dgeom(k,p),type=,h,,
main='Geometricdistribution,p=0.5',xlab='k')
泊松分布
>lambda<-4.0
>k<-seq(0,20)
>plot(k,dpois(k,lambda),type='h',
mair.=,Poissondistribution,lambda=5.5',xlab='k,)
>n<-20
>p<-0.2
>k<-seq(0,n)
>plol(k,dbinom(k,n,p)jype='h',
mair-Binomialdistribution,n=20,p=0.2,,Klab=,k,)
浙江財經(jīng)大學(xué)2015~2016學(xué)年第一學(xué)期
《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)
考核方式:閉卷考試日期:2015年1月日
適用專業(yè)、班級:14經(jīng)濟(jì)統(tǒng)計
題號—二三四五六七A九十總分
得分
評卷人
(共五大題)
一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)
1、數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)那么,從而能更好的完成描述數(shù)據(jù)、預(yù)
測數(shù)據(jù)等任務(wù)。(對)
2、尋找模式和規(guī)那么主要是對數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)那么以及模式。(錯)
3、離群點可以是合法的數(shù)據(jù)對象或者值。(對)
4、離散屬性總是具有有限個值。(錯)
5、序列數(shù)據(jù)沒有時間戳。(對)
6、定量屬性可以是整數(shù)值或者是連續(xù)值。(對)
7、關(guān)聯(lián)規(guī)那么挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)那么。(錯)
8、分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。
(對)
9、可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。(錯)
s10、聚類分析可以看作是一種非監(jiān)督的分類。(對)
“
叩
二、單項選擇題(每題2分,共30分)
料1、在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘不包括(D)
A分類B關(guān)聯(lián)C估值D預(yù)言
,
手2、下面不屬于創(chuàng)立新屬性的相關(guān)方法的是:(C)
布A特征提取
B特征修改
C映射數(shù)據(jù)到新的空間
D特征構(gòu)造
3、數(shù)據(jù)分類的評價準(zhǔn)那么包括(C)
a精確度b查全率和查準(zhǔn)率cF-Measured兒何均值
Aa、b、cBb、c、dCa、b、dDa、b、c、d
4、層次聚類方法包括(A)
a劃分聚類方法b凝聚型層次聚類方法c分解型層次聚類方法d基于密度聚類方法
Aa、bBa、cCb、cDb、d
5、將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(D)
A.頻繁模式挖掘B.分類和預(yù)測
C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘
6、什么是KDD?(A)
A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B.領(lǐng)域知識發(fā)現(xiàn)
C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn)
7、下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)
A變量代換B離散化C聚集D估計遺漏值
8、下面哪個不屬于數(shù)據(jù)的屬性類型:(D)
A標(biāo)稱B序數(shù)C區(qū)間D相異
9、以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:(D)
A嵌入B過濾C包裝D抽樣
10、以下哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):(B)
A等高線圖B餅圖C曲面圖D矢量場圖
11、在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為(B)
A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘
12、以下哪些分類方法可以較好地防止樣本的不平衡問題,(A)
AKNNBSVMCBayesD神經(jīng)網(wǎng)絡(luò)
13、在基于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序,保證每一個測
試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)
A.基于類的排序方案
B.基于規(guī)那么的排序方案
C.基于度量的排序方案
D.基于規(guī)格的排序方案
14、檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A)的離群點檢測。
A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術(shù)
15、在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那
么它的類型是(C)o
A、基于圖的凝聚度
B、基于原型的凝聚度
C、基于原型的別離度
D、基丁圖的凝聚度和別離度
三、程序設(shè)計(10分)
表有關(guān)15個地區(qū)某種食物年需求量(X,單位:10噸)和地區(qū)人口增加量(X,單位:千人)
的資料.利用此表數(shù)據(jù)展示一元回歸模型的統(tǒng)計分析過程。
某種食物年需求量與人口增加量
要求用R語言按以下要求寫出相應(yīng)程序:
①寫出數(shù)據(jù)輸入程序;
②畫出它們的散點圖
③食物年需求量對地區(qū)人口增加量線性回歸方程。
編123456789101112131415
號
X274180375205862659833019553430372236157370
Y162120223131671698119211655252234144103212
>x
<-c(274,180,375,205,86,265,98,330,195,53,430,372,236,157,370)
>y<-c(162,120,223,131,67,169,81,192,116,55,252,234,144,103,212)
>plot(x,y)
>lm.reg<-lm(y~x)
>summary(lm.reg)
四、程序編寫(10分)
用R語言寫出求y=2入2+3最大值、最小值的程序
>x<-seq(-5,5,0.01)
>y<-3+2*xA2
>plot(y)
>max(y)
>min(y)
五、程序分析:這是某個程序運行結(jié)果。(15分)
Call:
lm(fbrmula=y~x1+x2+x3,data=blood)
Residuals:
MinIQMedian3QMax
-3.2692-1.2305-0.20231.48864.6570
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Inlercept)6.49962.39622.7130.01242*
x10.40230.15412.6120.01559?
X2-0.28700.1117-2.5700.01712*
X30.66320.23032.8800.00845**
Sigmt.codes:0'*"'0.001'"'0.01'*'0.0510.1''1
Residualstandarderror:1.972on23degreesoffreedom
MultipleR-squared:0.5981,AdjustedR-squared:0.5456
F-statistic:11.41on3and23DF,p-value:8.793e-05
寫出:⑴殘差情況。
⑵回歸方程的具體形式。
⑶分析方程與回歸參數(shù)的顯著性情況。
⑴殘差情況。
殘差最小值為-3.2692殘差下四分位數(shù)為T.2305殘差中位數(shù)-0.2023
殘差上四分位數(shù)1.4886殘差最人值4.6570(5分)
⑵回歸方程的具體形式。
7=6.4996+0.4023x1-0.2870x2+0.6632%3(5分)
⑶分析方程與回歸參數(shù)的顯著性情況。
方程F值為11.41相應(yīng)概率為8.793e-05回歸方程具有顯著性
xl參數(shù)的t值為2.612,概率為0.01559,回歸參數(shù)顯著
x2參數(shù)的t值為-2.570,概率為0.01712,回歸參數(shù)顯著(5分)
x3參數(shù)的I值為2.880,概率為0.00845,回歸參數(shù)顯著
六、簡答題:數(shù)據(jù)挖掘的分類方法有哪些,請詳細(xì)闡述之.(15分)
分類方法歸結(jié)為四種類型:
基于距離的分類方法(3分)
決策樹分類方法(3分)
貝葉斯分類方法(3分)
規(guī)那么歸納有四種策略:減法、加法,先加后減、先減后加策略(6分)
浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期
《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)
考核方式:閉卷考試日期:2015年1月日
適用專業(yè)、班級:14經(jīng)濟(jì)統(tǒng)計
題號—二三四五六七A九十總分
得分
應(yīng)評卷人
款
(共五大題)
一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)
1、模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型那么對變量
變化空間的一個有限區(qū)域做出描述。(錯)
命2、Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)
料
過程中提取信息.(錯)
3、序列數(shù)據(jù)沒有時間戳。(對)
4、商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強(qiáng)加于商
務(wù)之上,一旦系統(tǒng)設(shè)計完畢,其程序和規(guī)那么不會輕易改變;而前者那么是一個學(xué)習(xí)型
系統(tǒng),能自動適應(yīng)商務(wù)不斷變化的要求。(對)
5、在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗
誤差開始增大,這是出現(xiàn)了模型擬合缺乏的問題。(錯)
6、模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述:模型那么對變量
變化空間的一個有限區(qū)域做出描述。(錯)
7、如果規(guī)那么不滿足置信度閾值,那么形如的規(guī)那么一定也不滿足置信度閾值,其中是
X的子集。(對)
8、給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應(yīng)該被視為較
優(yōu)。(錯)
9、數(shù)據(jù)倉庫中間層0LAP效勞器只能采用關(guān)系型0LAP(錯)
10、利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)(對)
二、單項選擇題(每題2分,共30分)
1.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽
的數(shù)據(jù)相別離?(B)
A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈
2.對于向量v〈-c(4,7,23.5,76.2,80)來說,length(v)顯示的應(yīng)該是:(C)
(A)4(B)5(C)80(D)76.2
3,為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?
(B)
A.探索性數(shù)據(jù)分析B.建模描述
C,預(yù)測建模D.尋找模式和規(guī)那么
4.假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,
204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱
子內(nèi)?(B)
A第一個B第二個C第三個D第四個
5.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,
15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,
46,52,70,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二
個箱子值為:(A)
A18.3B22.6C26.8D27.9
6.關(guān)于根本數(shù)據(jù)的元數(shù)據(jù)是指:(D)
A.根本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;
B.根本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;
C.根本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;
D.根本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.
7.在有關(guān)數(shù)據(jù)倉庫測試,以下說法不正確的選項是:(D)
A.在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元
測試和系統(tǒng)測試.
B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進(jìn)行單元測試.
C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.
D.在測試之前沒必要制定詳細(xì)的測試方案.
8.OLAM技術(shù)一般簡稱為"數(shù)據(jù)聯(lián)機(jī)分析挖掘”,下面說法正確的選項是:(D)
A.OLAP和OLAM都基于客戶機(jī)/效勞器模式,只有后者有與用戶的交互性;
B.由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.
C.基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.
D.OLAM效勞器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體
作一定的操作.
9.下面選項中t不是s的子序列的是(C)
A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6),{8}>t=<{2},{8}>
C、s=<{1,2},{3,4}>t=<{l},{2}>
D、s=<{2,4},{2,4}>t=<{2},{4}>
10.以下哪些分類方法可以較好地防止樣本的不平衡問題(A)
A,KNNB,SVMC,BayesD,神經(jīng)網(wǎng)絡(luò)
11.在基于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序,保證每一
個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為()
A.基于類的排序方案B
B.基于規(guī)那么的排序方案
C.基于度量的排序方案
D.基于規(guī)格的排序方案。
12.如果允許一條記錄觸發(fā)多條分類規(guī)那么,把每條被觸發(fā)規(guī)那么的后件看作是對相
應(yīng)類的一次投票,然后計票確定測試記錄的類標(biāo)號,稱為1A)
A,無序規(guī)那么B,窮舉規(guī)那么C,互斥規(guī)那么D,有序規(guī)那么
13.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種
聚類類型稱作(B)
A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類
14.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種
聚類類型稱作(B)
A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類
15.回歸分析的以下說法中錯誤的選項是(D)
A作回歸分析的變量之間要有實際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象隨意進(jìn)行回歸分析,
要結(jié)合專業(yè)知識對兩事物之間是否存在因果關(guān)系作出合理解釋和結(jié)論。
B在進(jìn)行線性回歸分析進(jìn)行的數(shù)據(jù)準(zhǔn)備的時候,要求因變量y和自變量x都是符合總體正
態(tài)的隨機(jī)變量。
C回歸直線不要隨意外延
D所有非線性回歸都可以轉(zhuǎn)化為線性回歸
三、程序設(shè)計(10分)
.應(yīng)用R圖表對各類產(chǎn)品供貨走勢圖分析
類別'月份123456789101112
彩電Al
冰箱A2
空調(diào)A3
洗衣機(jī)A4
(1)要求:數(shù)據(jù)由R隨機(jī)數(shù)函數(shù)生成,產(chǎn)生[20,50]間的均勻隨機(jī)數(shù)。
(2)制作趨勢線圖:
解:首先對R進(jìn)行初始化,設(shè)定參數(shù),再生成隨機(jī)數(shù),代碼如下:
rm(list=ls())
options(digits=4)
par(mar=c(4,4,2,1)+0.1,cex=0.75)
Al=runif(12,20,50);Al
A2=runif(12,20,50);A2
A3=runif(12,20,50);A3
A4=runif(12,20,50);A4
四、程序編寫(10分)
設(shè)y=2+3*x+e,試用R擬合y=a+bx的線性回歸模型
解:x=runif(25,10,30)
e=rnorm(25,0,0.3)
y=c(2+3*x+e)
fm=lm(y-x)
fm
Call:
lm(formula=y~x)
Coefficients:
(Intercept)x
2.063.00
故y=2.06+3.00x.
五、程序分析:這是某個程序運行結(jié)果。(15分)
在一個農(nóng)業(yè)試驗中,考慮四種不同的種子品種Al,A2,A3,A4和三種不同的施肥方法B1,
B2,B3得到產(chǎn)量數(shù)據(jù)如表所示。
BithB3
A\325292316
317310318
310320318
330370365
DfSumSqMeanSqFvaluePr(>F)
A33824.31274.755.22620.04126
B2162.581.250.33310.72915
Residuals61463.5243.92
Signif.codes:0、***'0.0010.01、*'0.05'?'0?l''1
試分析種子與施肥對產(chǎn)量有無顯著影響:
結(jié)果數(shù)據(jù)中Df表示自由度,SumSq表示平方和,MeanSq表示均方,F(xiàn)value表
示F值,即F比。PrOF)表示P值,A就是因素A,Rwsiduals是殘差,即誤差。
門)種子P值=0.041266.05,故應(yīng)拒絕H0即不同的種子品種對產(chǎn)量有顯著的影響。
(2)施肥P值=0.72915X).05,沒有充分的理由說明H0不正確,也就是說應(yīng)該接受H0。
即不同的施肥方法對產(chǎn)量無顯著的差異。
六、簡答題:簡述1.安裝R添加包、2.了解已安裝添加包、3.獲取添加包、4.檢查gengxin
版本、5.更新已安裝R軟件包的代碼(15分)
1.>install.packages('DMwR')
2.>installed.packages()
3.library()
4.old.packages()
5.update,packages()
三、程序設(shè)計(10分)
(1)解:首先對R進(jìn)行初始化,設(shè)定參數(shù),再生成隨機(jī)數(shù),代碼如下:
rm(list=ls())
options(digits=4)
par(mar=c(4,4,2,1)+0.1,cex=0.75)
Al=runif(12,20,50);Al
A2=runif(12,20,50);A2
A3=runif(l2,20,50);A3
A4=runif(12,20,50);A4
(2)解:趨勢線圖如下
彩電(A1)冰箱(A2)
空調(diào)(A3)洗衣機(jī)(A4)
代碼如下:
par(mfrow=c(2,2))
plot(A1,type=nr\ylab=n銷售量”,xlab="月份二main=”彩電
(Al)n,xlim=c(l,12),ylim=c(0,50))
plot(A2,type二T,ylab=”銷售量”,xlab="月份",main=M冰箱
(A2)",xlim=c(l,12),ylim=c(0,50))
plot(A3,type=T,ylab二”銷售量”,xlab="月份",main="空調(diào)
(A3)",xlim=c(l,l2),ylim=c(0,50))
plot(A4,type=*'r\ylab=n銷售量,',xlab=u月份”,main="洗衣機(jī)
(A4)n,xlim=c(l,l2),ylim=c(0,50))
浙江財經(jīng)大學(xué)2014~2015學(xué)年第一學(xué)期
《數(shù)據(jù)挖掘》課程期末考試試卷(A卷)
考核方式:閉卷考試日期:2015年1月日
適用專業(yè)、班級:13經(jīng)濟(jì)統(tǒng)計
題號—二三四五六七A九十總分
得分
應(yīng)評卷人
款
(共五大題)
一、判斷題(以下各題正確的打錯誤的打X。每題2分,共20分)
1、數(shù)據(jù)挖掘這課用的編程語言為R語言(對)
2、這門課任課老師名字黃秀海(對)
命3、R是一個有著強(qiáng)大統(tǒng)計分析及作圖功能的軟件系統(tǒng),在GNU協(xié)議General
料
PublicLicence下免費發(fā)行。(對)
4、R可以看作是貝爾實驗室(BellLaboratories)的RickBecker,John
Chambers和AllanWilks開發(fā)的S語言的一種實現(xiàn)或形式.(對)
5、R的核心開發(fā)與維護(hù)小組通過R的主頁,即R工程(RProject)網(wǎng)
站(://r-project.org)及時發(fā)布有關(guān)信息(對)
6、R語言不能在winxp系統(tǒng)上運行(錯)
7、數(shù)據(jù)挖掘這門課期末考試方式為閉卷()
8、數(shù)據(jù)挖掘上課地點在zufe-F樓()
9、這學(xué)期數(shù)據(jù)挖掘一周課時為3課時()
10、這門課同學(xué)們都希望能通過。()
二、單項選擇題(每題2分,共30分)
1.以下數(shù)據(jù)挖掘任務(wù)中,哪些屬于非定向數(shù)據(jù)挖掘任務(wù)(D)
A分類B回歸C預(yù)測D聚類
2、對于向量(4,7,23.5,76.2,80)來說,length(v)顯示的應(yīng)該是:(B)
(A)4(B)5(C)80(D)76.2
3、以下哪種軟件是集成的窗口型的R語言的編程環(huán)境C
ARwindowBRgoCRstudioDR-111
4、以下哪種軟件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國嬰兒培養(yǎng)箱行業(yè)發(fā)展現(xiàn)狀及投資競爭力分析報告
- 2024-2030年中國女士文胸行業(yè)市場銷售策略及未來發(fā)展前景展望報告
- 2024-2030年中國垃圾壓實機(jī)行業(yè)運行動態(tài)及投資發(fā)展前景調(diào)研報告
- 2024-2030年中國衛(wèi)生巾原紙行業(yè)發(fā)展?fàn)顩r規(guī)劃分析報告
- 2024年幕墻施工承攬協(xié)議標(biāo)準(zhǔn)文本
- 2024年版協(xié)議文件管理及存儲規(guī)范版
- 梅河口康美職業(yè)技術(shù)學(xué)院《多媒體信息檢索》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年度沈陽二手房買賣合同抵押權(quán)登記服務(wù)3篇
- 滿洲里俄語職業(yè)學(xué)院《矩陣論矩陣論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年標(biāo)準(zhǔn)期房買賣協(xié)議細(xì)則版
- 跨境電商基礎(chǔ)與實務(wù) 課件 項目七 跨境支付與結(jié)算
- 平面的投影完整版本
- 2024年大學(xué)試題(管理類)-薪酬管理考試近5年真題集錦(頻考類試題)帶答案
- 生命安全與救援學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 北師大版四年級上冊書法練習(xí)指導(dǎo)-教案
- 《規(guī)律作息-健康睡眠》主題班會課件
- Unit5 Our New rooms Lesson1(教學(xué)設(shè)計)2024-2025學(xué)年重大版英語五年級上冊
- 2024至2030年中國采棉機(jī)行業(yè)深度調(diào)研及投資戰(zhàn)略分析報告
- 英語B級單詞大全
- 智能充電站轉(zhuǎn)讓協(xié)議書范本
- 清醒俯臥位通氣護(hù)理專家共識
評論
0/150
提交評論