數(shù)據(jù)挖掘考試題【含答案】_第1頁
數(shù)據(jù)挖掘考試題【含答案】_第2頁
數(shù)據(jù)挖掘考試題【含答案】_第3頁
數(shù)據(jù)挖掘考試題【含答案】_第4頁
數(shù)據(jù)挖掘考試題【含答案】_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第一章下列屬于數(shù)據(jù)挖掘任務(wù)的是()根據(jù)性別劃分公司的顧客計算公司的總銷售額預(yù)測一對骰子的結(jié)果利用歷史記錄預(yù)測公司的未來股價可以在不同維度合并數(shù)據(jù),從而形成數(shù)據(jù)立方體的是()數(shù)據(jù)庫數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)目的是縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果的是()數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約下述四種方法哪一種不是常見的分類方法()決策樹支持向量K-Means(聚類)樸素貝葉斯分類下列任務(wù)中,屬于數(shù)據(jù)挖掘技術(shù)在商務(wù)智能方面應(yīng)用的是()欺詐檢測垃圾郵件識別根據(jù)因特網(wǎng)的搜索引擎查找特定的Web頁面定向營銷異常檢測的應(yīng)用包括()網(wǎng)絡(luò)攻擊預(yù)測某股票的未來價格計

2、算公司的總銷售額根據(jù)性別劃分公司顧客將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是哪個步驟的任務(wù)()頻繁模式挖掘分類和預(yù)測數(shù)據(jù)預(yù)處理數(shù)據(jù)流挖掘KDD是(數(shù)據(jù)挖掘與知識發(fā)現(xiàn))下列有關(guān)離群點的分析錯誤的是()一般情況下離群點會被當作噪聲而丟棄離群點即是噪聲數(shù)據(jù)在某些特殊應(yīng)用中離群點有特殊的意義信用卡在不常消費地區(qū)突然消費大量金額的現(xiàn)象屬于離群點分析范疇下列關(guān)于模式識別的相關(guān)說法中錯誤的是()模式識別的本質(zhì)是抽象出不同事物中的模式并由此對事物進行分類醫(yī)療診斷屬于模式識別的研究內(nèi)容之一手機的指紋解鎖技術(shù)不屬于模式識別的應(yīng)用自然語言理解也包含模式識別問題()不屬于數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域。商務(wù)智能信息識別搜索

3、引擎醫(yī)療診斷目前數(shù)據(jù)分析和數(shù)據(jù)挖掘面臨的挑戰(zhàn)性問題不包括()數(shù)據(jù)類型的多樣化高維度數(shù)據(jù)離群點數(shù)據(jù)分析與挖掘結(jié)果可視化常見的機器學習方法有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習數(shù)據(jù)挖掘是從大規(guī)模的數(shù)據(jù)中抽取或挖掘出感興趣的知識或模式的過程或方法。頻繁模式是指數(shù)據(jù)集中頻繁出現(xiàn)的模式離群點是指全局或者局部范圍內(nèi)偏離一般水平的觀測對象聯(lián)機分析處理是數(shù)據(jù)倉庫的主要應(yīng)用分類是指通過建立模型預(yù)測離散標簽,回歸是通過建立連續(xù)值模型推斷新的數(shù)據(jù)的某個數(shù)值型屬性。數(shù)據(jù)庫是面向事務(wù),數(shù)據(jù)倉庫是面向主題數(shù)據(jù)挖掘主要側(cè)重解決的四類問題:分類、聚類、關(guān)聯(lián)、預(yù)測數(shù)據(jù)分析是指采用適當?shù)慕y(tǒng)計分析方法對收集到的數(shù)據(jù)進行分析、概括和總結(jié)

4、。特征化是一個目標類數(shù)據(jù)的一般特性或特性的匯總。無監(jiān)督學習可以在沒有標記的數(shù)據(jù)集上進行學習。對聚類就是把一些對象劃分為多個組或者聚簇,從而使同組內(nèi)對象間比較相似而不同組對象間差異較大。對事務(wù)數(shù)據(jù)庫的每個記錄代表一個事務(wù)。對數(shù)據(jù)倉庫和數(shù)據(jù)庫其實是相同的,都是數(shù)據(jù)或信息的存儲系統(tǒng)。錯區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。對離群點因偏離一般水平而不需要考慮和研究。錯聚類過程的輸入對象有與之關(guān)聯(lián)的目標信息。錯數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。對數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘

5、。對數(shù)據(jù)倉庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)庫存儲的一般是歷史數(shù)據(jù)。錯數(shù)據(jù)分析是指采用適當?shù)慕y(tǒng)計分析方法對收集到的數(shù)據(jù)進行分析、概括和總結(jié),對數(shù)據(jù)進行恰當?shù)拿枋?,并提取出有用的信息的過程。對數(shù)據(jù)分析的定義:數(shù)據(jù)分析就是對數(shù)據(jù)進行分析。專業(yè)的說法,數(shù)據(jù)分析是指根據(jù)分析目的,用適當?shù)慕y(tǒng)計分析方法及工具,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用。對數(shù)據(jù)庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。錯(說的是數(shù)據(jù)倉庫)第二章下面哪個不屬于數(shù)據(jù)的屬性類型()標稱序數(shù)區(qū)間相異屬于定量的屬性類型是()標稱序數(shù)區(qū)間相異一所大學內(nèi)的各年紀人數(shù)分別為:一年級20

6、0人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是()一年級二年級三年級四年級假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為()0.8211.2241.4580.716考慮數(shù)據(jù)集12243324556826,其四分位數(shù)極差是()3124553光年所屬的屬性類型為()標稱屬性序數(shù)屬性區(qū)間標度屬性比率標度屬性某班數(shù)學期末考成績分組數(shù)據(jù)如下,則數(shù)據(jù)的中位數(shù)區(qū)間是()60至69分70至79分80至89分90至100分軍銜所屬的屬性類型為()標稱屬性序數(shù)屬性二元屬性

7、數(shù)值屬性計算p1(2,1,4,10)和p2(3,0,3,8)兩個對象之間的曼哈頓距離()4253用AM和PM表示的時間的屬性類型是()標稱序數(shù)二元區(qū)間屬性可分為標稱、序數(shù)、二元和數(shù)值四類中心趨勢度量包括眾數(shù)、均值、中位數(shù)和中列數(shù)假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對應(yīng)的頻率如下。則數(shù)據(jù)的近似分組中位數(shù)是_。32.94某部門的月薪情況如下(單位:千元),30,33,48,50,53,53,57,60,64,68,70,70,90,則該部門員工的月薪的均值為_。57.38數(shù)據(jù)集5,10,11,13,15,15,35,50,55,72,92,204,215的中位數(shù)為_,眾數(shù)為_。3515假設(shè)小

8、明某一學期的考試成績及每門課的學分如下表所示,則小明本學期的加權(quán)平均成績?yōu)?1.45。給定兩個對象的元組x=(4,3,5,1)與y=(1,6,7,3),它們之間的余弦相似度為_。0.86小明參加數(shù)學競賽選拔賽,他十次測試成績?yōu)椋?6,84,90,86,81,87,86,82,85,83。則小明同學十次測試成績的方差是_。13.20已知點A的空間坐標為(6,30,9),點B的空間坐標為(10,35,2),則A與B之間的切比雪夫距離為_。7只有非零值才重要的二元屬性被稱作_。非對稱二元屬性某組同學的成績評定結(jié)果如下,則A與B,A與C,B與C之間的相異性是_、_和_。給定兩個詞向量元祖A(6,2,5

9、,8)和B(4,5,2,6),則這兩個對象之間的閔可夫斯基距離(其中h=4)是_。3.73假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,45,52,70。則該組數(shù)據(jù)的中列數(shù)是41.50。人的血型屬于標稱屬性。對酒店的星級屬于數(shù)值屬性。錯(序列)某品種玉米苗中抽取10株,測得它們的株高為:21,42,39,14,19,22,37,41,40,25(單位:cm),則玉米苗株高的標準差為10.21。對離散屬性總是具有有限個值。錯標稱

10、屬性的值提供了足夠的信息用于區(qū)分對象。對數(shù)值屬性的值提供足夠的信息確定對象的順序。錯歐幾里得距離、曼哈頓距離、閔可夫斯基距離和切比雪夫距離均滿足非負性、同一性和三角不等式。對余弦相似性利用向量空間中兩個向量夾角的余弦值來衡量兩個個體間的差異。余弦值越接近0,夾角越大,向量之間匹配越大(小)。余弦值越接近1,夾角越小,向量之間匹配越小。錯二元屬性的相異性有兩種,一種是對稱的二元相異性,另一種是非對稱的二元相異性。對已知點X的空間坐標為(3,4,2),點Y的空間坐標為(1,6,1),則X與Y的歐幾里得距離為3。對計算由不對稱的二元變量描述的對象間的相異度可以使用Jaccard系數(shù);計算用分類變量描

11、述的對象間的相異度可以采用屬性值匹配的方法(屬性值匹配,相似度為1,否則為0);對第三章下面屬于維歸約常用的線性代數(shù)技術(shù)的有()主成分分析特征提取特征加權(quán)離散化將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)()頻繁模式挖掘分類和預(yù)測數(shù)據(jù)預(yù)處理數(shù)據(jù)流挖掘假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內(nèi)()第一個第二個第三個第四個數(shù)據(jù)清理不包括以下哪些處理()缺失值的處理噪聲的處理重復(fù)數(shù)據(jù)的處理不一致數(shù)據(jù)的處理數(shù)據(jù)規(guī)范化方法包括()數(shù)據(jù)歸約數(shù)據(jù)

12、泛化數(shù)據(jù)集成最小最大規(guī)范化給定一組二維樣本S,S=S1,S2,S3,S4,S5=(1,2),(3,0),(4,3),(5,7),(1,6),在距離閾值d大于等于4、非鄰點樣本的閾值部分p大于等于3時的噪聲數(shù)據(jù)為()歐幾里得距離S4,S5S1,S4S2,S5S1,S5兩組向量x=6,4,7,10,8,y=5,6,1,4,12的協(xié)方差為()cov(x,y)=Exy-ExEy=E(x-Ex)(y-Ey)0.10.20.30.4假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元祖中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,3

13、3,35,35,35,35,36,40,45,46,52,70。對age值35進行小數(shù)定標規(guī)范化轉(zhuǎn)換,轉(zhuǎn)換后的值為()0.320.380.350.40已知某工廠車間工人的年終獎,其均值為34349元,標準差為16928元,對于觀測值為57000元,使用z-score方法對其進行規(guī)范化為()1.341.430.350.57假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元祖中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。使用min-max規(guī)范化,將age值3

14、5轉(zhuǎn)換d到0.0,1.0區(qū)間的值為()0.350.700.1750.386下列數(shù)據(jù)變換類型及方法正確的是()數(shù)據(jù)平滑:去噪,將連續(xù)數(shù)據(jù)離散化,增加粒度數(shù)據(jù)聚集:對數(shù)值屬性進行監(jiān)督或無監(jiān)督離散化特征構(gòu)造:構(gòu)造出新的屬性數(shù)據(jù)規(guī)范化:使數(shù)據(jù)按照比例縮放,落入特定區(qū)域數(shù)據(jù)變換的類型包括()數(shù)據(jù)預(yù)處理數(shù)據(jù)泛華數(shù)據(jù)離散化特征構(gòu)造數(shù)據(jù)規(guī)約的技術(shù)包括維規(guī)約、數(shù)量規(guī)約、數(shù)據(jù)壓縮下面哪些屬于數(shù)據(jù)預(yù)處理的方法()變量代換離散化聚集估計遺漏值在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各方法正確的有()忽略元組從數(shù)據(jù)中挑選一個數(shù)據(jù)填寫使用屬性的平均值填寫空缺值使用與給定元組屬同一類的所有樣本的

15、平均值數(shù)據(jù)清理的原則包括()相異性原則連續(xù)性原則唯一性原則空值原則高質(zhì)量數(shù)據(jù)的要求有準確性、完整性、一致性數(shù)據(jù)預(yù)處理的技術(shù)手段包括數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元祖中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。已知age的標準偏差為12.94年,使用z-score規(guī)范化對age值35進行轉(zhuǎn)換,轉(zhuǎn)換后得到的值為_。0.386在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上的缺失值是常有的。處理該問題的常用方法有刪

16、除數(shù)據(jù)對象或?qū)傩?、估計遺漏值、忽略遺漏值對數(shù)據(jù)進行偏差檢測的3個原則分別是唯一性原則、連續(xù)性原則、空值原則數(shù)據(jù)歸約技術(shù)包括維歸約、數(shù)量歸約、數(shù)據(jù)壓縮在使用分箱法實現(xiàn)特征離散化時,可以用每個箱中的_中值_或_平均值_替換箱中所有的值。某工廠車間工人的年終獎金結(jié)果如下(已按照遞增排序):15750,20000,25000,36000,48000,50000,52000,56000,57000,68000,10000,(元)。使用最小-最大值規(guī)范化將獎金57000轉(zhuǎn)換到0.0,1.0區(qū)間為0.35;使用小數(shù)定標規(guī)范化將獎金57000轉(zhuǎn)換到-1,1區(qū)間為0.057數(shù)據(jù)清理一般需要對_缺失值_和_噪聲_

17、進行處理。我們要進行數(shù)據(jù)預(yù)處理,是因為原始數(shù)據(jù)大多都是“臟數(shù)據(jù)”。四種處理缺失數(shù)據(jù)的方法是_、_、_、_。人工填寫、使用全局常量填充缺失值、直接刪除缺失屬性的記錄、使用屬性的中心趨勢度量值填充缺失值數(shù)據(jù)平滑的方法包括_、_和_。分箱、回歸、聚類噪聲是指被測量的變量產(chǎn)生的錯誤或誤差。錯數(shù)據(jù)規(guī)約技術(shù)可以得到數(shù)據(jù)集的規(guī)約表示,雖然小,但仍大致保持原數(shù)據(jù)的完整性。對數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對數(shù)據(jù)預(yù)處理的任務(wù)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)泛化。錯唯一性原則是指一個屬性的每個值都是唯一的,不能和這個屬性的其他值相同。對數(shù)據(jù)變換策略主要包括光滑

18、、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造和離散化。對每個屬性的最大值和最小值之間沒有缺失值既滿足連續(xù)性原則。錯數(shù)據(jù)挖掘所處理的數(shù)據(jù)必須具有準確性、完整性、一致性、時效性、可信性和可解釋性。錯數(shù)據(jù)規(guī)約就是指對數(shù)據(jù)集進行簡化表示。對數(shù)據(jù)集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,可以提高集成之后的挖掘過程的準確性和速度。對在確定數(shù)據(jù)中的離群點時,一般不必檢查整個數(shù)據(jù)集。對第四章數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是()捕捉到的新數(shù)據(jù)會覆蓋原來的快照數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉庫隨著事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉庫中的綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)

19、是指()基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息基本元數(shù)據(jù)包括數(shù)據(jù)源,數(shù)據(jù)倉庫和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息下面關(guān)于數(shù)據(jù)粒度的描述不正確的是()數(shù)據(jù)越詳細,粒度就越小,級別也就越高粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是()數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)數(shù)據(jù)倉庫使用的需求在開發(fā)時就要明確數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)在數(shù)據(jù)倉庫環(huán)境中,并

20、不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是()在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試在數(shù)據(jù)倉庫進行測試之前一般不必要制定非常詳細的測試計劃系統(tǒng)測試需要對數(shù)據(jù)倉庫的組件進行大量的功能測試和回歸測試當數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試OLAP技術(shù)的核心是()多維分析關(guān)于OLAP和OLTP的說法,下列不正確的是()OLAP管理大量歷史數(shù)據(jù),OLTP僅管理當前數(shù)據(jù)OLAP主要用于事務(wù)和查詢處理,而OLTP用于數(shù)據(jù)分析OLAP中綜合提煉的數(shù)據(jù)主要來自O(shè)LTP所依賴的底層數(shù)據(jù)庫OLA

21、P數(shù)據(jù)較之OLTP數(shù)據(jù)要進行更多的數(shù)據(jù)維護或預(yù)處理的操作數(shù)據(jù)倉庫設(shè)計的三級數(shù)據(jù)模型不包含()概念模型邏輯模型關(guān)系模型物理模型改變數(shù)據(jù)立方體維次序的操作是()旋轉(zhuǎn)在給定的數(shù)據(jù)立方體的一個維度上進行的選擇操作為()切片下列選項中關(guān)于粒度描述錯誤的是:粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別;粒度影不響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小粒度影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度;粒度組織數(shù)據(jù)的方式有:簡單堆積結(jié)構(gòu);輪轉(zhuǎn)綜合結(jié)構(gòu);簡單直接結(jié)構(gòu);連續(xù)結(jié)構(gòu)。簡述數(shù)據(jù)倉庫設(shè)計的三級模型及其基本內(nèi)容,不正確的是概念模型設(shè)計:對問題域內(nèi)事務(wù)進行描述,是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系

22、統(tǒng)邊界和確定主要的主題域;邏輯模型設(shè)計:對概念模型細化,定義實體屬性及其關(guān)系,主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng);物理數(shù)據(jù)模型設(shè)計:在數(shù)據(jù)庫中建立表及索引,主要內(nèi)容包括確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。三種模型設(shè)計時主要考慮的因素有I/O存取時間、空間利用率和維護代價等。關(guān)于OLAP的特性,下面正確的是()集成性快速性多維性可分析性數(shù)據(jù)模型是數(shù)據(jù)倉庫建設(shè)的基礎(chǔ),一個完整、靈活、穩(wěn)定的數(shù)據(jù)模型對數(shù)據(jù)倉庫項目的成功起到的重要作用有()利于數(shù)據(jù)的整合消除數(shù)據(jù)倉庫的冗余數(shù)據(jù)排除數(shù)據(jù)描述的不一致性為整個系統(tǒng)建設(shè)提供導(dǎo)

23、航圖根據(jù)使用情況的不同,元數(shù)據(jù)可以分為()技術(shù)元數(shù)據(jù);業(yè)務(wù)元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫的邏輯模型,正確的說法有()是數(shù)據(jù)倉庫設(shè)計中的核心基礎(chǔ)對概念數(shù)據(jù)模型的分解和細化對物理模型設(shè)計和實現(xiàn)具有指導(dǎo)作用為全局服務(wù),集成全方位數(shù)據(jù)形成統(tǒng)一藍圖關(guān)于OLAP和OLTP的區(qū)別描述,正確的是()OLAP是信息處理,OLTP是操作處理OLAP面向底層管理人員,OLTP面向高層決策人員OLAP管理大量歷史數(shù)據(jù),OLTP主要關(guān)注當前數(shù)據(jù)OLAP數(shù)據(jù)是細節(jié)性數(shù)據(jù),OLTP數(shù)據(jù)則是綜合性數(shù)據(jù)OLAP按照數(shù)據(jù)存儲格式劃分,實現(xiàn)方式有_MOLAP_、_ROLAP_和HOLAP三種根據(jù)使用情況的不同,元數(shù)據(jù)可以分為_技術(shù)元數(shù)據(jù)_和業(yè)

24、務(wù)元數(shù)據(jù);根據(jù)數(shù)據(jù)狀態(tài)的區(qū)別又可分為_靜態(tài)元數(shù)據(jù)_和動態(tài)元數(shù)據(jù)。數(shù)據(jù)倉庫按照設(shè)計順序,依次分為_概念模型設(shè)計_、_邏輯模型設(shè)計_和_物理模型設(shè)計_三個設(shè)計步驟OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。錯數(shù)據(jù)倉庫中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。錯數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等四個部分。錯數(shù)據(jù)倉庫測試工作中主要包括單元測試和系統(tǒng)測試。對改變數(shù)據(jù)立方體維度的操作稱為下鉆。錯數(shù)據(jù)倉庫實際的三級模型中的概念模型不是對軟件實際的描述。對數(shù)據(jù)倉庫就是一個面向什么的數(shù)據(jù)集合?主體、集成、非易失

25、、時變數(shù)據(jù)倉庫體系結(jié)構(gòu)通常采用一種三層體系結(jié)構(gòu),底層、中間層、頂層分別通常為什么?OLAP服務(wù)器、數(shù)據(jù)倉庫服務(wù)器、前端工具第五章回歸分析中使用的距離是點到直線的垂直坐標距離,最小二乘準則是指()。使各(Yt-Yt平均值)之和最小回歸分析的步驟為()。確定變量建立預(yù)測模型進行相關(guān)分析計算預(yù)測誤確定預(yù)測值下列變量之間的關(guān)系是函數(shù)關(guān)系的是()已知二次函數(shù)yax2+bx+c,其中a,c是已知常數(shù),取b為自變量,因變量是這個函數(shù)的判別式b24ac。光照時間和果樹畝產(chǎn)量降雪量和交通事故發(fā)生率每畝施用肥料量和糧食產(chǎn)量對于回歸分析,下列說法錯誤的是()在回歸分析中,變量間的關(guān)系若是非確定性關(guān)系,那么因變量不能

26、由自變量唯一確定線性相關(guān)系數(shù)可以是正的,也可以是負的回歸分析中,如果r2=1,說明x與y之間完全相關(guān)樣本相關(guān)系數(shù)r(-1,1)某地區(qū)調(diào)查了29歲兒童的身高,由此建立的身高y(cm)與年齡x(歲)的回歸模型為y=8.25x+60.13,下列敘述正確的是()。該地區(qū)一個兒童的身高為142.63cm該地區(qū)29歲的兒童每年的身高約增加8.25cm該地區(qū)9歲兒童的平均身高是134.38cm利用這個模型可以準確地預(yù)測該地區(qū)每個29歲兒童的身高已知對一組觀察值做出散點圖后確定具有線性相關(guān)關(guān)系,若對于y=bx+a,求得b=0.51,-x=61.75,-y=38.14,則線性回歸方程為()。y=0.51x+6.

27、65下表是x和y之間的一組數(shù)據(jù),則y關(guān)于x的回歸方程必過()。點(2.5,4)平均值反映由模型中解釋變量所解釋的那部分離差大小的是()。總離差平方和回歸平方和殘差平方和可決系數(shù)總離差平方和TSS、殘差平方和RSS與回歸平方和ESS三者的關(guān)系是()。TSSRSSESS決定系數(shù)R2的取值范圍是()。0R2B)=P(B|A)下列指標中,能夠度量一個規(guī)則的強度,同時衡量兩個集合之間的獨立性的是()確定度規(guī)則A和A的置信度是()100%令C1,C2和C3分別是規(guī)則pq,pq,r,p,rq的置信度。如果假定C1,C2和C3有不同的值,置信度最低的規(guī)則是()C2購買HDTV和購買健身器的情況如下表所示,設(shè)最

28、小支持度閾值為0.3,最小置信度閾值為0.6,則買HDTV買健身器的支持度為()0.33上一題所給的數(shù)據(jù)中,買HDTV買健身器的置信度為()0.55如果XY,且Y中至少有一項不在X中,那么Y是X的()真超項集下列關(guān)于Apriori算法的分析中,錯誤的是()Apriori算法基于支持度的剪枝技術(shù),用來控制候選項集的指數(shù)增長Apriori算法包括候選集生成和向下封閉檢測兩個階段Apriori算法會掃描數(shù)據(jù)庫2次;Apriori算法使用逐層搜索的迭代方法下表所示的購物籃事務(wù)數(shù)據(jù)集中能夠提取的3-項集的最大數(shù)量是()6下列不屬于Apriori算法的缺點的是()Apriori算法分為兩個階段挖掘頻繁項集

29、Apriori算法產(chǎn)生候選項目集時沒有排除無用的候選項集Apriori算法在每一步產(chǎn)生候選項目集時循環(huán)產(chǎn)生的組合過多在掃描大型數(shù)據(jù)庫時,Apriori算法會增加計算機系統(tǒng)I/O開銷;考慮如下的頻繁3-項集:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5。選出根據(jù)Apriori算法利用上述頻繁3-項集生成的候選4-項集()1,2,3,41,2,3,51,2,4,52,3,4,5下表是一個購物籃,假定支持度閾值為40%,其中哪幾個是頻繁閉項集()abc;de一個數(shù)據(jù)庫有5個事務(wù),如下表所示。設(shè)min_sup=60%,min_conf=80%。從下列選

30、項中選出頻繁2-項集()M,KO,KK,E以下關(guān)于非頻繁模式說法,正確的是()其支持度小于閾值都是不讓人感興趣的其支持度大于閾值對異常數(shù)據(jù)項敏感下列關(guān)于FP-growth算法優(yōu)缺點的表述中,正確的有()相比于Apriori算法,F(xiàn)P-growth算法運行速度要快一個數(shù)量級FP-growth算法在建立FP-tree時占用空間較小FP-growth算法無須多次掃描數(shù)據(jù)庫,節(jié)省了運行時間FP-growth算法處理產(chǎn)生的條件樹時會占用很多資源Aprior算法包括_連接_和_剪枝_兩個基本步驟關(guān)聯(lián)規(guī)則的經(jīng)典算法包括_Apriori_和_FP-growth_,其中_FP-growth_的效率更高。如果L2

31、=a,b,a,c,a,d,b,c,b,d,則連接產(chǎn)生的C3=a,b,c,a,b,d,a,c,d,b,c,d關(guān)聯(lián)規(guī)則的置信度公式為confidence(A=B)=P(B|A)同時滿足_最小支持度閾值_和_最小置信度閾值_的規(guī)則稱之為強關(guān)聯(lián)規(guī)則如果一個項集的直接超集都不具有和它相同的支持度計數(shù),則稱其為:閉項集在挖掘閉模式算法中,直接搜索閉頻繁項集,并對結(jié)果進行剪枝是最常用的方法,其中剪枝的策略包括_項合并_和_子項集剪枝_。不包含任何考察項集的事務(wù)稱為:零事務(wù)頻繁出現(xiàn)在數(shù)據(jù)集中的模式稱為:頻繁模式關(guān)聯(lián)規(guī)則挖掘任務(wù)主要分為_頻繁項集的產(chǎn)生_和_關(guān)聯(lián)規(guī)則的產(chǎn)生_兩個子任務(wù)。大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘

32、包含找出所有_頻繁項集_和由_頻繁項集_產(chǎn)生_強關(guān)聯(lián)規(guī)則_兩個過程。FP-growth算法的基本思想是用FP-growth_遞歸增長_形成頻繁集。某個食品連鎖店每周的事務(wù)記錄如下表所示,每個事務(wù)表示在一項收款機業(yè)務(wù)中賣出的商品項集,假定min_sup=40%,min_conf=40%,使用Apriori算法生成的強關(guān)聯(lián)規(guī)則有_和_兩項。面包-花生醬花生醬-面包事物t=牛奶,面包,啤酒是_3_項集FP-growth算法在一次運行中掃描_2_次數(shù)據(jù)庫。計算關(guān)聯(lián)規(guī)則牛奶=咖啡的支持度和置信度:_(答案保留小數(shù)點后兩位)0.400.66從上題的數(shù)據(jù)中計算牛奶與咖啡之間的提升度和杠桿度:_(答案保留小數(shù)

33、點后一位)1.30.1一個數(shù)據(jù)庫有5個事務(wù),如下表所示。設(shè)min_sup=60%,min_conf=80%。用Apriori算法找出所有3頻繁項集(答案中不要有空格,標點符號用半角):_O,K,E計算面包(A)=啤酒(E)的支持度:_(保留小數(shù)點后一位)0.2從上題的數(shù)據(jù)中計算規(guī)則面包(A)=甜醬(B)的置信度:_(答案保留小數(shù)點后兩位)0.25關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。錯利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)。對先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。錯先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有

34、非空子集也是頻繁的。對具有較高的支持度的項集具有較高的置信度。錯如果兩個項集的提升度的值小于1,則說明兩個項集正相關(guān)。錯兩個項集的全置信度越大,說明兩個項集的關(guān)系越緊密,反之則關(guān)系越疏遠。對極大頻繁項集的直接超集都不是頻繁的。對可信度是對關(guān)聯(lián)規(guī)則的準確度的衡量。對Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。對關(guān)聯(lián)規(guī)則是形如X=Y的蘊含式,X和Y滿足:X和Y是I的真子集,并且X和Y的交集為空集。對設(shè)最小支持度閾值為30%,最小置信度閾值為70%,如果一個項集的支持度為50%,則該項集是頻繁項集。對第七章某蘋果數(shù)據(jù)集如下所示,K近鄰分類法(K取3)對(色度=8.8,高度=7.1,寬度=7.0)

35、的蘋果進行分類的結(jié)果為()布瑞本下列是有關(guān)于是否投保的數(shù)據(jù)集,第二列至第四列為特征,表中最后一列類別代表是否投保,按照“年薪”進行劃分的信息增益率為()0.327考慮下表中的數(shù)據(jù)集,使用貝葉斯分類預(yù)測記錄X=(有房=否,婚姻狀況=已婚,年收入=120k)的類標號()No考慮下表中的一維數(shù)據(jù)集,根據(jù)1-最近鄰、3-最近鄰、5-最近鄰、9-最近鄰,對數(shù)據(jù)點x=5.0分類,使用多數(shù)表決()+、-、+、-下表給出了一個關(guān)于動物類別的訓練數(shù)據(jù)。數(shù)據(jù)集包含5個屬性:warm_blooded、feathers、fur、swims、lays_eggs。若樣本按warm_blooded劃分,對應(yīng)的熵為()0.8

36、09下面的例子被分為3類:Short,Tall,Medium,Height屬性被劃分為(0,1.6),(1.6,1.7),(1.7,1.8),(1.8,1.9),(1.9,2.0),(2.0,),根據(jù)下表,對于t=用貝葉斯分類方法進行分類,則最終結(jié)果為()Tall下列是有關(guān)于是否購買電腦的數(shù)據(jù)集,其中學歷,是否結(jié)婚,收入為特征,表中最后一列類別代表是否購買電腦,則數(shù)據(jù)集的信息熵為()0.971下面的數(shù)據(jù)集包含兩個屬性X和Y,兩個類標號+和-。每個屬性取三個不同的值:0,1或2。+類的概念是Y=1,-類的概念是X=0或X=2。則由表構(gòu)建的決策樹的F1值(對+類定義)是()。0.5決策樹分類的主要

37、包括()對數(shù)據(jù)源進行OLAP,得到訓練集和測試集對訓練集進行訓練;對初始決策樹進行樹剪枝由所得到的決策樹提取分類規(guī)則使用測試數(shù)據(jù)集進行預(yù)測,評估決策樹模型下列哪些是分類與預(yù)測的不同之處()分類的作用是構(gòu)造一系列能描述和區(qū)分數(shù)據(jù)類型或概念的模型;分類被用作預(yù)測目標數(shù)據(jù)的類的標簽預(yù)測是建立一個模型去預(yù)測缺失的或無效的并且通常是數(shù)字的數(shù)據(jù)值預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值下列哪些是樸素貝葉斯分類的優(yōu)缺點()樸素貝葉斯分類做了類條件獨立假設(shè),大幅降低了計算開銷需要大量訓練數(shù)據(jù)以覆蓋類條件概率空間,引入了很大開銷;容易實現(xiàn)并在大多數(shù)情況下可以取得較好的結(jié)果類條件獨立在實際應(yīng)用中缺乏準確性,因為變

38、量之間經(jīng)常存在依賴關(guān)系,這種依賴關(guān)系影響了樸素貝葉斯分類器的準確性支持向量機模型包括()線性可支持向量機;線性支持向量機貝葉斯信念網(wǎng)絡(luò)(BBN)有哪些特點()構(gòu)造網(wǎng)絡(luò)費時費力對模型的過分問題非常魯棒有效地避免過擬合;最小化計算開銷;當一個數(shù)據(jù)對象同時屬于多個類時,很難評估分類的準確率。通常在這種情況下,我們選擇的分類器一般趨向于含有這樣的特征:最小化計算開銷,即使給予噪聲數(shù)據(jù)或不完整數(shù)據(jù)也能準確預(yù)測,在大規(guī)模數(shù)據(jù)下仍然有效工作,提供簡明易懂的結(jié)果。對KNN的主要思想是計算每個訓練數(shù)據(jù)(每個訓練數(shù)據(jù)都有一個唯一的類別標識)到待分類元祖的距離,取和待分類元祖距離最近的k個訓練數(shù)據(jù)集,k個數(shù)據(jù)中哪個類別的訓練數(shù)據(jù)占多數(shù),則待分類元祖就屬于那個類別。對給定決策樹,選項有:(1)將決策樹轉(zhuǎn)換成規(guī)則,然后對結(jié)果規(guī)則剪枝;(2)對決策樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對于選項(1),選擇(2)的優(yōu)點是更能泛化規(guī)則。錯給定數(shù)據(jù)集D,具有m個屬性和|D|個訓練記錄,決策樹生長的計算時間最多為mDlog(|D|)。對將結(jié)點劃分為更小的后續(xù)結(jié)點后,結(jié)點熵可能會增加。錯樸素貝葉斯假設(shè)屬性之間是相互獨立的。對數(shù)據(jù)分類分為兩步:第一步的基本任務(wù)是建立一個模型并描述預(yù)定的數(shù)據(jù)類集;第二步的基本任務(wù)是評估模型的預(yù)測準確率,用準確率可以接受的模型對類標號未知的數(shù)據(jù)進行分類。對分類規(guī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論