版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘復(fù)習(xí)大綱考試時(shí)間與地點(diǎn):課程名稱任課老師班級(jí)人數(shù)考試合班數(shù)考試周數(shù)周幾第幾節(jié)考試地點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘吳靜12信技1-25421153-4L1208考試題型:一-、單項(xiàng)選擇題(10x2分=20分二、判斷題(10x2分=20分三、簡(jiǎn)答題(5x6分=30分四、分析計(jì)算題(3x10分=30分考試范圍:第一講數(shù)據(jù)挖掘概述考點(diǎn):1、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)(KDD基本概念;2、數(shù)據(jù)挖掘的過程;3、數(shù)據(jù)挖掘過技術(shù)的三個(gè)主要部分。復(fù)習(xí)參考題:一、填空題(1數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD包括以下七個(gè)步驟:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示。(2數(shù)據(jù)挖掘的性能問題主要包
2、括:算法的效率、可擴(kuò)展性和并行處理。(3當(dāng)前的數(shù)據(jù)挖掘研究中,最主要的三個(gè)研究方向是:統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)。(4在萬維網(wǎng)(WWW上應(yīng)用的數(shù)據(jù)挖掘技術(shù)常被稱為:WEB挖掘。(5孤立點(diǎn)是指:一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)。二、單選題(1數(shù)據(jù)挖掘應(yīng)用和一些常見的數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)的最主要區(qū)別在于:BA、所涉及的算法的復(fù)雜性;B、所涉及的數(shù)據(jù)量;C、計(jì)算結(jié)果的表現(xiàn)形式;D、是否使用了人工智能技術(shù)(2孤立點(diǎn)挖掘適用于下列哪種場(chǎng)合?DA、目標(biāo)市場(chǎng)分析B、購(gòu)物籃分析C、模式識(shí)別D、信用卡欺詐檢測(cè)(3下列幾種數(shù)據(jù)挖掘功能中,(D被廣泛的應(yīng)用于股票價(jià)格走勢(shì)分析A. 關(guān)聯(lián)分析B. 分類和預(yù)測(cè)C.
3、 聚類分析D. 演變分析(4下面的數(shù)據(jù)挖掘的任務(wù)中,(B將決定所使用的數(shù)據(jù)挖掘功能。A、選擇任務(wù)相關(guān)的數(shù)據(jù)B、選擇要挖掘的知識(shí)類型C、模式的興趣度度量D、模式的可視化表示(5下列幾種數(shù)據(jù)挖掘功能中,(A被廣泛的用于購(gòu)物籃分析。A、關(guān)聯(lián)分析B、分類和預(yù)測(cè)C、聚類分析D、演變分析(6根據(jù)顧客的收入和職業(yè)情況,預(yù)測(cè)他們?cè)谟?jì)算機(jī)設(shè)備上的花費(fèi),所使用的相應(yīng)數(shù)據(jù)挖掘功能是(B。A. 關(guān)聯(lián)分析B. 分類和預(yù)測(cè)C. 演變分析D. 概念描述(7幫助市場(chǎng)分析人員從客戶的基本信息庫(kù)中發(fā)現(xiàn)不同的客戶群,通常所使用的數(shù)據(jù)挖掘功能是(C。A. 關(guān)聯(lián)分析B. 分類和預(yù)測(cè)C. 聚類分析D. 孤立點(diǎn)分析E. 演變分析(8假設(shè)現(xiàn)
4、在的數(shù)據(jù)挖掘任務(wù)是解析數(shù)據(jù)庫(kù)中關(guān)于客戶的一般特征的描述,通常所使用的數(shù)據(jù)挖掘功能是(EA. 關(guān)聯(lián)分析B. 分類和預(yù)測(cè)C. 孤立點(diǎn)分析D. 演變分析E. 概念描述三、簡(jiǎn)答題1、何謂數(shù)據(jù)挖掘?它有哪些方面的功能?答:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識(shí)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測(cè)、聚類分析、趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。2、一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?答:一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括以下部分:(1數(shù)據(jù)庫(kù)
5、、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù);(2數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器;(3知識(shí)庫(kù);(4數(shù)據(jù)挖掘引擎;(5模式評(píng)估模塊;(6圖形用戶界面。3、請(qǐng)列舉數(shù)據(jù)挖掘應(yīng)用常見的數(shù)據(jù)源。(或者說,我們都在什么樣的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘答:常見的數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)和高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)。其中高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)包括:空間數(shù)據(jù)庫(kù)、時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)、流數(shù)據(jù)、多媒體數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)、異種數(shù)據(jù)庫(kù)和遺產(chǎn)(legacy數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW等。4、在哪些情況下,我們認(rèn)為所挖掘出來的模式是有趣的?答:一個(gè)模式是有趣的,如果(1它易于被人理解;(2在某種程度上,對(duì)于新的或測(cè)
6、試數(shù)據(jù)是有效的;(3具有潛在效用;(4新穎的;(5符合用戶確信的某種假設(shè)。5、根據(jù)挖掘的知識(shí)類型,我們可以將數(shù)據(jù)挖掘系統(tǒng)分為哪些類別?答:根據(jù)挖掘的知識(shí)類型,數(shù)據(jù)挖掘系統(tǒng)可以分為特征分析,區(qū)分,關(guān)聯(lián)分析,分類聚類,孤立點(diǎn)分析/演變分析,偏差分析,多種方法的集成和多層級(jí)挖掘等類型。第二講數(shù)據(jù)的認(rèn)識(shí)及預(yù)處理考點(diǎn):1、什么是數(shù)據(jù)預(yù)處理,為什么要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理?2、數(shù)據(jù)預(yù)處理的方法有哪些?3、在數(shù)據(jù)預(yù)處理過程中度量中心趨勢(shì)里中位數(shù)、眾數(shù)等如何求取的?4、度量數(shù)據(jù)離散度時(shí)如何求取極差、五數(shù)概括(基于四分位數(shù)、中間四分位數(shù)極差和標(biāo)準(zhǔn)差?5、在消除數(shù)據(jù)的噪聲時(shí),采用的分箱技術(shù)中如何對(duì)數(shù)據(jù)進(jìn)行等頻(等深劃分
7、,如何進(jìn)行等寬劃分?6、什么是數(shù)據(jù)變換?如何使用“最小-最大規(guī)范化規(guī)范化”方法、“z-score規(guī)范化”方法以及“小數(shù)定標(biāo)規(guī)范化”這三種方法將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間里。復(fù)習(xí)參考題:一、填空題(1進(jìn)行數(shù)據(jù)預(yù)處理時(shí)所使用的主要方法包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。(2處理噪聲數(shù)據(jù)的方法主要包括:分箱、聚類、計(jì)算機(jī)和人工檢查結(jié)合、回歸。(3模式集成的主要問題包括:整合不同數(shù)據(jù)源中的元數(shù)據(jù),實(shí)體識(shí)別問題。(4數(shù)據(jù)概化是指:沿概念分層向上概化。(5數(shù)據(jù)壓縮可分為:有損壓縮和無損壓縮兩種類型。(6進(jìn)行數(shù)值歸約時(shí),三種常用的有參方法是:線性回歸方法,多元回歸和對(duì)數(shù)線性模型。(7
8、數(shù)據(jù)離散度的最常用度量是五數(shù)概括、中間四分位數(shù)區(qū)間和標(biāo)準(zhǔn)差。二、單選題(1數(shù)據(jù)歸約的目的是(C。A、填補(bǔ)數(shù)據(jù)種的空缺值B、集成多個(gè)數(shù)據(jù)源的數(shù)據(jù)C、得到數(shù)據(jù)集的壓縮表示D、規(guī)范化數(shù)據(jù)(2下面哪種數(shù)據(jù)預(yù)處理技術(shù)可以用來平滑數(shù)據(jù),消除數(shù)據(jù)噪聲?A數(shù)據(jù)清理B數(shù)據(jù)集成C.數(shù)據(jù)變換D數(shù)據(jù)歸約(3進(jìn)行數(shù)據(jù)規(guī)范化的目的是(A。A. 去掉數(shù)據(jù)中的噪聲B. 對(duì)數(shù)據(jù)進(jìn)行匯總和聚集C. 使用概念分層,用高層次概念替換低層次“原始”數(shù)據(jù)D. 將屬性按比例縮放,使之落入一個(gè)小的特定區(qū)間(4數(shù)據(jù)的噪聲是指(D。A、孤立點(diǎn)B、空缺值C、測(cè)量變量中的隨即錯(cuò)誤或偏差D、數(shù)據(jù)變換引起的錯(cuò)誤(5那種數(shù)據(jù)變換的方法將數(shù)據(jù)沿概念分層向上
9、匯總C。A、平滑B、聚集C、數(shù)據(jù)概化D、規(guī)范化(6(C通過將屬性域劃分為區(qū)間,從而減少給定連續(xù)值的個(gè)數(shù)A. 概念分層B. 離散化C. 分箱D. 直方圖三、分析計(jì)算題1、假設(shè)醫(yī)院檢測(cè)隨機(jī)選擇的18個(gè)成年人年齡和身體脂肪數(shù)據(jù),得到如下結(jié)果:IIIIIlliIIBIIIIIlliII1IBIBII11IIQ)計(jì)算年齡和脂肪百分比的均值S中位數(shù)和標(biāo)準(zhǔn)差昭e的均值=2心+;+曲1=46.44昭e的中位數(shù)二警=51Ar_"!11r-IL|(a計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差(b繪制年齡和脂肪百分比的盒圖(c根據(jù)Z-score規(guī)范化來規(guī)范化這兩個(gè)屬性答:Q)計(jì)算年齡和脂肪百分比的均值、中
10、位數(shù)和標(biāo)準(zhǔn)差昭e的均值二23+23+2益+60+61=46.44昭e的中位數(shù)二警=5$尋£化一列2-1age的標(biāo)唯差=存=12.85%fat的均值=28.78將加排序沁t的中位數(shù)二吟=307%fst的標(biāo)準(zhǔn)差=8.99age2323272739414749Q只9nr7«17只A9匸a97d979Q)計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差age的均值二23+23+2;-.“0+61=46.44昭e的中位數(shù)=警二52-1age的標(biāo)準(zhǔn)差=畐=12.85%fht的均值=28.78將1刼排序%fat的中位數(shù)=3°'2231,2=30.7%fat的標(biāo)準(zhǔn)差=8.99(
11、a)使用min-max規(guī)范化將值35變換到0.0,L0區(qū)間口T誠(chéng)血=13,oj愁血=70,血=0-0,IOU竦瓜=1-0.而v=3.,v-min月廠.、vI兀已w_maxA-恥w_mm丄丿十new_mmAmaxA-minA_3專_12=ri.O-O.OUO.O=0.386070-13(b)使用z-score規(guī)范化變換age值35,其中呼的標(biāo)準(zhǔn)差為12.94趴-_13十1予十2匯16十1?十2x20+21十2玄22十4匯22、假定用于分析的數(shù)據(jù)包含屬性age數(shù)據(jù)元組age值(以遞增序是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,3
12、5,35,35,36,40,45,46,52,70。(a使用min-max規(guī)范化將age值35變換到0.0,1.0區(qū)間。(b使用z-score規(guī)范化變換age值35,其中age的標(biāo)準(zhǔn)差為12.94歲。(c使用小數(shù)定標(biāo)規(guī)范化變換age值35。(d對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。答:(丑)使用min-max規(guī)范化將呂驢值鮎變換到Od1.0區(qū)間口mipA=13-腹孤=加,期畑頑邀=°6號(hào)取j映ria而v=h(.嚴(yán)I川呂護(hù)_max4-祚和_min*亠片曲_mmAmaxd-inin435-L370-L31.0-0.0)+0.0=0.3560(b)使用2-score規(guī)范化變換a
13、g旨值3工其中age的標(biāo)準(zhǔn)差為12.94歲口13+15+2x15+13+2x20+21-2x22+4x2527302x33+4x35+56+40+45+46+52-7027309=29.96312.9421一萬35-29.963=0.3892«03912,9421(a)使用min-max規(guī)范化將agE值站變換到0.01.0區(qū)間口T頑1九pj黑“=70,OJO血恩前心鷄觀J瞬獷1O而v=3brmin用.Iv寧|/ifw_niax一new_minAJ+newminAmaxjmin.A_35_1=fl.O-0.01+0.0=0.386070-137(b)恒用z-score規(guī)范化變換時(shí)值込其
14、中age的標(biāo)準(zhǔn)差為12.94歲n1-7I1SI?1I1OI'?'?|-|IQ1I';-I.-1'?3、假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個(gè)箱。(a等頻(等深劃分(b等寬劃分。(c聚類使范化將a歹值孑5變按到O.(hLQ區(qū)間°:皿=1髭WfA=70.畫m血=oaUSJK舷=10而V=1僅Pv-min總fVP=(峠點(diǎn)WEU;點(diǎn)一HSW_IE11I1AJ+用ITUTlAmaxA-minA14_11(l.O-O.O:+O.D=O.3&6O70-13
15、(b)便用時(shí)cow規(guī)范化變換嘶值玨其中age的標(biāo)準(zhǔn)差為1乙趴十1F+2*16十19十2乂20十21十?乂22上4址覽327如2心4心*知畑454肛皿+702805TF29.963v-X_3£29.963仇L2J4215,03712,9421=038920.39第三講數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)立方體以及OLAP技術(shù)考點(diǎn):1、什么是數(shù)據(jù)倉(cāng)庫(kù),它的特點(diǎn)以及功能?2、在數(shù)據(jù)倉(cāng)庫(kù)中提供的是聯(lián)機(jī)分析處理(OLAP工具,它與OLTP有什么區(qū)別?3、傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別?4、什么是粒度?它對(duì)數(shù)據(jù)倉(cāng)庫(kù)有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?5、什么是數(shù)據(jù)立方體?什么是維?6、OLAP的基本操作有哪些?
16、復(fù)習(xí)參考題:一、填空題(1數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)模型可以有三種不同的形式,分別是:星形模式、雪花模式和事實(shí)星座模式。(2給定基本方體,方體的物化有三種選擇:不物化、部分物化和全物化。(3著名的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)師W.H.Inmon認(rèn)為,數(shù)據(jù)倉(cāng)庫(kù)與其他數(shù)據(jù)存儲(chǔ)系統(tǒng)的區(qū)別的四個(gè)特征是:面向主題、數(shù)據(jù)集成、隨時(shí)間而變化和數(shù)據(jù)不易丟失。(4在數(shù)據(jù)訪問模式上,數(shù)據(jù)倉(cāng)庫(kù)以事務(wù)操作為主,而日常應(yīng)用數(shù)據(jù)庫(kù)則以只讀查詢?yōu)橹鳌?5數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類,分別是:分布的、代數(shù)的和整體的。(6關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),四種不同的視圖必須考慮,分別是:自頂向下視圖、數(shù)據(jù)源視圖、數(shù)據(jù)倉(cāng)庫(kù)視圖、商務(wù)查詢視圖。
17、(7OLAP服務(wù)器的類型主要包括:關(guān)系OLAP服務(wù)器(ROLAP、多維OLAP服務(wù)器(MOLAP和混合OLAP服務(wù)器(HOLAP。(8求和函數(shù)sum(是一個(gè)分布的的函數(shù)。(9方體計(jì)算的主要挑戰(zhàn)是海量數(shù)據(jù)和有限的內(nèi)存和時(shí)間之間的矛盾。二、單選題(1下面的數(shù)據(jù)操作中,哪些操作不是多維數(shù)據(jù)模型上的OLAP操作(B。A、上卷(roll-upB、選擇(selectC、切片(sliceD、轉(zhuǎn)軸(pivot(2以下哪個(gè)范圍是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)規(guī)模的一個(gè)合理范圍(DoA、1100MB、100M10GC、101000GD、100GB數(shù)TB(3存放最低層匯總的方體稱為:CA、頂點(diǎn)方體B、方體的格C、基本方體D、維(
18、4哪種OLAP操作可以讓用戶在更高的抽象層,更概化的審視數(shù)據(jù)?AA、上卷B、下鉆C、切塊D、轉(zhuǎn)軸(5平均值函數(shù)avg(屬于哪種類型的度量?BA、分布的B、代數(shù)的C、整體的D、混合的三、多選題(10LAP系統(tǒng)和OLTP系統(tǒng)的主要區(qū)別包括(ABD。A、OLTP系統(tǒng)主要用于管理當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)主要存放的是歷史數(shù)據(jù);B、在數(shù)據(jù)的存取上,OLTP系統(tǒng)比OLAP系統(tǒng)有著更多的寫操作;C、對(duì)OLTP系統(tǒng)上的數(shù)據(jù)訪問量往往比對(duì)OLAP系統(tǒng)的數(shù)據(jù)訪問量要大得多;D、OLAP系統(tǒng)中往往存放的是匯總的數(shù)據(jù),而OLTP系統(tǒng)中往往存放詳細(xì)的數(shù)據(jù)。(2從結(jié)構(gòu)的角度看,數(shù)據(jù)倉(cāng)庫(kù)模型包括以下幾類:ABCA、企業(yè)倉(cāng)庫(kù)B
19、、數(shù)據(jù)集市C、虛擬倉(cāng)庫(kù)D、信息倉(cāng)庫(kù)(3數(shù)據(jù)倉(cāng)庫(kù)的三層架構(gòu)主要包括以下哪三部分?BCDA、數(shù)據(jù)源B、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器C、OLAP月服務(wù)器D、前端工具(4以下哪些是數(shù)據(jù)倉(cāng)庫(kù)的主要應(yīng)用?ACDA、信息處理B、互聯(lián)網(wǎng)搜索C、分析處理D、數(shù)據(jù)挖掘四、分析與計(jì)算題1、何謂數(shù)據(jù)倉(cāng)庫(kù)?為什么要建立數(shù)據(jù)倉(cāng)庫(kù)?答:數(shù)據(jù)倉(cāng)庫(kù)是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性、隨時(shí)間不斷變化(不同時(shí)間的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數(shù)據(jù)倉(cāng)庫(kù)的目的有3個(gè):一、是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉(cāng)庫(kù)能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)更快的大規(guī)模決策分析的響應(yīng)速度。二、是解決決策分析對(duì)數(shù)
20、據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)不能直接提供的。三、是解決決策分析對(duì)數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對(duì)分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫(kù)不能提供的。2、何謂粒度?它對(duì)數(shù)據(jù)倉(cāng)庫(kù)有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?答:粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答查詢問題的細(xì)節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有:簡(jiǎn)單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合結(jié)構(gòu)簡(jiǎn)單直接結(jié)構(gòu)連續(xù)結(jié)構(gòu)3、假定BigUniversity的數(shù)據(jù)倉(cāng)庫(kù)包含如下4個(gè)維:
21、student(student_name,area_id,major,status,universitycourse(course_name,departmentsemester(semester,yearinstructor(dept,rank2個(gè)度量:count和avg_grade。在最低概念層,度量avg_grade存放學(xué)生的實(shí)際課程成績(jī)。在較高概念層,aVg_grade存放給定組合的平均成績(jī)。(a為數(shù)據(jù)倉(cāng)庫(kù)畫出雪花模式圖。(b由基本方體student,course,semester,instructor開始,為列出Big_University每個(gè)學(xué)生的CS課程的平均成績(jī),應(yīng)當(dāng)使用哪些O
22、LAP操作(如,由學(xué)期上卷到學(xué)年。(c如果每維有5層(包括all,如student<major<status<university<all,該數(shù)據(jù)方包含多少方體(包含基本方體和頂點(diǎn)方體答:(aw吋皆iniivdiinnsioiitabkfciuibkdlinniouUibk(b這些特殊的聯(lián)機(jī)分析處理(OLAP操作有:沿課程(course維從course_id“上卷”到departmento沿學(xué)生(student維從student_id“上卷”到universityo取department=“CS”和university=“BigUniversity”,沿課程(cours
23、e維和學(xué)生(student維切塊。沿學(xué)生(student維從university下鉆到student_name。(c這個(gè)立方體將包含54=625個(gè)方體。4、思考:假定數(shù)據(jù)倉(cāng)庫(kù)包含4個(gè)維:date(day,month,quarter,yearspectator(spectator_name,status,phone,addresslocation(location_name,phone#,street,city,province,countrygame(game_name,description,description,producer2個(gè)度量:count和charge。其中,charge是觀眾
24、在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a畫出該數(shù)據(jù)倉(cāng)庫(kù)的星形模式圖。(b由基本方體date,spectator,location,game開始,為列出2004年學(xué)生觀眾在GM-Place的總代價(jià),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?第四講關(guān)聯(lián)規(guī)則挖掘考點(diǎn):1、什么是關(guān)聯(lián)規(guī)則?如何發(fā)現(xiàn)關(guān)聯(lián)規(guī)則?2、什么的支持度、可信度?3、經(jīng)典的關(guān)聯(lián)規(guī)則算法Appriori中是如何找到事務(wù)中的項(xiàng)集、K-項(xiàng)集、頻繁項(xiàng)集并最后確定關(guān)聯(lián)規(guī)則的?4、FP-Tree算法復(fù)習(xí)參考題:一、填空題(1關(guān)聯(lián)規(guī)則挖掘中,兩個(gè)主要的興趣度度量是:支持度和置信度。(2Aprior算法包括連接和剪枝
25、兩個(gè)基本步驟。(3項(xiàng)集的頻率是指包含項(xiàng)集的事務(wù)數(shù)(4大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘包含兩個(gè)過程:找出所有頻繁項(xiàng)集、由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。(5根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為:布爾關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則。(6Apriori性質(zhì)是指:頻繁項(xiàng)集的所有非空子集也必須是頻繁的。(7挖掘多維關(guān)聯(lián)規(guī)則的技術(shù)可以根據(jù)量化屬性的處理分為三種基本方法:量化屬性的靜態(tài)離散化、量化關(guān)聯(lián)規(guī)則、基于距離的關(guān)聯(lián)規(guī)則。(8對(duì)于頻繁項(xiàng)集挖掘,在挖掘過程中使用的約束包括以下五種類型:反單調(diào)的、單調(diào)的、簡(jiǎn)潔的、可轉(zhuǎn)變的、不可轉(zhuǎn)變的。(9在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項(xiàng)集,而是頻繁謂詞集。二、單選題(1下列幾種數(shù)據(jù)
26、挖掘功能中,(A被廣泛的用于購(gòu)物籃分析。A、關(guān)聯(lián)分析B、分類和預(yù)測(cè)C、聚類分析D、演變分析(2支持度(support是衡量興趣度度量(A的指標(biāo)。A、實(shí)用性B、確定性C.、簡(jiǎn)潔性D、新穎性(3置信度(confidence是衡量興趣度度量(B的指標(biāo)。A、簡(jiǎn)潔性B、確定性C.、實(shí)用性D、新穎性(4根據(jù)關(guān)聯(lián)分析中所處理的值類型,可以將關(guān)聯(lián)規(guī)則分類為:(CA、布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則B、單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則C、單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則D、簡(jiǎn)答關(guān)聯(lián)規(guī)則和復(fù)雜關(guān)聯(lián)規(guī)則(5規(guī)貝【:age(X,”19-25”Abuys(X,“popcorn”=>buys(X,“coke”是一個(gè)CA、單維關(guān)聯(lián)規(guī)則
27、B、多維關(guān)聯(lián)規(guī)則C、混合維關(guān)聯(lián)規(guī)則D、不是一個(gè)關(guān)聯(lián)規(guī)則三、問答及分析計(jì)算1、請(qǐng)解釋一下在數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中什么是支持度和可信度,以及關(guān)聯(lián)規(guī)則。答:支持度:規(guī)則AB的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(AUB,是AB同時(shí)發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量??尚哦?規(guī)則AB的可信度指的是包含A項(xiàng)集的同時(shí)也包含B項(xiàng)集的條件概率P(BIA,是AB同時(shí)發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比??尚哦仁菍?duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。關(guān)聯(lián)規(guī)則:同時(shí)滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關(guān)聯(lián)規(guī)則。2、數(shù)據(jù)庫(kù)有4筆交易,設(shè)minsup=60%,minconf=80%。TIDD
28、ATEITWSOUGHTT1003/5/2009甩GSnLT2003/5/2009D,AnC,EnBT3004/5/2010T4004/5/2010<C,AnBnE用Apriori算法找出所有頻繁項(xiàng)集,列出所有關(guān)聯(lián)規(guī)則。(參考課本以及課堂教學(xué)例子第五講分類考點(diǎn)1、什么是分類?解決分類問題的一般方法?2、在常用的分類方法中決策樹技術(shù)發(fā)現(xiàn)規(guī)則的核心是?什么是決策樹?如何用決策樹進(jìn)行分類?3、在決策樹算法中有CLS,ID3,C4.5,CART等方法,簡(jiǎn)述ID3算法的基本思想及其主算法的基本步驟。4、什么是屬性的信息增益,熵?5、分類模型的誤差有哪些?6、什么是過度擬合?解決的辦法?復(fù)習(xí)參考題:
29、一、填空題(1通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測(cè)過程的準(zhǔn)確性、有效性和可伸縮性。(2防止分類中的過分適應(yīng)的兩種方法分別是:先剪枝、后剪枝。二、單選題(1下面哪種分類方法是屬于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法?(CA、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理(2下面哪種分類方法是屬于統(tǒng)計(jì)學(xué)的分類方法?(BA、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理(3下列哪個(gè)描述是正確的?(CA、分類和聚類都是有指導(dǎo)的學(xué)習(xí)C、分類是有指導(dǎo)的學(xué)習(xí),聚類是無指導(dǎo)的學(xué)習(xí)B、分類和聚類都是無指導(dǎo)的學(xué)習(xí)D、分類是無指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)三、問答題1、分類知識(shí)的發(fā)現(xiàn)方法主要有哪些?分類過程通
30、常包括哪兩個(gè)步驟?答:分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個(gè)合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類。2、什么是決策樹?如何用決策樹進(jìn)行分類?答:決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對(duì)大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對(duì)新樣本的分類,即通過決策樹對(duì)新樣本屬性值的
31、測(cè)試,從樹的根結(jié)點(diǎn)開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點(diǎn),該葉結(jié)點(diǎn)表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。3、在判定樹歸納中,為什么樹剪枝是有用的?答:當(dāng)判定樹創(chuàng)建時(shí),由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常。剪枝方法處理這種過分適應(yīng)數(shù)據(jù)的問題。通常,這種方法使用統(tǒng)計(jì)度量,剪去最不可靠的分枝,這將導(dǎo)致較快的分類,提高樹獨(dú)立于測(cè)試數(shù)據(jù)正確分類的可靠性。四、分析題1、根據(jù)以下訓(xùn)練樣本,計(jì)算年齡屬性的信息增益值M7RV房車<35Male小康>35Female小康FemaU小康>35Femalef氐所得<35
32、Male高所得£35Femalef駅<35Female©所得<35Female高所得>35Male小康<35Male高所得£35Female小康<35Male低所得昭誦b小康>35Malef氐所得>35Male小康年齡性別所得否否否否是是否否否否曇一I(16,4=-(4/16*log2(4/16+(12/16*log2(12/16=0.8113E(年齡=(6/16*1(6,1+(10/16*1(10,3=0.7946Gain(年齡=I(16,4-E(年齡=0.0167第六講聚類分析考點(diǎn):1、什么的聚類?它和分類的區(qū)別在哪?
33、2、聚類的主要算法中K-平均算法(k-means的輸入、輸出及聚類過程是如何實(shí)現(xiàn)的?復(fù)習(xí)參考題:、填空題(1在數(shù)據(jù)挖掘中,常用的聚類算法包括:劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。(2聚類分析常作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況。(3一個(gè)好的聚類分析方法會(huì)產(chǎn)生高質(zhì)量的聚類,具有兩個(gè)特征:高類內(nèi)相似度、低類間相似度。(4許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)矩陣、相異度矩陣。(5基于網(wǎng)格的聚類方法的優(yōu)點(diǎn)是:處理數(shù)度快。(6孤立點(diǎn)產(chǎn)生的主要原因包括:度量或執(zhí)行錯(cuò)誤、數(shù)據(jù)變異的結(jié)果。(7在基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)中,常用于不一致性檢驗(yàn)的參數(shù)包括:數(shù)據(jù)分布、分
34、布參數(shù)、預(yù)期的孤立點(diǎn)數(shù)。二、單選題(1下面那種數(shù)據(jù)挖掘方法可以用來檢測(cè)孤立點(diǎn)?C。A. 概念描述B. 分類和預(yù)測(cè)C. 聚類分析D. 演變分析(2以下哪個(gè)指標(biāo)不是表示對(duì)象間的相似度和相異度CA、Euclidean距離B、Manhattan距離C、Eula距離D、Minkowski距離(3以下哪種聚類方法可以發(fā)現(xiàn)任意形狀的聚類?CA、劃分的方法B、基于模型的方法C、基于密度的方法D、層次的方法三、問答題1、何謂聚類?它與分類有什么異同?答:聚類是將物理或抽象對(duì)象的集合分組成為多個(gè)類或簇(cluster的過程,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大。聚類與分類不同,聚類
35、要?jiǎng)澐值念愂俏粗?,分類則可按已知規(guī)則進(jìn)行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。2、簡(jiǎn)述ID3算法的基本思想及其主算法的基本步驟。答:首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個(gè)子集,每個(gè)子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對(duì)新的樣例進(jìn)行分類。主算法包括如下幾步: 從訓(xùn)練集中隨機(jī)選擇一個(gè)既含正例又含反例的子集(稱為窗口; 用“建樹算法”對(duì)當(dāng)前窗口形成一棵決策樹; 對(duì)訓(xùn)練集(窗口除外中例子用所得決策樹進(jìn)行類別判定,找出錯(cuò)判的例子; 若存在錯(cuò)
36、判的例子,把它們插入窗口,重復(fù)步驟,否則結(jié)束。四、分析計(jì)算1、給定兩個(gè)向量對(duì)象,分別表示為pl(22,l,42,10,p2(20,0,36,8:(a計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離;(b計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離;(c計(jì)算兩個(gè)對(duì)象之間的切比雪夫距離;(d計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,用x=3。答:(a計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離:碼;二22-20/-/I-O/-M2-36/-S?二阿(b計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離:叢、二22-20-/I-0-(42-36H0-(d計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,其中參數(shù)r=3:2、假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的八個(gè)點(diǎn)(用(x,y代表位置)聚類為三個(gè)類。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度消防檢測(cè)服務(wù)外包合同勞動(dòng)廳制定2篇
- 2025年度石材行業(yè)市場(chǎng)調(diào)查與分析合同3篇
- 二零二五年度外墻巖棉板保溫材料采購(gòu)、施工及質(zhì)量監(jiān)管合同2篇
- 二零二五年度旅游行業(yè)SaaS解決方案銷售及服務(wù)協(xié)議3篇
- 二零二五年度波形護(hù)欄安裝及售后保養(yǎng)服務(wù)合同3篇
- 二零二五年度廣告發(fā)布合同:某品牌在央視春晚廣告投放3篇
- 編織紅繩課程設(shè)計(jì)
- 二零二五年度建筑膩?zhàn)赢a(chǎn)品進(jìn)出口代理合同3篇
- 二零二五年度彩鋼房租賃與投資合作協(xié)議3篇
- 課程設(shè)計(jì)怎么形容成語
- (八省聯(lián)考)河南省2025年高考綜合改革適應(yīng)性演練 思想政治試卷(含答案)
- 綜合測(cè)試 散文閱讀(多文本)(解析版)-2025年高考語文一輪復(fù)習(xí)(新高考)
- 鈑金設(shè)備操作培訓(xùn)
- 2024駕校經(jīng)營(yíng)權(quán)承包合同
- 快遞公司與驛站合作協(xié)議模板 3篇
- 水利工程招標(biāo)文件樣本
- 品質(zhì)管控培訓(xùn)質(zhì)量管理與質(zhì)量控制課件
- 小數(shù)加減乘除計(jì)算題大全(300題大全)-
- 2023-2024學(xué)年小學(xué)語文四年級(jí)素養(yǎng)檢測(cè)復(fù)習(xí)試題附答案
- 露天礦山全員安全教育培訓(xùn)
- 共生理論視域下開放型區(qū)域產(chǎn)教融合實(shí)踐中心建設(shè)路徑研究
評(píng)論
0/150
提交評(píng)論