數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)

第一章

1、數(shù)據(jù)倉庫就是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.

2、元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個(gè)

信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類.

3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。

4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋

轉(zhuǎn)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),

從而深入理解多維數(shù)據(jù)集中的信息。

5、ROLAP是基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實(shí)現(xiàn)。

OLAP技術(shù)的有關(guān)概念:

OLAP根據(jù)其存儲(chǔ)數(shù)據(jù)的方式可分為三類:ROLAP、MOLAP、HOLAP

6、數(shù)據(jù)倉庫按照其開發(fā)過程,其關(guān)鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)與管理和數(shù)據(jù)表現(xiàn)等。

7、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:兩層架構(gòu)、獨(dú)立

型數(shù)據(jù)集合、以來型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲(chǔ)和邏輯型數(shù)據(jù)集中和實(shí)時(shí)數(shù)據(jù)倉庫。

8、操作型數(shù)據(jù)存儲(chǔ)實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的(但是可“揮

發(fā)”的)、企業(yè)級(jí)的、詳細(xì)的數(shù)據(jù)庫,也叫運(yùn)營數(shù)據(jù)存儲(chǔ)。

9、”實(shí)時(shí)數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉庫倉庫之間以一個(gè)接近實(shí)時(shí)的

速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。

10、從應(yīng)用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個(gè)階段:以報(bào)表為主、以分析為

主、以預(yù)測(cè)模型為主、以運(yùn)營導(dǎo)向?yàn)橹骱鸵詫?shí)時(shí)數(shù)據(jù)倉庫和自動(dòng)決策為主。

11、什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的特點(diǎn)主要有哪些?

數(shù)據(jù)倉庫通常是指一個(gè)數(shù)據(jù)庫環(huán)境,而不是支一件產(chǎn)品,它是提供用戶用于決策支持的當(dāng)前

和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫中通常不方便得到。數(shù)據(jù)倉庫就是一個(gè)面向主題的

(SubjectOriented)集成的(Integrate)、相對(duì)穩(wěn)定的(Non—Volatile)、反映歷史

變化(TimeVariant)的數(shù)據(jù)集合,通常用于輔助決策支持。

數(shù)據(jù)倉庫的特點(diǎn)包含以下幾個(gè)方面:

(1)面向主題.操作型數(shù)據(jù)庫的數(shù)據(jù)組織是面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離:

而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。

(2)集成的.面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)

立,并且往往是異構(gòu)的。也就是說存放在數(shù)據(jù)倉庫中的數(shù)據(jù)應(yīng)使用一致的命名規(guī)則、格式、

編碼結(jié)構(gòu)和相關(guān)特性來定義。

(3)相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化.數(shù)據(jù)

倉庫的數(shù)據(jù)主要供單位決策分析之用,對(duì)所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載,一旦某

個(gè)數(shù)據(jù)加載到數(shù)據(jù)倉庫以后,一般情況下將作為數(shù)據(jù)檔案長期保存,幾乎不再做修改和刪除

操作,也就是說針對(duì)數(shù)據(jù)倉庫,通常有大量的查詢操作及少量定期的加載(或刷新)操作.

(4)反映歷史變化。操作型數(shù)據(jù)庫(OLTP)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉

庫中的數(shù)據(jù)通常包含較久遠(yuǎn)的歷史數(shù)據(jù),因此總是包括一個(gè)時(shí)間維,以便可以研究趨勢(shì)和變

化。數(shù)據(jù)倉庫系統(tǒng)通常記錄了一個(gè)單位從過去某一時(shí)點(diǎn)(如開始啟用數(shù)據(jù)倉庫系統(tǒng)的時(shí)點(diǎn))

到目前的所有時(shí)期的信息,通過這些信息,可以對(duì)單位的發(fā)展歷程和未來趨勢(shì)做出定量分析

和預(yù)測(cè)。

12、數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘,就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平

凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí),又被稱為數(shù)據(jù)庫中的

知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘的方法:直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘.

13、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系

若將數(shù)據(jù)倉庫比作礦井,那么數(shù)據(jù)挖掘就是深入礦井采礦的工作;數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中

找出有用信息的一種過程與技術(shù)。

14、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)的分類

(1)兩層架構(gòu)(GenericTwo-LevelArchitecture)。

(2)獨(dú)立型數(shù)據(jù)集市(IndependentDataMart).

(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(DependentDataMartandOperationalData

Store)o

(4)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉庫(LogicalDataMartandReal-TimeDataWarehouse).

15、數(shù)據(jù)倉庫的未來

(1)在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、

調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便

于管理和維護(hù)。

(2)在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫

服務(wù)器產(chǎn)品與數(shù)據(jù)庫服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫將

最具發(fā)展?jié)摿?

(3)在數(shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中,并與

Internet/Web技術(shù)緊密結(jié)合。按行業(yè)應(yīng)用特征細(xì)化的數(shù)據(jù)倉庫用戶前端軟件將成為產(chǎn)品作

為數(shù)據(jù)倉庫解決方案的一部分。數(shù)據(jù)倉庫實(shí)現(xiàn)過程的方法論將更加普及,將成為數(shù)據(jù)庫設(shè)計(jì)

的一個(gè)明確分支,成為管理信息系統(tǒng)設(shè)計(jì)的必備

16、請(qǐng)列出3種數(shù)據(jù)倉庫產(chǎn)品,并說明其優(yōu)缺點(diǎn)。

(1)IBM公司提供了一套基于可視化數(shù)據(jù)倉庫的商業(yè)智能(BI)解決方案,包括:Visual

Warehouse(VW),Essbase/DB2OLAPServer5.0,IBMDB2UDB,以及來自第三方的前端數(shù)

據(jù)展現(xiàn)工具(如B0)和數(shù)據(jù)挖掘工具(如SAS)。其中,VW是一個(gè)功能很強(qiáng)的集成環(huán)境,既

可用于數(shù)據(jù)倉庫建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度.Essbase/DB2

OLAPServer支持“維”的定義和數(shù)據(jù)裝載。Essbase/DB2OLAPServer不是ROLAP

(RelationalOLAP)服務(wù)器,而是一個(gè)(ROLAP和M0LAP)混合的HOLAP服務(wù)器,在Essbase

完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2UDB數(shù)據(jù)庫中。它的前端數(shù)據(jù)展現(xiàn)工具可以選

擇BusinessObjects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query

ManagementFacility;多維分析工具支持ArborSoftware的Essbase和IBM(與Arbor聯(lián)

合開發(fā))的DB2OLAP服務(wù)器;統(tǒng)計(jì)分析工具采用SAS系統(tǒng)。

(2)Oracle數(shù)據(jù)倉庫解決方案主要包括OracleExpress和OracleDiscoverer兩個(gè)部分。

OracleExpress由四個(gè)工具組成:OracleExpressServer是一個(gè)MOLAP(多維OLAP)服務(wù)

器,它利用多維模型,存儲(chǔ)和管理多維數(shù)據(jù)庫或多維高速緩存,同時(shí)也能夠訪問多種關(guān)系數(shù)

據(jù)庫;OracleExpressWebAgent通過CGI或Web插件支持基于Web的動(dòng)態(tài)多維數(shù)據(jù)展

現(xiàn);OracleExpressObjects前端數(shù)據(jù)分析工具(目前僅支持Windows平臺(tái))提供了圖形

化建模和假設(shè)分析功能,支持可視化開發(fā)和事件驅(qū)動(dòng)編程技術(shù),提供了兼容VisualBasic語

法的語言,支持OCX和OLE;OracleExpressAnalyzer是通用的、面向最終用戶的報(bào)告和

分析工具(目前僅支持Windows平臺(tái))。OracleDiscoverer即席查詢工具是專門為最終

用戶設(shè)計(jì)的,分為最終用戶版和管理員版。在Oracle數(shù)據(jù)倉庫解決方案的實(shí)施過程中,通

常把匯總數(shù)據(jù)存儲(chǔ)在Express多維數(shù)據(jù)庫中,而將詳細(xì)數(shù)據(jù)存儲(chǔ)在Oracle關(guān)系數(shù)據(jù)庫中,

當(dāng)需要詳細(xì)數(shù)據(jù)時(shí),ExpressServer通過構(gòu)造SQL語句訪問關(guān)系數(shù)據(jù)庫。

(3)Microsoft將OLAP功能集成到SQLServer數(shù)據(jù)庫中,其解決方案包括BI平臺(tái)、BI終

端工具、BI門戶和BI應(yīng)用四個(gè)部分,如圖1.1.

①BI平臺(tái)是BI解決方案的基礎(chǔ),包括ETL平臺(tái)SQLServer2005Integration

Service(SSIS),數(shù)據(jù)倉庫引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎SQL

Server2005AnalysisService、報(bào)表管理引擎SQLServer2005ReportingService。

②BI終端用戶工具,用戶通過終端用戶工具和AnalysisService中的OLAP服務(wù)和數(shù)據(jù)

挖掘服務(wù)進(jìn)行交互來使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型,終端用戶通??墒褂妙A(yù)定義報(bào)表、交

互式多維分析、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等多種方法。

③BI門戶提供了各種不同用戶訪問BI信息的統(tǒng)一入口。BI門戶是一個(gè)數(shù)據(jù)的匯集地,

集成了來自不同系統(tǒng)的相關(guān)信息.用戶可以制定個(gè)性化的個(gè)人門戶,選擇和自己相關(guān)性最強(qiáng)

的數(shù)據(jù),提高信息訪問和使用的效率。

④BI應(yīng)用是建立在BI平臺(tái)、BI終端用戶工具和BI統(tǒng)一門戶這些公共技術(shù)手段之上的滿

足某個(gè)特定業(yè)務(wù)需求的應(yīng)用,例如零售業(yè)務(wù)分析、企業(yè)項(xiàng)目管理組合分析等

第二章

1、調(diào)和數(shù)據(jù)是存儲(chǔ)在企業(yè)級(jí)數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)。

2,抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威數(shù)據(jù)源。因此,

我們要求ETL過程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細(xì)的、歷史的、規(guī)范的、可理解的、即

時(shí)的和質(zhì)量可控制的。

3、數(shù)據(jù)抽取的兩個(gè)常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫,增

量抽取用于進(jìn)行數(shù)據(jù)倉庫的維護(hù)。

4、粒度是對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合

程度越低,回答查詢的種類越多。

5、使用星型模式可以從一定程度上提高查詢效率.因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng)經(jīng)過預(yù)處

理,主要數(shù)據(jù)都在龐大的事實(shí)表中。

6、維度表一般由主鍵、分類層次和描述屬性組成.對(duì)于主鍵可以選擇兩種方式:自然鍵,代

理鍵。

7、雪花型模式是對(duì)星型模式維表的進(jìn)一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。

8、數(shù)據(jù)倉庫中存在不同綜合級(jí)別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)

節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí).

9、(1)狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)

前者描述對(duì)象的狀態(tài),后者描述對(duì)象發(fā)生的事件;(前象)狀態(tài)數(shù)據(jù)一事件數(shù)據(jù)一(后象)

狀態(tài)數(shù)據(jù)

(2)當(dāng)前數(shù)據(jù)與周期數(shù)據(jù)

當(dāng)前數(shù)據(jù)只保留最新數(shù)據(jù),現(xiàn)存的最新記錄將改變以前中的數(shù)據(jù)。

周期數(shù)據(jù)則相反,一旦保存物理上就不在改變或刪除數(shù)據(jù)。通常每個(gè)周期數(shù)據(jù)記錄都會(huì)包含

一個(gè)時(shí)間戳來只是日期甚至?xí)r間。

(3)數(shù)據(jù)倉庫中的元數(shù)據(jù)

分技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。

技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),包括:數(shù)據(jù)倉庫結(jié)構(gòu)的描述,業(yè)務(wù)系統(tǒng)、

數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式,匯總算法,操作性業(yè)務(wù)環(huán)境導(dǎo)數(shù)據(jù)倉庫環(huán)境的映射

等。

10、業(yè)務(wù)元數(shù)據(jù)是從業(yè)務(wù)角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),提供了使用者和系統(tǒng)的語義層,使非

專業(yè)人員能“讀懂”倉庫中的數(shù)據(jù)。包括:(1)使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)類型、對(duì)

象名和屬性名;(2)訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;(3)系統(tǒng)所提供的分析方法及公式和

報(bào)表的信息。簡言之,元數(shù)據(jù)是數(shù)據(jù)倉庫的幫助和導(dǎo)航圖

11>什么是數(shù)據(jù)倉庫的3層數(shù)據(jù)結(jié)構(gòu)?

數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務(wù)處理系統(tǒng)(操作型數(shù)據(jù))流向企業(yè)級(jí)數(shù)據(jù)倉庫或操作型數(shù)據(jù)存

儲(chǔ)區(qū),在這個(gè)過程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模型和元數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行調(diào)和處

理,形成一個(gè)中間數(shù)據(jù)層,然后再根據(jù)分析需求,從調(diào)和數(shù)據(jù)層將數(shù)據(jù)引入導(dǎo)出數(shù)據(jù)層,如

形成滿足各類分析需求的數(shù)據(jù)集市.

12、什么是數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程?

數(shù)據(jù)的ETL過程就是負(fù)責(zé)將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過程.這兩種數(shù)據(jù)具有明顯的區(qū)

別,因此,數(shù)據(jù)調(diào)和是構(gòu)建一個(gè)數(shù)據(jù)倉庫中最難的和最具技術(shù)挑戰(zhàn)性的部分。在為企業(yè)級(jí)數(shù)據(jù)

倉庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調(diào)和可分為兩個(gè)階段:一是企業(yè)級(jí)數(shù)據(jù)倉庫(EDW)首次創(chuàng)建時(shí)

的原始加載;二是接下來的定期修改,以保持EDW的當(dāng)前有效性和擴(kuò)展性。

整個(gè)過程由四個(gè)步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實(shí)上,這些步驟可以進(jìn)行不

同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個(gè)過程,或者將清洗和轉(zhuǎn)換組合在一起。通常,

在清洗過程中發(fā)現(xiàn)的拒絕數(shù)據(jù)信息會(huì)送回到源操作型業(yè)務(wù)系統(tǒng)中,然后將數(shù)據(jù)在源系統(tǒng)中加

以處理,以便在以后重新抽取.

13、什么是星型模式?它的特征是什么?

在星模式中,事實(shí)表居中,多個(gè)維表呈輻射狀分布于其四周,并與事實(shí)表連接.位于星形中

心的實(shí)體是事實(shí)表,是用戶最關(guān)心的基本實(shí)體和查詢活動(dòng)的中心,為數(shù)據(jù)倉庫的查詢活動(dòng)提

供定量數(shù)據(jù)。位于星模式四周的實(shí)體是維度實(shí)體,其作用是限制和過濾用戶的查詢結(jié)果,縮

小訪問范圍。每個(gè)維表都有自己的屬性,維表和事實(shí)表通過關(guān)鍵字相關(guān)聯(lián)。

14、為什么時(shí)間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?

信息包圖法,也叫用戶信息需求表,就是在一張平面表格上描述元素的多維性,其中的每一

個(gè)維度用平面表格的一列表示,通常的維度如時(shí)間、地點(diǎn)、產(chǎn)品和顧客等;而細(xì)化本列的對(duì)

象就是類別,例如時(shí)間維度的類別可以細(xì)化到年、月、日,甚至小時(shí);平面表格的最后一行(代

表超立方體中的單元格)即為指標(biāo)度量值,例如,某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷售額。

創(chuàng)建信息包圖時(shí)需要確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包含各個(gè)層次需要的

數(shù)據(jù)倉庫??傊?,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點(diǎn)開始設(shè)計(jì)(用

戶的觀點(diǎn)是通過與用戶交流得到的),站在管理者的角度把焦點(diǎn)集中在企業(yè)的一個(gè)或幾個(gè)主

題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,

以及這些信息源影響業(yè)務(wù)活動(dòng)的方式.

第三章

1、WQLServerSSAS提供了所有業(yè)務(wù)數(shù)據(jù)的同意整合試圖,可以作為傳統(tǒng)報(bào)表、

在線分析處理、關(guān)鍵性能指示器記分卡和數(shù)據(jù)挖掘的基砒.

2、數(shù)據(jù)倉庫的概念模型通常采用信息包圖法來進(jìn)行設(shè)計(jì),要求將其5個(gè)組成部

分(包括名稱、維度、類別、層次和度量)全面地描述出來.

3、數(shù)據(jù)倉庫的建輯模型通常采用星型圖法來進(jìn)行設(shè)計(jì),要求將星型的各類避輯

實(shí)體完整地描述出來.

4、按照事實(shí)表中度量的可加性情況,可以把事實(shí)表對(duì)應(yīng)的事實(shí)分為4種類型:

事務(wù)事實(shí)、快照事實(shí)、線性項(xiàng)目事實(shí)和事件事實(shí).

5、確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)

擁護(hù)需求設(shè)計(jì)聚合模型.

6、在項(xiàng)目實(shí)施時(shí),根據(jù)事實(shí)表的特點(diǎn)和擁護(hù)的查詢需求,可以選用時(shí)間、業(yè)務(wù)

類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型.

7、當(dāng)維表中的主鍵在事實(shí)表中沒有與外鍵關(guān)聯(lián)時(shí),這樣的維稱為退化維.它于

事實(shí)表并無關(guān)系,但有時(shí)在查詢限制條件(如訂單號(hào)碼、出貨單編號(hào)等)中需

要用到.

8、維■可以根據(jù)其變化快慢分為元變化維度、線慢變化維度和劇烈變化維度三

類.

9、.數(shù)據(jù)倉庫的數(shù)據(jù)量通常較大,且數(shù)據(jù)一般很少更新,可以通過設(shè)計(jì)和優(yōu)化索

引結(jié)構(gòu)來提高數(shù)據(jù)存取性能.

1。、數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲(chǔ)優(yōu)化方法包括表的歸并與俄文件、反向規(guī)瓶化

引入冗余、衰的物理分割(分區(qū)).

12、簡述數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)過程?

收集、分析和確認(rèn)業(yè)務(wù)分析需求,分析和理解主題和元數(shù)據(jù)、事實(shí)及其量度、粒度和維度的

選擇與設(shè)計(jì)、數(shù)據(jù)倉庫的物理存儲(chǔ)方式的設(shè)計(jì)等。書P49

13、一個(gè)數(shù)據(jù)倉庫系統(tǒng)的建立通暢需要經(jīng)過哪些步驟?

(1)收集和分析業(yè)務(wù)需求;(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì);(3)定義數(shù)據(jù)源;

(4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái);(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫;

(6)選擇訪問和報(bào)表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;(7)更

14、/立一不數(shù)據(jù)倉庫系統(tǒng)的參考步驟

(1)收集和分析業(yè)務(wù)需求步驟(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)(3)定義數(shù)據(jù)源

(4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái)(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫(6)

選擇訪問和報(bào)表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件(7)更新數(shù)據(jù)

倉庫

15、創(chuàng)建數(shù)據(jù)倉庫系統(tǒng)的兩種思維模式

自頂向下(Top-down)OLTP數(shù)據(jù)通過ETL進(jìn)入DW,再復(fù)制推進(jìn)各個(gè)數(shù)據(jù)集市;

自底向上(Bottom-Up)OLTP數(shù)據(jù)通過ETL進(jìn)入數(shù)據(jù)集市,再復(fù)制提升到DW;

16、數(shù)據(jù)倉庫數(shù)據(jù)庫的設(shè)計(jì)過程

(1)分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu)(2)組織需求調(diào)研,收集業(yè)務(wù)需求(3)采用信息

包圖法進(jìn)行數(shù)據(jù)倉庫的概念模型設(shè)計(jì)(4)利用星形圖進(jìn)行數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)(5)

數(shù)據(jù)倉庫的物理模型設(shè)計(jì)

17、利用星形圖進(jìn)行數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)

(1)根據(jù)分析需求與信息包圖制作星形圖或雪花圖(2)確定主題的屬性組(3)事實(shí)表及其

特征、事實(shí)表的類型與設(shè)計(jì)(4)粒度的選擇與設(shè)計(jì)步驟(5)關(guān)于數(shù)據(jù)倉庫的聚合模型與

數(shù)據(jù)的分割處理(6)星形圖中的維度表簡介(7)常用維度的設(shè)計(jì)模式

第四章

1、關(guān)聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP—growth算法,其中FP-grownth算法的效率

更高。

2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},則

連接產(chǎn)生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再經(jīng)過修剪,C3={{a,b,c),

{a,b,d}}

3、設(shè)定supmin=50%,交易集如

則L1={A},{B},{C}L2={A,C}

T1ABC

T2AC

T3AD

T4BEF

4、什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則的應(yīng)用有哪些?

關(guān)聯(lián)規(guī)則挖掘最初由R。Agrawal等人提出,用來發(fā)現(xiàn)超級(jí)市場(chǎng)中用戶購買的商品之間的隱

含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來,稱為關(guān)聯(lián)規(guī)則(AssociationRule)。關(guān)聯(lián)規(guī)則除

了可以發(fā)現(xiàn)超市購物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域.關(guān)聯(lián)規(guī)則的應(yīng)用

還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等.

5、關(guān)聯(lián)規(guī)則的分類有哪些?關(guān)聯(lián)規(guī)則挖掘的步驟包括什么?

關(guān)聯(lián)規(guī)則的分類:

(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。

(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。

(3)基于規(guī)則中處理的變量的類型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。

關(guān)聯(lián)規(guī)則挖掘的步驟:(1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻

繁項(xiàng)集;

(2)/用頻繁項(xiàng)集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍,產(chǎn)生強(qiáng)

關(guān)聯(lián)規(guī)則。

第五章

1、分類的過程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計(jì)和分類決策。

2、分類器設(shè)計(jì)階段包含三個(gè)過程:劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和分類器測(cè)試。

3、分類問題中常用的評(píng)價(jià)準(zhǔn)則有精確度、查全率和查準(zhǔn)率和集合均值.

4,支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)。

5、分類的定義:分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過程,即給定一組

輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類

6、分類的應(yīng)用領(lǐng)域有哪些?

分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一,許多分類算法被包含在統(tǒng)計(jì)分

析工具的軟件包中,作為專門的分類工具來使用.分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生

物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用.例如,在銀行業(yè)中,分類方法可以輔助工

作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類,從而采取有效措施減小銀行的損失;

在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類,從而及時(shí)制定

救治方案,挽救病人的生命;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件

和垃圾郵件進(jìn)行分類,從而制定有效的垃圾郵件過濾機(jī)制,防止垃圾郵件干擾人們的正常生

活。

7、分類問題使用的數(shù)據(jù)集格式

(1)描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性.

(2)連續(xù)型屬性是指在某一個(gè)區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的,例如屬性

“Age”

(3)離散型屬性是指該屬性的取值是不連續(xù)的,例如屬性"Salary”和“Class”

8、分類的過程

(1)獲取數(shù)據(jù):輸入數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行量化

(2)預(yù)處理:去除噪聲數(shù)據(jù)、對(duì)空缺值進(jìn)行處理;數(shù)據(jù)集成或者變換

(3)分類器設(shè)計(jì):劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造、分類器測(cè)試

(4)分類決策:對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類

9、決策樹的優(yōu)點(diǎn):進(jìn)行分類器設(shè)計(jì)時(shí),決策樹分類方法所需時(shí)間相對(duì)較少;決策樹的分類模

型是樹狀結(jié)構(gòu),簡單直觀,比較符合人類的理解方式;可以將決策樹中到達(dá)每個(gè)葉節(jié)點(diǎn)的路

徑轉(zhuǎn)換為IF-THEN形式的分類規(guī)則,這種形式更有利于理解

10、決策樹的基本概念:適用于離散值屬性、連續(xù)值屬性;采用自頂向下的遞歸方式產(chǎn)生一

個(gè)類似于流程圖的樹結(jié)構(gòu);在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性,并且根據(jù)該屬性

的不同取值向下建立分枝

11、決策樹剪枝:決策樹剪枝過程試圖檢測(cè)和去掉多余的分枝,以提高對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)

進(jìn)行分類時(shí)的準(zhǔn)確性。

a)先剪枝方法:在生成決策樹的過程中對(duì)樹進(jìn)行剪枝

b)后剪枝方法:在生成決策樹之后對(duì)樹進(jìn)行剪枝

第六章

1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度

計(jì)算方法。

2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。

3、劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn):選種某種距離作為數(shù)據(jù)樣本減的相似

性度量、選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)

果,使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值.

4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。

5、什么是聚類分析?聚類分析的應(yīng)用領(lǐng)域有哪些?書P131

聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個(gè)類別的過程,聚類之后的每個(gè)類別

中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度。

6、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求:

(1)可伸縮性(適用于增長的大數(shù)據(jù)集)

(2)處理不同類型屬性的能力(支持多種類型屬性的數(shù)據(jù)集)

(3)發(fā)現(xiàn)任意形狀聚類的能力(除了球形聚類外,能劃分出任意形狀聚類)

(4)減小對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性

(5)處理噪聲數(shù)據(jù)的能力(對(duì)孤立點(diǎn)、缺失值、錯(cuò)誤數(shù)據(jù)等噪聲數(shù)據(jù)的抗干擾性)

(6)可解釋性和實(shí)用性(降維,可視化顯示)

7、通常聚類算法可以分為以下幾類:

(1)劃分聚類方法

選擇適當(dāng)?shù)某跏即睃c(diǎn)將數(shù)據(jù)樣本進(jìn)行初始聚類,之后通過迭代過程對(duì)聚類的結(jié)果進(jìn)行不斷

的調(diào)整,直到使評(píng)價(jià)性能的準(zhǔn)則函數(shù)的值達(dá)到最優(yōu)為止。

(2)層次聚類方法(3)基于密度的聚類方法(4)基于網(wǎng)格的聚類方法

第十章

1>遺傳算法(GeneticAlgorithms,GA)是一種有效的全局搜索方法,是一種基于達(dá)爾文自

然選擇和遺傳變異等生物進(jìn)化機(jī)制而發(fā)展起來的仿生算法.

2、例1利用遺傳算法求解區(qū)間[0,31]上的二次函數(shù)y=x2的最大值.

解(1)設(shè)定種群規(guī)模,編碼染色體,產(chǎn)生初始種群。

將種群規(guī)模設(shè)定為4;用5位二進(jìn)制數(shù)編碼染色體;取下列個(gè)體組成初始種群S1:

sl=13(01101),s2=24(11000)

s3=8(01000),s4=19(10011)

(2)定義適應(yīng)度函數(shù),取適應(yīng)度函數(shù):f(x)=x2

f(si)=f(13)=132=169f(s2)=f(24)=242=576

f(s3)=f(8)=82=64f(s4)=f(19)=192=361

由此可求得

P(sl)=P(13)=0。14P(s2)=P(24)=0。49

P(s3)=P(8)=0。06P(s4)=P(19)=0。31

(3)計(jì)算各代種群中的各個(gè)體的適應(yīng)度,并對(duì)其染色體進(jìn)行遺傳操作,直到適應(yīng)度最高的

個(gè)體(即31(11111))出現(xiàn)為止。

填空題20分,簡答題25分,計(jì)算題2個(gè)(25分),綜合題30分

1、數(shù)據(jù)倉庫的組成?P2

數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布

系統(tǒng)

2、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求有哪幾個(gè)方面?P131

可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對(duì)先驗(yàn)知識(shí)和用戶自

定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性

3、數(shù)據(jù)倉庫在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7

(1)數(shù)據(jù)倉庫面對(duì)的是大量數(shù)據(jù)的存儲(chǔ)與管理(2)并行處理(3)針對(duì)決策支持查詢的優(yōu)化

(4)支持多維分析的查詢模式

4、常見的聚類算法可以分為幾類?P132

基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基

于模型的聚類算法等。

5、一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12

數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、0LAP服務(wù)器、前端工具與應(yīng)用

6、數(shù)據(jù)倉庫常見的存儲(chǔ)優(yōu)化方法?P71

表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。

7、數(shù)據(jù)倉庫發(fā)展演變的5個(gè)階段?P20

以報(bào)表為主以分析為主以預(yù)測(cè)模型為主以運(yùn)行向?qū)橹饕詫?shí)時(shí)數(shù)據(jù)倉庫自動(dòng)決策應(yīng)用

為主

8、ID3算法主要存在的缺點(diǎn)?P116

(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn)。

信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會(huì)提供太多有

價(jià)值的信息.

(2)ID3算法只能對(duì)描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。

9、簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30

ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加教

對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求:詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時(shí)的、質(zhì)量可控制的

10、簡述分類器設(shè)計(jì)階段包含的3個(gè)過程。

劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測(cè)試

11、什么是數(shù)據(jù)清洗?P33

數(shù)據(jù)清洗是一種使用模式識(shí)別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級(jí)原

始數(shù)據(jù)

12、支持度和置信度的計(jì)算公式及數(shù)據(jù)計(jì)算(P90)

找出所有的規(guī)則X0Y,使支持度和置信度分別大于門限支持度:事務(wù)中X和Y同時(shí)發(fā)生

的比例,P(XflY)置信度:項(xiàng)集X發(fā)生時(shí),Y同時(shí)發(fā)生的條件概率P(Y|X)

Example:

c(Xt{Milk,Diaper}=>Beer(0.4,0.67)

13、利用信息包圖洲徽鬻矗概念模型需要確定的三方面內(nèi)容。P57

確定指標(biāo),確定維度,確定類別

14、K一近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128

輸入:幅集工…未知類標(biāo)號(hào)的數(shù)據(jù)樣本X國,"?。?。

輸出:未知類標(biāo)號(hào)的數(shù)據(jù)樣本x的類標(biāo)號(hào)…

(1)對(duì)于未知類標(biāo)號(hào)的軟據(jù)樣本X,按照下式計(jì)算它與訓(xùn)練集X…中每一個(gè)數(shù)

據(jù)樣本的歐氏距露。

如向)=工和-xj,i=l,2,…,totals

(2)將第(1)步中的所有歐氏距靄按照由小到大的順序進(jìn)行防,并且取前k

個(gè)距露從而找出x在Xi中的k個(gè)近鄰,假?zèng)]p“p」,p,分別是k個(gè)近

鄰中屬于類別c“c「,c.的樣本數(shù)量…

(3)如果A=maxR,i=l,2,…加則x的類標(biāo)號(hào)為c“即xWc,?,

15、什么是技術(shù)元數(shù)套,主要包含的內(nèi)容?P29

技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),應(yīng)用于開發(fā)、管理和維護(hù)DW,包含:

DW結(jié)構(gòu)的描述,如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,數(shù)據(jù)集市的位

置和內(nèi)容等

業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式

匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù)定義的查詢和

報(bào)告.

由操作型業(yè)務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)

據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取控制)

16、業(yè)務(wù)元數(shù)據(jù)主要包含的內(nèi)容?P29

業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系統(tǒng)之間的語義

層主要包括:

雇用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名

訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源

提供的分析方法及公式和報(bào)表的信息.

17、K—means算法的基本操作步驟(包括算法的輸入和輸出)。P138

輸入:數(shù)據(jù)集X={x.|n=l,2,…,total},其中的數(shù)據(jù)樣本只包含描述屬性,不

包含類別屬性;聚類個(gè)數(shù)k.。

輸出:使誤差平方和準(zhǔn)則最小的k個(gè)聚類.。

(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的初始代表點(diǎn),每一個(gè)代表

點(diǎn)表示一個(gè)類別.”

(2)對(duì)于X中的任一數(shù)據(jù)樣本x.(iWmWtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的

距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中.,

(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚美,計(jì)算其中所有數(shù)據(jù)樣本的均值,

并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn)."

(4)對(duì)于X中的任一數(shù)據(jù)樣本x.(iWmWtotal),計(jì)算它與k個(gè)均值代表點(diǎn)的

距離,并且將它劃分到距離最近的均值代表點(diǎn)所表示的類別中.。

(5)重復(fù)步驟(3)和(4),直到各個(gè)聚類不再發(fā)生變化為止,即誤差平方和準(zhǔn)

則函數(shù)的值達(dá)到最優(yōu).。

18、數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36

SQL命令(如Insert或Update)

由DW供應(yīng)商或第三方提供專門的加載工具

由DW管理員編寫自定義程序

19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度P37

維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時(shí)間維或產(chǎn)品維

維類別:也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)類別屬性(如時(shí)間維

包括年、季度、月等)

維屬性:是維的一個(gè)取值,是數(shù)據(jù)線在某維中位置的描述。

粒度:DW中數(shù)據(jù)綜合程度高低的一個(gè)衡量。粒度低,細(xì)節(jié)程度高,回答查詢的種類多

20、Apriori算法的基本操作步驟P93

Apriori使用一種稱作逐層搜索的迭代方法,K項(xiàng)集用于探索K+1項(xiàng)集。

該方法是基于候選的策略,降低候選數(shù)

Apriori剪枝原則:若任何項(xiàng)集是非頻繁的,則其超集必然是非頻繁的(不用產(chǎn)生和

測(cè)試超集)

該原則基于以下支持度的特性:

vx,y:(xcr)=>s(x)>s(y)

項(xiàng)集的支持度不會(huì)超過其子集

支持度的反單調(diào)特性(anti—monotone):如果一個(gè)集合不能通過測(cè)試,則它

的所有超集也都不能通過相同的測(cè)試.

令k=l

產(chǎn)生長度為1的頻繁項(xiàng)集

循環(huán),直到無新的頻繁項(xiàng)集產(chǎn)生

從長度為k的頻繁項(xiàng)集產(chǎn)生長度為k+1的候選頻繁項(xiàng)集

連接步:項(xiàng)集的各項(xiàng)排序,前k—1個(gè)項(xiàng)相同

若候選頻繁子集包含長度為k的非頻繁子集,則剪枝

剪枝步:利用支持度屬性原則

掃描數(shù)據(jù)庫,計(jì)算每個(gè)候選頻繁集的支持度

刪除非頻繁項(xiàng),保留頻繁項(xiàng)

明考斯基距離:

那得號(hào)你規(guī)定的權(quán)是多少啊,(xl,….,xn)和(yl,….,yn)間權(quán)p的minkowski

距離就是[Ixl—yl|-p+o.o+|xn-ynI"p]'{1/p}意義么,得看你的空間是什么.一般這

個(gè)迤數(shù)是用在函數(shù)空間上的,比如L~p([0,1]),它與向量(這時(shí)是[0,1]區(qū)間上的1/p函

數(shù))的模長是相容的。

笫1個(gè)樣品與第,仝樣品間的明考夫斯基距離定義為.

%卜)=畝%-%「

這里g為某一自然數(shù),這是一個(gè)最常用最直觀的更離。.

當(dāng)g=l時(shí),4(1)=£除-5|,稱為絕時(shí)距離…

JU1

當(dāng)g=2時(shí),4式2)=恪”,稱為歐氏距離…

當(dāng)。=oo時(shí),%(oo)=蹈稱為切比雪夫電離;*

當(dāng)各變量的單位不同或里里像相同但各變量的測(cè)量值相差很大時(shí),不應(yīng)直接

采用明考夫斯基距國,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的

數(shù)據(jù)計(jì)算距言.最常用的標(biāo)準(zhǔn)化處理是,令-

¥=^^J=L2,,%/=1,2.…,p?

其中弓=金》為第J個(gè)變量的樣本均值.S尸生X(%_方為第/:t變量的

樣本方差。一

聯(lián)機(jī)事務(wù)處理OLTP(on-linetransactionprocessing)

傳統(tǒng)的關(guān)系DBMS的主要任務(wù)

他們涵蓋了一個(gè)組織的大部分日常操作:購買、庫存、制造、銀行、工資、注

冊(cè)、記賬等.

聯(lián)機(jī)分析處理OLAP(on-lineanalyticalprocessing)

數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)

數(shù)據(jù)分析和決策

OLTP和OLAP的區(qū)別

用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場(chǎng)

數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù).

數(shù)據(jù)庫設(shè)計(jì);OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì),

而OLAP系統(tǒng)通常采用星形和雪花模型

視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)

主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù)。

訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分

是只讀操作,盡管許多可能是復(fù)雜的查詢

數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型.這種模型將數(shù)據(jù)看作數(shù)據(jù)立方體形

式.數(shù)據(jù)立方體允許從多維對(duì)數(shù)據(jù)建模和觀察.它由維和事實(shí)定義.

3最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維模型,這種模型可以以星形模式、雪花型

模式或事實(shí)星座模式形式存在?

建立數(shù)據(jù)倉庫模型:維與度量

星型模型:最常見的模型范例是星形模式,其中數(shù)據(jù)倉庫包括(D一個(gè)大的

包含大批數(shù)據(jù)并且不含冗余的中心表(事實(shí)表);(2)一組小的附屬表(維表),

每維一個(gè).中間是事實(shí)表,連接一組維表

雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,而數(shù)據(jù)進(jìn)

一步分解到附加的維表中,它的圖形類似于雪花的形狀

事實(shí)星座表:多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式及,因此稱為

星系模式或事實(shí)星座

數(shù)據(jù)立方體度量是一個(gè)數(shù)值函數(shù),可以對(duì)數(shù)據(jù)立方體空間的每一個(gè)點(diǎn)求值.通

過對(duì)給定點(diǎn)的各維值對(duì)聚集數(shù)據(jù),計(jì)算該點(diǎn)的度量值.

度量可以根據(jù)所用的聚集函數(shù)類型可以分成三類(即分布的、代數(shù)的和整體的).

概念分層定義一個(gè)映射序列,將低層概念映射到更一般的較高層概念。

多維數(shù)據(jù)模型中的OLAP操作

(1)上卷:上卷操作通過沿一個(gè)維的概念分層向上攀升或者通過維規(guī)約,對(duì)數(shù)據(jù)

立方體進(jìn)行聚集;

(2)下鉆:下鉆是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù).下鉆可

以通過沿維的概念分層向下或引入附加的維來實(shí)現(xiàn):

(3)切片和切塊;切片操作對(duì)給定立方體的一個(gè)維進(jìn)行選擇,導(dǎo)致一個(gè)子立方體.

切塊操作通過對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,定義子立方體;

(4)轉(zhuǎn)軸(旋轉(zhuǎn)):轉(zhuǎn)軸是一種可視化操作,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的普

代表示;

(5)其他OLAP操作:鉆過執(zhí)行涉及多個(gè)事實(shí)表的查詢;鉆透操作使用關(guān)系SQL

機(jī)制,鉆透數(shù)據(jù)立方體的底層,到后段關(guān)系表。

三層數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)

(1)底層是倉庫數(shù)據(jù)服務(wù)器,它幾乎總是關(guān)系數(shù)據(jù)庫系統(tǒng).

(2)中間層是OLAP服務(wù)器,其典型的實(shí)現(xiàn)或者是(i)關(guān)系OLAP(ROLAP)模

型,即擴(kuò)充的關(guān)系DBMS,它將對(duì)多維數(shù)據(jù)的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;或

者是(ii)多維OLAP(MOLAP膜型即專門的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)

和操作.

(3)頂層是前段客戶層,它包括查詢和報(bào)表工具、分析工具和/或數(shù)據(jù)挖掘工具(例

如趨勢(shì)分析、預(yù)測(cè)等).

從結(jié)構(gòu)的角度看,有三種數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫.

數(shù)據(jù)集市(DataMart),數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的

用戶群是有用的.其范圍限于選定的主題.

根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類.

數(shù)據(jù)倉庫后端工具和實(shí)用程序包含以下功能:數(shù)據(jù)提?。粩?shù)據(jù)清理;數(shù)據(jù)變換;

裝入;刷新.

數(shù)據(jù)立方體的物化有三種選擇:(1)不物化:(2)完全物化:(3)部分物化.

有三種數(shù)據(jù)倉庫應(yīng)用:信息處理、分析處理和數(shù)據(jù)挖掘.

4

分類和預(yù)測(cè)

找出描述并區(qū)分?jǐn)?shù)據(jù)類和概念的模型(或函數(shù))以便能夠使用模型預(yù)測(cè)類標(biāo)記

未知的對(duì)象類.

例如:依據(jù)氣候劃分國家類型或者依據(jù)每里的耗油量劃分汽車類型.

表示形式:判定樹,分類規(guī)則,神經(jīng)網(wǎng)絡(luò).

預(yù)測(cè):預(yù)測(cè)某些未知的或空缺的數(shù)據(jù)值.

聚類分析

類標(biāo)記未知:把數(shù)據(jù)聚類或分組成新的類,例如:把房子聚類來找出房子的分

布模式.

聚類依據(jù)以下原則:最大化類內(nèi)的相似性和最小化類間的相似性.

FP-樹結(jié)構(gòu)的優(yōu)點(diǎn)

完整性:不會(huì)破壞任何交易的長模式為頻繁模式挖掘保存了完整的信息

簡潔性減少了不相關(guān)的信息一非頻繁項(xiàng)集被刪掉

頻繁項(xiàng)集技支持度遞減順序排列:越是頻繁的項(xiàng)集越有可能被共享

不會(huì)比原數(shù)據(jù)庫大(如果不算節(jié)點(diǎn)鏈和計(jì)數(shù))

基本思想(分治策略):

使用FP-樹循環(huán)的產(chǎn)生頻繁模式路徑

方法對(duì)于每一個(gè)項(xiàng).先構(gòu)造它的條件模式基.然后構(gòu)造它的條件FP-樹

在每一個(gè)新創(chuàng)建的條件FP-樹上重復(fù)此過程

直到結(jié)果FP樹為空、或它只包含一條路徑(單路徑將產(chǎn)生所有的它的子路徑的

結(jié)合.每一條子路徑都是一個(gè)頻繁模式)

挖掘FP-樹的主要步驟

1)為FP-箱中的每一個(gè)節(jié)點(diǎn)構(gòu)造條件模式基

2)為每一個(gè)條件模式基條件FP-樹

3)循環(huán)的挖掘條件FP-樹,生成至今為止獲得的頻繁模式

如果條件FP-樹只包含單條路徑,簡單的列舉所有的模式

一、名詞解釋

1.數(shù)據(jù)倉庫:是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可

更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,為企業(yè)決策支

持系統(tǒng)提供所需的集成信息.

2.孤立點(diǎn):指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)

據(jù).

3.OLAP:OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)

據(jù)分析處理,是共享多維信息的快速分析,是被專門設(shè)計(jì)用于支持復(fù)雜的

分析操作,側(cè)重對(duì)分析人員和高層管理人員的決策支持.

4.粒度,指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別.粒度影

響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答查詢問

題的細(xì)節(jié)程度。

5.數(shù)據(jù)規(guī)范化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個(gè)特定的

區(qū)域(如0—1)以提高數(shù)據(jù)挖掘效率的方法.規(guī)范化的常用方法有:量

大一最小規(guī)范化、零一均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化.

6.關(guān)聯(lián)知識(shí):是反映一個(gè)事件和其他事件之間依賴或相互關(guān)聯(lián)的知識(shí).如果

兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬

性值進(jìn)行預(yù)測(cè).

7.數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提

取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過

程.

8.OLTPsOLTP為聯(lián)機(jī)事務(wù)處理的縮寫,OLAP是聯(lián)機(jī)分析處理的縮寫.

前者是以數(shù)據(jù)庫為基礎(chǔ)的,面對(duì)的是操作人員和低層管理人員,對(duì)基本數(shù)

據(jù)進(jìn)行查詢和增、刪、改等處理.

9.ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲(chǔ)方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映

像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個(gè)事實(shí)表和多個(gè)維度

表構(gòu)成.

10.MOLAP,是基于類似于“超立方”塊的OLAP存儲(chǔ)結(jié)構(gòu),由許多經(jīng)壓縮

的、類似于多維數(shù)組的對(duì)象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu),通

過直接偏移計(jì)算進(jìn)行存取。

11.數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并

且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果.

12.廣義知識(shí):通過對(duì)大量數(shù)據(jù)的歸納、概括和抽象,提燎出帶有普遍性的、

概括性的描述統(tǒng)計(jì)的知識(shí).

13.預(yù)潴型知識(shí):是根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來

的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí).

14.偏差型知識(shí):是對(duì)差異和極端特例的描述,用于揭示事物偏離常規(guī)的異常

現(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等.

15.遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個(gè)初始可行解群體,然后

對(duì)這個(gè)群體通過模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一

代群體,并最終達(dá)到全局最優(yōu).

16.聚類:是將物理或抽象對(duì)象的集合分組成為多個(gè)類或候(cluster)的過程,

使得在同一個(gè)靛中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)患差別

較大.

17.決策樹:是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu).它

是分類規(guī)則挖掘的典型方法,可用于對(duì)新樣本進(jìn)行分類.

18.相異度矩陣:是聚類分析中用于表示各對(duì)較之間相異度的一種短陣,n個(gè)

對(duì)象的相異度矩陣是一個(gè)nn維的單模矩陣,其對(duì)角線元素均為0,對(duì)角

線兩側(cè)元素的值相同。

19.頻繁項(xiàng)集:指滿足最小支持度的項(xiàng)集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一.

20.支持度:規(guī)則、-B的支持度指的是所有事件中A與B同地發(fā)生的的概率,

即P(AUB),是AB同時(shí)發(fā)生的次數(shù)與事件總次數(shù)之比.支持度是對(duì)關(guān)聯(lián)

規(guī)則重要性的衡量.

21.可信度:規(guī)則A-B的可信度指的是包含A項(xiàng)集的同時(shí)也包含B項(xiàng)集的條

件概率P(B|A),是AB同時(shí)發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比.可信度

是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量.

22.關(guān)聯(lián)規(guī)則r同時(shí)滿足最小支持度闕值和最小可信度假值的規(guī)則稱之為關(guān)聯(lián)

規(guī)則.

二、綜合題

1.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?

從大直的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含

在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程稱為

數(shù)據(jù)挖掘.相關(guān)的名稱有知派發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等.

數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與測(cè)、聚類分析、

趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。

2.何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?

數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不

可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,為企業(yè)決策支

持系統(tǒng)提供所希的集成信息.

建立數(shù)據(jù)倉庫的目的有3個(gè):

一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳

統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度.

二是解決決策分析對(duì)數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正

確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的.

三是解決決策分析對(duì)數(shù)據(jù)的特殊操作要求.決策分析是面向?qū)I(yè)用戶

而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對(duì)分析結(jié)果還要以商業(yè)智能

的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的.

3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別.

操作型數(shù)據(jù)分析型數(shù)據(jù)

固前的、細(xì)節(jié)的

歷史的、綜合的

面向應(yīng)用、事務(wù)驅(qū)動(dòng)面向分析、分析驅(qū)動(dòng)

頻繁增、刪、改幾乎不更新,定期追加

操作需求事先知道分析需求事先不知道

區(qū)命周期符合

SDLC完全不同的生命周期

,性能要求高

對(duì)性能要求寬松

卜次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大

支持日常事務(wù)操作支持管理決策需求

4.何謂OLTP和OLAP?它們的主要異同有哪些?

OLTP即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層

管理人員、對(duì)基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理.OLAP

即聯(lián)機(jī)分析處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、

面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。

OLTP和OLAP的主要區(qū)別如下表:

OLTPOLAP

數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫哪雎庫數(shù)據(jù)

細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)

當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)

經(jīng)常更新不更新,但周期性刷新

一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大

對(duì)響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理

用戶數(shù)量大用戶數(shù)據(jù)相對(duì)較少

面向操作人員,支持日常操作面向決策人員,支持管理需要

面向應(yīng)用,事務(wù)驅(qū)動(dòng)面向分析,分析驅(qū)動(dòng)

5.何謂粒度?它對(duì)數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?

粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒

度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答查

詢問題的細(xì)節(jié)程度.按粒度組織數(shù)據(jù)的方式主要有:

①簡單堆積結(jié)構(gòu)

②輪轉(zhuǎn)綜合結(jié)構(gòu)

③筒單直接結(jié)構(gòu)

④連續(xù)結(jié)構(gòu)

6.簡述數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容.

概念模型設(shè)計(jì)是在較高的抽藪層次上的設(shè)計(jì),其主要內(nèi)容包括:界定

系統(tǒng)邊界和確定主要的主題域.

邏輯模型設(shè)計(jì)的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確

定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng).

物理數(shù)據(jù)模型設(shè)計(jì)的主要內(nèi)容包括:確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存

放位置、確定存儲(chǔ)分配以及確定索引策略等.在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)主要

考慮的因素有:I/O存取時(shí)間、空間利用率和維護(hù)代價(jià)等.

提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、

引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等.

7.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?

原始業(yè)務(wù)數(shù)據(jù)來自多個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是

不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫中,

也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖

掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理.

為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù),減少算法

的計(jì)算量,提高挖掘效率和準(zhǔn)確程度.

8.筒述數(shù)據(jù)預(yù)處理方法和內(nèi)容。

①數(shù)據(jù)清洗:包括填充空缺值,識(shí)別孤立點(diǎn),去掉噪聲和無關(guān)數(shù)據(jù).

②數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)

中.需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等.

③數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式.包括對(duì)數(shù)據(jù)的匯

總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。

④數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,

并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果.

9.簡述數(shù)據(jù)清理的基本內(nèi)容.

①盡可能賦予屬性名和屬性值明確的含義;

②統(tǒng)一多數(shù)據(jù)源的屬性值編碼;

③去除無用的惟一屬性或鍵值(如自動(dòng)增長的id):

④去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,

但在某些時(shí)候它們可能又是同時(shí)需要的)

⑤去除可忽略字段(大部分為空值的屬性一般是沒有什么價(jià)值的,如果不

去除可能造成錯(cuò)誤的數(shù)據(jù)挖掘結(jié)果)

?合理選擇關(guān)聯(lián)字段(對(duì)于多個(gè)關(guān)聯(lián)性較強(qiáng)的屬性,重復(fù)無益,只需選擇

其中的部分用于數(shù)據(jù)挖掘即可,如價(jià)格、數(shù)據(jù)、金額)

⑦去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù).

10.陸述處理空缺值的方法.

①忽略該記錄:

②去掉屬性;

⑧手工填寫空缺值;

④使用默認(rèn)值:

⑤使用屬性平均值;

⑥使用同類樣本平均值;

⑦預(yù)測(cè)量可能的值.

II.常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有隰些?

分箱的方法主要有:

①統(tǒng)一權(quán)重法(又稱等深分箱法)

②統(tǒng)一區(qū)間法(又稱等寬分箱法)

⑧最小篇法

④自定義區(qū)間法

數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法.

12.何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有嵋些?寫出對(duì)應(yīng)的變換公式.

將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個(gè)特定的區(qū)域(如0.0?

1.0),稱為規(guī)范化.規(guī)瓶化的常用方法有:

(1)最大一最小規(guī)范化,max-min.

x--................—(^-

(2)零一均值規(guī)范化3

x=

(3)小數(shù)定標(biāo)規(guī)范化;x=xo/10,

13.數(shù)據(jù)歸約的方法有哪些?為什么要進(jìn)行雉歸的?

①數(shù)據(jù)立方體聚集

②維歸約

③數(shù)據(jù)壓縮

④數(shù)值壓縮

⑤離散化和概念分層

維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)

據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率.

14.何謂聚類?它與分類有什么異同?

聚類是將物理或抽盆對(duì)能的集合分組成為多個(gè)類或候(cluster)的過

程,使得在同一個(gè)展中的對(duì)象之間具有較高的相似度,而不同麟中的對(duì)象

差別較大.

聚類與分類不同,聚類要?jiǎng)澐值念愂俏粗?,分類則可按已知規(guī)則進(jìn)

行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)

例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí).

15.舉例說明聚類分析的典型應(yīng)用.

①商業(yè):幫助市場(chǎng)分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不

同的購買模式描述不同客戶群的特征。

②生物學(xué):推導(dǎo)植物或動(dòng)物的分類,對(duì)基于進(jìn)行分類,獲得對(duì)種群中固有

結(jié)構(gòu)的認(rèn)識(shí)。

③WE5文檔分類

④其他:如地球觀測(cè)數(shù)據(jù)庫中相似地區(qū)的確定;各類保險(xiǎn)投保人的分組I

一個(gè)城市中不同類型、價(jià)值、地理位置房子的分組等.

⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進(jìn)行聚類,然后再

進(jìn)行分類等其他的數(shù)據(jù)挖掘.聚類分析是一種數(shù)據(jù)簡化技術(shù),它把基于

相似數(shù)據(jù)特征的變量或個(gè)案組合在一起.

16.聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點(diǎn)?

常見數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、

序數(shù)型以及混合類型等.相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度

的矩陣,為一個(gè)nn維的單模矩陣。其特點(diǎn)是d(ij)=d(j,i),d(i,i)=O,d(j1)=O.

如下所示:

0

(K2,1)0

d(3,1)d(3,2)0

????

????

????

d(nj)d(n,2)…...0

17.分類知識(shí)的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個(gè)步驟?

分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、

粗糙集法和遺傳算法.分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,

根據(jù)屬性特征,為每一種類別找到一個(gè)合理的描述或模型,即分類規(guī)則;

然后根據(jù)規(guī)則對(duì)新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論