數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)

上傳人：無*** IP屬地：河北上傳時(shí)間：2024-06-28 格式：PDF 頁數(shù)：28 大?。?.10MB 積分：12 舉報(bào) 版權(quán)申訴

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第2頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第3頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第4頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第5頁

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)

第一章

1、數(shù)據(jù)倉庫就是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.

2、元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)，它為訪問數(shù)據(jù)倉庫提供了一個(gè)

信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類.

3、數(shù)據(jù)處理通常分成兩大類：聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。

4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋

轉(zhuǎn)等各種分析動(dòng)作，以求剖析數(shù)據(jù)，使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),

從而深入理解多維數(shù)據(jù)集中的信息。

5、ROLAP是基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實(shí)現(xiàn)。

OLAP技術(shù)的有關(guān)概念：

OLAP根據(jù)其存儲(chǔ)數(shù)據(jù)的方式可分為三類：ROLAP、MOLAP、HOLAP

6、數(shù)據(jù)倉庫按照其開發(fā)過程，其關(guān)鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)與管理和數(shù)據(jù)表現(xiàn)等。

7、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:兩層架構(gòu)、獨(dú)立

型數(shù)據(jù)集合、以來型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲(chǔ)和邏輯型數(shù)據(jù)集中和實(shí)時(shí)數(shù)據(jù)倉庫。

8、操作型數(shù)據(jù)存儲(chǔ)實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的(但是可“揮

發(fā)”的)、企業(yè)級(jí)的、詳細(xì)的數(shù)據(jù)庫，也叫運(yùn)營數(shù)據(jù)存儲(chǔ)。

9、”實(shí)時(shí)數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉庫倉庫之間以一個(gè)接近實(shí)時(shí)的

速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。

10、從應(yīng)用的角度看，數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個(gè)階段：以報(bào)表為主、以分析為

主、以預(yù)測(cè)模型為主、以運(yùn)營導(dǎo)向?yàn)橹骱鸵詫?shí)時(shí)數(shù)據(jù)倉庫和自動(dòng)決策為主。

11、什么是數(shù)據(jù)倉庫？數(shù)據(jù)倉庫的特點(diǎn)主要有哪些？

數(shù)據(jù)倉庫通常是指一個(gè)數(shù)據(jù)庫環(huán)境，而不是支一件產(chǎn)品，它是提供用戶用于決策支持的當(dāng)前

和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫中通常不方便得到。數(shù)據(jù)倉庫就是一個(gè)面向主題的

(SubjectOriented)集成的(Integrate)、相對(duì)穩(wěn)定的(Non—Volatile)、反映歷史

變化(TimeVariant)的數(shù)據(jù)集合，通常用于輔助決策支持。

數(shù)據(jù)倉庫的特點(diǎn)包含以下幾個(gè)方面：

(1)面向主題.操作型數(shù)據(jù)庫的數(shù)據(jù)組織是面向事務(wù)處理任務(wù)，各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離：

而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。

(2)集成的.面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān)，數(shù)據(jù)庫之間相互獨(dú)

立,并且往往是異構(gòu)的。也就是說存放在數(shù)據(jù)倉庫中的數(shù)據(jù)應(yīng)使用一致的命名規(guī)則、格式、

編碼結(jié)構(gòu)和相關(guān)特性來定義。

(3)相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化.數(shù)據(jù)

倉庫的數(shù)據(jù)主要供單位決策分析之用，對(duì)所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載，一旦某

個(gè)數(shù)據(jù)加載到數(shù)據(jù)倉庫以后，一般情況下將作為數(shù)據(jù)檔案長期保存，幾乎不再做修改和刪除

操作，也就是說針對(duì)數(shù)據(jù)倉庫,通常有大量的查詢操作及少量定期的加載(或刷新)操作.

(4)反映歷史變化。操作型數(shù)據(jù)庫(OLTP)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)，而數(shù)據(jù)倉

庫中的數(shù)據(jù)通常包含較久遠(yuǎn)的歷史數(shù)據(jù)，因此總是包括一個(gè)時(shí)間維，以便可以研究趨勢(shì)和變

化。數(shù)據(jù)倉庫系統(tǒng)通常記錄了一個(gè)單位從過去某一時(shí)點(diǎn)(如開始啟用數(shù)據(jù)倉庫系統(tǒng)的時(shí)點(diǎn))

到目前的所有時(shí)期的信息，通過這些信息，可以對(duì)單位的發(fā)展歷程和未來趨勢(shì)做出定量分析

和預(yù)測(cè)。

12、數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘，就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平

凡過程，簡單的說，數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)，又被稱為數(shù)據(jù)庫中的

知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘的方法：直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘.

13、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系

若將數(shù)據(jù)倉庫比作礦井，那么數(shù)據(jù)挖掘就是深入礦井采礦的工作;數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中

找出有用信息的一種過程與技術(shù)。

14、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)的分類

(1)兩層架構(gòu)(GenericTwo-LevelArchitecture)。

(2)獨(dú)立型數(shù)據(jù)集市(IndependentDataMart).

(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(DependentDataMartandOperationalData

Store)o

(4)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉庫(LogicalDataMartandReal-TimeDataWarehouse).

15、數(shù)據(jù)倉庫的未來

(1)在數(shù)據(jù)抽取方面，未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、

調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理，以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化，使系統(tǒng)更便

于管理和維護(hù)。

(2)在數(shù)據(jù)管理方面，未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎，作為數(shù)據(jù)倉庫

服務(wù)器產(chǎn)品與數(shù)據(jù)庫服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫將

最具發(fā)展?jié)摿?

(3)在數(shù)據(jù)表現(xiàn)方面，數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中，并與

Internet/Web技術(shù)緊密結(jié)合。按行業(yè)應(yīng)用特征細(xì)化的數(shù)據(jù)倉庫用戶前端軟件將成為產(chǎn)品作

為數(shù)據(jù)倉庫解決方案的一部分。數(shù)據(jù)倉庫實(shí)現(xiàn)過程的方法論將更加普及，將成為數(shù)據(jù)庫設(shè)計(jì)

的一個(gè)明確分支，成為管理信息系統(tǒng)設(shè)計(jì)的必備

16、請(qǐng)列出3種數(shù)據(jù)倉庫產(chǎn)品，并說明其優(yōu)缺點(diǎn)。

(1)IBM公司提供了一套基于可視化數(shù)據(jù)倉庫的商業(yè)智能(BI)解決方案，包括:Visual

Warehouse(VW),Essbase/DB2OLAPServer5.0,IBMDB2UDB,以及來自第三方的前端數(shù)

據(jù)展現(xiàn)工具(如B0)和數(shù)據(jù)挖掘工具(如SAS)。其中,VW是一個(gè)功能很強(qiáng)的集成環(huán)境，既

可用于數(shù)據(jù)倉庫建模和元數(shù)據(jù)管理，又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度.Essbase/DB2

OLAPServer支持“維”的定義和數(shù)據(jù)裝載。Essbase/DB2OLAPServer不是ROLAP

(RelationalOLAP)服務(wù)器，而是一個(gè)(ROLAP和M0LAP)混合的HOLAP服務(wù)器，在Essbase

完成數(shù)據(jù)裝載后，數(shù)據(jù)存放在系統(tǒng)指定的DB2UDB數(shù)據(jù)庫中。它的前端數(shù)據(jù)展現(xiàn)工具可以選

擇BusinessObjects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query

ManagementFacility；多維分析工具支持ArborSoftware的Essbase和IBM(與Arbor聯(lián)

合開發(fā))的DB2OLAP服務(wù)器；統(tǒng)計(jì)分析工具采用SAS系統(tǒng)。

(2)Oracle數(shù)據(jù)倉庫解決方案主要包括OracleExpress和OracleDiscoverer兩個(gè)部分。

OracleExpress由四個(gè)工具組成:OracleExpressServer是一個(gè)MOLAP(多維OLAP)服務(wù)

器，它利用多維模型，存儲(chǔ)和管理多維數(shù)據(jù)庫或多維高速緩存，同時(shí)也能夠訪問多種關(guān)系數(shù)

據(jù)庫；OracleExpressWebAgent通過CGI或Web插件支持基于Web的動(dòng)態(tài)多維數(shù)據(jù)展

現(xiàn)；OracleExpressObjects前端數(shù)據(jù)分析工具(目前僅支持Windows平臺(tái))提供了圖形

化建模和假設(shè)分析功能，支持可視化開發(fā)和事件驅(qū)動(dòng)編程技術(shù)，提供了兼容VisualBasic語

法的語言，支持OCX和OLE；OracleExpressAnalyzer是通用的、面向最終用戶的報(bào)告和

分析工具(目前僅支持Windows平臺(tái))。OracleDiscoverer即席查詢工具是專門為最終

用戶設(shè)計(jì)的，分為最終用戶版和管理員版。在Oracle數(shù)據(jù)倉庫解決方案的實(shí)施過程中，通

常把匯總數(shù)據(jù)存儲(chǔ)在Express多維數(shù)據(jù)庫中，而將詳細(xì)數(shù)據(jù)存儲(chǔ)在Oracle關(guān)系數(shù)據(jù)庫中，

當(dāng)需要詳細(xì)數(shù)據(jù)時(shí)，ExpressServer通過構(gòu)造SQL語句訪問關(guān)系數(shù)據(jù)庫。

(3)Microsoft將OLAP功能集成到SQLServer數(shù)據(jù)庫中，其解決方案包括BI平臺(tái)、BI終

端工具、BI門戶和BI應(yīng)用四個(gè)部分，如圖1.1.

①BI平臺(tái)是BI解決方案的基礎(chǔ)，包括ETL平臺(tái)SQLServer2005Integration

Service(SSIS),數(shù)據(jù)倉庫引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎SQL

Server2005AnalysisService、報(bào)表管理引擎SQLServer2005ReportingService。

②BI終端用戶工具，用戶通過終端用戶工具和AnalysisService中的OLAP服務(wù)和數(shù)據(jù)

挖掘服務(wù)進(jìn)行交互來使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型，終端用戶通?？墒褂妙A(yù)定義報(bào)表、交

互式多維分析、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等多種方法。

③BI門戶提供了各種不同用戶訪問BI信息的統(tǒng)一入口。BI門戶是一個(gè)數(shù)據(jù)的匯集地，

集成了來自不同系統(tǒng)的相關(guān)信息.用戶可以制定個(gè)性化的個(gè)人門戶，選擇和自己相關(guān)性最強(qiáng)

的數(shù)據(jù)，提高信息訪問和使用的效率。

④BI應(yīng)用是建立在BI平臺(tái)、BI終端用戶工具和BI統(tǒng)一門戶這些公共技術(shù)手段之上的滿

足某個(gè)特定業(yè)務(wù)需求的應(yīng)用，例如零售業(yè)務(wù)分析、企業(yè)項(xiàng)目管理組合分析等

第二章

1、調(diào)和數(shù)據(jù)是存儲(chǔ)在企業(yè)級(jí)數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)。

2,抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威數(shù)據(jù)源。因此，

我們要求ETL過程產(chǎn)生的數(shù)據(jù)（即調(diào)和數(shù)據(jù)層）是詳細(xì)的、歷史的、規(guī)范的、可理解的、即

時(shí)的和質(zhì)量可控制的。

3、數(shù)據(jù)抽取的兩個(gè)常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫，增

量抽取用于進(jìn)行數(shù)據(jù)倉庫的維護(hù)。

4、粒度是對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小，細(xì)節(jié)程度越高，綜合

程度越低，回答查詢的種類越多。

5、使用星型模式可以從一定程度上提高查詢效率.因?yàn)樾切湍Ｊ街袛?shù)據(jù)的組織已經(jīng)經(jīng)過預(yù)處

理，主要數(shù)據(jù)都在龐大的事實(shí)表中。

6、維度表一般由主鍵、分類層次和描述屬性組成.對(duì)于主鍵可以選擇兩種方式：自然鍵，代

理鍵。

7、雪花型模式是對(duì)星型模式維表的進(jìn)一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。

8、數(shù)據(jù)倉庫中存在不同綜合級(jí)別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個(gè)級(jí)別：早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)

節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí).

9、（1）狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)

前者描述對(duì)象的狀態(tài)，后者描述對(duì)象發(fā)生的事件；（前象）狀態(tài)數(shù)據(jù)一事件數(shù)據(jù)一（后象）

狀態(tài)數(shù)據(jù)

（2）當(dāng)前數(shù)據(jù)與周期數(shù)據(jù)

當(dāng)前數(shù)據(jù)只保留最新數(shù)據(jù)，現(xiàn)存的最新記錄將改變以前中的數(shù)據(jù)。

周期數(shù)據(jù)則相反，一旦保存物理上就不在改變或刪除數(shù)據(jù)。通常每個(gè)周期數(shù)據(jù)記錄都會(huì)包含

一個(gè)時(shí)間戳來只是日期甚至?xí)r間。

（3）數(shù)據(jù)倉庫中的元數(shù)據(jù)

分技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。

技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù)，包括：數(shù)據(jù)倉庫結(jié)構(gòu)的描述，業(yè)務(wù)系統(tǒng)、

數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式，匯總算法，操作性業(yè)務(wù)環(huán)境導(dǎo)數(shù)據(jù)倉庫環(huán)境的映射

等。

10、業(yè)務(wù)元數(shù)據(jù)是從業(yè)務(wù)角度描述數(shù)據(jù)倉庫中的數(shù)據(jù)，提供了使用者和系統(tǒng)的語義層，使非

專業(yè)人員能“讀懂”倉庫中的數(shù)據(jù)。包括：（1）使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)類型、對(duì)

象名和屬性名；（2）訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源；（3）系統(tǒng)所提供的分析方法及公式和

報(bào)表的信息。簡言之，元數(shù)據(jù)是數(shù)據(jù)倉庫的幫助和導(dǎo)航圖

11＞什么是數(shù)據(jù)倉庫的3層數(shù)據(jù)結(jié)構(gòu)？

數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務(wù)處理系統(tǒng)（操作型數(shù)據(jù)）流向企業(yè)級(jí)數(shù)據(jù)倉庫或操作型數(shù)據(jù)存

儲(chǔ)區(qū)，在這個(gè)過程中，要根據(jù)企業(yè)（或其他組織）的數(shù)據(jù)模型和元數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行調(diào)和處

理，形成一個(gè)中間數(shù)據(jù)層，然后再根據(jù)分析需求，從調(diào)和數(shù)據(jù)層將數(shù)據(jù)引入導(dǎo)出數(shù)據(jù)層，如

形成滿足各類分析需求的數(shù)據(jù)集市.

12、什么是數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程？

數(shù)據(jù)的ETL過程就是負(fù)責(zé)將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過程.這兩種數(shù)據(jù)具有明顯的區(qū)

別，因此,數(shù)據(jù)調(diào)和是構(gòu)建一個(gè)數(shù)據(jù)倉庫中最難的和最具技術(shù)挑戰(zhàn)性的部分。在為企業(yè)級(jí)數(shù)據(jù)

倉庫填充數(shù)據(jù)的過程中，數(shù)據(jù)調(diào)和可分為兩個(gè)階段:一是企業(yè)級(jí)數(shù)據(jù)倉庫（EDW）首次創(chuàng)建時(shí)

的原始加載；二是接下來的定期修改，以保持EDW的當(dāng)前有效性和擴(kuò)展性。

整個(gè)過程由四個(gè)步驟組成：抽取、清洗、轉(zhuǎn)換、加載和索引。事實(shí)上，這些步驟可以進(jìn)行不

同的組合，如,可以將數(shù)據(jù)抽取與清洗組合為一個(gè)過程,或者將清洗和轉(zhuǎn)換組合在一起。通常,

在清洗過程中發(fā)現(xiàn)的拒絕數(shù)據(jù)信息會(huì)送回到源操作型業(yè)務(wù)系統(tǒng)中，然后將數(shù)據(jù)在源系統(tǒng)中加

以處理，以便在以后重新抽取.

13、什么是星型模式?它的特征是什么？

在星模式中，事實(shí)表居中，多個(gè)維表呈輻射狀分布于其四周，并與事實(shí)表連接.位于星形中

心的實(shí)體是事實(shí)表，是用戶最關(guān)心的基本實(shí)體和查詢活動(dòng)的中心，為數(shù)據(jù)倉庫的查詢活動(dòng)提

供定量數(shù)據(jù)。位于星模式四周的實(shí)體是維度實(shí)體，其作用是限制和過濾用戶的查詢結(jié)果，縮

小訪問范圍。每個(gè)維表都有自己的屬性，維表和事實(shí)表通過關(guān)鍵字相關(guān)聯(lián)。

14、為什么時(shí)間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維？

信息包圖法，也叫用戶信息需求表，就是在一張平面表格上描述元素的多維性，其中的每一

個(gè)維度用平面表格的一列表示,通常的維度如時(shí)間、地點(diǎn)、產(chǎn)品和顧客等；而細(xì)化本列的對(duì)

象就是類別,例如時(shí)間維度的類別可以細(xì)化到年、月、日，甚至小時(shí)；平面表格的最后一行（代

表超立方體中的單元格）即為指標(biāo)度量值,例如，某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷售額。

創(chuàng)建信息包圖時(shí)需要確定最高層和最低層的信息需求，以便最終設(shè)計(jì)出包含各個(gè)層次需要的

數(shù)據(jù)倉庫?？傊?，信息包圖法是一種自上而下的數(shù)據(jù)建模方法，即從用戶的觀點(diǎn)開始設(shè)計(jì)（用

戶的觀點(diǎn)是通過與用戶交流得到的），站在管理者的角度把焦點(diǎn)集中在企業(yè)的一個(gè)或幾個(gè)主

題上，著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,

以及這些信息源影響業(yè)務(wù)活動(dòng)的方式.

第三章

1、WQLServerSSAS提供了所有業(yè)務(wù)數(shù)據(jù)的同意整合試圖，可以作為傳統(tǒng)報(bào)表、

在線分析處理、關(guān)鍵性能指示器記分卡和數(shù)據(jù)挖掘的基砒.

2、數(shù)據(jù)倉庫的概念模型通常采用信息包圖法來進(jìn)行設(shè)計(jì)，要求將其5個(gè)組成部

分（包括名稱、維度、類別、層次和度量）全面地描述出來.

3、數(shù)據(jù)倉庫的建輯模型通常采用星型圖法來進(jìn)行設(shè)計(jì)，要求將星型的各類避輯

實(shí)體完整地描述出來.

4、按照事實(shí)表中度量的可加性情況，可以把事實(shí)表對(duì)應(yīng)的事實(shí)分為4種類型：

事務(wù)事實(shí)、快照事實(shí)、線性項(xiàng)目事實(shí)和事件事實(shí).

5、確定了數(shù)據(jù)倉庫的粒度模型以后，為提高數(shù)據(jù)倉庫的使用性能，還需要根據(jù)

擁護(hù)需求設(shè)計(jì)聚合模型.

6、在項(xiàng)目實(shí)施時(shí)，根據(jù)事實(shí)表的特點(diǎn)和擁護(hù)的查詢需求，可以選用時(shí)間、業(yè)務(wù)

類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型.

7、當(dāng)維表中的主鍵在事實(shí)表中沒有與外鍵關(guān)聯(lián)時(shí)，這樣的維稱為退化維.它于

事實(shí)表并無關(guān)系，但有時(shí)在查詢限制條件（如訂單號(hào)碼、出貨單編號(hào)等）中需

要用到.

8、維■可以根據(jù)其變化快慢分為元變化維度、線慢變化維度和劇烈變化維度三

類.

9、.數(shù)據(jù)倉庫的數(shù)據(jù)量通常較大，且數(shù)據(jù)一般很少更新，可以通過設(shè)計(jì)和優(yōu)化索

引結(jié)構(gòu)來提高數(shù)據(jù)存取性能.

1。、數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲(chǔ)優(yōu)化方法包括表的歸并與俄文件、反向規(guī)瓶化

引入冗余、衰的物理分割（分區(qū)）.

12、簡述數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)過程？

收集、分析和確認(rèn)業(yè)務(wù)分析需求，分析和理解主題和元數(shù)據(jù)、事實(shí)及其量度、粒度和維度的

選擇與設(shè)計(jì)、數(shù)據(jù)倉庫的物理存儲(chǔ)方式的設(shè)計(jì)等。書P49

13、一個(gè)數(shù)據(jù)倉庫系統(tǒng)的建立通暢需要經(jīng)過哪些步驟？

（1）收集和分析業(yè)務(wù)需求；（2）建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)；（3）定義數(shù)據(jù)源；

（4）選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái)；（5）從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫；

（6）選擇訪問和報(bào)表工具，選擇數(shù)據(jù)庫連接軟件，選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件；（7）更

14、/立一不數(shù)據(jù)倉庫系統(tǒng)的參考步驟

（1）收集和分析業(yè)務(wù)需求步驟（2）建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)（3）定義數(shù)據(jù)源

（4）選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái)（5）從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫（6）

選擇訪問和報(bào)表工具，選擇數(shù)據(jù)庫連接軟件，選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件（7）更新數(shù)據(jù)

倉庫

15、創(chuàng)建數(shù)據(jù)倉庫系統(tǒng)的兩種思維模式

自頂向下（Top-down）OLTP數(shù)據(jù)通過ETL進(jìn)入DW,再復(fù)制推進(jìn)各個(gè)數(shù)據(jù)集市；

自底向上（Bottom-Up）OLTP數(shù)據(jù)通過ETL進(jìn)入數(shù)據(jù)集市，再復(fù)制提升到DW;

16、數(shù)據(jù)倉庫數(shù)據(jù)庫的設(shè)計(jì)過程

（1）分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu)（2）組織需求調(diào)研，收集業(yè)務(wù)需求（3）采用信息

包圖法進(jìn)行數(shù)據(jù)倉庫的概念模型設(shè)計(jì)（4）利用星形圖進(jìn)行數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)（5）

數(shù)據(jù)倉庫的物理模型設(shè)計(jì)

17、利用星形圖進(jìn)行數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)

（1）根據(jù)分析需求與信息包圖制作星形圖或雪花圖（2）確定主題的屬性組（3）事實(shí)表及其

特征、事實(shí)表的類型與設(shè)計(jì)（4）粒度的選擇與設(shè)計(jì)步驟（5）關(guān)于數(shù)據(jù)倉庫的聚合模型與

數(shù)據(jù)的分割處理（6）星形圖中的維度表簡介（7）常用維度的設(shè)計(jì)模式

第四章

1、關(guān)聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP—growth算法,其中FP-grownth算法的效率

更高。

2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},則

連接產(chǎn)生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再經(jīng)過修剪，C3={{a,b,c）,

{a,b,d}}

3、設(shè)定supmin=50%,交易集如

則L1={A},{B},{C}L2={A,C}

T1ABC

T2AC

T3AD

T4BEF

4、什么是關(guān)聯(lián)規(guī)則？關(guān)聯(lián)規(guī)則的應(yīng)用有哪些？

關(guān)聯(lián)規(guī)則挖掘最初由R。Agrawal等人提出，用來發(fā)現(xiàn)超級(jí)市場(chǎng)中用戶購買的商品之間的隱

含關(guān)聯(lián)關(guān)系，并用規(guī)則的形式表示出來，稱為關(guān)聯(lián)規(guī)則（AssociationRule）。關(guān)聯(lián)規(guī)則除

了可以發(fā)現(xiàn)超市購物中隱含的關(guān)聯(lián)關(guān)系之外，還可以應(yīng)用于其他很多領(lǐng)域.關(guān)聯(lián)規(guī)則的應(yīng)用

還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等.

5、關(guān)聯(lián)規(guī)則的分類有哪些?關(guān)聯(lián)規(guī)則挖掘的步驟包括什么？

關(guān)聯(lián)規(guī)則的分類：

（1）基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)，關(guān)聯(lián)規(guī)則可以分為單維的和多維的。

（2）基于規(guī)則中數(shù)據(jù)的抽象層次，可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。

（3）基于規(guī)則中處理的變量的類型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。

關(guān)聯(lián)規(guī)則挖掘的步驟：（1）找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻

繁項(xiàng)集；

（2）/用頻繁項(xiàng)集生成所需要的關(guān)聯(lián)規(guī)則，根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍，產(chǎn)生強(qiáng)

關(guān)聯(lián)規(guī)則。

第五章

1、分類的過程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計(jì)和分類決策。

2、分類器設(shè)計(jì)階段包含三個(gè)過程：劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和分類器測(cè)試。

3、分類問題中常用的評(píng)價(jià)準(zhǔn)則有精確度、查全率和查準(zhǔn)率和集合均值.

4,支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)。

5、分類的定義：分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過程，即給定一組

輸入的屬性向量及其對(duì)應(yīng)的類，用基于歸納的學(xué)習(xí)算法得出分類

6、分類的應(yīng)用領(lǐng)域有哪些？

分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一，許多分類算法被包含在統(tǒng)計(jì)分

析工具的軟件包中，作為專門的分類工具來使用.分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生

物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用.例如，在銀行業(yè)中，分類方法可以輔助工

作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類，從而采取有效措施減小銀行的損失；

在醫(yī)療診斷中，分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類，從而及時(shí)制定

救治方案，挽救病人的生命；在因特網(wǎng)篩選中，分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件

和垃圾郵件進(jìn)行分類，從而制定有效的垃圾郵件過濾機(jī)制，防止垃圾郵件干擾人們的正常生

活。

7、分類問題使用的數(shù)據(jù)集格式

（1）描述屬性可以是連續(xù)型屬性，也可以是離散型屬性；而類別屬性必須是離散型屬性.

(2)連續(xù)型屬性是指在某一個(gè)區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的，例如屬性

“Age”

(3)離散型屬性是指該屬性的取值是不連續(xù)的，例如屬性"Salary”和“Class”

8、分類的過程

(1)獲取數(shù)據(jù)：輸入數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行量化

(2)預(yù)處理：去除噪聲數(shù)據(jù)、對(duì)空缺值進(jìn)行處理；數(shù)據(jù)集成或者變換

(3)分類器設(shè)計(jì)：劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造、分類器測(cè)試

(4)分類決策：對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類

9、決策樹的優(yōu)點(diǎn):進(jìn)行分類器設(shè)計(jì)時(shí)，決策樹分類方法所需時(shí)間相對(duì)較少；決策樹的分類模

型是樹狀結(jié)構(gòu)，簡單直觀，比較符合人類的理解方式；可以將決策樹中到達(dá)每個(gè)葉節(jié)點(diǎn)的路

徑轉(zhuǎn)換為IF-THEN形式的分類規(guī)則，這種形式更有利于理解

10、決策樹的基本概念：適用于離散值屬性、連續(xù)值屬性；采用自頂向下的遞歸方式產(chǎn)生一

個(gè)類似于流程圖的樹結(jié)構(gòu)；在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性，并且根據(jù)該屬性

的不同取值向下建立分枝

11、決策樹剪枝：決策樹剪枝過程試圖檢測(cè)和去掉多余的分枝，以提高對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)

進(jìn)行分類時(shí)的準(zhǔn)確性。

a)先剪枝方法：在生成決策樹的過程中對(duì)樹進(jìn)行剪枝

b)后剪枝方法：在生成決策樹之后對(duì)樹進(jìn)行剪枝

第六章

1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度

計(jì)算方法。

2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。

3、劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn)：選種某種距離作為數(shù)據(jù)樣本減的相似

性度量、選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個(gè)初始分類，之后用迭代的方法得到聚類結(jié)

果，使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值.

4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。

5、什么是聚類分析？聚類分析的應(yīng)用領(lǐng)域有哪些？書P131

聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個(gè)類別的過程，聚類之后的每個(gè)類別

中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度，不同類別的數(shù)據(jù)樣本之間具有較低的相似度。

6、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求：

(1)可伸縮性(適用于增長的大數(shù)據(jù)集)

(2)處理不同類型屬性的能力(支持多種類型屬性的數(shù)據(jù)集)

(3)發(fā)現(xiàn)任意形狀聚類的能力(除了球形聚類外，能劃分出任意形狀聚類)

(4)減小對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性

(5)處理噪聲數(shù)據(jù)的能力(對(duì)孤立點(diǎn)、缺失值、錯(cuò)誤數(shù)據(jù)等噪聲數(shù)據(jù)的抗干擾性)

(6)可解釋性和實(shí)用性(降維，可視化顯示)

7、通常聚類算法可以分為以下幾類：

(1)劃分聚類方法

選擇適當(dāng)?shù)某跏即睃c(diǎn)將數(shù)據(jù)樣本進(jìn)行初始聚類，之后通過迭代過程對(duì)聚類的結(jié)果進(jìn)行不斷

的調(diào)整，直到使評(píng)價(jià)性能的準(zhǔn)則函數(shù)的值達(dá)到最優(yōu)為止。

(2)層次聚類方法(3)基于密度的聚類方法(4)基于網(wǎng)格的聚類方法

第十章

1＞遺傳算法(GeneticAlgorithms,GA)是一種有效的全局搜索方法，是一種基于達(dá)爾文自

然選擇和遺傳變異等生物進(jìn)化機(jī)制而發(fā)展起來的仿生算法.

2、例1利用遺傳算法求解區(qū)間［0,31］上的二次函數(shù)y=x2的最大值.

解(1)設(shè)定種群規(guī)模，編碼染色體，產(chǎn)生初始種群。

將種群規(guī)模設(shè)定為4；用5位二進(jìn)制數(shù)編碼染色體；取下列個(gè)體組成初始種群S1：

sl=13(01101),s2=24(11000)

s3=8(01000),s4=19(10011)

(2)定義適應(yīng)度函數(shù)，取適應(yīng)度函數(shù):f(x)=x2

f(si)=f(13)=132=169f(s2)=f(24)=242=576

f(s3)=f(8)=82=64f(s4)=f(19)=192=361

由此可求得

P(sl)=P(13)=0。14P(s2)=P(24)=0。49

P(s3)=P(8)=0。06P(s4)=P(19)=0。31

(3)計(jì)算各代種群中的各個(gè)體的適應(yīng)度，并對(duì)其染色體進(jìn)行遺傳操作，直到適應(yīng)度最高的

個(gè)體(即31(11111))出現(xiàn)為止。

填空題20分，簡答題25分，計(jì)算題2個(gè)(25分)，綜合題30分

1、數(shù)據(jù)倉庫的組成？P2

數(shù)據(jù)倉庫數(shù)據(jù)庫，數(shù)據(jù)抽取工具，元數(shù)據(jù)，訪問工具，數(shù)據(jù)集市，數(shù)據(jù)倉庫管理，信息發(fā)布

系統(tǒng)

2、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求有哪幾個(gè)方面?P131

可伸縮性；處理不同類型屬性的能力；發(fā)現(xiàn)任意形狀聚類的能力；減小對(duì)先驗(yàn)知識(shí)和用戶自

定義參數(shù)的依賴性；處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性

3、數(shù)據(jù)倉庫在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7

(1)數(shù)據(jù)倉庫面對(duì)的是大量數(shù)據(jù)的存儲(chǔ)與管理(2)并行處理(3)針對(duì)決策支持查詢的優(yōu)化

(4)支持多維分析的查詢模式

4、常見的聚類算法可以分為幾類？P132

基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法，基

于模型的聚類算法等。

5、一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)的組成？P12

數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、0LAP服務(wù)器、前端工具與應(yīng)用

6、數(shù)據(jù)倉庫常見的存儲(chǔ)優(yōu)化方法？P71

表的歸并與簇文件；反向規(guī)范化，引入冗余；表的物理分割。

7、數(shù)據(jù)倉庫發(fā)展演變的5個(gè)階段？P20

以報(bào)表為主以分析為主以預(yù)測(cè)模型為主以運(yùn)行向?qū)橹饕詫?shí)時(shí)數(shù)據(jù)倉庫自動(dòng)決策應(yīng)用

為主

8、ID3算法主要存在的缺點(diǎn)？P116

(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí)，使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn)。

信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性，在有些情況下這類屬性可能不會(huì)提供太多有

價(jià)值的信息.

(2)ID3算法只能對(duì)描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。

9、簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30

ETL軟件的主要功能：數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換，數(shù)據(jù)的加教

對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求：詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時(shí)的、質(zhì)量可控制的

10、簡述分類器設(shè)計(jì)階段包含的3個(gè)過程。

劃分?jǐn)?shù)據(jù)集，分類器構(gòu)造，分類器測(cè)試

11、什么是數(shù)據(jù)清洗?P33

數(shù)據(jù)清洗是一種使用模式識(shí)別和其他技術(shù)，在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級(jí)原

始數(shù)據(jù)

12、支持度和置信度的計(jì)算公式及數(shù)據(jù)計(jì)算(P90)

找出所有的規(guī)則X0Y,使支持度和置信度分別大于門限支持度：事務(wù)中X和Y同時(shí)發(fā)生

的比例,P(XflY)置信度：項(xiàng)集X發(fā)生時(shí),Y同時(shí)發(fā)生的條件概率P(Y|X)

Example：

c(Xt{Milk,Diaper}=>Beer(0.4,0.67)

13、利用信息包圖洲徽鬻矗概念模型需要確定的三方面內(nèi)容。P57

確定指標(biāo)，確定維度，確定類別

14、K一近鄰分類方法的操作步驟（包括算法的輸入和輸出）。P128

輸入：幅集工…未知類標(biāo)號(hào)的數(shù)據(jù)樣本X國,"?。?。

輸出：未知類標(biāo)號(hào)的數(shù)據(jù)樣本x的類標(biāo)號(hào)…

（1）對(duì)于未知類標(biāo)號(hào)的軟據(jù)樣本X,按照下式計(jì)算它與訓(xùn)練集X…中每一個(gè)數(shù)

據(jù)樣本的歐氏距露。

如向）=工和-xj，i=l,2,…,totals

（2）將第（1）步中的所有歐氏距靄按照由小到大的順序進(jìn)行防，并且取前k

個(gè)距露從而找出x在Xi中的k個(gè)近鄰，假?zèng)]p“p」,p,分別是k個(gè)近

鄰中屬于類別c“c「,c.的樣本數(shù)量…

（3）如果A=maxR,i=l,2,…加則x的類標(biāo)號(hào)為c“即xWc,?，

15、什么是技術(shù)元數(shù)套，主要包含的內(nèi)容？P29

技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù)，應(yīng)用于開發(fā)、管理和維護(hù)DW,包含:

DW結(jié)構(gòu)的描述，如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義，數(shù)據(jù)集市的位

置和內(nèi)容等

業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式

匯總算法。包括度量和維定義算法，數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù)定義的查詢和

報(bào)告.

由操作型業(yè)務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)

據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全（用戶授權(quán)和存取控制）

16、業(yè)務(wù)元數(shù)據(jù)主要包含的內(nèi)容？P29

業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系統(tǒng)之間的語義

層主要包括：

雇用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名

訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源

提供的分析方法及公式和報(bào)表的信息.

17、K—means算法的基本操作步驟（包括算法的輸入和輸出）。P138

輸入：數(shù)據(jù)集X={x.|n=l,2,…，total},其中的數(shù)據(jù)樣本只包含描述屬性，不

包含類別屬性；聚類個(gè)數(shù)k.。

輸出：使誤差平方和準(zhǔn)則最小的k個(gè)聚類.。

（1）從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的初始代表點(diǎn)，每一個(gè)代表

點(diǎn)表示一個(gè)類別.”

（2）對(duì)于X中的任一數(shù)據(jù)樣本x.（iWmWtotal）,計(jì)算它與k個(gè)初始代表點(diǎn)的

距離，并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中.，

（3）完成數(shù)據(jù)樣本的劃分之后，對(duì)于每一個(gè)聚美，計(jì)算其中所有數(shù)據(jù)樣本的均值，

并且將其作為該聚類的新的代表點(diǎn)，由此得到k個(gè)均值代表點(diǎn)."

（4）對(duì)于X中的任一數(shù)據(jù)樣本x.（iWmWtotal）,計(jì)算它與k個(gè)均值代表點(diǎn)的

距離，并且將它劃分到距離最近的均值代表點(diǎn)所表示的類別中.。

（5）重復(fù)步驟（3）和（4）,直到各個(gè)聚類不再發(fā)生變化為止，即誤差平方和準(zhǔn)

則函數(shù)的值達(dá)到最優(yōu).。

18、數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法？P36

SQL命令（如Insert或Update）

由DW供應(yīng)商或第三方提供專門的加載工具

由DW管理員編寫自定義程序

19、多維數(shù)據(jù)模型中的基本概念：維，維類別，維屬性，粒度P37

維：人們觀察數(shù)據(jù)的特定角度，是考慮問題的一類屬性，如時(shí)間維或產(chǎn)品維

維類別：也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)類別屬性（如時(shí)間維

包括年、季度、月等）

維屬性：是維的一個(gè)取值，是數(shù)據(jù)線在某維中位置的描述。

粒度:DW中數(shù)據(jù)綜合程度高低的一個(gè)衡量。粒度低，細(xì)節(jié)程度高，回答查詢的種類多

20、Apriori算法的基本操作步驟P93

Apriori使用一種稱作逐層搜索的迭代方法，K項(xiàng)集用于探索K+1項(xiàng)集。

該方法是基于候選的策略，降低候選數(shù)

Apriori剪枝原則：若任何項(xiàng)集是非頻繁的，則其超集必然是非頻繁的（不用產(chǎn)生和

測(cè)試超集）

該原則基于以下支持度的特性：

vx,y：（xcr）=>s（x）>s（y）

項(xiàng)集的支持度不會(huì)超過其子集

支持度的反單調(diào)特性（anti—monotone）：如果一個(gè)集合不能通過測(cè)試，則它

的所有超集也都不能通過相同的測(cè)試.

令k=l

產(chǎn)生長度為1的頻繁項(xiàng)集

循環(huán)，直到無新的頻繁項(xiàng)集產(chǎn)生

從長度為k的頻繁項(xiàng)集產(chǎn)生長度為k+1的候選頻繁項(xiàng)集

連接步：項(xiàng)集的各項(xiàng)排序，前k—1個(gè)項(xiàng)相同

若候選頻繁子集包含長度為k的非頻繁子集，則剪枝

剪枝步：利用支持度屬性原則

掃描數(shù)據(jù)庫，計(jì)算每個(gè)候選頻繁集的支持度

刪除非頻繁項(xiàng)，保留頻繁項(xiàng)

明考斯基距離：

那得號(hào)你規(guī)定的權(quán)是多少啊，(xl,….，xn)和(yl,….，yn)間權(quán)p的minkowski

距離就是[Ixl—yl|-p+o.o+|xn-ynI"p]'{1/p}意義么，得看你的空間是什么.一般這

個(gè)迤數(shù)是用在函數(shù)空間上的,比如L~p([0,1]),它與向量(這時(shí)是[0,1]區(qū)間上的1/p函

數(shù))的模長是相容的。

笫1個(gè)樣品與第，仝樣品間的明考夫斯基距離定義為.

%卜)=畝%-%「

這里g為某一自然數(shù)，這是一個(gè)最常用最直觀的更離。.

當(dāng)g=l時(shí)，4(1)=￡除-5|,稱為絕時(shí)距離…

JU1

當(dāng)g=2時(shí)，4式2)=恪”,稱為歐氏距離…

當(dāng)。=oo時(shí)，%(oo)=蹈稱為切比雪夫電離；*

當(dāng)各變量的單位不同或里里像相同但各變量的測(cè)量值相差很大時(shí)，不應(yīng)直接

采用明考夫斯基距國，而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理，然后用標(biāo)準(zhǔn)化后的

數(shù)據(jù)計(jì)算距言.最常用的標(biāo)準(zhǔn)化處理是，令-

￥=^^J=L2,,%/=1,2.…，p?

其中弓=金》為第J個(gè)變量的樣本均值.S尸生X(%_方為第/:t變量的

樣本方差。一

聯(lián)機(jī)事務(wù)處理OLTP（on-linetransactionprocessing）

傳統(tǒng)的關(guān)系DBMS的主要任務(wù)

他們涵蓋了一個(gè)組織的大部分日常操作：購買、庫存、制造、銀行、工資、注

冊(cè)、記賬等.

聯(lián)機(jī)分析處理OLAP（on-lineanalyticalprocessing）

數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)

數(shù)據(jù)分析和決策

OLTP和OLAP的區(qū)別

用戶和系統(tǒng)的面向性：OLTP面向顧客，而OLAP面向市場(chǎng)

數(shù)據(jù)內(nèi)容：OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)，而OLAP管理歷史的數(shù)據(jù).

數(shù)據(jù)庫設(shè)計(jì)；OLTP系統(tǒng)采用實(shí)體-聯(lián)系（ER）模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)，

而OLAP系統(tǒng)通常采用星形和雪花模型

視圖：OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù)，而OLAP系統(tǒng)

主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù)。

訪問模式：OLTP訪問主要有短的原子事務(wù)組成，而OLAP系統(tǒng)的訪問大部分

是只讀操作，盡管許多可能是復(fù)雜的查詢

數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型.這種模型將數(shù)據(jù)看作數(shù)據(jù)立方體形

式.數(shù)據(jù)立方體允許從多維對(duì)數(shù)據(jù)建模和觀察.它由維和事實(shí)定義.

3最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維模型，這種模型可以以星形模式、雪花型

模式或事實(shí)星座模式形式存在?

建立數(shù)據(jù)倉庫模型：維與度量

星型模型：最常見的模型范例是星形模式，其中數(shù)據(jù)倉庫包括（D一個(gè)大的

包含大批數(shù)據(jù)并且不含冗余的中心表（事實(shí)表）；（2）一組小的附屬表（維表），

每維一個(gè).中間是事實(shí)表，連接一組維表

雪花模式：雪花模式是星型模式的變種，其中某些維表是規(guī)范化的，而數(shù)據(jù)進(jìn)

一步分解到附加的維表中，它的圖形類似于雪花的形狀

事實(shí)星座表：多個(gè)事實(shí)表共享維表，這種模式可以看作星型模式及，因此稱為

星系模式或事實(shí)星座

數(shù)據(jù)立方體度量是一個(gè)數(shù)值函數(shù)，可以對(duì)數(shù)據(jù)立方體空間的每一個(gè)點(diǎn)求值.通

過對(duì)給定點(diǎn)的各維值對(duì)聚集數(shù)據(jù)，計(jì)算該點(diǎn)的度量值.

度量可以根據(jù)所用的聚集函數(shù)類型可以分成三類（即分布的、代數(shù)的和整體的）.

概念分層定義一個(gè)映射序列，將低層概念映射到更一般的較高層概念。

多維數(shù)據(jù)模型中的OLAP操作

(1)上卷：上卷操作通過沿一個(gè)維的概念分層向上攀升或者通過維規(guī)約，對(duì)數(shù)據(jù)

立方體進(jìn)行聚集；

(2)下鉆：下鉆是上卷的逆操作，它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù).下鉆可

以通過沿維的概念分層向下或引入附加的維來實(shí)現(xiàn)：

(3)切片和切塊；切片操作對(duì)給定立方體的一個(gè)維進(jìn)行選擇，導(dǎo)致一個(gè)子立方體.

切塊操作通過對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇，定義子立方體；

(4)轉(zhuǎn)軸(旋轉(zhuǎn))：轉(zhuǎn)軸是一種可視化操作，它轉(zhuǎn)動(dòng)數(shù)據(jù)的視角，提供數(shù)據(jù)的普

代表示；

(5)其他OLAP操作：鉆過執(zhí)行涉及多個(gè)事實(shí)表的查詢；鉆透操作使用關(guān)系SQL

機(jī)制，鉆透數(shù)據(jù)立方體的底層，到后段關(guān)系表。

三層數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)

(1)底層是倉庫數(shù)據(jù)服務(wù)器，它幾乎總是關(guān)系數(shù)據(jù)庫系統(tǒng).

(2)中間層是OLAP服務(wù)器，其典型的實(shí)現(xiàn)或者是(i)關(guān)系OLAP(ROLAP)模

型,即擴(kuò)充的關(guān)系DBMS,它將對(duì)多維數(shù)據(jù)的操作映射為標(biāo)準(zhǔn)的關(guān)系操作；或

者是(ii)多維OLAP(MOLAP膜型即專門的服務(wù)器，它直接實(shí)現(xiàn)多維數(shù)據(jù)

和操作.

(3)頂層是前段客戶層,它包括查詢和報(bào)表工具、分析工具和/或數(shù)據(jù)挖掘工具(例

如趨勢(shì)分析、預(yù)測(cè)等).

從結(jié)構(gòu)的角度看，有三種數(shù)據(jù)倉庫模型：企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫.

數(shù)據(jù)集市(DataMart),數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集，對(duì)于特定的

用戶群是有用的.其范圍限于選定的主題.

根據(jù)數(shù)據(jù)的來源不同，數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類.

數(shù)據(jù)倉庫后端工具和實(shí)用程序包含以下功能：數(shù)據(jù)提?。粩?shù)據(jù)清理；數(shù)據(jù)變換;

裝入；刷新.

數(shù)據(jù)立方體的物化有三種選擇：(1)不物化：(2)完全物化：(3)部分物化.

有三種數(shù)據(jù)倉庫應(yīng)用：信息處理、分析處理和數(shù)據(jù)挖掘.

分類和預(yù)測(cè)

找出描述并區(qū)分?jǐn)?shù)據(jù)類和概念的模型（或函數(shù)）以便能夠使用模型預(yù)測(cè)類標(biāo)記

未知的對(duì)象類.

例如：依據(jù)氣候劃分國家類型或者依據(jù)每里的耗油量劃分汽車類型.

表示形式：判定樹，分類規(guī)則，神經(jīng)網(wǎng)絡(luò).

預(yù)測(cè)：預(yù)測(cè)某些未知的或空缺的數(shù)據(jù)值.

聚類分析

類標(biāo)記未知：把數(shù)據(jù)聚類或分組成新的類，例如：把房子聚類來找出房子的分

布模式.

聚類依據(jù)以下原則：最大化類內(nèi)的相似性和最小化類間的相似性.

FP-樹結(jié)構(gòu)的優(yōu)點(diǎn)

完整性：不會(huì)破壞任何交易的長模式為頻繁模式挖掘保存了完整的信息

簡潔性減少了不相關(guān)的信息一非頻繁項(xiàng)集被刪掉

頻繁項(xiàng)集技支持度遞減順序排列:越是頻繁的項(xiàng)集越有可能被共享

不會(huì)比原數(shù)據(jù)庫大（如果不算節(jié)點(diǎn)鏈和計(jì)數(shù)）

基本思想（分治策略）：

使用FP-樹循環(huán)的產(chǎn)生頻繁模式路徑

方法對(duì)于每一個(gè)項(xiàng).先構(gòu)造它的條件模式基.然后構(gòu)造它的條件FP-樹

在每一個(gè)新創(chuàng)建的條件FP-樹上重復(fù)此過程

直到結(jié)果FP樹為空、或它只包含一條路徑（單路徑將產(chǎn)生所有的它的子路徑的

結(jié)合.每一條子路徑都是一個(gè)頻繁模式）

挖掘FP-樹的主要步驟

1）為FP-箱中的每一個(gè)節(jié)點(diǎn)構(gòu)造條件模式基

2）為每一個(gè)條件模式基條件FP-樹

3）循環(huán)的挖掘條件FP-樹，生成至今為止獲得的頻繁模式

如果條件FP-樹只包含單條路徑，簡單的列舉所有的模式

一、名詞解釋

1.數(shù)據(jù)倉庫：是一種新的數(shù)據(jù)處理體系結(jié)構(gòu)，是面向主題的、集成的、不可

更新的（穩(wěn)定性）、隨時(shí)間不斷變化（不同時(shí)間）的數(shù)據(jù)集合，為企業(yè)決策支

持系統(tǒng)提供所需的集成信息.

2.孤立點(diǎn):指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)

據(jù).

3.OLAP：OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的，以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)

據(jù)分析處理，是共享多維信息的快速分析，是被專門設(shè)計(jì)用于支持復(fù)雜的

分析操作，側(cè)重對(duì)分析人員和高層管理人員的決策支持.

4.粒度，指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別.粒度影

響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時(shí)影響數(shù)據(jù)倉庫所能回答查詢問

題的細(xì)節(jié)程度。

5.數(shù)據(jù)規(guī)范化：指將數(shù)據(jù)按比例縮放（如更換大單位），使之落入一個(gè)特定的

區(qū)域（如0—1）以提高數(shù)據(jù)挖掘效率的方法.規(guī)范化的常用方法有：量

大一最小規(guī)范化、零一均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化.

6.關(guān)聯(lián)知識(shí)：是反映一個(gè)事件和其他事件之間依賴或相互關(guān)聯(lián)的知識(shí).如果

兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián)，那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬

性值進(jìn)行預(yù)測(cè).

7.數(shù)據(jù)挖掘：從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中，提

取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過

程.

8.OLTPsOLTP為聯(lián)機(jī)事務(wù)處理的縮寫，OLAP是聯(lián)機(jī)分析處理的縮寫.

前者是以數(shù)據(jù)庫為基礎(chǔ)的，面對(duì)的是操作人員和低層管理人員，對(duì)基本數(shù)

據(jù)進(jìn)行查詢和增、刪、改等處理.

9.ROLAP：是基于關(guān)系數(shù)據(jù)庫存儲(chǔ)方式的，在這種結(jié)構(gòu)中，多維數(shù)據(jù)被映

像成二維關(guān)系表，通常采用星型或雪花型架構(gòu)，由一個(gè)事實(shí)表和多個(gè)維度

表構(gòu)成.

10.MOLAP,是基于類似于“超立方”塊的OLAP存儲(chǔ)結(jié)構(gòu)，由許多經(jīng)壓縮

的、類似于多維數(shù)組的對(duì)象構(gòu)成，并帶有高度壓縮的索引及指針結(jié)構(gòu)，通

過直接偏移計(jì)算進(jìn)行存取。

11.數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，并

且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果.

12.廣義知識(shí)：通過對(duì)大量數(shù)據(jù)的歸納、概括和抽象，提燎出帶有普遍性的、

概括性的描述統(tǒng)計(jì)的知識(shí).

13.預(yù)潴型知識(shí)：是根據(jù)時(shí)間序列型數(shù)據(jù)，由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來

的數(shù)據(jù)，也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí).

14.偏差型知識(shí)：是對(duì)差異和極端特例的描述，用于揭示事物偏離常規(guī)的異常

現(xiàn)象，如標(biāo)準(zhǔn)類外的特例，數(shù)據(jù)聚類外的離群值等.

15.遺傳算法：是一種優(yōu)化搜索算法，它首先產(chǎn)生一個(gè)初始可行解群體，然后

對(duì)這個(gè)群體通過模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一

代群體，并最終達(dá)到全局最優(yōu).

16.聚類：是將物理或抽象對(duì)象的集合分組成為多個(gè)類或候(cluster)的過程，

使得在同一個(gè)靛中的對(duì)象之間具有較高的相似度，而不同簇中的對(duì)患差別

較大.

17.決策樹：是用樣本的屬性作為結(jié)點(diǎn)，用屬性的取值作為分支的樹結(jié)構(gòu).它

是分類規(guī)則挖掘的典型方法，可用于對(duì)新樣本進(jìn)行分類.

18.相異度矩陣：是聚類分析中用于表示各對(duì)較之間相異度的一種短陣，n個(gè)

對(duì)象的相異度矩陣是一個(gè)nn維的單模矩陣，其對(duì)角線元素均為0,對(duì)角

線兩側(cè)元素的值相同。

19.頻繁項(xiàng)集：指滿足最小支持度的項(xiàng)集，是挖掘關(guān)聯(lián)規(guī)則的基本條件之一.

20.支持度:規(guī)則、-B的支持度指的是所有事件中A與B同地發(fā)生的的概率,

即P(AUB),是AB同時(shí)發(fā)生的次數(shù)與事件總次數(shù)之比.支持度是對(duì)關(guān)聯(lián)

規(guī)則重要性的衡量.

21.可信度:規(guī)則A-B的可信度指的是包含A項(xiàng)集的同時(shí)也包含B項(xiàng)集的條

件概率P(B|A),是AB同時(shí)發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比.可信度

是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量.

22.關(guān)聯(lián)規(guī)則r同時(shí)滿足最小支持度闕值和最小可信度假值的規(guī)則稱之為關(guān)聯(lián)

規(guī)則.

二、綜合題

1.何謂數(shù)據(jù)挖掘？它有哪些方面的功能？

從大直的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含

在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程稱為

數(shù)據(jù)挖掘.相關(guān)的名稱有知派發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等.

數(shù)據(jù)挖掘的功能包括：概念描述、關(guān)聯(lián)分析、分類與測(cè)、聚類分析、

趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。

2.何謂數(shù)據(jù)倉庫？為什么要建立數(shù)據(jù)倉庫？

數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu)，是面向主題的、集成的、不

可更新的（穩(wěn)定性）、隨時(shí)間不斷變化（不同時(shí)間）的數(shù)據(jù)集合，為企業(yè)決策支

持系統(tǒng)提供所希的集成信息.

建立數(shù)據(jù)倉庫的目的有3個(gè)：

一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題，數(shù)據(jù)倉庫能提供比傳

統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度.

二是解決決策分析對(duì)數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正

確的集成數(shù)據(jù)，這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的.

三是解決決策分析對(duì)數(shù)據(jù)的特殊操作要求.決策分析是面向?qū)I(yè)用戶

而非一般業(yè)務(wù)員，需要使用專業(yè)的分析工具，對(duì)分析結(jié)果還要以商業(yè)智能

的方式進(jìn)行表現(xiàn)，這是事務(wù)數(shù)據(jù)庫不能提供的.

3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別.

操作型數(shù)據(jù)分析型數(shù)據(jù)

固前的、細(xì)節(jié)的

歷史的、綜合的

面向應(yīng)用、事務(wù)驅(qū)動(dòng)面向分析、分析驅(qū)動(dòng)

頻繁增、刪、改幾乎不更新，定期追加

操作需求事先知道分析需求事先不知道

區(qū)命周期符合

SDLC完全不同的生命周期

,性能要求高

對(duì)性能要求寬松

卜次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大

支持日常事務(wù)操作支持管理決策需求

4.何謂OLTP和OLAP?它們的主要異同有哪些？

OLTP即聯(lián)機(jī)事務(wù)處理，是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層

管理人員、對(duì)基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理.OLAP

即聯(lián)機(jī)分析處理，是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、

面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。

OLTP和OLAP的主要區(qū)別如下表:

OLTPOLAP

數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫哪雎庫數(shù)據(jù)

細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)

當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)

經(jīng)常更新不更新，但周期性刷新

一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大

對(duì)響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理

用戶數(shù)量大用戶數(shù)據(jù)相對(duì)較少

面向操作人員，支持日常操作面向決策人員，支持管理需要

面向應(yīng)用，事務(wù)驅(qū)動(dòng)面向分析，分析驅(qū)動(dòng)

5.何謂粒度？它對(duì)數(shù)據(jù)倉庫有什么影響？按粒度組織數(shù)據(jù)的方式有哪些？

粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒

度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時(shí)影響數(shù)據(jù)倉庫所能回答查

詢問題的細(xì)節(jié)程度.按粒度組織數(shù)據(jù)的方式主要有：

①簡單堆積結(jié)構(gòu)

②輪轉(zhuǎn)綜合結(jié)構(gòu)

③筒單直接結(jié)構(gòu)

④連續(xù)結(jié)構(gòu)

6.簡述數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容.

概念模型設(shè)計(jì)是在較高的抽藪層次上的設(shè)計(jì)，其主要內(nèi)容包括：界定

系統(tǒng)邊界和確定主要的主題域.

邏輯模型設(shè)計(jì)的主要內(nèi)容包括：分析主題域、確定粒度層次劃分、確

定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng).

物理數(shù)據(jù)模型設(shè)計(jì)的主要內(nèi)容包括：確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存

放位置、確定存儲(chǔ)分配以及確定索引策略等.在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)主要

考慮的因素有：I/O存取時(shí)間、空間利用率和維護(hù)代價(jià)等.

提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、

引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等.

7.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理？

原始業(yè)務(wù)數(shù)據(jù)來自多個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫，它們的結(jié)構(gòu)和規(guī)則可能是

不同的，這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用，即使在同一個(gè)數(shù)據(jù)庫中,

也可能存在重復(fù)的和不完整的數(shù)據(jù)信息，為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖

掘的要求，提高效率和得到清晰的結(jié)果，必須進(jìn)行數(shù)據(jù)的預(yù)處理.

為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù)，減少算法

的計(jì)算量，提高挖掘效率和準(zhǔn)確程度.

8.筒述數(shù)據(jù)預(yù)處理方法和內(nèi)容。

①數(shù)據(jù)清洗：包括填充空缺值，識(shí)別孤立點(diǎn)，去掉噪聲和無關(guān)數(shù)據(jù).

②數(shù)據(jù)集成：將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)

中.需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等.

③數(shù)據(jù)變換：將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式.包括對(duì)數(shù)據(jù)的匯

總、聚集、概化、規(guī)范化，還可能需要進(jìn)行屬性的重構(gòu)。

④數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，

并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果.

9.簡述數(shù)據(jù)清理的基本內(nèi)容.

①盡可能賦予屬性名和屬性值明確的含義；

②統(tǒng)一多數(shù)據(jù)源的屬性值編碼；

③去除無用的惟一屬性或鍵值（如自動(dòng)增長的id）：

④去除重復(fù)屬性（在某些分析中，年齡和出生日期可能就是重復(fù)的屬性，

但在某些時(shí)候它們可能又是同時(shí)需要的）

⑤去除可忽略字段（大部分為空值的屬性一般是沒有什么價(jià)值的，如果不

去除可能造成錯(cuò)誤的數(shù)據(jù)挖掘結(jié)果）

?合理選擇關(guān)聯(lián)字段（對(duì)于多個(gè)關(guān)聯(lián)性較強(qiáng)的屬性，重復(fù)無益，只需選擇

其中的部分用于數(shù)據(jù)挖掘即可，如價(jià)格、數(shù)據(jù)、金額）

⑦去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù).

10.陸述處理空缺值的方法.

①忽略該記錄：

②去掉屬性；

⑧手工填寫空缺值；

④使用默認(rèn)值：

⑤使用屬性平均值；

⑥使用同類樣本平均值；

⑦預(yù)測(cè)量可能的值.

II.常見的分箱方法有哪些？數(shù)據(jù)平滑處理的方法有隰些？

分箱的方法主要有：

①統(tǒng)一權(quán)重法（又稱等深分箱法）

②統(tǒng)一區(qū)間法（又稱等寬分箱法）

⑧最小篇法

④自定義區(qū)間法

數(shù)據(jù)平滑的方法主要有：平均值法、邊界值法和中值法.

12.何謂數(shù)據(jù)規(guī)范化？規(guī)范化的方法有嵋些？寫出對(duì)應(yīng)的變換公式.

將數(shù)據(jù)按比例縮放（如更換大單位）,使之落入一個(gè)特定的區(qū)域（如0.0?

1.0）,稱為規(guī)范化.規(guī)瓶化的常用方法有：

（1）最大一最小規(guī)范化，max-min.

x--................—（^-

（2）零一均值規(guī)范化3

(3)小數(shù)定標(biāo)規(guī)范化；x=xo/10,

13.數(shù)據(jù)歸約的方法有哪些？為什么要進(jìn)行雉歸的？

①數(shù)據(jù)立方體聚集

②維歸約

③數(shù)據(jù)壓縮

④數(shù)值壓縮

⑤離散化和概念分層

維歸約可以去掉不重要的屬性，減少數(shù)據(jù)立方體的維數(shù)，從而減少數(shù)

據(jù)挖掘處理的數(shù)據(jù)量，提高挖掘效率.

14.何謂聚類？它與分類有什么異同？

聚類是將物理或抽盆對(duì)能的集合分組成為多個(gè)類或候(cluster)的過

程，使得在同一個(gè)展中的對(duì)象之間具有較高的相似度，而不同麟中的對(duì)象

差別較大.

聚類與分類不同，聚類要?jiǎng)澐值念愂俏粗?，分類則可按已知規(guī)則進(jìn)

行；聚類是一種無指導(dǎo)學(xué)習(xí)，它不依賴預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)

例，屬于觀察式學(xué)習(xí)，分類則屬于有指導(dǎo)的學(xué)習(xí)，是示例式學(xué)習(xí).

15.舉例說明聚類分析的典型應(yīng)用.

①商業(yè)：幫助市場(chǎng)分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群，并且用不

同的購買模式描述不同客戶群的特征。

②生物學(xué)：推導(dǎo)植物或動(dòng)物的分類，對(duì)基于進(jìn)行分類，獲得對(duì)種群中固有

結(jié)構(gòu)的認(rèn)識(shí)。

③WE5文檔分類

④其他：如地球觀測(cè)數(shù)據(jù)庫中相似地區(qū)的確定；各類保險(xiǎn)投保人的分組I

一個(gè)城市中不同類型、價(jià)值、地理位置房子的分組等.

⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理：即先進(jìn)行聚類，然后再

進(jìn)行分類等其他的數(shù)據(jù)挖掘.聚類分析是一種數(shù)據(jù)簡化技術(shù)，它把基于

相似數(shù)據(jù)特征的變量或個(gè)案組合在一起.

16.聚類分析中常見的數(shù)據(jù)類型有哪些？何謂相異度矩陣？它有什么特點(diǎn)？

常見數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、

序數(shù)型以及混合類型等.相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度

的矩陣，為一個(gè)nn維的單模矩陣。其特點(diǎn)是d(ij)=d(j,i),d(i,i)=O,d(j1)=O.

如下所示：

(K2,1)0

d(3,1)d(3,2)0

????

d(nj)d(n,2)…...0

17.分類知識(shí)的發(fā)現(xiàn)方法主要有哪些？分類過程通常包括哪兩個(gè)步驟？

分類規(guī)則的挖掘方法通常有：決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、

粗糙集法和遺傳算法.分類的過程包括2步：首先在已知訓(xùn)練數(shù)據(jù)集上，

根據(jù)屬性特征，為每一種類別找到一個(gè)合理的描述或模型，即分類規(guī)則；

然后根據(jù)規(guī)則對(duì)新

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)

文檔簡介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔