![數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第1頁](http://file4.renrendoc.com/view5/M01/15/38/wKhkGGZ-LluADauYAAQ2MrZ8BuE289.jpg)
![數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第2頁](http://file4.renrendoc.com/view5/M01/15/38/wKhkGGZ-LluADauYAAQ2MrZ8BuE2892.jpg)
![數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第3頁](http://file4.renrendoc.com/view5/M01/15/38/wKhkGGZ-LluADauYAAQ2MrZ8BuE2893.jpg)
![數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第4頁](http://file4.renrendoc.com/view5/M01/15/38/wKhkGGZ-LluADauYAAQ2MrZ8BuE2894.jpg)
![數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第5頁](http://file4.renrendoc.com/view5/M01/15/38/wKhkGGZ-LluADauYAAQ2MrZ8BuE2895.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)
第一章
1、數(shù)據(jù)倉庫就是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.
2、元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個(gè)
信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類.
3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。
4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋
轉(zhuǎn)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),
從而深入理解多維數(shù)據(jù)集中的信息。
5、ROLAP是基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實(shí)現(xiàn)。
OLAP技術(shù)的有關(guān)概念:
OLAP根據(jù)其存儲(chǔ)數(shù)據(jù)的方式可分為三類:ROLAP、MOLAP、HOLAP
6、數(shù)據(jù)倉庫按照其開發(fā)過程,其關(guān)鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)與管理和數(shù)據(jù)表現(xiàn)等。
7、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:兩層架構(gòu)、獨(dú)立
型數(shù)據(jù)集合、以來型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲(chǔ)和邏輯型數(shù)據(jù)集中和實(shí)時(shí)數(shù)據(jù)倉庫。
8、操作型數(shù)據(jù)存儲(chǔ)實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的(但是可“揮
發(fā)”的)、企業(yè)級(jí)的、詳細(xì)的數(shù)據(jù)庫,也叫運(yùn)營數(shù)據(jù)存儲(chǔ)。
9、”實(shí)時(shí)數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉庫倉庫之間以一個(gè)接近實(shí)時(shí)的
速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。
10、從應(yīng)用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個(gè)階段:以報(bào)表為主、以分析為
主、以預(yù)測(cè)模型為主、以運(yùn)營導(dǎo)向?yàn)橹骱鸵詫?shí)時(shí)數(shù)據(jù)倉庫和自動(dòng)決策為主。
11、什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的特點(diǎn)主要有哪些?
數(shù)據(jù)倉庫通常是指一個(gè)數(shù)據(jù)庫環(huán)境,而不是支一件產(chǎn)品,它是提供用戶用于決策支持的當(dāng)前
和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫中通常不方便得到。數(shù)據(jù)倉庫就是一個(gè)面向主題的
(SubjectOriented)集成的(Integrate)、相對(duì)穩(wěn)定的(Non—Volatile)、反映歷史
變化(TimeVariant)的數(shù)據(jù)集合,通常用于輔助決策支持。
數(shù)據(jù)倉庫的特點(diǎn)包含以下幾個(gè)方面:
(1)面向主題.操作型數(shù)據(jù)庫的數(shù)據(jù)組織是面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離:
而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。
(2)集成的.面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)
立,并且往往是異構(gòu)的。也就是說存放在數(shù)據(jù)倉庫中的數(shù)據(jù)應(yīng)使用一致的命名規(guī)則、格式、
編碼結(jié)構(gòu)和相關(guān)特性來定義。
(3)相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化.數(shù)據(jù)
倉庫的數(shù)據(jù)主要供單位決策分析之用,對(duì)所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載,一旦某
個(gè)數(shù)據(jù)加載到數(shù)據(jù)倉庫以后,一般情況下將作為數(shù)據(jù)檔案長期保存,幾乎不再做修改和刪除
操作,也就是說針對(duì)數(shù)據(jù)倉庫,通常有大量的查詢操作及少量定期的加載(或刷新)操作.
(4)反映歷史變化。操作型數(shù)據(jù)庫(OLTP)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉
庫中的數(shù)據(jù)通常包含較久遠(yuǎn)的歷史數(shù)據(jù),因此總是包括一個(gè)時(shí)間維,以便可以研究趨勢(shì)和變
化。數(shù)據(jù)倉庫系統(tǒng)通常記錄了一個(gè)單位從過去某一時(shí)點(diǎn)(如開始啟用數(shù)據(jù)倉庫系統(tǒng)的時(shí)點(diǎn))
到目前的所有時(shí)期的信息,通過這些信息,可以對(duì)單位的發(fā)展歷程和未來趨勢(shì)做出定量分析
和預(yù)測(cè)。
12、數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘,就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平
凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí),又被稱為數(shù)據(jù)庫中的
知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘的方法:直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘.
13、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系
若將數(shù)據(jù)倉庫比作礦井,那么數(shù)據(jù)挖掘就是深入礦井采礦的工作;數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中
找出有用信息的一種過程與技術(shù)。
14、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)的分類
(1)兩層架構(gòu)(GenericTwo-LevelArchitecture)。
(2)獨(dú)立型數(shù)據(jù)集市(IndependentDataMart).
(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(DependentDataMartandOperationalData
Store)o
(4)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉庫(LogicalDataMartandReal-TimeDataWarehouse).
15、數(shù)據(jù)倉庫的未來
(1)在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、
調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便
于管理和維護(hù)。
(2)在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫
服務(wù)器產(chǎn)品與數(shù)據(jù)庫服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫將
最具發(fā)展?jié)摿?
(3)在數(shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中,并與
Internet/Web技術(shù)緊密結(jié)合。按行業(yè)應(yīng)用特征細(xì)化的數(shù)據(jù)倉庫用戶前端軟件將成為產(chǎn)品作
為數(shù)據(jù)倉庫解決方案的一部分。數(shù)據(jù)倉庫實(shí)現(xiàn)過程的方法論將更加普及,將成為數(shù)據(jù)庫設(shè)計(jì)
的一個(gè)明確分支,成為管理信息系統(tǒng)設(shè)計(jì)的必備
16、請(qǐng)列出3種數(shù)據(jù)倉庫產(chǎn)品,并說明其優(yōu)缺點(diǎn)。
(1)IBM公司提供了一套基于可視化數(shù)據(jù)倉庫的商業(yè)智能(BI)解決方案,包括:Visual
Warehouse(VW),Essbase/DB2OLAPServer5.0,IBMDB2UDB,以及來自第三方的前端數(shù)
據(jù)展現(xiàn)工具(如B0)和數(shù)據(jù)挖掘工具(如SAS)。其中,VW是一個(gè)功能很強(qiáng)的集成環(huán)境,既
可用于數(shù)據(jù)倉庫建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度.Essbase/DB2
OLAPServer支持“維”的定義和數(shù)據(jù)裝載。Essbase/DB2OLAPServer不是ROLAP
(RelationalOLAP)服務(wù)器,而是一個(gè)(ROLAP和M0LAP)混合的HOLAP服務(wù)器,在Essbase
完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2UDB數(shù)據(jù)庫中。它的前端數(shù)據(jù)展現(xiàn)工具可以選
擇BusinessObjects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query
ManagementFacility;多維分析工具支持ArborSoftware的Essbase和IBM(與Arbor聯(lián)
合開發(fā))的DB2OLAP服務(wù)器;統(tǒng)計(jì)分析工具采用SAS系統(tǒng)。
(2)Oracle數(shù)據(jù)倉庫解決方案主要包括OracleExpress和OracleDiscoverer兩個(gè)部分。
OracleExpress由四個(gè)工具組成:OracleExpressServer是一個(gè)MOLAP(多維OLAP)服務(wù)
器,它利用多維模型,存儲(chǔ)和管理多維數(shù)據(jù)庫或多維高速緩存,同時(shí)也能夠訪問多種關(guān)系數(shù)
據(jù)庫;OracleExpressWebAgent通過CGI或Web插件支持基于Web的動(dòng)態(tài)多維數(shù)據(jù)展
現(xiàn);OracleExpressObjects前端數(shù)據(jù)分析工具(目前僅支持Windows平臺(tái))提供了圖形
化建模和假設(shè)分析功能,支持可視化開發(fā)和事件驅(qū)動(dòng)編程技術(shù),提供了兼容VisualBasic語
法的語言,支持OCX和OLE;OracleExpressAnalyzer是通用的、面向最終用戶的報(bào)告和
分析工具(目前僅支持Windows平臺(tái))。OracleDiscoverer即席查詢工具是專門為最終
用戶設(shè)計(jì)的,分為最終用戶版和管理員版。在Oracle數(shù)據(jù)倉庫解決方案的實(shí)施過程中,通
常把匯總數(shù)據(jù)存儲(chǔ)在Express多維數(shù)據(jù)庫中,而將詳細(xì)數(shù)據(jù)存儲(chǔ)在Oracle關(guān)系數(shù)據(jù)庫中,
當(dāng)需要詳細(xì)數(shù)據(jù)時(shí),ExpressServer通過構(gòu)造SQL語句訪問關(guān)系數(shù)據(jù)庫。
(3)Microsoft將OLAP功能集成到SQLServer數(shù)據(jù)庫中,其解決方案包括BI平臺(tái)、BI終
端工具、BI門戶和BI應(yīng)用四個(gè)部分,如圖1.1.
①BI平臺(tái)是BI解決方案的基礎(chǔ),包括ETL平臺(tái)SQLServer2005Integration
Service(SSIS),數(shù)據(jù)倉庫引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎SQL
Server2005AnalysisService、報(bào)表管理引擎SQLServer2005ReportingService。
②BI終端用戶工具,用戶通過終端用戶工具和AnalysisService中的OLAP服務(wù)和數(shù)據(jù)
挖掘服務(wù)進(jìn)行交互來使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型,終端用戶通??墒褂妙A(yù)定義報(bào)表、交
互式多維分析、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等多種方法。
③BI門戶提供了各種不同用戶訪問BI信息的統(tǒng)一入口。BI門戶是一個(gè)數(shù)據(jù)的匯集地,
集成了來自不同系統(tǒng)的相關(guān)信息.用戶可以制定個(gè)性化的個(gè)人門戶,選擇和自己相關(guān)性最強(qiáng)
的數(shù)據(jù),提高信息訪問和使用的效率。
④BI應(yīng)用是建立在BI平臺(tái)、BI終端用戶工具和BI統(tǒng)一門戶這些公共技術(shù)手段之上的滿
足某個(gè)特定業(yè)務(wù)需求的應(yīng)用,例如零售業(yè)務(wù)分析、企業(yè)項(xiàng)目管理組合分析等
第二章
1、調(diào)和數(shù)據(jù)是存儲(chǔ)在企業(yè)級(jí)數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)。
2,抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威數(shù)據(jù)源。因此,
我們要求ETL過程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細(xì)的、歷史的、規(guī)范的、可理解的、即
時(shí)的和質(zhì)量可控制的。
3、數(shù)據(jù)抽取的兩個(gè)常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫,增
量抽取用于進(jìn)行數(shù)據(jù)倉庫的維護(hù)。
4、粒度是對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合
程度越低,回答查詢的種類越多。
5、使用星型模式可以從一定程度上提高查詢效率.因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng)經(jīng)過預(yù)處
理,主要數(shù)據(jù)都在龐大的事實(shí)表中。
6、維度表一般由主鍵、分類層次和描述屬性組成.對(duì)于主鍵可以選擇兩種方式:自然鍵,代
理鍵。
7、雪花型模式是對(duì)星型模式維表的進(jìn)一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。
8、數(shù)據(jù)倉庫中存在不同綜合級(jí)別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)
節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí).
9、(1)狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)
前者描述對(duì)象的狀態(tài),后者描述對(duì)象發(fā)生的事件;(前象)狀態(tài)數(shù)據(jù)一事件數(shù)據(jù)一(后象)
狀態(tài)數(shù)據(jù)
(2)當(dāng)前數(shù)據(jù)與周期數(shù)據(jù)
當(dāng)前數(shù)據(jù)只保留最新數(shù)據(jù),現(xiàn)存的最新記錄將改變以前中的數(shù)據(jù)。
周期數(shù)據(jù)則相反,一旦保存物理上就不在改變或刪除數(shù)據(jù)。通常每個(gè)周期數(shù)據(jù)記錄都會(huì)包含
一個(gè)時(shí)間戳來只是日期甚至?xí)r間。
(3)數(shù)據(jù)倉庫中的元數(shù)據(jù)
分技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),包括:數(shù)據(jù)倉庫結(jié)構(gòu)的描述,業(yè)務(wù)系統(tǒng)、
數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式,匯總算法,操作性業(yè)務(wù)環(huán)境導(dǎo)數(shù)據(jù)倉庫環(huán)境的映射
等。
10、業(yè)務(wù)元數(shù)據(jù)是從業(yè)務(wù)角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),提供了使用者和系統(tǒng)的語義層,使非
專業(yè)人員能“讀懂”倉庫中的數(shù)據(jù)。包括:(1)使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)類型、對(duì)
象名和屬性名;(2)訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;(3)系統(tǒng)所提供的分析方法及公式和
報(bào)表的信息。簡言之,元數(shù)據(jù)是數(shù)據(jù)倉庫的幫助和導(dǎo)航圖
11>什么是數(shù)據(jù)倉庫的3層數(shù)據(jù)結(jié)構(gòu)?
數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務(wù)處理系統(tǒng)(操作型數(shù)據(jù))流向企業(yè)級(jí)數(shù)據(jù)倉庫或操作型數(shù)據(jù)存
儲(chǔ)區(qū),在這個(gè)過程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模型和元數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行調(diào)和處
理,形成一個(gè)中間數(shù)據(jù)層,然后再根據(jù)分析需求,從調(diào)和數(shù)據(jù)層將數(shù)據(jù)引入導(dǎo)出數(shù)據(jù)層,如
形成滿足各類分析需求的數(shù)據(jù)集市.
12、什么是數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程?
數(shù)據(jù)的ETL過程就是負(fù)責(zé)將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過程.這兩種數(shù)據(jù)具有明顯的區(qū)
別,因此,數(shù)據(jù)調(diào)和是構(gòu)建一個(gè)數(shù)據(jù)倉庫中最難的和最具技術(shù)挑戰(zhàn)性的部分。在為企業(yè)級(jí)數(shù)據(jù)
倉庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調(diào)和可分為兩個(gè)階段:一是企業(yè)級(jí)數(shù)據(jù)倉庫(EDW)首次創(chuàng)建時(shí)
的原始加載;二是接下來的定期修改,以保持EDW的當(dāng)前有效性和擴(kuò)展性。
整個(gè)過程由四個(gè)步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實(shí)上,這些步驟可以進(jìn)行不
同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個(gè)過程,或者將清洗和轉(zhuǎn)換組合在一起。通常,
在清洗過程中發(fā)現(xiàn)的拒絕數(shù)據(jù)信息會(huì)送回到源操作型業(yè)務(wù)系統(tǒng)中,然后將數(shù)據(jù)在源系統(tǒng)中加
以處理,以便在以后重新抽取.
13、什么是星型模式?它的特征是什么?
在星模式中,事實(shí)表居中,多個(gè)維表呈輻射狀分布于其四周,并與事實(shí)表連接.位于星形中
心的實(shí)體是事實(shí)表,是用戶最關(guān)心的基本實(shí)體和查詢活動(dòng)的中心,為數(shù)據(jù)倉庫的查詢活動(dòng)提
供定量數(shù)據(jù)。位于星模式四周的實(shí)體是維度實(shí)體,其作用是限制和過濾用戶的查詢結(jié)果,縮
小訪問范圍。每個(gè)維表都有自己的屬性,維表和事實(shí)表通過關(guān)鍵字相關(guān)聯(lián)。
14、為什么時(shí)間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?
信息包圖法,也叫用戶信息需求表,就是在一張平面表格上描述元素的多維性,其中的每一
個(gè)維度用平面表格的一列表示,通常的維度如時(shí)間、地點(diǎn)、產(chǎn)品和顧客等;而細(xì)化本列的對(duì)
象就是類別,例如時(shí)間維度的類別可以細(xì)化到年、月、日,甚至小時(shí);平面表格的最后一行(代
表超立方體中的單元格)即為指標(biāo)度量值,例如,某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷售額。
創(chuàng)建信息包圖時(shí)需要確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包含各個(gè)層次需要的
數(shù)據(jù)倉庫??傊?,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點(diǎn)開始設(shè)計(jì)(用
戶的觀點(diǎn)是通過與用戶交流得到的),站在管理者的角度把焦點(diǎn)集中在企業(yè)的一個(gè)或幾個(gè)主
題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,
以及這些信息源影響業(yè)務(wù)活動(dòng)的方式.
第三章
1、WQLServerSSAS提供了所有業(yè)務(wù)數(shù)據(jù)的同意整合試圖,可以作為傳統(tǒng)報(bào)表、
在線分析處理、關(guān)鍵性能指示器記分卡和數(shù)據(jù)挖掘的基砒.
2、數(shù)據(jù)倉庫的概念模型通常采用信息包圖法來進(jìn)行設(shè)計(jì),要求將其5個(gè)組成部
分(包括名稱、維度、類別、層次和度量)全面地描述出來.
3、數(shù)據(jù)倉庫的建輯模型通常采用星型圖法來進(jìn)行設(shè)計(jì),要求將星型的各類避輯
實(shí)體完整地描述出來.
4、按照事實(shí)表中度量的可加性情況,可以把事實(shí)表對(duì)應(yīng)的事實(shí)分為4種類型:
事務(wù)事實(shí)、快照事實(shí)、線性項(xiàng)目事實(shí)和事件事實(shí).
5、確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)
擁護(hù)需求設(shè)計(jì)聚合模型.
6、在項(xiàng)目實(shí)施時(shí),根據(jù)事實(shí)表的特點(diǎn)和擁護(hù)的查詢需求,可以選用時(shí)間、業(yè)務(wù)
類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型.
7、當(dāng)維表中的主鍵在事實(shí)表中沒有與外鍵關(guān)聯(lián)時(shí),這樣的維稱為退化維.它于
事實(shí)表并無關(guān)系,但有時(shí)在查詢限制條件(如訂單號(hào)碼、出貨單編號(hào)等)中需
要用到.
8、維■可以根據(jù)其變化快慢分為元變化維度、線慢變化維度和劇烈變化維度三
類.
9、.數(shù)據(jù)倉庫的數(shù)據(jù)量通常較大,且數(shù)據(jù)一般很少更新,可以通過設(shè)計(jì)和優(yōu)化索
引結(jié)構(gòu)來提高數(shù)據(jù)存取性能.
1。、數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲(chǔ)優(yōu)化方法包括表的歸并與俄文件、反向規(guī)瓶化
引入冗余、衰的物理分割(分區(qū)).
12、簡述數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)過程?
收集、分析和確認(rèn)業(yè)務(wù)分析需求,分析和理解主題和元數(shù)據(jù)、事實(shí)及其量度、粒度和維度的
選擇與設(shè)計(jì)、數(shù)據(jù)倉庫的物理存儲(chǔ)方式的設(shè)計(jì)等。書P49
13、一個(gè)數(shù)據(jù)倉庫系統(tǒng)的建立通暢需要經(jīng)過哪些步驟?
(1)收集和分析業(yè)務(wù)需求;(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì);(3)定義數(shù)據(jù)源;
(4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái);(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫;
(6)選擇訪問和報(bào)表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;(7)更
14、/立一不數(shù)據(jù)倉庫系統(tǒng)的參考步驟
(1)收集和分析業(yè)務(wù)需求步驟(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)(3)定義數(shù)據(jù)源
(4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái)(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫(6)
選擇訪問和報(bào)表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件(7)更新數(shù)據(jù)
倉庫
15、創(chuàng)建數(shù)據(jù)倉庫系統(tǒng)的兩種思維模式
自頂向下(Top-down)OLTP數(shù)據(jù)通過ETL進(jìn)入DW,再復(fù)制推進(jìn)各個(gè)數(shù)據(jù)集市;
自底向上(Bottom-Up)OLTP數(shù)據(jù)通過ETL進(jìn)入數(shù)據(jù)集市,再復(fù)制提升到DW;
16、數(shù)據(jù)倉庫數(shù)據(jù)庫的設(shè)計(jì)過程
(1)分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu)(2)組織需求調(diào)研,收集業(yè)務(wù)需求(3)采用信息
包圖法進(jìn)行數(shù)據(jù)倉庫的概念模型設(shè)計(jì)(4)利用星形圖進(jìn)行數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)(5)
數(shù)據(jù)倉庫的物理模型設(shè)計(jì)
17、利用星形圖進(jìn)行數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)
(1)根據(jù)分析需求與信息包圖制作星形圖或雪花圖(2)確定主題的屬性組(3)事實(shí)表及其
特征、事實(shí)表的類型與設(shè)計(jì)(4)粒度的選擇與設(shè)計(jì)步驟(5)關(guān)于數(shù)據(jù)倉庫的聚合模型與
數(shù)據(jù)的分割處理(6)星形圖中的維度表簡介(7)常用維度的設(shè)計(jì)模式
第四章
1、關(guān)聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP—growth算法,其中FP-grownth算法的效率
更高。
2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},則
連接產(chǎn)生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再經(jīng)過修剪,C3={{a,b,c),
{a,b,d}}
3、設(shè)定supmin=50%,交易集如
則L1={A},{B},{C}L2={A,C}
T1ABC
T2AC
T3AD
T4BEF
4、什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則的應(yīng)用有哪些?
關(guān)聯(lián)規(guī)則挖掘最初由R。Agrawal等人提出,用來發(fā)現(xiàn)超級(jí)市場(chǎng)中用戶購買的商品之間的隱
含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來,稱為關(guān)聯(lián)規(guī)則(AssociationRule)。關(guān)聯(lián)規(guī)則除
了可以發(fā)現(xiàn)超市購物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域.關(guān)聯(lián)規(guī)則的應(yīng)用
還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等.
5、關(guān)聯(lián)規(guī)則的分類有哪些?關(guān)聯(lián)規(guī)則挖掘的步驟包括什么?
關(guān)聯(lián)規(guī)則的分類:
(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。
(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。
(3)基于規(guī)則中處理的變量的類型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。
關(guān)聯(lián)規(guī)則挖掘的步驟:(1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻
繁項(xiàng)集;
(2)/用頻繁項(xiàng)集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍,產(chǎn)生強(qiáng)
關(guān)聯(lián)規(guī)則。
第五章
1、分類的過程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計(jì)和分類決策。
2、分類器設(shè)計(jì)階段包含三個(gè)過程:劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和分類器測(cè)試。
3、分類問題中常用的評(píng)價(jià)準(zhǔn)則有精確度、查全率和查準(zhǔn)率和集合均值.
4,支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)。
5、分類的定義:分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過程,即給定一組
輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類
6、分類的應(yīng)用領(lǐng)域有哪些?
分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一,許多分類算法被包含在統(tǒng)計(jì)分
析工具的軟件包中,作為專門的分類工具來使用.分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生
物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用.例如,在銀行業(yè)中,分類方法可以輔助工
作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類,從而采取有效措施減小銀行的損失;
在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類,從而及時(shí)制定
救治方案,挽救病人的生命;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件
和垃圾郵件進(jìn)行分類,從而制定有效的垃圾郵件過濾機(jī)制,防止垃圾郵件干擾人們的正常生
活。
7、分類問題使用的數(shù)據(jù)集格式
(1)描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性.
(2)連續(xù)型屬性是指在某一個(gè)區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的,例如屬性
“Age”
(3)離散型屬性是指該屬性的取值是不連續(xù)的,例如屬性"Salary”和“Class”
8、分類的過程
(1)獲取數(shù)據(jù):輸入數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行量化
(2)預(yù)處理:去除噪聲數(shù)據(jù)、對(duì)空缺值進(jìn)行處理;數(shù)據(jù)集成或者變換
(3)分類器設(shè)計(jì):劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造、分類器測(cè)試
(4)分類決策:對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類
9、決策樹的優(yōu)點(diǎn):進(jìn)行分類器設(shè)計(jì)時(shí),決策樹分類方法所需時(shí)間相對(duì)較少;決策樹的分類模
型是樹狀結(jié)構(gòu),簡單直觀,比較符合人類的理解方式;可以將決策樹中到達(dá)每個(gè)葉節(jié)點(diǎn)的路
徑轉(zhuǎn)換為IF-THEN形式的分類規(guī)則,這種形式更有利于理解
10、決策樹的基本概念:適用于離散值屬性、連續(xù)值屬性;采用自頂向下的遞歸方式產(chǎn)生一
個(gè)類似于流程圖的樹結(jié)構(gòu);在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性,并且根據(jù)該屬性
的不同取值向下建立分枝
11、決策樹剪枝:決策樹剪枝過程試圖檢測(cè)和去掉多余的分枝,以提高對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)
進(jìn)行分類時(shí)的準(zhǔn)確性。
a)先剪枝方法:在生成決策樹的過程中對(duì)樹進(jìn)行剪枝
b)后剪枝方法:在生成決策樹之后對(duì)樹進(jìn)行剪枝
第六章
1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度
計(jì)算方法。
2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。
3、劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn):選種某種距離作為數(shù)據(jù)樣本減的相似
性度量、選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)
果,使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值.
4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。
5、什么是聚類分析?聚類分析的應(yīng)用領(lǐng)域有哪些?書P131
聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個(gè)類別的過程,聚類之后的每個(gè)類別
中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度。
6、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求:
(1)可伸縮性(適用于增長的大數(shù)據(jù)集)
(2)處理不同類型屬性的能力(支持多種類型屬性的數(shù)據(jù)集)
(3)發(fā)現(xiàn)任意形狀聚類的能力(除了球形聚類外,能劃分出任意形狀聚類)
(4)減小對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性
(5)處理噪聲數(shù)據(jù)的能力(對(duì)孤立點(diǎn)、缺失值、錯(cuò)誤數(shù)據(jù)等噪聲數(shù)據(jù)的抗干擾性)
(6)可解釋性和實(shí)用性(降維,可視化顯示)
7、通常聚類算法可以分為以下幾類:
(1)劃分聚類方法
選擇適當(dāng)?shù)某跏即睃c(diǎn)將數(shù)據(jù)樣本進(jìn)行初始聚類,之后通過迭代過程對(duì)聚類的結(jié)果進(jìn)行不斷
的調(diào)整,直到使評(píng)價(jià)性能的準(zhǔn)則函數(shù)的值達(dá)到最優(yōu)為止。
(2)層次聚類方法(3)基于密度的聚類方法(4)基于網(wǎng)格的聚類方法
第十章
1>遺傳算法(GeneticAlgorithms,GA)是一種有效的全局搜索方法,是一種基于達(dá)爾文自
然選擇和遺傳變異等生物進(jìn)化機(jī)制而發(fā)展起來的仿生算法.
2、例1利用遺傳算法求解區(qū)間[0,31]上的二次函數(shù)y=x2的最大值.
解(1)設(shè)定種群規(guī)模,編碼染色體,產(chǎn)生初始種群。
將種群規(guī)模設(shè)定為4;用5位二進(jìn)制數(shù)編碼染色體;取下列個(gè)體組成初始種群S1:
sl=13(01101),s2=24(11000)
s3=8(01000),s4=19(10011)
(2)定義適應(yīng)度函數(shù),取適應(yīng)度函數(shù):f(x)=x2
f(si)=f(13)=132=169f(s2)=f(24)=242=576
f(s3)=f(8)=82=64f(s4)=f(19)=192=361
由此可求得
P(sl)=P(13)=0。14P(s2)=P(24)=0。49
P(s3)=P(8)=0。06P(s4)=P(19)=0。31
(3)計(jì)算各代種群中的各個(gè)體的適應(yīng)度,并對(duì)其染色體進(jìn)行遺傳操作,直到適應(yīng)度最高的
個(gè)體(即31(11111))出現(xiàn)為止。
填空題20分,簡答題25分,計(jì)算題2個(gè)(25分),綜合題30分
1、數(shù)據(jù)倉庫的組成?P2
數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布
系統(tǒng)
2、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求有哪幾個(gè)方面?P131
可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對(duì)先驗(yàn)知識(shí)和用戶自
定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性
3、數(shù)據(jù)倉庫在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7
(1)數(shù)據(jù)倉庫面對(duì)的是大量數(shù)據(jù)的存儲(chǔ)與管理(2)并行處理(3)針對(duì)決策支持查詢的優(yōu)化
(4)支持多維分析的查詢模式
4、常見的聚類算法可以分為幾類?P132
基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基
于模型的聚類算法等。
5、一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12
數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、0LAP服務(wù)器、前端工具與應(yīng)用
6、數(shù)據(jù)倉庫常見的存儲(chǔ)優(yōu)化方法?P71
表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。
7、數(shù)據(jù)倉庫發(fā)展演變的5個(gè)階段?P20
以報(bào)表為主以分析為主以預(yù)測(cè)模型為主以運(yùn)行向?qū)橹饕詫?shí)時(shí)數(shù)據(jù)倉庫自動(dòng)決策應(yīng)用
為主
8、ID3算法主要存在的缺點(diǎn)?P116
(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn)。
信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會(huì)提供太多有
價(jià)值的信息.
(2)ID3算法只能對(duì)描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。
9、簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30
ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加教
對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求:詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時(shí)的、質(zhì)量可控制的
10、簡述分類器設(shè)計(jì)階段包含的3個(gè)過程。
劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測(cè)試
11、什么是數(shù)據(jù)清洗?P33
數(shù)據(jù)清洗是一種使用模式識(shí)別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級(jí)原
始數(shù)據(jù)
12、支持度和置信度的計(jì)算公式及數(shù)據(jù)計(jì)算(P90)
找出所有的規(guī)則X0Y,使支持度和置信度分別大于門限支持度:事務(wù)中X和Y同時(shí)發(fā)生
的比例,P(XflY)置信度:項(xiàng)集X發(fā)生時(shí),Y同時(shí)發(fā)生的條件概率P(Y|X)
Example:
c(Xt{Milk,Diaper}=>Beer(0.4,0.67)
13、利用信息包圖洲徽鬻矗概念模型需要確定的三方面內(nèi)容。P57
確定指標(biāo),確定維度,確定類別
14、K一近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128
輸入:幅集工…未知類標(biāo)號(hào)的數(shù)據(jù)樣本X國,"?。?。
輸出:未知類標(biāo)號(hào)的數(shù)據(jù)樣本x的類標(biāo)號(hào)…
(1)對(duì)于未知類標(biāo)號(hào)的軟據(jù)樣本X,按照下式計(jì)算它與訓(xùn)練集X…中每一個(gè)數(shù)
據(jù)樣本的歐氏距露。
如向)=工和-xj,i=l,2,…,totals
(2)將第(1)步中的所有歐氏距靄按照由小到大的順序進(jìn)行防,并且取前k
個(gè)距露從而找出x在Xi中的k個(gè)近鄰,假?zèng)]p“p」,p,分別是k個(gè)近
鄰中屬于類別c“c「,c.的樣本數(shù)量…
(3)如果A=maxR,i=l,2,…加則x的類標(biāo)號(hào)為c“即xWc,?,
15、什么是技術(shù)元數(shù)套,主要包含的內(nèi)容?P29
技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),應(yīng)用于開發(fā)、管理和維護(hù)DW,包含:
DW結(jié)構(gòu)的描述,如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,數(shù)據(jù)集市的位
置和內(nèi)容等
業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式
匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù)定義的查詢和
報(bào)告.
由操作型業(yè)務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)
據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取控制)
16、業(yè)務(wù)元數(shù)據(jù)主要包含的內(nèi)容?P29
業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系統(tǒng)之間的語義
層主要包括:
雇用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名
訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源
提供的分析方法及公式和報(bào)表的信息.
17、K—means算法的基本操作步驟(包括算法的輸入和輸出)。P138
輸入:數(shù)據(jù)集X={x.|n=l,2,…,total},其中的數(shù)據(jù)樣本只包含描述屬性,不
包含類別屬性;聚類個(gè)數(shù)k.。
輸出:使誤差平方和準(zhǔn)則最小的k個(gè)聚類.。
(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的初始代表點(diǎn),每一個(gè)代表
點(diǎn)表示一個(gè)類別.”
(2)對(duì)于X中的任一數(shù)據(jù)樣本x.(iWmWtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的
距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中.,
(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚美,計(jì)算其中所有數(shù)據(jù)樣本的均值,
并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn)."
(4)對(duì)于X中的任一數(shù)據(jù)樣本x.(iWmWtotal),計(jì)算它與k個(gè)均值代表點(diǎn)的
距離,并且將它劃分到距離最近的均值代表點(diǎn)所表示的類別中.。
(5)重復(fù)步驟(3)和(4),直到各個(gè)聚類不再發(fā)生變化為止,即誤差平方和準(zhǔn)
則函數(shù)的值達(dá)到最優(yōu).。
18、數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36
SQL命令(如Insert或Update)
由DW供應(yīng)商或第三方提供專門的加載工具
由DW管理員編寫自定義程序
19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度P37
維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時(shí)間維或產(chǎn)品維
維類別:也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)類別屬性(如時(shí)間維
包括年、季度、月等)
維屬性:是維的一個(gè)取值,是數(shù)據(jù)線在某維中位置的描述。
粒度:DW中數(shù)據(jù)綜合程度高低的一個(gè)衡量。粒度低,細(xì)節(jié)程度高,回答查詢的種類多
20、Apriori算法的基本操作步驟P93
Apriori使用一種稱作逐層搜索的迭代方法,K項(xiàng)集用于探索K+1項(xiàng)集。
該方法是基于候選的策略,降低候選數(shù)
Apriori剪枝原則:若任何項(xiàng)集是非頻繁的,則其超集必然是非頻繁的(不用產(chǎn)生和
測(cè)試超集)
該原則基于以下支持度的特性:
vx,y:(xcr)=>s(x)>s(y)
項(xiàng)集的支持度不會(huì)超過其子集
支持度的反單調(diào)特性(anti—monotone):如果一個(gè)集合不能通過測(cè)試,則它
的所有超集也都不能通過相同的測(cè)試.
令k=l
產(chǎn)生長度為1的頻繁項(xiàng)集
循環(huán),直到無新的頻繁項(xiàng)集產(chǎn)生
從長度為k的頻繁項(xiàng)集產(chǎn)生長度為k+1的候選頻繁項(xiàng)集
連接步:項(xiàng)集的各項(xiàng)排序,前k—1個(gè)項(xiàng)相同
若候選頻繁子集包含長度為k的非頻繁子集,則剪枝
剪枝步:利用支持度屬性原則
掃描數(shù)據(jù)庫,計(jì)算每個(gè)候選頻繁集的支持度
刪除非頻繁項(xiàng),保留頻繁項(xiàng)
明考斯基距離:
那得號(hào)你規(guī)定的權(quán)是多少啊,(xl,….,xn)和(yl,….,yn)間權(quán)p的minkowski
距離就是[Ixl—yl|-p+o.o+|xn-ynI"p]'{1/p}意義么,得看你的空間是什么.一般這
個(gè)迤數(shù)是用在函數(shù)空間上的,比如L~p([0,1]),它與向量(這時(shí)是[0,1]區(qū)間上的1/p函
數(shù))的模長是相容的。
笫1個(gè)樣品與第,仝樣品間的明考夫斯基距離定義為.
%卜)=畝%-%「
這里g為某一自然數(shù),這是一個(gè)最常用最直觀的更離。.
當(dāng)g=l時(shí),4(1)=£除-5|,稱為絕時(shí)距離…
JU1
當(dāng)g=2時(shí),4式2)=恪”,稱為歐氏距離…
當(dāng)。=oo時(shí),%(oo)=蹈稱為切比雪夫電離;*
當(dāng)各變量的單位不同或里里像相同但各變量的測(cè)量值相差很大時(shí),不應(yīng)直接
采用明考夫斯基距國,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的
數(shù)據(jù)計(jì)算距言.最常用的標(biāo)準(zhǔn)化處理是,令-
¥=^^J=L2,,%/=1,2.…,p?
其中弓=金》為第J個(gè)變量的樣本均值.S尸生X(%_方為第/:t變量的
樣本方差。一
聯(lián)機(jī)事務(wù)處理OLTP(on-linetransactionprocessing)
傳統(tǒng)的關(guān)系DBMS的主要任務(wù)
他們涵蓋了一個(gè)組織的大部分日常操作:購買、庫存、制造、銀行、工資、注
冊(cè)、記賬等.
聯(lián)機(jī)分析處理OLAP(on-lineanalyticalprocessing)
數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)
數(shù)據(jù)分析和決策
OLTP和OLAP的區(qū)別
用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場(chǎng)
數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù).
數(shù)據(jù)庫設(shè)計(jì);OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì),
而OLAP系統(tǒng)通常采用星形和雪花模型
視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)
主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù)。
訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分
是只讀操作,盡管許多可能是復(fù)雜的查詢
數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型.這種模型將數(shù)據(jù)看作數(shù)據(jù)立方體形
式.數(shù)據(jù)立方體允許從多維對(duì)數(shù)據(jù)建模和觀察.它由維和事實(shí)定義.
3最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維模型,這種模型可以以星形模式、雪花型
模式或事實(shí)星座模式形式存在?
建立數(shù)據(jù)倉庫模型:維與度量
星型模型:最常見的模型范例是星形模式,其中數(shù)據(jù)倉庫包括(D一個(gè)大的
包含大批數(shù)據(jù)并且不含冗余的中心表(事實(shí)表);(2)一組小的附屬表(維表),
每維一個(gè).中間是事實(shí)表,連接一組維表
雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,而數(shù)據(jù)進(jìn)
一步分解到附加的維表中,它的圖形類似于雪花的形狀
事實(shí)星座表:多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式及,因此稱為
星系模式或事實(shí)星座
數(shù)據(jù)立方體度量是一個(gè)數(shù)值函數(shù),可以對(duì)數(shù)據(jù)立方體空間的每一個(gè)點(diǎn)求值.通
過對(duì)給定點(diǎn)的各維值對(duì)聚集數(shù)據(jù),計(jì)算該點(diǎn)的度量值.
度量可以根據(jù)所用的聚集函數(shù)類型可以分成三類(即分布的、代數(shù)的和整體的).
概念分層定義一個(gè)映射序列,將低層概念映射到更一般的較高層概念。
多維數(shù)據(jù)模型中的OLAP操作
(1)上卷:上卷操作通過沿一個(gè)維的概念分層向上攀升或者通過維規(guī)約,對(duì)數(shù)據(jù)
立方體進(jìn)行聚集;
(2)下鉆:下鉆是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù).下鉆可
以通過沿維的概念分層向下或引入附加的維來實(shí)現(xiàn):
(3)切片和切塊;切片操作對(duì)給定立方體的一個(gè)維進(jìn)行選擇,導(dǎo)致一個(gè)子立方體.
切塊操作通過對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,定義子立方體;
(4)轉(zhuǎn)軸(旋轉(zhuǎn)):轉(zhuǎn)軸是一種可視化操作,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的普
代表示;
(5)其他OLAP操作:鉆過執(zhí)行涉及多個(gè)事實(shí)表的查詢;鉆透操作使用關(guān)系SQL
機(jī)制,鉆透數(shù)據(jù)立方體的底層,到后段關(guān)系表。
三層數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)
(1)底層是倉庫數(shù)據(jù)服務(wù)器,它幾乎總是關(guān)系數(shù)據(jù)庫系統(tǒng).
(2)中間層是OLAP服務(wù)器,其典型的實(shí)現(xiàn)或者是(i)關(guān)系OLAP(ROLAP)模
型,即擴(kuò)充的關(guān)系DBMS,它將對(duì)多維數(shù)據(jù)的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;或
者是(ii)多維OLAP(MOLAP膜型即專門的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)
和操作.
(3)頂層是前段客戶層,它包括查詢和報(bào)表工具、分析工具和/或數(shù)據(jù)挖掘工具(例
如趨勢(shì)分析、預(yù)測(cè)等).
從結(jié)構(gòu)的角度看,有三種數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫.
數(shù)據(jù)集市(DataMart),數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的
用戶群是有用的.其范圍限于選定的主題.
根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類.
數(shù)據(jù)倉庫后端工具和實(shí)用程序包含以下功能:數(shù)據(jù)提?。粩?shù)據(jù)清理;數(shù)據(jù)變換;
裝入;刷新.
數(shù)據(jù)立方體的物化有三種選擇:(1)不物化:(2)完全物化:(3)部分物化.
有三種數(shù)據(jù)倉庫應(yīng)用:信息處理、分析處理和數(shù)據(jù)挖掘.
4
分類和預(yù)測(cè)
找出描述并區(qū)分?jǐn)?shù)據(jù)類和概念的模型(或函數(shù))以便能夠使用模型預(yù)測(cè)類標(biāo)記
未知的對(duì)象類.
例如:依據(jù)氣候劃分國家類型或者依據(jù)每里的耗油量劃分汽車類型.
表示形式:判定樹,分類規(guī)則,神經(jīng)網(wǎng)絡(luò).
預(yù)測(cè):預(yù)測(cè)某些未知的或空缺的數(shù)據(jù)值.
聚類分析
類標(biāo)記未知:把數(shù)據(jù)聚類或分組成新的類,例如:把房子聚類來找出房子的分
布模式.
聚類依據(jù)以下原則:最大化類內(nèi)的相似性和最小化類間的相似性.
FP-樹結(jié)構(gòu)的優(yōu)點(diǎn)
完整性:不會(huì)破壞任何交易的長模式為頻繁模式挖掘保存了完整的信息
簡潔性減少了不相關(guān)的信息一非頻繁項(xiàng)集被刪掉
頻繁項(xiàng)集技支持度遞減順序排列:越是頻繁的項(xiàng)集越有可能被共享
不會(huì)比原數(shù)據(jù)庫大(如果不算節(jié)點(diǎn)鏈和計(jì)數(shù))
基本思想(分治策略):
使用FP-樹循環(huán)的產(chǎn)生頻繁模式路徑
方法對(duì)于每一個(gè)項(xiàng).先構(gòu)造它的條件模式基.然后構(gòu)造它的條件FP-樹
在每一個(gè)新創(chuàng)建的條件FP-樹上重復(fù)此過程
直到結(jié)果FP樹為空、或它只包含一條路徑(單路徑將產(chǎn)生所有的它的子路徑的
結(jié)合.每一條子路徑都是一個(gè)頻繁模式)
挖掘FP-樹的主要步驟
1)為FP-箱中的每一個(gè)節(jié)點(diǎn)構(gòu)造條件模式基
2)為每一個(gè)條件模式基條件FP-樹
3)循環(huán)的挖掘條件FP-樹,生成至今為止獲得的頻繁模式
如果條件FP-樹只包含單條路徑,簡單的列舉所有的模式
一、名詞解釋
1.數(shù)據(jù)倉庫:是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可
更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,為企業(yè)決策支
持系統(tǒng)提供所需的集成信息.
2.孤立點(diǎn):指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)
據(jù).
3.OLAP:OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)
據(jù)分析處理,是共享多維信息的快速分析,是被專門設(shè)計(jì)用于支持復(fù)雜的
分析操作,側(cè)重對(duì)分析人員和高層管理人員的決策支持.
4.粒度,指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別.粒度影
響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答查詢問
題的細(xì)節(jié)程度。
5.數(shù)據(jù)規(guī)范化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個(gè)特定的
區(qū)域(如0—1)以提高數(shù)據(jù)挖掘效率的方法.規(guī)范化的常用方法有:量
大一最小規(guī)范化、零一均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化.
6.關(guān)聯(lián)知識(shí):是反映一個(gè)事件和其他事件之間依賴或相互關(guān)聯(lián)的知識(shí).如果
兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬
性值進(jìn)行預(yù)測(cè).
7.數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提
取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過
程.
8.OLTPsOLTP為聯(lián)機(jī)事務(wù)處理的縮寫,OLAP是聯(lián)機(jī)分析處理的縮寫.
前者是以數(shù)據(jù)庫為基礎(chǔ)的,面對(duì)的是操作人員和低層管理人員,對(duì)基本數(shù)
據(jù)進(jìn)行查詢和增、刪、改等處理.
9.ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲(chǔ)方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映
像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個(gè)事實(shí)表和多個(gè)維度
表構(gòu)成.
10.MOLAP,是基于類似于“超立方”塊的OLAP存儲(chǔ)結(jié)構(gòu),由許多經(jīng)壓縮
的、類似于多維數(shù)組的對(duì)象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu),通
過直接偏移計(jì)算進(jìn)行存取。
11.數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并
且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果.
12.廣義知識(shí):通過對(duì)大量數(shù)據(jù)的歸納、概括和抽象,提燎出帶有普遍性的、
概括性的描述統(tǒng)計(jì)的知識(shí).
13.預(yù)潴型知識(shí):是根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來
的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí).
14.偏差型知識(shí):是對(duì)差異和極端特例的描述,用于揭示事物偏離常規(guī)的異常
現(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等.
15.遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個(gè)初始可行解群體,然后
對(duì)這個(gè)群體通過模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一
代群體,并最終達(dá)到全局最優(yōu).
16.聚類:是將物理或抽象對(duì)象的集合分組成為多個(gè)類或候(cluster)的過程,
使得在同一個(gè)靛中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)患差別
較大.
17.決策樹:是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu).它
是分類規(guī)則挖掘的典型方法,可用于對(duì)新樣本進(jìn)行分類.
18.相異度矩陣:是聚類分析中用于表示各對(duì)較之間相異度的一種短陣,n個(gè)
對(duì)象的相異度矩陣是一個(gè)nn維的單模矩陣,其對(duì)角線元素均為0,對(duì)角
線兩側(cè)元素的值相同。
19.頻繁項(xiàng)集:指滿足最小支持度的項(xiàng)集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一.
20.支持度:規(guī)則、-B的支持度指的是所有事件中A與B同地發(fā)生的的概率,
即P(AUB),是AB同時(shí)發(fā)生的次數(shù)與事件總次數(shù)之比.支持度是對(duì)關(guān)聯(lián)
規(guī)則重要性的衡量.
21.可信度:規(guī)則A-B的可信度指的是包含A項(xiàng)集的同時(shí)也包含B項(xiàng)集的條
件概率P(B|A),是AB同時(shí)發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比.可信度
是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量.
22.關(guān)聯(lián)規(guī)則r同時(shí)滿足最小支持度闕值和最小可信度假值的規(guī)則稱之為關(guān)聯(lián)
規(guī)則.
二、綜合題
1.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?
從大直的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含
在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程稱為
數(shù)據(jù)挖掘.相關(guān)的名稱有知派發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等.
數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與測(cè)、聚類分析、
趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。
2.何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不
可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,為企業(yè)決策支
持系統(tǒng)提供所希的集成信息.
建立數(shù)據(jù)倉庫的目的有3個(gè):
一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳
統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度.
二是解決決策分析對(duì)數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正
確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的.
三是解決決策分析對(duì)數(shù)據(jù)的特殊操作要求.決策分析是面向?qū)I(yè)用戶
而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對(duì)分析結(jié)果還要以商業(yè)智能
的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的.
3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別.
操作型數(shù)據(jù)分析型數(shù)據(jù)
固前的、細(xì)節(jié)的
歷史的、綜合的
面向應(yīng)用、事務(wù)驅(qū)動(dòng)面向分析、分析驅(qū)動(dòng)
頻繁增、刪、改幾乎不更新,定期追加
操作需求事先知道分析需求事先不知道
區(qū)命周期符合
SDLC完全不同的生命周期
,性能要求高
對(duì)性能要求寬松
卜次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大
支持日常事務(wù)操作支持管理決策需求
4.何謂OLTP和OLAP?它們的主要異同有哪些?
OLTP即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層
管理人員、對(duì)基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理.OLAP
即聯(lián)機(jī)分析處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、
面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。
OLTP和OLAP的主要區(qū)別如下表:
OLTPOLAP
數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫哪雎庫數(shù)據(jù)
細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)
當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)
經(jīng)常更新不更新,但周期性刷新
一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大
對(duì)響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理
用戶數(shù)量大用戶數(shù)據(jù)相對(duì)較少
面向操作人員,支持日常操作面向決策人員,支持管理需要
面向應(yīng)用,事務(wù)驅(qū)動(dòng)面向分析,分析驅(qū)動(dòng)
5.何謂粒度?它對(duì)數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?
粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒
度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答查
詢問題的細(xì)節(jié)程度.按粒度組織數(shù)據(jù)的方式主要有:
①簡單堆積結(jié)構(gòu)
②輪轉(zhuǎn)綜合結(jié)構(gòu)
③筒單直接結(jié)構(gòu)
④連續(xù)結(jié)構(gòu)
6.簡述數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容.
概念模型設(shè)計(jì)是在較高的抽藪層次上的設(shè)計(jì),其主要內(nèi)容包括:界定
系統(tǒng)邊界和確定主要的主題域.
邏輯模型設(shè)計(jì)的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確
定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng).
物理數(shù)據(jù)模型設(shè)計(jì)的主要內(nèi)容包括:確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存
放位置、確定存儲(chǔ)分配以及確定索引策略等.在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)主要
考慮的因素有:I/O存取時(shí)間、空間利用率和維護(hù)代價(jià)等.
提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、
引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等.
7.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?
原始業(yè)務(wù)數(shù)據(jù)來自多個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是
不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫中,
也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖
掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理.
為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù),減少算法
的計(jì)算量,提高挖掘效率和準(zhǔn)確程度.
8.筒述數(shù)據(jù)預(yù)處理方法和內(nèi)容。
①數(shù)據(jù)清洗:包括填充空缺值,識(shí)別孤立點(diǎn),去掉噪聲和無關(guān)數(shù)據(jù).
②數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)
中.需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等.
③數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式.包括對(duì)數(shù)據(jù)的匯
總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。
④數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,
并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果.
9.簡述數(shù)據(jù)清理的基本內(nèi)容.
①盡可能賦予屬性名和屬性值明確的含義;
②統(tǒng)一多數(shù)據(jù)源的屬性值編碼;
③去除無用的惟一屬性或鍵值(如自動(dòng)增長的id):
④去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,
但在某些時(shí)候它們可能又是同時(shí)需要的)
⑤去除可忽略字段(大部分為空值的屬性一般是沒有什么價(jià)值的,如果不
去除可能造成錯(cuò)誤的數(shù)據(jù)挖掘結(jié)果)
?合理選擇關(guān)聯(lián)字段(對(duì)于多個(gè)關(guān)聯(lián)性較強(qiáng)的屬性,重復(fù)無益,只需選擇
其中的部分用于數(shù)據(jù)挖掘即可,如價(jià)格、數(shù)據(jù)、金額)
⑦去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù).
10.陸述處理空缺值的方法.
①忽略該記錄:
②去掉屬性;
⑧手工填寫空缺值;
④使用默認(rèn)值:
⑤使用屬性平均值;
⑥使用同類樣本平均值;
⑦預(yù)測(cè)量可能的值.
II.常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有隰些?
分箱的方法主要有:
①統(tǒng)一權(quán)重法(又稱等深分箱法)
②統(tǒng)一區(qū)間法(又稱等寬分箱法)
⑧最小篇法
④自定義區(qū)間法
數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法.
12.何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有嵋些?寫出對(duì)應(yīng)的變換公式.
將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個(gè)特定的區(qū)域(如0.0?
1.0),稱為規(guī)范化.規(guī)瓶化的常用方法有:
(1)最大一最小規(guī)范化,max-min.
x--................—(^-
(2)零一均值規(guī)范化3
x=
(3)小數(shù)定標(biāo)規(guī)范化;x=xo/10,
13.數(shù)據(jù)歸約的方法有哪些?為什么要進(jìn)行雉歸的?
①數(shù)據(jù)立方體聚集
②維歸約
③數(shù)據(jù)壓縮
④數(shù)值壓縮
⑤離散化和概念分層
維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)
據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率.
14.何謂聚類?它與分類有什么異同?
聚類是將物理或抽盆對(duì)能的集合分組成為多個(gè)類或候(cluster)的過
程,使得在同一個(gè)展中的對(duì)象之間具有較高的相似度,而不同麟中的對(duì)象
差別較大.
聚類與分類不同,聚類要?jiǎng)澐值念愂俏粗?,分類則可按已知規(guī)則進(jìn)
行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)
例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí).
15.舉例說明聚類分析的典型應(yīng)用.
①商業(yè):幫助市場(chǎng)分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不
同的購買模式描述不同客戶群的特征。
②生物學(xué):推導(dǎo)植物或動(dòng)物的分類,對(duì)基于進(jìn)行分類,獲得對(duì)種群中固有
結(jié)構(gòu)的認(rèn)識(shí)。
③WE5文檔分類
④其他:如地球觀測(cè)數(shù)據(jù)庫中相似地區(qū)的確定;各類保險(xiǎn)投保人的分組I
一個(gè)城市中不同類型、價(jià)值、地理位置房子的分組等.
⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進(jìn)行聚類,然后再
進(jìn)行分類等其他的數(shù)據(jù)挖掘.聚類分析是一種數(shù)據(jù)簡化技術(shù),它把基于
相似數(shù)據(jù)特征的變量或個(gè)案組合在一起.
16.聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點(diǎn)?
常見數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、
序數(shù)型以及混合類型等.相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度
的矩陣,為一個(gè)nn維的單模矩陣。其特點(diǎn)是d(ij)=d(j,i),d(i,i)=O,d(j1)=O.
如下所示:
0
(K2,1)0
d(3,1)d(3,2)0
????
????
????
d(nj)d(n,2)…...0
17.分類知識(shí)的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個(gè)步驟?
分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、
粗糙集法和遺傳算法.分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,
根據(jù)屬性特征,為每一種類別找到一個(gè)合理的描述或模型,即分類規(guī)則;
然后根據(jù)規(guī)則對(duì)新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年五年級(jí)班級(jí)管理工作總結(jié)(3篇)
- 2025年代理權(quán)轉(zhuǎn)讓協(xié)議范文(2篇)
- 2025年五年級(jí)下學(xué)期語文教師工作總結(jié)模版(三篇)
- 2025年鄉(xiāng)村中學(xué)教師七年級(jí)語文教學(xué)工作總結(jié)(3篇)
- 2025年個(gè)人擔(dān)保貸款合同參考樣本(2篇)
- 互聯(lián)網(wǎng)企業(yè)調(diào)研居間合同
- 教育實(shí)驗(yàn)室裝修項(xiàng)目協(xié)議
- 疫情封閉小區(qū)大門施工方案
- 健身房裝修合同范本版
- 咖啡館裝飾設(shè)計(jì)合同
- 《數(shù)學(xué)課程標(biāo)準(zhǔn)》義務(wù)教育2022年修訂版(原版)
- 各種標(biāo)本采集的技術(shù)-痰標(biāo)本的采集(護(hù)理技術(shù))
- 實(shí)驗(yàn)室的設(shè)計(jì)規(guī)劃
- 注冊(cè)安全工程師《安全生產(chǎn)管理知識(shí)》科目知識(shí)要點(diǎn)
- 《新時(shí)代公民道德建設(shè)實(shí)施綱要》、《新時(shí)代愛國主義教育實(shí)施綱要》知識(shí)競賽試題庫55題(含答案)
- 2024-2030年中國假睫毛行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 2019-2020學(xué)年七年級(jí)(上)期末數(shù)學(xué)試卷2附解析
- 電話接聽技巧與服務(wù)質(zhì)量提升方案三篇
- 德國職業(yè)學(xué)校教育質(zhì)量保障體系研究
- 2023-2024學(xué)年北師大版數(shù)學(xué)八年級(jí)上冊(cè) 期末測(cè)試卷
評(píng)論
0/150
提交評(píng)論