版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
精選優(yōu)質文檔-----傾情為你奉上精選優(yōu)質文檔-----傾情為你奉上專心---專注---專業(yè)專心---專注---專業(yè)精選優(yōu)質文檔-----傾情為你奉上專心---專注---專業(yè)第一章1、數據倉庫就是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數據集合。2、元數據是描述數據倉庫內數據的結構和建立方法的數據,它為訪問數據倉庫提供了一個信息目錄,根據數據用途的不同可將數據倉庫的元數據分為技術元數據和業(yè)務元數據兩類。3、數據處理通常分成兩大類:聯機事務處理和聯機分析處理。4、多維分析是指以“維”形式組織起來的數據(多維數據集)采取切片、切塊、鉆取和旋轉等各種分析動作,以求剖析數據,使擁護能從不同角度、不同側面觀察數據倉庫中的數據,從而深入理解多維數據集中的信息。5、ROLAP是基于關系數據庫的OLAP實現,而MOLAP是基于多維數據結構組織的OLAP實現。6、數據倉庫按照其開發(fā)過程,其關鍵環(huán)節(jié)包括數據抽取、數據存儲于管理和數據表現等。7、數據倉庫系統(tǒng)的體系結構根據應用需求的不同,可以分為以下4種類型:兩層架構、獨立型數據集合、以來型數據結合和操作型數據存儲和邏輯型數據集中和實時數據倉庫。8、操作型數據存儲實際上是一個集成的、面向主題的、可更新的、當前值的(但是可“揮發(fā)”的)、企業(yè)級的、詳細的數據庫,也叫運營數據存儲。9、“實時數據倉庫”以為著源數據系統(tǒng)、決策支持服務和倉庫倉庫之間以一個接近實時的速度交換數據和業(yè)務規(guī)則。10、從應用的角度看,數據倉庫的發(fā)展演變可以歸納為5個階段:以報表為主、以分析為主、以預測模型為主、以運營導向為主和以實時數據倉庫和自動決策為主。第二章1、調和數據是存儲在企業(yè)級數據倉庫和操作型數據存儲中的數據。2、抽取、轉換、加載過程的目的是為決策支持應用提供一個單一的、權威數據源。因此,我們要求ETL過程產生的數據(即調和數據層)是詳細的、歷史的、規(guī)范的、可理解的、即時的和質量可控制的。3、數據抽取的兩個常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數據倉庫,增量抽取用于進行數據倉庫的維護。4、粒度是對數據倉庫中數據的綜合程度高低的一個衡量。粒度越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因為星型模式中數據的組織已經經過預處理,主要數據都在龐大的事實表中。6、維度表一般又主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:一種是采用自然鍵,另一種是采用代理鍵。7、雪花型模式是對星型模式維表的進一步層次化和規(guī)范化來消除冗余的數據。8、數據倉庫中存在不同綜合級別的數據。一般把數據分成4個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級和高度綜合級。第三章1、SQLServerSSAS提供了所有業(yè)務數據的同意整合試圖,可以作為傳統(tǒng)報表、在線分析處理、關鍵性能指示器記分卡和數據挖掘的基礎。2、數據倉庫的概念模型通常采用信息包圖法來進行設計,要求將其5個組成部分(包括名稱、維度、類別、層次和度量)全面地描述出來。3、數據倉庫的邏輯模型通常采用星型圖法來進行設計,要求將星型的各類邏輯實體完整地描述出來。4、按照事實表中度量的可加性情況,可以把事實表對應的事實分為4種類型:事務事實、快照事實、線性項目事實和事件事實。5、確定了數據倉庫的粒度模型以后,為提高數據倉庫的使用性能,還需要根據擁護需求設計聚合模型。6、在項目實施時,根據事實表的特點和擁護的查詢需求,可以選用時間、業(yè)務類型、區(qū)域和下屬組織等多種數據分割類型。7、當維表中的主鍵在事實表中沒有與外鍵關聯時,這樣的維稱為退化維。它于事實表并無關系,但有時在查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。8、維度可以根據其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。9、數據倉庫的數據量通常較大,且數據一般很少更新,可以通過設計和優(yōu)化索引結構來提高數據存取性能。10、數據倉庫數據庫常見的存儲優(yōu)化方法包括表的歸并與簇文件、反向規(guī)范化引入冗余、表的物理分割(分區(qū))。第四章1、關聯規(guī)則的經典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},則連接產生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再經過修剪,C3={{a,b,c},{a,b,d}}3、設定supmin=50%,交易集如則L1={A},{B},{C}L2={A,C}T1ABCT2ACT3ADT4BEF第五章1、分類的過程包括獲取數據、預處理、分類器設計和分類決策。2、分類器設計階段包含三個過程:劃分數據集、分類器構造和分類器測試。3、分類問題中常用的評價準則有精確度、查全率和查準率和集合均值。4、支持向量機中常用的核函數有多項式核函數、徑向基核函數和S型核函數。第六章1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計算方法。2、連續(xù)型屬性的數據樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、劃分聚類方法對數據集進行聚類時包含三個要點:選種某種距離作為數據樣本減的相似性度量、選擇評價聚類性能的準則函數和選擇某個初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數取得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。填空題20分,簡答題25分,計算題2個(25分),綜合題30分1、數據倉庫的組成?P2 數據倉庫數據庫,數據抽取工具,元數據,訪問工具,數據集市,數據倉庫管理,信息發(fā)布系統(tǒng)2、數據挖掘技術對聚類分析的要求有哪幾個方面?P131 可伸縮性;處理不同類型屬性的能力;發(fā)現任意形狀聚類的能力;減小對先驗知識和用戶自定義參數的依賴性;處理噪聲數據的能力;可解釋性和實用性3、數據倉庫在存儲和管理方面的特點與關鍵技術?P7
數據倉庫面對的是大量數據的存儲與管理 并行處理 針對決策支持查詢的優(yōu)化 支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P132
基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網格的聚類算法,基于模型的聚類算法等。5、一個典型的數據倉庫系統(tǒng)的組成?P12 數據源、數據存儲與管理、OLAP服務器、前端工具與應用數據倉庫常見的存儲優(yōu)化方法?P71
表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。數據倉庫發(fā)展演變的5個階段?P20
以報表為主
以分析為主
以預測模型為主
以運行向導為主以實時數據倉庫、自動決策應用為主ID3算法主要存在的缺點?P116
(1)ID3算法在選擇根結點和各內部結點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息。
(2)ID3算法只能對描述屬性為離散型屬性的數據集構造決策樹。簡述數據倉庫ETL軟件的主要功能和對產生數據的目標要求。P30
ETL軟件的主要功能:
數據的抽取,數據的轉換,數據的加載
對產生數據的目標要求:
詳細的、歷史的、規(guī)范化的、可理解的、即時的、質量可控制的簡述分類器設計階段包含的3個過程?!?/p>
劃分數據集,分類器構造,分類器測試什么是數據清洗?P33★
數據清洗是一種使用模式識別和其他技術,在將原始數據轉換和移到數據倉庫之前來升級原始數據質量的技術。支持度和置信度的計算公式及數據計算(P90)
找出所有的規(guī)則XàY,使支持度和置信度分別大于門限支持度:事務中X和Y同時發(fā)生的比例,P(X?Y)置信度:項集X發(fā)生時,Y同時發(fā)生的條件概率P(Y|X)
Example:
13、利用信息包圖設計數據倉庫概念模型需要確定的三方面內容。P57 確定指標,確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128
15、什么是技術元數據,主要包含的內容?P29
技術元數據是描述關于數據倉庫技術細節(jié)的數據,應用于開發(fā)、管理和維護DW,包含:DW結構的描述,如DW的模式、視圖、維、層次結構和導出數據的定義,數據集市的位置和內容等業(yè)務系統(tǒng)、DW和數據集市的體系結構和模式匯總算法。包括度量和維定義算法,數據粒度、主題領域、聚合、匯總和預定義的查詢和報告。由操作型業(yè)務環(huán)境到數據倉庫業(yè)務環(huán)境的映射。包括源數據和他們的內容、數據分割、數據提取、清洗、轉換規(guī)則和數據刷新規(guī)則及安全(用戶授權和存取控制)16、業(yè)務元數據主要包含的內容?P29 業(yè)務元數據:從業(yè)務角度描述了DW中的數據,提供了介于使用者和實際系統(tǒng)之間的語義層,主要包括:使用者的業(yè)務屬于所表達的數據模型、對象名和屬性名訪問數據的原則和數據的來源系統(tǒng)提供的分析方法及公式和報表的信息。17、K-means算法的基本操作步驟(包括算法的輸入和輸出)。P138★ 18、數據從集結區(qū)加載到數據倉庫中的主要方法?P36SQL命令(如Insert或Update)由DW供應商或第三方提供專門的加載工具由DW管理員編寫自定義程序19、多維數據模型中的基本概念:維,維類別,維屬性,粒度P37 維:人們觀察數據的特定角度,是考慮問題的一類屬性,如時間維或產品維維類別:也稱維分層。即同一維度還可以存在細節(jié)程度不同的各個類別屬性(如時間維包括年、季度、月等)維屬性:是維的一個取值,是數據線在某維中位置的描述。粒度:DW中數據綜合程度高低的一個衡量。粒度低,細節(jié)程度高,回答查詢的種類多??20、Apriori算法的基本操作步驟P93★Apriori使用一種稱作逐層搜索的迭代方法,K項集用于探索K+1項集。該方法是基于候選的策略,降低候選數Apriori剪枝原則:若任何項集是非頻繁的,則其超集必然是非頻繁的(不用產生和測試超集)該原則基于以下支持度的特性:項集的支持度不會超過其子集支持度的反單調特性(anti-monotone):如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。令k=1產生長度為1的頻繁項集循環(huán),直到無新的頻繁項集產生從長度為k的頻繁項集產生長度為k+1的候選頻繁項集連接步:項集的各項排序,前k-1個項相同若候選頻繁子集包含長度為k的非頻繁子集,則剪枝剪枝步:利用支持度屬性原則掃描數據庫,計算每個候選頻繁集的支持度刪除非頻繁項,保留頻繁項什么是數據倉庫?數據倉庫是一個面向主體的、集成的、時變的、非易失的數據集合,支持管理過程的決策過程數據倉庫排除與對于決策無用的數據,提供特定主題的簡明視圖。通過集成多個異種數據源而構成數據倉庫總是物理地分離存放數據,這些數據源于操作環(huán)境下的應用數據操作性的數據更新不會發(fā)生在數據倉庫的環(huán)境下.2聯機事務處理OLTP(on-linetransactionprocessing)傳統(tǒng)的關系DBMS的主要任務他們涵蓋了一個組織的大部分日常操作:購買、庫存、制造、銀行、工資、注冊、記賬等。聯機分析處理OLAP(on-lineanalyticalprocessing)數據倉庫系統(tǒng)的主要任務數據分析和決策OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場數據內容:OLTP系統(tǒng)管理當前數據,而OLAP管理歷史的數據。數據庫設計:OLTP系統(tǒng)采用實體-聯系(ER)模型和面向應用的數據庫設計,而OLAP系統(tǒng)通常采用星形和雪花模型視圖:OLTP系統(tǒng)主要關注一個企業(yè)或部門內部的當前數據,而OLAP系統(tǒng)主要關注匯總的統(tǒng)一的數據。訪問模式:OLTP訪問主要有短的原子事務組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是復雜的查詢數據倉庫和OLAP工具基于多維數據模型。這種模型將數據看作數據立方體形式。數據立方體允許從多維對數據建模和觀察。它由維和事實定義。3最流行的數據倉庫數據模型是多維模型,這種模型可以以星形模式、雪花型模式或事實星座模式形式存在。建立數據倉庫模型:維與度量星型模型:最常見的模型范例是星形模式,其中數據倉庫包括(1)一個大的包含大批數據并且不含冗余的中心表(事實表);(2)一組小的附屬表(維表),每維一個。中間是事實表,連接一組維表雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,而數據進一步分解到附加的維表中,它的圖形類似于雪花的形狀事實星座表:多個事實表共享維表,這種模式可以看作星型模式及,因此稱為星系模式或事實星座數據立方體度量是一個數值函數,可以對數據立方體空間的每一個點求值。通過對給定點的各維-值對聚集數據,計算該點的度量值。度量可以根據所用的聚集函數類型可以分成三類(即分布的、代數的和整體的)。概念分層定義一個映射序列,將低層概念映射到更一般的較高層概念。多維數據模型中的OLAP操作上卷:上卷操作通過沿一個維的概念分層向上攀升或者通過維規(guī)約,對數據立方體進行聚集;下鉆:下鉆是上卷的逆操作,它由不太詳細的數據到更詳細的數據。下鉆可以通過沿維的概念分層向下或引入附加的維來實現;切片和切塊:切片操作對給定立方體的一個維進行選擇,導致一個子立方體。切塊操作通過對兩個或多個維執(zhí)行選擇,定義子立方體;轉軸(旋轉):轉軸是一種可視化操作,它轉動數據的視角,提供數據的替代表示;其他OLAP操作:鉆過執(zhí)行涉及多個事實表的查詢;鉆透操作使用關系SQL機制,鉆透數據立方體的底層,到后段關系表。三層數據倉庫的系統(tǒng)結構底層是倉庫數據服務器,它幾乎總是關系數據庫系統(tǒng)。中間層是OLAP服務器,其典型的實現或者是(i)關系OLAP(ROLAP)模型,即擴充的關系DBMS,它將對多維數據的操作映射為標準的關系操作;或者是(ii)多維OLAP(MOLAP)模型即專門的服務器,它直接實現多維數據和操作。頂層是前段客戶層,它包括查詢和報表工具、分析工具和/或數據挖掘工具(例如趨勢分析、預測等)。從結構的角度看,有三種數據倉庫模型:企業(yè)倉庫、數據集市和虛擬倉庫。數據集市(DataMart):數據集市包含企業(yè)范圍數據的一個子集,對于特定的用戶群是有用的。其范圍限于選定的主題。根據數據的來源不同,數據集市分為獨立的和依賴的兩類。數據倉庫后端工具和實用程序包含以下功能:數據提??;數據清理;數據變換;裝入;刷新。數據立方體的物化有三種選擇:(1)不物化;(2)完全物化;(3)部分物化。有三種數據倉庫應用:信息處理、分析處理和數據挖掘。4分類和預測找出描述并區(qū)分數據類和概念的模型(或函數)以便能夠使用模型預測類標記未知的對象類。例如:依據氣候劃分國家類型或者依據每里的耗油量劃分汽車類型。表示形式:判定樹,分類規(guī)則,神經網絡。預測:預測某些未知的或空缺的數據值。聚類分析類標記未知:把數據聚類或分組成新的類,例如:把房子聚類來找出房子的分布模式。聚類依據以下原則:最大化類內的相似性和最小化類間的相似性。FP-樹結構的優(yōu)點完整性:不會破壞任何交易的長模式為頻繁模式挖掘保存了完整的信息簡潔性減少了不相關的信息—非頻繁項集被刪掉頻繁項集按支持度遞減順序排列:越是頻繁的項集越有可能被共享不會比原數據庫大(如果不算節(jié)點鏈和計數)基本思想(分治策略):使用FP-樹循環(huán)的產生頻繁模式路徑方法對于每一個項,先構造它的條件模式基,然后構造它的條件FP-樹在每一個新創(chuàng)建的條件FP-樹上重復此過程直到結果FP樹為空,或它只包含一條路徑(單路徑將產生所有的它的子路徑的結合,每一條子路徑都是一個頻繁模式)挖掘FP-樹的主要步驟1)為FP-樹中的每一個節(jié)點構造條件模式基2)為每一個條件模式基條件FP-樹3)循環(huán)的挖掘條件FP-樹,生成至今為止獲得的頻繁模式如果條件FP-樹只包含單條路徑,簡單的列舉所有的模式名詞解釋數據倉庫:是一種新的數據處理體系結構,是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數據集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。孤立點:指數據庫中包含的一些與數據的一般行為或模型不一致的異常數據。OLAP:OLAP是在OLTP的基礎上發(fā)展起來的,以數據倉庫為基礎的數據分析處理,是共享多維信息的快速分析,是被專門設計用于支持復雜的分析操作,側重對分析人員和高層管理人員的決策支持。粒度:指數據倉庫的數據單位中保存數據細化或綜合程度的級別。粒度影響存放在數據倉庫中的數據量的大小,同時影響數據倉庫所能回答查詢問題的細節(jié)程度。數據規(guī)范化:指將數據按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0-1)以提高數據挖掘效率的方法。規(guī)范化的常用方法有:最大-最小規(guī)范化、零-均值規(guī)范化、小數定標規(guī)范化。關聯知識:是反映一個事件和其他事件之間依賴或相互關聯的知識。如果兩項或多項屬性之間存在關聯,那么其中一項的屬性值就可以依據其他屬性值進行預測。數據挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。OLTP:OLTP為聯機事務處理的縮寫,OLAP是聯機分析處理的縮寫。前者是以數據庫為基礎的,面對的是操作人員和低層管理人員,對基本數據進行查詢和增、刪、改等處理。ROLAP:是基于關系數據庫存儲方式的,在這種結構中,多維數據被映像成二維關系表,通常采用星型或雪花型架構,由一個事實表和多個維度表構成。MOLAP:是基于類似于“超立方”塊的OLAP存儲結構,由許多經壓縮的、類似于多維數組的對象構成,并帶有高度壓縮的索引及指針結構,通過直接偏移計算進行存取。數據歸約:縮小數據的取值范圍,使其更適合于數據挖掘算法的需要,并且能夠得到和原始數據相同的分析結果。廣義知識:通過對大量數據的歸納、概括和抽象,提煉出帶有普遍性的、概括性的描述統(tǒng)計的知識。預測型知識:是根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。偏差型知識:是對差異和極端特例的描述,用于揭示事物偏離常規(guī)的異?,F象,如標準類外的特例,數據聚類外的離群值等。遺傳算法:是一種優(yōu)化搜索算法,它首先產生一個初始可行解群體,然后對這個群體通過模擬生物進化的選擇、交叉、變異等遺傳操作遺傳到下一代群體,并最終達到全局最優(yōu)。聚類:是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。決策樹:是用樣本的屬性作為結點,用屬性的取值作為分支的樹結構。它是分類規(guī)則挖掘的典型方法,可用于對新樣本進行分類。相異度矩陣:是聚類分析中用于表示各對象之間相異度的一種矩陣,n個對象的相異度矩陣是一個nn維的單模矩陣,其對角線元素均為0,對角線兩側元素的值相同。頻繁項集:指滿足最小支持度的項集,是挖掘關聯規(guī)則的基本條件之一。支持度:規(guī)則A→B的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(A∪B),是AB同時發(fā)生的次數與事件總次數之比。支持度是對關聯規(guī)則重要性的衡量??尚哦龋阂?guī)則A→B的可信度指的是包含A項集的同時也包含B項集的條件概率P(B|A),是AB同時發(fā)生的次數與A發(fā)生的所有次數之比。可信度是對關聯規(guī)則的準確度的衡量。關聯規(guī)則:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關聯規(guī)則。綜合題何謂數據挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數據挖掘。相關的名稱有知識發(fā)現、數據分析、數據融合、決策支持等。數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。何謂數據倉庫?為什么要建立數據倉庫?數據倉庫是一種新的數據處理體系結構,是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數據集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數據倉庫的目的有3個:一是為了解決企業(yè)決策分析中的系統(tǒng)響應問題,數據倉庫能提供比傳統(tǒng)事務數據庫更快的大規(guī)模決策分析的響應速度。二是解決決策分析對數據的特殊需求問題。決策分析需要全面的、正確的集成數據,這是傳統(tǒng)事務數據庫不能直接提供的。三是解決決策分析對數據的特殊操作要求。決策分析是面向專業(yè)用戶而非一般業(yè)務員,需要使用專業(yè)的分析工具,對分析結果還要以商業(yè)智能的方式進行表現,這是事務數據庫不能提供的。列舉操作型數據與分析型數據的主要區(qū)別。操作型數據分析型數據當前的、細節(jié)的歷史的、綜合的面向應用、事務驅動面向分析、分析驅動頻繁增、刪、改幾乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一次操作數據量小一次操作數據量大支持日常事務操作支持管理決策需求何謂OLTP和OLAP?它們的主要異同有哪些?OLTP即聯機事務處理,是以傳統(tǒng)數據庫為基礎、面向操作人員和低層管理人員、對基本數據進行查詢和增、刪、改等的日常事務處理。OLAP即聯機分析處理,是在OLTP基礎上發(fā)展起來的、以數據倉庫基礎上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務。OLTP和OLAP的主要區(qū)別如下表:OLTPOLAP數據庫數據數據庫或數據倉庫數據細節(jié)性數據綜合性數據當前數據歷史數據經常更新不更新,但周期性刷新一次性處理的數據量小一次處理的數據量大對響應時間要求高響應時間合理用戶數量大用戶數據相對較少面向操作人員,支持日常操作面向決策人員,支持管理需要面向應用,事務驅動面向分析,分析驅動何謂粒度?它對數據倉庫有什么影響?按粒度組織數據的方式有哪些?粒度是指數據倉庫的數據單位中保存數據細化或綜合程度的級別。粒度影響存放在數據倉庫中的數據量的大小,同時影響數據倉庫所能回答查詢問題的細節(jié)程度。按粒度組織數據的方式主要有:簡單堆積結構輪轉綜合結構簡單直接結構連續(xù)結構簡述數據倉庫設計的三級模型及其基本內容。概念模型設計是在較高的抽象層次上的設計,其主要內容包括:界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設計的主要內容包括:分析主題域、確定粒度層次劃分、確定數據分割策略、定義關系模式、定義記錄系統(tǒng)。物理數據模型設計的主要內容包括:確定數據存儲結構、確定數據存放位置、確定存儲分配以及確定索引策略等。在物理數據模型設計時主要考慮的因素有:I/O存取時間、空間利用率和維護代價等。提高性能的主要措施有劃分粒度、數據分割、合并表、建立數據序列、引入冗余、生成導出數據、建立廣義索引等。在數據挖掘之前為什么要對原始數據進行預處理?原始業(yè)務數據來自多個數據庫或數據倉庫,它們的結構和規(guī)則可能是不同的,這將導致原始數據非常的雜亂、不可用,即使在同一個數據庫中,也可能存在重復的和不完整的數據信息,為了使這些數據能夠符合數據挖掘的要求,提高效率和得到清晰的結果,必須進行數據的預處理。為數據挖掘算法提供完整、干凈、準確、有針對性的數據,減少算法的計算量,提高挖掘效率和準確程度。簡述數據預處理方法和內容。數據清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關數據。數據集成:將多個數據源中的數據結合起來存放在一個一致的數據存儲中。需要注意不同數據源的數據匹配問題、數值沖突問題和冗余問題等。數據變換:將原始數據轉換成為適合數據挖掘的形式。包括對數據的匯總、聚集、概化、規(guī)范化,還可能需要進行屬性的重構。數據歸約:縮小數據的取值范圍,使其更適合于數據挖掘算法的需要,并且能夠得到和原始數據相同的分析結果。簡述數據清理的基本內容。盡可能賦予屬性名和屬性值明確的含義;統(tǒng)一多數據源的屬性值編碼;去除無用的惟一屬性或鍵值(如自動增長的id);去除重復屬性(在某些分析中,年齡和出生日期可能就是重復的屬性,但在某些時候它們可能又是同時需要的)去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數據挖掘結果)合理選擇關聯字段(對于多個關聯性較強的屬性,重復無益,只需選擇其中的部分用于數據挖掘即可,如價格、數據、金額)去掉數據中的噪音、填充空值、丟失值和處理不一致數據。簡述處理空缺值的方法。忽略該記錄;去掉屬性;手工填寫空缺值;使用默認值;使用屬性平均值;使用同類樣本平均值;預測最可能的值。常見的分箱方法有哪些?數據平滑處理的方法有哪些?分箱的方法主要有:統(tǒng)一權重法(又稱等深分箱法)統(tǒng)一區(qū)間法(又稱等寬分箱法)最小熵法自定義區(qū)間法數據平滑的方法主要有:平均值法、邊界值法和中值法。何謂數據規(guī)范化?規(guī)范化的方法有哪些?寫出對應的變換公式。將數據按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.0~1.0),稱為規(guī)范化。規(guī)范化的常用方法有:最大-最小規(guī)范化:零-均值規(guī)范化:小數定標規(guī)范化:x=x0/10α數據歸約的方法有哪些?為什么要進行維歸約?數據立方體聚集維歸約數據壓縮數值壓縮離散化和概念分層維歸約可以去掉不重要的屬性,減少數據立方體的維數,從而減少數據挖掘處理的數據量,提高挖掘效率。何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進行;聚類是一種無指導學習,它不依賴預先定義的類和帶類標號的訓練實例,屬于觀察式學習,分類則屬于有指導的學習,是示例式學習。舉例說明聚類分析的典型應用。①商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現不同的客戶群,并且用不同的購買模式描述不同客戶群的特征。②生物學:推導植物或動物的分類,對基于進行分類,獲得對種群中固有結構的認識。③WEB文檔分類④其他:如地球觀測數據庫中相似地區(qū)的確定;各類保險投保人的分組;一個城市中不同類型、價值、地理位置房子的分組等。⑤聚類分析還可作為其他數據挖掘算法的預處理:即先進行聚類,然后再進行分類等其他的數據挖掘。聚類分析是一種數據簡化技術,它把基于相似數據特征的變量或個案組合在一起。聚類分析中常見的數據類型有哪些?何謂相異度矩陣?它有什么特點?常見數據類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。其特點是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示:分類知識的發(fā)現方法主要有哪些?分類過程通常包括哪兩個步驟?分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經網絡法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓練數據集上,根據屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據規(guī)則對新數據進行分類。什么是決策樹?如何用決策樹進行分類?決策樹是用樣本的屬性作為結點,用屬性的取值作為分支的樹結構。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產生的。決策樹的根結點是所有樣本中信息量最大的屬性。樹的中間結點是以該結點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結點是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結點,該葉結點表示的類別就是新樣本的類別。決策樹方法是數據挖掘中非常有效的分類方法。簡述ID3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素,然后把數據分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數據為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。主算法包括如下幾步:①從訓練集中隨機選擇一個既含正例又含反例的子集(稱為窗口);②用“建樹算法”對當前窗口形成一棵決策樹;③對訓練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判的例子;④若存在錯判的例子,把它們插入窗口,重復步驟②,否則結束。簡述ID3算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素,然后把數據分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數據為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。建樹算法的具體步驟如下:①對當前例子集合,計算各特征的互信息;②選擇互信息最大的特征Ak;③把在Ak處取值相同的例子歸于同一子集,Ak取幾個值就得幾個子集;④對既含正例又含反例的子集,遞歸調用建樹算法;⑤若子集僅含正例或反例,對應分枝標上P或N,返回調用處。設某事務項集構成如下表,填空完成其中支持度和置信度的計算。事務ID項集L2支持度%規(guī)則置信度%T1A,DA,B33.3A→B50T2D,EA,C33.3C→A60T3A,C,EA,D44.4A→D66.7T4A,B,D,EB,D33.3B→D75T5A,B,CC,D33.3C→D60T6A,B,DD,E33.3D→E43T7A,C,D……T8C,D,ET9B,C,D 從信息處理角度看,神經元具有哪些基本特征?寫出描述神經元狀態(tài)的M-P方程并說明其含義?;咎卣鳎孩俣噍斎?、單輸出;②突觸兼有興奮和抑制兩種性能;③可時間加權和空間加權;④可產生脈沖;⑤脈沖可進行傳遞;⑥非線性,有閾值。M-P方程:,Wij是神經元之間的連接強度,是閾值,f(x)是階梯函數。遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機搜索,搜索效率高;遺傳算法處理的對象是個體而不是參變量,具有廣泛的應用領域;遺傳算法使用適應值信息評估個體,不需要導數或其他輔助信息,運算速度快,適應性好;遺傳算法具有隱含并行性,具有更高的運行效率。寫出非對稱二元變量相異度計算公式(即jaccard系數),并計算下表中各對象間的相異度。測試項目對象test-1test-2test-3test-4test-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN…簡述K-平均算法的輸入、輸出及聚類過程(流程)。輸入:簇的數目k和包含n個對象的數據集。輸出:k個簇,使平方誤差準則最小。步驟:任意選擇k個對象作為初始的簇中心;計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇;計算各簇中對象的平均值,然后重新選擇簇中心(離平均值“最近”的對象值);重復第2第3步直到簇中心不再變化為止。簡述K-中心點算法的輸入、輸出及聚類過程(流程)。輸入:結果簇的數目k,包含n個對象的數據集輸出:k個簇,使得所有對象與其最近中心點的相異度總和最小。流程:隨機選擇k個對象作為初始中心點;計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇;隨機地選擇一個非中心點對象Orandom,并計算用Orandom代替Oj的總代價S;如果S<0,則用Orandom代替Oj,形成新的k個中心點集合;重復迭代第3、4步,直到中心點不變?yōu)橹埂:沃^文本挖掘?它與信息檢索有什么關系(異同)。文本挖掘是從大量文本數據中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區(qū)別:方法論不同:信息檢索是目標驅動的,用戶需要明確提出查詢要求;而文本挖掘結果獨立于用戶的信息需求,是用戶無法預知的。著眼點不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內容和結構。目的不同:信息檢索的目的在于幫助用戶發(fā)現資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。評價方法不同:信息檢索用查準率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現知識的有效性、可用性和可理解性。使用場合不同:文本挖掘是比信息檢索更高層次的技術,可用于信息檢索技術不能解決的許多場合。一方面,這兩種技術各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。單選題
1.某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?(A)
A.關聯規(guī)則發(fā)現B.聚類
C.分類D.自然語言處理
3.將原始數據進行集成、變換、維度規(guī)約、數值規(guī)約是在以下哪個步驟的任務?(C)
A.頻繁模式挖掘B.分類和預測C.數據預處理D.數據流挖掘
4.當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?(B)
A.分類B.聚類C.關聯分析D.隱馬爾可夫鏈
6.使用交互式的和可視化的技術,對數據進行探索屬于數據挖掘的哪一類任務?(A)
A.探索性數據分析B.建模描述
C.預測建模D.尋找模式和規(guī)則
11.下面哪種不屬于數據預處理的方法?(D)
A變量代換B離散化C聚集D估計遺漏值
12.假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內?(B)
A第一個B第二個C第三個D第四個
13.上題中,等寬劃分時(寬度為50),15又在哪個箱子里?(A)
A第一個B第二個C第三個D第四個
16.只有非零值才重要的二元屬性被稱作:(C)
A計數屬性B離散屬性C非對稱的二元屬性D對稱屬性
17.以下哪種方法不屬于特征選擇的標準方法:(D)
A嵌入B過濾C包裝D抽樣
18.下面不屬于創(chuàng)建新屬性的相關方法的是:(B)
A特征提取B特征修改C映射數據到新的空間D特征構造
22.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:(D)
A0.821B1.224C1.458D0.716
23.假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為:(A)
A18.3B22.6C26.8D27.9
28.數據倉庫是隨著時間變化的,下面的描述不正確的是(C)
A.數據倉庫隨時間的變化不斷增加新的數據內容;
B.捕捉到的新數據會覆蓋原來的快照;
C.數據倉庫隨事件變化不斷刪去舊的數據內容;
D.數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合.
29.關于基本數據的元數據是指:(D)
A.基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;
B.基本元數據包括與企業(yè)相關的管理方面的數據和信息;
C.基本元數據包括日志文件和簡歷執(zhí)行處理的時序調度信息;
D.基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息.
30.下面關于數據粒度的描述不正確的是:(C)
A.粒度是指數據倉庫小數據單元的詳細程度和級別;
B.數據越詳細,粒度就越小,級別也就越高;
C.數據綜合度越高,粒度也就越大,級別也就越高;
D.粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.
33.OLAP技術的核心是:(D)
A.在線性;
B.對用戶的快速響應;
C.互操作性.
D.多維分析;
34.關于OLAP的特性,下面正確的是:(D)
(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性
A.(1)(2)(3)
B.(2)(3)(4)
C.(1)(2)(3)(4)
D.(1)(2)(3)(4)(5)
35.關于OLAP和OLTP的區(qū)別描述,不正確的是:(C)
A.OLAP主要是關于如何理解聚集的大量不同的數據.它與OTAP應用程序不同.
B.與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.
C.OLAP的特點在于事務量大,但事務內容比較簡單且重復率高.
D.OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統(tǒng),兩者面對的用戶是相同的.
37.關于OLAP和OLTP的說法,下列不正確的是:(A)
A.OLAP事務量大,但事務內容比較簡單且重復率高.
B.OLAP的最終數據來源與OLTP不一樣.
C.OLTP面對的是決策人員和高層管理人員.
D.OLTP以應用為核心,是應用驅動的.
38.設X={1,2,3}是頻繁項集,則可由X產生__(C)__個關聯規(guī)則。
A、4B、5C、6D、7
40.概念分層圖是__(B)__圖。
A、無向無環(huán)B、有向無環(huán)C、有向有環(huán)D、無向有環(huán)
41.頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是:(C)
A、頻繁項集頻繁閉項集=最大頻繁項集
B、頻繁項集=頻繁閉項集最大頻繁項集
C、頻繁項集頻繁閉項集最大頻繁項集
D、頻繁項集=頻繁閉項集=最大頻繁項集
44.在圖集合中發(fā)現一組公共子結構,這樣的任務稱為(B)
A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數據項挖掘D、頻繁模式挖掘
48.以下哪些算法是分類算法,A,DBSCANB,C4.5C,K-MeanD,EM(B)
50.決策樹中不包含一下哪種結點,A,根結點(rootnode)B,內部結點(internalnode)C,外部結點(externalnode)D,葉結點(leafnode)(C)
53.以下哪項關于決策樹的說法是錯誤的(C)
A.冗余屬性不會對決策樹的準確率造成不利的影響
B.子樹可能在決策樹中重復多次
C.決策樹算法對于噪聲的干擾非常敏感
D.尋找最佳決策樹是NP完全問題
54.在基于規(guī)則分類器的中,依據規(guī)則質量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)
A.基于類的排序方案
B.基于規(guī)則的排序方案
C.基于度量的排序方案
D.基于規(guī)格的排序方案。
57.如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則
58.如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是(D)
A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則
61.以下關于人工神經網絡(ANN)的描述錯誤的有(A)
A,神經網絡對訓練數據中的噪聲非常魯棒B,可以處理冗余特征C,訓練ANN是一個很耗時的過程D,至少含有一個隱藏層的多層神經網絡二、多選題
1.通過數據挖掘過程所推倒出的關系和摘要經常被稱為:(AB)
A.模型B.模式C.模范D.模具
2尋找數據集中的關系是為了尋找精確、方便并且有價值地總結了數據的某一特征的表示,這個過程包括了以下哪些步驟?(ABCD)
A.決定要使用的表示的特征和結構
B.決定如何量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年二手汽車買賣合同參考3篇
- 2025建設工程施工合同范本
- 2025抵押房屋買賣合同范本范文
- 2025建筑居間合同建筑居間合同
- 2025教師員工聘用合同書
- 2024年度水電工程安全文明施工合同2篇
- 2025合同補充協(xié)議范文
- 2024年商鋪租賃合同附帶虛擬現實與增強現實體驗中心租賃協(xié)議3篇
- 2024年房地產項目投資合作開發(fā)及售后服務合同3篇
- 2025商務樓市商鋪租賃合同范文
- 鋼化玻璃的MSDS英文報告
- 大學生情緒管理1500字論文2篇
- 2023廣東省成人高考《英語》(高升專)考試卷及答案(單選題型)
- 《德米安 埃米爾 辛克萊年少時的故事》讀書筆記思維導圖PPT模板下載
- 年產萬噸天然飲用水生產項目可行性研究報告
- 臨床藥理學第十四章 腎功能不全臨床用藥
- YS/T 682-2008釕粉
- GB/T 5976-2006鋼絲繩夾
- 麗聲妙想英文繪本第一級 My Dad課件
- 部編版五年級語文上-句子專項課件
- 初中語文人教九年級下冊《統(tǒng)一》PPT
評論
0/150
提交評論