數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習題匯總_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習題匯總_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習題匯總_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習題匯總_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習題匯總_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)結構和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術元4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉(zhuǎn)等各種分析動作,以求剖析數(shù)據(jù),使擁護能從不同角度、不同側(cè)面6、數(shù)據(jù)倉庫按照其開發(fā)過程,其關鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲于管理和數(shù)層架構、獨立型數(shù)據(jù)集合、以來型數(shù)據(jù)結合和操作型數(shù)據(jù)存儲和邏輯型數(shù)據(jù)集接近實時的速度交換數(shù)據(jù)和業(yè)務規(guī)則。以分析為主、以預測模型為主、以運營導向為主和以實時數(shù)據(jù)倉庫和自動決策源。因此,我們要求ETL過程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細的、歷史的、4、粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量。粒度越小,細節(jié)程度5、使用星型模式可以從一定程度上提高查詢效率。因為星型模式中數(shù)據(jù)的組織一種是采用自然鍵,另一種是采用代理鍵。冗余的數(shù)據(jù)。細節(jié)級、當前細節(jié)級、輕度綜合級和高度綜合級。在線分析處理、關鍵性能指示器記分卡和數(shù)據(jù)挖掘的基礎。分(包括名稱、維度、類別、層次和度量)全面地描述出來。倉庫的邏輯模型通常采用星型圖法來進行設計,要求將星型的各類邏輯以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)施時,根據(jù)事實表的特點和擁護的查詢需求,可以選用時間、業(yè)務的主鍵在事實表中沒有與外鍵關聯(lián)時,這樣的維稱為退化維。它于事實表并無關系,但有時在查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。9、數(shù)據(jù)倉庫的數(shù)據(jù)量通常較大,且數(shù)據(jù)一般很少更新,可以通過設計和優(yōu)化索表的歸并與簇文件、反向規(guī)范化引入冗余、表的物理分割(分區(qū))。、關聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP-growth算法,其中FP-grownthcd再經(jīng)過修剪,C3={{a,b,c},{a,b,d}}L2={A,C}L2={A,C}則L1={A},{B},{C}ABCAC2、分類器設計階段包含三個過程:劃分數(shù)據(jù)集、分類器構造和分類器測試。3、分類問題中常用的評價準則有精確度、查全率和查準率和集合均值。22、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、劃分聚類方法對數(shù)據(jù)集進行聚類時包含三個要點:選種某種距離作為數(shù)據(jù)樣本減的相似性度量、選擇評價聚類性能的準則函數(shù)和選擇某個初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數(shù)取得最優(yōu)值。統(tǒng)驗知識和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實用性數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲與管理決策支持查詢的優(yōu)化維分析的查詢模式(1)ID3算法在選擇根結點和各內(nèi)部結點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構造決策樹。數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載生數(shù)據(jù)的目標要求:劃分數(shù)據(jù)集,分類器構造,分類器測試數(shù)據(jù)清洗是一種使用模式識別和其他技術,在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉持度和置信度的計算公式及數(shù)據(jù)計算(P90)c(Xc(XY)=Example確定指標,確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128DWDW次結構和導出數(shù)據(jù)的定義,數(shù)據(jù)集市的位置和內(nèi)容等匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領域、。包括源數(shù)數(shù)據(jù)刷新規(guī)則及安全(用戶授權和存取控制)訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源系統(tǒng)提供的分析方法及公式和報表的信息。P維類別:也稱維分層。即同一維度還可以存在細節(jié)程度不同的各個類別屬性(如時間維包括年、季度、月等)維屬性:是維的一個取值,是數(shù)據(jù)線在某維中位置的描述。該方法是基于候選的策略,降低候選數(shù)該原則基于以下支持度的特性:項集的支持度不會超過其子集支持度的反單調(diào)特性(anti-monotone):如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。令k=1循環(huán),直到無新的頻繁項集產(chǎn)生從長度為k的頻繁項集產(chǎn)生長度為k+1的候選頻繁項集掃描數(shù)據(jù)庫,計算每個候選頻繁集的支持度刪除非頻繁項,保留頻繁項數(shù)據(jù)倉庫是一個面向主體的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理過程數(shù)據(jù)倉庫排除與對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。通過集成多種數(shù)據(jù)源而構成數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應用數(shù)據(jù)操作性的數(shù)據(jù)更新不會發(fā)生在數(shù)據(jù)倉庫的環(huán)境下.2數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型。這種模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式。數(shù)據(jù)立方體允許從多維對數(shù)據(jù)建模和觀察。它由維和事實定義。3最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維模型,這種模型可以以星形模式、雪花型據(jù)倉庫模型:維與度量?星型模型:最常見的模型范例是星形模式,其中數(shù)據(jù)倉庫包括(1)一個大的包含大批數(shù)據(jù)并且不含冗余的中心表(事實表);(2)一組小的附屬表(維表),一步分解到附加的維表中,它的圖形類似于雪花的形狀實星座數(shù)據(jù)立方體度量是一個數(shù)值函數(shù),可以對數(shù)據(jù)立方體空間的每一個點求值。通過對給定點的各維-值對聚集數(shù)據(jù),計算該點的度量值。的和整體的)。概念分層定義一個映射序列,將低層概念映射到更一般的較高層概念。(1)上卷:上卷操作通過沿一個維的概念分層向上攀升或者通過維規(guī)約,對數(shù)據(jù)(2)下鉆:下鉆是上卷的逆操作,它由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù)。下鉆可(4)轉(zhuǎn)軸(旋轉(zhuǎn)):轉(zhuǎn)軸是一種可視化操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替數(shù)據(jù)倉庫的系統(tǒng)結構(2)中間層是OLAP服務器,其典型的實現(xiàn)或者是(i)關系OLAP(ROLAP)模者是(ii)多維OLAP(MOLAP)模型即專門的服務器,它直接實現(xiàn)多維數(shù)據(jù)測等)。數(shù)據(jù)集市(DataMart):數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶群是有用的。其范圍限于選定的主題。根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨立的和依賴的兩類。換;4FP一條子路徑都是一個頻繁模式),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支理人員的決策支持。粒度:指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影的8.OLTP:OLTP為聯(lián)機事務處理的縮寫,OLAP是聯(lián)機分析處理的縮寫。據(jù)進行查詢和增、刪、改等處理。9.ROLAP:是基于關系數(shù)據(jù)庫存儲方式的,在這種結構中,多維數(shù)據(jù)被映MOLAP超立方”塊的OLAP存儲結構,由許多經(jīng)壓縮挖掘算法的需要,并義知識:通過對大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普遍性的、的和當前的數(shù)據(jù)去推測未來于揭示事物偏離常規(guī)的異常代群體,并最終達到全局最優(yōu)。cluster過程,18.相異度矩陣:是聚類分析中用于表示各對象之間相異度的一種矩陣,n個19.頻繁項集:指滿足最小支持度的項集,是挖掘關聯(lián)規(guī)則的基本條件之一。則:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關聯(lián)從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為據(jù)融合、決策支持等。析、數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結構,是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支一是為了解決企業(yè)決策分析中的系統(tǒng)響應問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務數(shù)據(jù)庫更快的大規(guī)模決策分析的響應速度。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務員,需要使用專業(yè)的分析工具,對分析結果還要以商業(yè)智能主要區(qū)別。析、分析驅(qū)動幾乎不更新,定期追加分析需求事先不知道完全不同的生命周期要求寬松需求用、事務驅(qū)動頻繁增、刪、改求事先知道操作管理人員、對基本數(shù)據(jù)進行查詢和增、刪、改等的日常事務處理。OLAPOLTP據(jù)倉庫基礎上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務。數(shù)據(jù)倉庫數(shù)據(jù)據(jù)量小時間要求高作人員,支持日常操作用,事務驅(qū)動性刷新量大少析,分析驅(qū)動粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查堆積結構綜合結構單直接結構續(xù)結構容。容包括:界定和確定主要的主題域。邏輯模型設計的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結構、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設計時主要考慮的因素有:I/O存取時間、空間利用率和維護代價等。原始業(yè)務數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結構和規(guī)則可能是也可能存在重復的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖。①數(shù)據(jù)清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關數(shù)據(jù)。。③去除無用的惟一屬性或鍵值(如自動增長的id);但在某些時候它們可能又是同時需要的)⑤去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數(shù)據(jù)挖掘結果)⑥合理選擇關聯(lián)字段(對于多個關聯(lián)性較強的屬性,重復無益,只需選擇。:①統(tǒng)一權重法(又稱等深分箱法)②統(tǒng)一區(qū)間法(又稱等寬分箱法)③最小熵法④自定義區(qū)間法據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫出對應的變換公式。將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.0~00x=0x=0X數(shù)據(jù)立方體聚集歸約據(jù)壓縮值壓縮離散化和概念分層維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進類則屬于有指導的學習,是示例式學習。15.舉例說明聚類分析的典型應用。不同的客戶群,并且用不一個城市中不同類型、價值、地理位置房子的分組等。相似數(shù)據(jù)特征的變量或個案組合在一起。16.聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點?序數(shù)型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度「0]|首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又①從訓練集中隨機選擇一個既含正例又含反例的子集(稱為窗口);③對訓練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又分類。構成如下表,填空完成其中支持度和置信度的計算。L2支持度%置信度%A,DA,BA,CC→AA,DABC……22.從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義。基本特征:①多輸入、單輸出;②突觸兼有興奮和抑制兩種性能;③可j23.遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?①遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;②遺傳算法采用高效有方向的隨機搜索,搜索效率高;③遺傳算法處理的對象是個體而不是參變量,具有廣泛的應用領域;度快,適應性好;⑤遺傳算法具有隱含并行性,具有更高的運行效率。測試測試項目test-test-test-test-test-test-對象123456YNPNNNYNPNPNNYNYNN………………K輸出及聚類過程(流程)。27.何謂文本挖掘?它與信息檢索有什么關系(異同)??刹僮鞯闹R的過程。它與信息檢索之間有以下幾方面的區(qū)別:①方法論不同:信息檢索是目標驅(qū)動的,用戶需要明確提出查詢要②著眼點不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結構。③目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的④評價方法不同:信息檢索用查準率和查全率來評價其性能。而文⑤使用場合不同:文本挖掘是比信息檢索更高層次的技術,可用于信息檢索技術不能解決的許多場合。一方面,這兩種技術各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結果的組織,使信息1.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)AB.聚類C.分類D.自然語言處理A.頻繁模式挖掘B.分類和預測C.數(shù)據(jù)預處理D.數(shù)據(jù)流4.當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術促使帶同類標簽的數(shù)據(jù)與帶其A.分類B.聚類C.關聯(lián)分析D.隱馬爾可夫鏈6.使用交互式的和可視化的技術,對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務?(A)A.探索性數(shù)據(jù)分析B.建模描述C.預測建模D.尋找模式和規(guī)則A變量代換B離散化C聚集D估計遺漏值204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在A第一個B第二個C第三個D第四個A第一個B第二個C第三個D第四個A計數(shù)屬性B離散屬性C非對稱的二元屬性D對稱屬性A嵌入B過濾C包裝D抽樣A特征提取B特征修改C映射數(shù)據(jù)到新的空間D特征構造28.數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是(C)A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容;B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照;C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合.A.基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等結構相關的信息;B.基本元數(shù)據(jù)包括與企業(yè)相關的管理方面的數(shù)據(jù)和信息;C.基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;D.基本元數(shù)據(jù)包括關于裝載和更新處理,分析處理以及管理方面的信息.A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;B.數(shù)據(jù)越詳細,粒度就越小,級別也就越高;C度也就越大,級別也就越高;D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.OLAP技術的核心是:(D)A.在線性;B.對用戶的快速響應;D析;CPC.OLAP的特點在于事務量大,但事務內(nèi)容比較簡單且重復率高.數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的.A.OLAP事務量大,但事務內(nèi)容比較簡單且重復率高.C.OLTP面對的是決策人員和高層管理人員.DOLTP以應用為核心,是應用驅(qū)動的.A、無向無環(huán)B、有向無環(huán)C、有向有環(huán)D、無向有環(huán)A、頻繁項集=最大頻繁項集=頻繁閉項集最大頻繁項集頻繁閉項集最大頻繁項集=頻繁閉項集=最大頻繁項集44.在圖集合中發(fā)現(xiàn)一組公共子結構,這樣的任務稱為(B)A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘A.冗余屬性不會對決策樹的準確率造成不利的影響B(tài).子樹可能在決策樹中重復多次測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)A.基于類的排序方案B.基于規(guī)則的排序方案C.基于度量的排序方案D.基于規(guī)格的排序方案。58.如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是(D)61.以下關于人工神經(jīng)網(wǎng)絡(ANN)的描述錯誤的有(A)A,神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)中的噪聲非常魯棒B,可以處理冗余特征C,訓練ANN是一個很耗時的過程D,至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡A.模型B.模式C.模范D.模具2尋找數(shù)據(jù)集中的關系是為了尋找精確、方便并且有價值地總結了數(shù)據(jù)的某一A.決定要使用的表示的特征和結構B比較不同表示擬合數(shù)據(jù)的好壞C.選擇一個算法過程使評分函數(shù)最優(yōu)A.模型或模型結構B.評分函數(shù)C.優(yōu)化和搜索方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論