14年浙大遠程-《數(shù)據(jù)挖掘》離線作業(yè)(共9頁)_第1頁
14年浙大遠程-《數(shù)據(jù)挖掘》離線作業(yè)(共9頁)_第2頁
14年浙大遠程-《數(shù)據(jù)挖掘》離線作業(yè)(共9頁)_第3頁
14年浙大遠程-《數(shù)據(jù)挖掘》離線作業(yè)(共9頁)_第4頁
14年浙大遠程-《數(shù)據(jù)挖掘》離線作業(yè)(共9頁)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上浙江大學(xué)遠程教育學(xué)院數(shù)據(jù)挖掘課程作業(yè)姓名:學(xué) 號:年級:13秋學(xué)習(xí)中心:第一章 引言一、填空題(1)數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟: 數(shù)據(jù)清理 、 數(shù)據(jù)集成 、 數(shù)據(jù)選擇 、 數(shù)據(jù)變換 、 數(shù)據(jù)挖掘 、 模式評估 和 知識表示 (2) 數(shù)據(jù)挖掘的性能問題主要包括: 算法的效率、 可擴展性 和 并行處理 。(3) 當(dāng)前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是: 統(tǒng)計學(xué) 、數(shù)據(jù)庫技術(shù) 和 機器學(xué)習(xí) 。(4) 孤立點是指: 一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù) 。二、簡答題(1)什么是數(shù)據(jù)挖掘?答:數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中挖掘出那些令人感興趣的、有用

2、的、隱含的、先前未知的和可能有用的模式或知識。(2)一個典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?答:一個典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括以下部分:數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫 數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器 知識庫 數(shù)據(jù)挖掘引擎 模式評估模塊 圖形用戶界面(3)Web挖掘包括哪些步驟?答:數(shù)據(jù)清理: (這個可能要占全過程60的工作量)、數(shù)據(jù)集成、將數(shù)據(jù)存入數(shù)據(jù)倉庫、建立數(shù)據(jù)立方體、選擇用來進行數(shù)據(jù)挖掘的數(shù)據(jù)、數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉碚业礁信d趣的模式)、展現(xiàn)挖掘結(jié)果、將模式或者知識應(yīng)用或者存入知識庫。(4)請列舉數(shù)據(jù)挖掘應(yīng)用常見的數(shù)據(jù)源。(或者說,我們都在什么樣的數(shù)據(jù)上進行數(shù)據(jù)挖掘)答:常見的數(shù)據(jù)源包括關(guān)系

3、數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫和高級數(shù)據(jù)庫系統(tǒng)和信息庫。其中高級數(shù)據(jù)庫系統(tǒng)和信息庫包括:空間數(shù)據(jù)庫、時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫、流數(shù)據(jù)、多媒體數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫、異種數(shù)據(jù)庫和遺產(chǎn)(legacy)數(shù)據(jù)庫、文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)等。第二章 認識數(shù)據(jù)一、填空題(1)兩個文檔向量d1和d2的值為:d1 = (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),則它們的余弦相似度為: 5/13 (2)數(shù)據(jù)離散度的常用度量包括 極差 、 分位 、 百分位數(shù) 、 四分位數(shù)極差 和 標準差 。(3)一種常用的確定離群點的簡單方法是: 出落在至少高于第三個四分位數(shù)或

4、低于第一個四分位數(shù) 1.5×IQR處的值 。二、單選題(1)對于下圖所示的正傾斜數(shù)據(jù),中位數(shù)、平均值、眾數(shù)三者之間的關(guān)系是:( C )A、中位數(shù)=平均值=眾數(shù);B中位數(shù)>平均值>眾數(shù);C、平均值>中位數(shù)>眾數(shù);D;眾數(shù)>中位數(shù)>平均值(2)下面的散點圖顯示哪種屬性相關(guān)性?( C )A不相關(guān);B正相關(guān);C負相關(guān);D先正相關(guān)然后負相關(guān);三、簡答題(1)什么是基于像素的可視化技術(shù)?它有什么缺點?答:對于一個m維數(shù)據(jù)集,基于像素的可視化技術(shù)在屏幕上創(chuàng)建m個窗口,每維一個。記錄的m個維值映射到這些窗口對應(yīng)位置上的m個像素。像素的顏色反映對應(yīng)的值?;谙袼氐目?/p>

5、視化技術(shù)的缺點:難以呈現(xiàn)多維空間的數(shù)據(jù)分布,不顯示數(shù)據(jù)子空間中是否存在稠密區(qū)域。(2)對稱的和不對稱的二元屬性有什么區(qū)別?答:對稱的二元屬性指變量的兩個狀態(tài)具有同等價值或相同權(quán)重;而不對稱的二元屬性中,變量的兩個狀態(tài)的重要性是不同的。對稱的二元屬性可以使用簡單匹配系數(shù)評估它們的相異度;不對稱的二元屬性使用Jaccard系數(shù)評估它們的相異度。第三章 數(shù)據(jù)預(yù)處理一、 填空題(1)進行數(shù)據(jù)預(yù)處理時所使用的主要方法包括: 數(shù)據(jù)清理 、數(shù)據(jù)變換 、 數(shù)據(jù)集成 和 數(shù)據(jù)規(guī)約 。(2)數(shù)據(jù)概化是指: 沿概念分層向上概化 (3)數(shù)據(jù)壓縮可分為: 有損壓縮 和 無損壓縮 兩種類型。(4)進行數(shù)值歸約時,三種常用

6、的有參方法是: 線性回歸方法 、 多元回歸 和 對數(shù)線性模型 。二、簡答題(1)常用的數(shù)值屬性概念分層的方法有哪些?答:常用的數(shù)值屬性概念分層的方法有分箱、直方圖分析、聚類分析、基于熵的離散化和通過自然劃分分段。(2)請描述主成份分析(PCA)算法步驟答:主成份分析步驟為:a、規(guī)范化輸入的數(shù)據(jù):所有屬性落在相同的區(qū)間內(nèi);b、計算k個標準正交向量,即主成分;c、每個輸入數(shù)據(jù)的向量都是這k個主成分向量的線性組合;d、主成分按照重要程度降序排序。(3)在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。答:答:處理空缺值的方法有:1) 忽略元組。當(dāng)類標號缺少時通常這么做(假

7、定挖掘任務(wù)設(shè)計分類或描述),當(dāng)每個屬性缺少值的百分比變化很大時,它的效果非常差。2) 人工填寫空缺值。這種方法工作量大,可行性低3) 使用一個全局變量填充空缺值:比如使用unknown或-4) 使用屬性的平均值填充空缺值5) 使用與給定元組屬同一類的所有樣本的平均值6) 使用最可能的值填充空缺值。如使用像Bayesian公式或判定樹這樣的基于推斷的方法。(4)常見的數(shù)據(jù)歸約策略包括哪些?答:數(shù)據(jù)歸約策略包括:1) 數(shù)據(jù)立方體聚集2) 維歸約3) 數(shù)據(jù)壓縮4) 數(shù)值歸約5) 離散化和概念分層產(chǎn)生第六七章 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)一、填空題(1)關(guān)聯(lián)規(guī)則挖掘中,兩個主要的興趣度度量是: 支持度 和

8、 置信度 (2)Aprior算法包括 連接 和 剪枝 兩個基本步驟(3)項集的頻率是指 包含項集的事務(wù)數(shù) (4)大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘包含兩個過程: 找出所有頻繁項集 和 由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則 (5)根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為: 布爾關(guān)聯(lián)規(guī)則 和 量化關(guān)聯(lián)規(guī)則 (6)Apriori性質(zhì)是指: 頻繁項集的所有非空子集也必須是頻繁的 (7)在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項集,而是 頻繁謂詞集 二、簡答題(1)簡述在多層關(guān)聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點。答:優(yōu)點:搜索時容易采用優(yōu)化策略,即一個項如果不滿足最小支持度,它的所有子項都可以不用搜索。缺點:

9、最小支持度值設(shè)置困難:太高則將丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則;太低則會在較高層產(chǎn)生太多的無興趣的規(guī)則。(2)如何提高Apriori算法的有效性?有哪些常見方法?答:可以使用以下幾個思路提升Apriori算法有效性:減少對數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項集;改進對候選項集的支持度計算方法。常見方法包括:a、基于hash表的項集計數(shù);b、事務(wù)壓縮(壓縮進一步迭代的事務(wù)數(shù))c、劃分;d、選樣(在給定數(shù)據(jù)的一個子集挖掘);e、動態(tài)項集計數(shù)。第八章 分類一、填空題(1)數(shù)據(jù)分類模型的常用表示形式包括 分類規(guī)則 、 決策樹 和 數(shù)學(xué)公式 等。(2)樸素貝葉斯分類是基于 類條件獨立 假設(shè)。二、簡答題

10、(1)在判定樹歸納中,為什么樹剪枝是有用的?答:決策樹建立時,許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和離群點點,樹剪枝可以識別并剪去這種分枝,以提高對未知數(shù)據(jù)分類的準確性。(2)為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類優(yōu)缺點。答:基于貝葉斯定理的推斷需要大量訓(xùn)練數(shù)據(jù)以覆蓋類條件概率空間,引入了很大開銷。樸素貝葉斯分類做了類條件獨立假設(shè),大幅降低了計算開銷。他的優(yōu)點是容易實現(xiàn)并在大多數(shù)情況下可以取得較好的結(jié)果;他的缺陷是類條件獨立在實際應(yīng)用中缺乏準確性,因為變量之間經(jīng)常存在依賴關(guān)系;這種依賴關(guān)系影響了樸素貝葉斯分類器的準確性。(3)分類方法的常用評估度量都有哪些?答:精度(Precisi

11、on): 標記為正類的元組實際為正類所占的百分比召回率:正元組標記為正的百分比 F 度量:精度和召回率的調(diào)和評估指標準確率(accuracy), 識別率:測試數(shù)據(jù)中被正確分類的元組所占的百分比;靈敏度( Sensitivity ):真正例(識別)率特效性( Specificity ):真負例率(4)簡述數(shù)據(jù)分類的兩步過程。答:第一步,建立模型:建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器;第二步,在獨立測試集上評估模型的預(yù)測準確率,通過測試后再使用模型,對新的數(shù)據(jù)進行分類。三、算法題(1)使用判定樹歸納算法,根據(jù)顧客年齡age(分為3個年齡段:<18,18.23,>23),收入inco

12、me(取值為high,medium,low),是否為student(取值為yes和no),信用credit_rating等級(取值為fair和excellent)來判定用戶是否會購買PC Game,即構(gòu)建判定樹buys_PCGame,假設(shè)現(xiàn)有的數(shù)據(jù)經(jīng)過第一次劃分之后得到如下圖所示結(jié)果,并根據(jù)該結(jié)果對每一個劃分中的各個屬性計算信息增益對age<18的顧客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323對age>23的顧客:Gain(income)=0.042,Gain(student)=0.462,Ga

13、in(credit_rating)=0.155請根據(jù)以上結(jié)果繪制出判定樹buys_PCGame,來判定用戶是否會購買PC Game。age <18 1823 >23incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellen

14、tnoincomestudentcredit_ratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcellentyes答:判定樹buys_PCGame如下所示:第十章 聚類分析一、填空題(1)在數(shù)據(jù)挖掘中,常用的聚類算法包括: 劃分方法 、 層次方法 、 基于密度的方法 、基于網(wǎng)格的方法和基于模型的方法。(2)聚類分析常作為一個獨立的工具來獲得 數(shù)據(jù)分布的情況 (3)一個好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類,具有兩個特征: 高類內(nèi)相似度 和 低類間相似度 (4)許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是 數(shù)據(jù)矩陣 和

15、相似度矩陣 (5)基于網(wǎng)格的聚類方法的優(yōu)點是: 處理數(shù)度快 二、簡答題(1)簡述基于劃分的聚類方法。劃分的準則是什么?答:基于劃分的聚類方法:給定一個n個對象或元組的數(shù)據(jù)庫,一個劃分方法構(gòu)建數(shù)據(jù)的k個劃分,每個劃分表示一個簇,并且k<=n。劃分方法要求每個組至少包含一個對象并且每個對象屬于且僅屬于一個組。聚類目標可以是最優(yōu)化某種度量,比如最小化數(shù)據(jù)點與類中心的距離平方和等。劃分準則是同一個聚類中的對象盡可能的接近或相關(guān),不同聚類中的對象盡可能的原理或不同。(2)列舉離群點挖掘的常見應(yīng)用。答:離群點檢測的應(yīng)用很多,列舉一些如下:a、欺詐檢測;b、網(wǎng)絡(luò)入侵;c、故障診斷;d、可疑金融交易監(jiān)控

16、。第四章 數(shù)據(jù)倉庫和OLAP技術(shù)一、 填空題(1)數(shù)據(jù)倉庫的多維數(shù)據(jù)模型可以有三種不同的形式,分別是: 星形模式 、 雪花模式 和 事實星座模式 (2)給定基本方體,方體的物化有三種選擇: 不物化 、 部分物化 和 全物化 。 (3)著名的數(shù)據(jù)倉庫系統(tǒng)設(shè)計師W. H. Inmon認為,數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)的區(qū)別的四個特征是: 面向主題 、 數(shù)據(jù)集成 、 隨時間變化 和 數(shù)據(jù)不易丟失 (4)在數(shù)據(jù)訪問模式上,數(shù)據(jù)倉庫以 事務(wù)操作 為主,而日常應(yīng)用數(shù)據(jù)庫則以 只讀查詢 為主。(5)數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類,分別是: 分布的 、 代數(shù)的 和 整體的 (6)關(guān)于數(shù)據(jù)倉庫的

17、設(shè)計,四種不同的視圖必須考慮,分別是:自頂向下視圖 、 數(shù)據(jù)源視圖 、 數(shù)據(jù)倉庫視圖 、 商務(wù)查詢視圖 (7)OLAP服務(wù)器的類型主要包括: 關(guān)系OLAP服務(wù)器(ROLAP) 、 多維OLAP服務(wù)器(MOLAP) 和 混合OLAP服務(wù)器(HOLAP) (8)求和函數(shù)sum()是一個 分布的 的函數(shù)。(9)方體計算的主要挑戰(zhàn)是 海量數(shù)據(jù) 和 有限的內(nèi)存和時間 之間的矛盾。二、簡答題(1)為什么在進行聯(lián)機分析處理(OLAP)時,我們需要一個獨立的數(shù)據(jù)倉庫,而不是直接在日常操作的數(shù)據(jù)庫上進行。答:使用一個獨立的數(shù)據(jù)倉庫進行OLAP處理是為了以下目的:提高兩個系統(tǒng)的性能操作數(shù)據(jù)庫是為OLTP而設(shè)計的,

18、沒有為OLAP操作優(yōu)化,同時在操作數(shù)據(jù)庫上處理OLAP查詢,會大大降低操作任務(wù)的性能;而數(shù)據(jù)倉庫是為OLAP而設(shè)計,為復(fù)雜的 OLAP查詢, 多維視圖,匯總等OLAP功能提供了優(yōu)化。兩者有著不同的功能操作數(shù)據(jù)庫支持多事務(wù)的并行處理,而數(shù)據(jù)倉庫往往只是對數(shù)據(jù)記錄進行只讀訪問;這時如果將事務(wù)處理的并行機制和恢復(fù)機制用于這種OLAP操作,就會顯著降低OLAP的性能。兩者有著不同的數(shù)據(jù)數(shù)據(jù)倉庫中存放歷史數(shù)據(jù);日常操作數(shù)據(jù)庫中存放的往往只是最新的數(shù)據(jù)。(2)為什么說數(shù)據(jù)倉庫具有隨時間而變化的特征?答:數(shù)據(jù)倉庫具有隨時間而變化的特征,理由是:數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng)主要保

19、存當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉庫從歷史的角度提供信息(比如過去 5-10 年)。數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時間元素。(3)試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法(update-driven),而不愿使用查詢驅(qū)動(query-driven)的方法?答:因為對于多個異種信息源的集成,查詢驅(qū)動方法需要復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,并且對于頻繁的查詢,特別是需要聚集操作的查詢,開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復(fù)雜的多維查詢。(4)請簡述幾種典型的多維數(shù)據(jù)的OLAP操作答:典型的OLAP操作包括以下幾種 上卷:通過一個維的概念分層向上攀升或者通過維歸約,在數(shù)據(jù)立方體上進行聚集;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論