下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、浙江大學遠程教育學院數(shù)據(jù)挖掘課程作業(yè)姓名:李東學號:714030242005年級:14年秋信息管理學習中心:合肥學習中心第一章引言一、填空題(1) 數(shù)據(jù)庫中的知識挖掘 (KDD)包括以下七個步驟: 數(shù)據(jù)清理 、數(shù)據(jù)集成、數(shù)據(jù)選擇、 數(shù)據(jù)變換、 數(shù)據(jù)挖掘、模式評估禾廿 知識表示(2) 數(shù)據(jù)挖掘的性能問題主要包括:算法的效率、 可擴展性 和 并行處理(3) 當前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是:統(tǒng)計學 、 數(shù)據(jù)路技術 和機器學習(4) 孤立點是指:一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)二、簡答題(1)什么是數(shù)據(jù)挖掘?答:數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中挖掘出那些令人感興趣的,有用的,隱含的
2、,先前未知的和可能有用的模式或知識。(2 )一個典型的數(shù)據(jù)挖掘系統(tǒng)應該包括哪些組成部分?答:1,數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫;2,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器;3,知識庫;4,數(shù)據(jù)挖掘引擎;5,模式評估模塊;6圖形用戶界面。(3)Web挖掘包括哪些步驟?答:數(shù)據(jù)清理(可能有占全過程的60%的工作量);將數(shù)據(jù)存入數(shù)據(jù)倉庫;建立數(shù)據(jù)立方體;選擇用來進行數(shù)據(jù)挖掘的數(shù)據(jù);數(shù)據(jù)挖掘(選擇適當?shù)乃惴▉碚业礁信d趣的模式);展現(xiàn)挖掘結果;將模式或者知識應用或者存入知識庫。(4 )請列舉數(shù)據(jù)挖掘應用常見的數(shù)據(jù)源。(或者說,我們都在什么樣的數(shù)據(jù)上進行數(shù)據(jù)挖掘)答:常見的數(shù)據(jù)源包括關系數(shù)據(jù)路、數(shù)據(jù)倉庫、事務數(shù)據(jù)庫和高舉數(shù)
3、據(jù)庫系統(tǒng)和信息庫。其中國際數(shù)據(jù)庫系統(tǒng)和信息庫包括:空間數(shù)據(jù)庫、時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫、流數(shù)據(jù)、多媒體數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和對象關系數(shù)據(jù)庫、異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫、文本數(shù)據(jù)庫和萬維網(wǎng)等。第二章認識數(shù)據(jù)一、填空題(1) 兩個文檔向量di和d2的值為:di = (1,0, 3, 0, 2), d2 = (3, 2, 0, 0, 1),則它們的余弦 相似度為:5/13(2) 數(shù)據(jù)離散度的常用度量包括極差 、 分位數(shù) 、 四分位數(shù) 、 百分位數(shù)四分位數(shù)極差禾口(3) 一種常用的確定離群點的簡單方法是:出落在至少高于第三個四分位數(shù)或低于第一個四分位數(shù)1.5*IQR處的值。:、單選題(1)對于下圖所示
4、的正傾斜數(shù)據(jù),中位數(shù)、平均值、眾數(shù)三者之間的關系是:A、中位數(shù)=平均值=眾數(shù);B中位數(shù) 平均值 眾數(shù); C、平均值 中位數(shù) 眾數(shù);D;眾數(shù) 中位數(shù) 平均值 選C(2 )下面的散點圖顯示哪種屬性相關性?A不相關;B正相關;C負相關;D先正相關然后負相關;選C三、簡答題(1)什么是基于像素的可視化技術?它有什么缺點?答:對于一個 M維數(shù)據(jù)集,基于像素的可視化技術在屏幕上創(chuàng)建m個窗口,每維一個。記錄的m個維值映射到這些窗口對應位置上的m個像素。像素的顏色反映對應的值?;谙袼氐目梢暬夹g的缺點;難以呈現(xiàn)對維空間的數(shù)據(jù)分布,不顯示數(shù)據(jù)子空間是否存在稠密區(qū)域。(2)對稱的和不對稱的二元屬性有什么區(qū)別?答
5、:對稱的二元屬性指變量的兩個狀態(tài)具有同等價值或相同權重;而對不對稱的二元屬性中,變量的兩個狀態(tài)的重要性是不同的,對稱的二元屬性可以使用簡單匹配系數(shù)蘋果它們的相異度;不對稱的二元屬性使用jaccard系數(shù)評估它們的相異度。第三章數(shù)據(jù)預處理一、填空題(1) 進行數(shù)據(jù)預處理時所使用的主要方法包括:數(shù)據(jù)清理_、數(shù)據(jù)集成 、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約(2) 數(shù)據(jù)概化是指:沿概念分層向上概化(3) 數(shù)據(jù)壓縮可分為:有損壓縮禾廿兩種類型。(4 )進行數(shù)值歸約時,三種常用的有參方法是:線性回歸方法、 多元回歸和二、簡答題(1)常用的數(shù)值屬性概念分層的方法有哪些?答:分箱、直方圖分析,聚類分析,基于熵的離散化和通過自然
6、劃分分段。(2)請描述主成份分析(PCA )算法步驟答:1規(guī)范化輸入的數(shù)據(jù):所有屬性落在相同的區(qū)間內(nèi);2,計算k個標準正交向量,即主成分;3,每個數(shù)據(jù)數(shù)據(jù)的向量都是這 k主成分向量的線性組合;4,主成分按照重要程度 降序排序。(3)在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方 法。答:1,忽略元組。當類標號缺少是通常這么做,當每個屬性缺省值的百分比變化很大時,他的效果非常差。2,人工填寫空缺值。這種方法工作量大,可行性低。3,使用一個全局變量填充空缺值。4,使用屬性的平均值填充空缺值。5,使用與給定元組屬同一類的所有樣本的平均值。6,使用最可能的值填充空缺值。(4
7、)常見的數(shù)據(jù)歸約策略包括哪些?答1,數(shù)據(jù)立方聚集,2,維歸約;3,數(shù)據(jù)壓縮;4,數(shù)據(jù)歸約;5,離散化和概念分層產(chǎn) 生;第六一七章挖掘頻繁模式、關聯(lián)和相關一、填空題(1 )關聯(lián)規(guī)則挖掘中,兩個主要的興趣度度量是:支持度 和 置信度(2) Aprior算法包括連接和剪枝兩個基本步驟(3) 項集的頻率是指包含項集的事務數(shù)(4 )大型數(shù)據(jù)庫中的關聯(lián)規(guī)則挖掘包含兩個過程:找出所有頻繁項集和由頻繁項集產(chǎn)生強關聯(lián)規(guī)則(5) 根據(jù)規(guī)則中所處理的值類型,關聯(lián)規(guī)則可分為:布爾關聯(lián)規(guī)則和 量化關聯(lián)規(guī)則(6)Apriori性質(zhì)是指:頻繁項集的所有非空子集也必須是頻繁的 (7 )在多維關聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁
8、項集,而是頻繁謂詞集 二、簡答題(1)簡述在多層關聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點。答:優(yōu)點:搜索是容易采用優(yōu)化策略,即一個項如果不滿足最小支持度,它的所有子項都可以不用搜索。缺點:最小支持度設置困難,太高則將丟掉出現(xiàn)在較低抽象層中有意義的關 聯(lián)規(guī)則;太低則會在較高層產(chǎn)生太多的無興趣的規(guī)則。(2)如何提高Apriori算法的有效性?有哪些常見方法?答:可以使用一下幾個思路來提升Apriori算法:減少對數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項集;改進對候選項集的支持度計算方法。常見方法包括:1,基于hash表的項集計數(shù);2,事務壓縮;3,劃分;4,選樣;5,動態(tài)項集計數(shù)。第八章分類一、
9、填空題(1) 數(shù)據(jù)分類模型的常用表示形式包括分類規(guī)則、決策樹和數(shù)學公式等。(2 )樸素貝葉斯分類是基于類條件獨立假設。二、簡答題(1 )在判定樹歸納中,為什么樹剪枝是有用的?答:決策樹建立時,血多分析反映的是訓練數(shù)據(jù)中的噪聲和離群點點,樹剪枝可以識別并剪去這種分枝,以提高對未知數(shù)據(jù)分類的準確性。(2)為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類優(yōu)缺點。答:基于貝葉斯定理的推斷需要大量訓練數(shù)據(jù)以覆蓋類條件概率空間,引入了很大開銷。樸素貝葉斯分類做了類條件獨立假設,大幅降低了計算開銷。他的優(yōu)點是容易實現(xiàn)并在大多數(shù)情況下可以取得較好的結果;他的缺陷是類條件獨立在實際應用缺乏準確性,因為變量
10、之間經(jīng)常存在依賴關系,這種依賴關系影響了樸素貝葉斯分類器的準確性。(3 )分類方法的常用評估度量都有哪些?答:精度(precision):標記為正類的元組實際為正類所占的百分比。召回率:正元組標 記為正的百分比。F量度:精度和召回率的調(diào)和評估指標。準確率,識別率:測試數(shù)據(jù)中正 被正確分類的元組所占的百分比。5,靈敏度:真正例(識別)率。6,特效性:真負例率。(4)簡述數(shù)據(jù)分類的兩步過程。答:第一步,建立模型:建立描述預先定義的數(shù)據(jù)類或概念集的分類器;第二步,在獨立 測試集上評估模型的預測準確率,通過測試后再使用模型,對新的數(shù)據(jù)進行分類。三、算法題(1)使用判定樹歸納算法,根據(jù)顧客年齡age (
11、分為3個年齡段:<18,18.23 ,>23),收入in come (取值為 high, medium, low),是否為 stude nt (取值為 yes和no),信用 credit_rating等級(取值為fair和excellent )來判定用戶是否會購買PCGame即構建判定樹buys_PCGame假設現(xiàn)有的數(shù)據(jù)經(jīng)過第一次劃分之后得到如下圖所示結果,并根據(jù)該 結果對每一個劃分中的各個屬性計算信息增益對age<18的顧客:Gai n(in come)=0.022,Gai n(stude nt)=0.162,Gai n(credit_rat in g)=0.323對ag
12、e>23的顧客:Gai n(in come)=0.042,Gai n(stude nt)=0.462,Gai n(credit_rat in g)=0.155in comestude ntcredit_rati ngclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcelle ntyesin comestude ntcredit_rati ngclasshighnofairnomediumyesfairnohighnofairnomediumyesexcelle ntyeslownoexcelle ntyesIn come
13、stude ntcredit_rat ingclasshighnofairnohighyesexcelle ntyesmediumyesfairyeslowyesfairyeslownoexcelle ntno第十章聚類分析一、填空題(1 )在數(shù)據(jù)挖掘中,常用的聚類算法包括:劃分方法 、層次方法、基于密度的方法基于網(wǎng)格的方法和基于模型的方法。(2)聚類分析常作為一個獨立的工具來獲得數(shù)據(jù)分布的情況(3 )一個好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類,具有兩個特征:高類內(nèi)相似度和低類間相似度(4) 許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結構是數(shù)據(jù)矩陣 和相似度矩陣(5) 基于網(wǎng)格的聚類方法的優(yōu)點是:處理
14、速度快 二、簡答題(1)簡述基于劃分的聚類方法。劃分的準則是什么?答:基于劃分的聚類方法: 給頂一個n個對象或元組的數(shù)據(jù)庫, 一個劃分方法構建數(shù)據(jù)的 k個劃分,每個劃分表示一個簇,丙炔k=n。劃分方法要求每個組至少包含一個對象并且每個對象屬于且僅數(shù)以一個組。聚類目標可以是最優(yōu)化某種量度,比如最小化數(shù)據(jù)點與類中心的距離平方和等。劃分準則是同一個聚類中的對象盡可能的接近或相關,不同聚類中的對象盡可能的遠離或不同。(2 )列舉離群點挖掘的常見應用。答:1,欺詐檢測;2,網(wǎng)絡入侵;3,故障診斷;4,可疑金融交易監(jiān)控;第四章數(shù)據(jù)倉庫和OLAP技術一、填空題(1) 數(shù)據(jù)倉庫的多維數(shù)據(jù)模型可以有三種不同的形
15、式,分別是:星形模式、雪花模式和事實星座模式(2) 給定基本方體,方體的物化有三種選擇:不物化 、部分物化 和全物化(3) 著名的數(shù)據(jù)倉庫系統(tǒng)設計師W. H. Inmon認為,數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)的區(qū)別的四個特征是:面向主題、數(shù)據(jù)集成、隨時間而變化 和數(shù)據(jù)不易丟失(4) 在數(shù)據(jù)訪問模式上, 數(shù)據(jù)倉庫以事務操作 為主,而日常應用數(shù)據(jù)庫則以只讀查詢?yōu)橹?。?) 數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類,分別是:分布的 、代數(shù)的和(6) 關于數(shù)據(jù)倉庫的設計,四種不同的視圖必須考慮,分別是:自上向下視圖、數(shù)據(jù)源視圖、 數(shù)據(jù)倉庫視圖、 商務查詢視圖(7) OLAP服務器的類型主要包括:關系
16、OLAP服務器、 多維OLAP服務器和 混合OLAP服務器(8 )求和函數(shù)sum()是一個 分布 的函數(shù)。(9 )方體計算的主要挑戰(zhàn)是海量數(shù)據(jù) 和 有限的內(nèi)存和時間之間的矛盾。二、簡答題(1)為什么在進行聯(lián)機分析處理 (OLAP)時,我們需要一個獨立的數(shù)據(jù)倉庫,而不是直接在 日常操作的數(shù)據(jù)庫上進行。答:使用一個獨立的數(shù)據(jù)倉庫進行OLAP處理為了以下的目的:1提高兩個系統(tǒng)的性能:操作數(shù)據(jù)庫是為了 OLTP而設計的,沒有為 OLAP操作優(yōu)化,同時在錯啊做數(shù)據(jù)庫上處理 OLAP查詢,會打打降低操作任務的性能;而數(shù)據(jù)倉庫是為了 OLAP而設計,為復雜的OLAP查詢,多維視圖,匯總等 OLAP功能提供了
17、優(yōu)化。2,兩者有著不同的功能:操作數(shù)據(jù)庫支 持多事務的并行處理,而數(shù)據(jù)倉庫往往只是對數(shù)據(jù)記錄進行只讀訪問,這是如果將事務處理的并行機制和回復機制用于這種OLAP操作,就會顯著降低 OLAP的性能。3,兩者有著不同的數(shù)據(jù):數(shù)據(jù)倉庫中存放歷史數(shù)據(jù);日常操作數(shù)據(jù)庫中存放的往往只是最新的數(shù)據(jù)。(2)為什么說數(shù)據(jù)倉庫具有隨時間而變化的特征?答:1,數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng)主要保存當前 數(shù)據(jù),而數(shù)據(jù)倉庫從歷史的角度提供信息。2,數(shù)據(jù)倉庫中的每一個關鍵結構都隱式或顯式的包含時間元素,而操作數(shù)據(jù)庫中的關鍵結構可能就不包含時間元素。(2)試述對于多個異種信息源的集成,為什么許多
18、公司寧愿使用更新驅(qū)動的方法(update-driven ),而不愿使用查詢驅(qū)動(query-driven )的方法?答:因為對于多個異種信息源的集成慢查詢驅(qū)動方法需要負責的信息過濾盒集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法, 并且對于頻繁的查詢, 特別是需要聚集操作的查詢,開銷很大,而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復雜的多維查詢。(3 )請簡述幾種典型的多維數(shù)據(jù)的OLAP操作答:上卷:通過一個維的概念分層向上攀升或者通過位規(guī)約, 在數(shù)據(jù)立方體上進行聚集; 下卷: 上卷的逆操作, 由不太詳細的數(shù)據(jù)得到更詳細
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股份制企業(yè)創(chuàng)立人合同書格式
- 建筑工程勞務分包合同
- 工程合同范本在線查閱
- 2024新版簡單食堂承包合同書范本
- 簡單股權轉(zhuǎn)讓協(xié)議書范本
- 建筑維修保養(yǎng)服務補充協(xié)議
- 2023年高考地理重點難點考點通練-服務業(yè)(原卷版)
- 1.1堅持改革開放(導學案) 2024-2025學年統(tǒng)編版道德與法治九年級上冊
- 個人投資合同協(xié)議樣本
- 生物中圖版自主訓練:第一單元第二章第二節(jié)染色體結構變異對性狀的影響
- 關于3000萬元以下建設項目前期工作咨詢收費標準的通知
- 真空電鍍常見不良現(xiàn)象及原因分析
- 銀行卡面DIY設計大賽方案
- 清水池清洗消毒方案
- 外國人換發(fā)或補發(fā)永久居留證件申請表樣本
- 人教版中職數(shù)學基礎模塊上冊--第二章不等式教案
- 上海市初級中學英語學科教學基本要求
- 開展修舊利廢活動方案
- 交流高壓架空輸電線路跨越石油天然氣管道的相關規(guī)定
- 初三全一冊單詞表漢語部分
- 《幼兒教師口語訓練》課程實訓手冊
評論
0/150
提交評論