




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
浙江大學(xué)遠(yuǎn)程教育學(xué)院
《數(shù)據(jù)挖掘》課程作業(yè)
姓名:皇甫旭丹學(xué)7
號(hào):
年級(jí):2023秋學(xué)習(xí)中心:奉化學(xué)習(xí)中心
第一章引言
一、填空題
(1)數(shù)據(jù)庫中的知識(shí)挖掘(KDD)涉及以下七個(gè)環(huán)節(jié):數(shù)據(jù)清理、數(shù)據(jù)集成、
數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)
表達(dá)
(2)數(shù)據(jù)挖掘的性能問題重要涉及:算法的效率、可擴(kuò)展性和并行解決
(3)當(dāng)前的數(shù)據(jù)挖掘研究中,最重要的三個(gè)研究方向是:記錄學(xué)、數(shù)據(jù)庫技
龍—和機(jī)器學(xué)習(xí)
(4)孤立點(diǎn)是指:一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)
二、簡(jiǎn)答題
(1)什么是數(shù)據(jù)挖掘?
答:數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中挖掘出那些令人感愛好的、有用的、隱含的、先前未知
的和也許有用的模式或知識(shí)。
(2)一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)涉及哪些組成部分?
答:一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)涉及以下部分:數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫、數(shù)據(jù)庫
或數(shù)據(jù)倉庫服務(wù)器、知識(shí)庫、數(shù)據(jù)挖掘引擎、模式評(píng)估模塊、圖形用戶界面。
(3)Web挖掘涉及哪些環(huán)節(jié)?
答:數(shù)據(jù)清理:(這個(gè)也許要占全過程60%的工作量);數(shù)據(jù)集成(數(shù)據(jù)存入數(shù)據(jù)倉庫建立
數(shù)據(jù)立方體,選擇用來進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù));數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉碚业礁袗酆玫?/p>
模式);展現(xiàn)挖掘結(jié)果(將模式或者知識(shí)應(yīng)用或者存入知識(shí)庫)。
(4)請(qǐng)列舉數(shù)據(jù)挖掘應(yīng)用常見的數(shù)據(jù)源。
(或者說,我們都在什么樣的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘)
答:常見的數(shù)據(jù)源涉及關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫和高級(jí)數(shù)據(jù)庫系統(tǒng)和信息庫。其
中高級(jí)數(shù)據(jù)庫系統(tǒng)和信息庫涉及:空間數(shù)據(jù)庫、時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫、流數(shù)據(jù)、多
媒體數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和對(duì)象一關(guān)系數(shù)據(jù)庫、異種數(shù)據(jù)庫和遺產(chǎn)(legacy)數(shù)據(jù)庫、文
本數(shù)據(jù)庫和萬維網(wǎng)(WWW)等。
第二章結(jié)識(shí)數(shù)據(jù)
一、填空題
(1)兩個(gè)文檔向量入和心的值為:d/=(1.0,3,0,2),心=(3,2,0,0,1),
則它們的余弦相似度為:5/13
(2)數(shù)據(jù)離散度的常用度量涉及極差、分位數(shù)、四分位
1、
百分位數(shù)四分位數(shù)極差和標(biāo)準(zhǔn)差
(3)一種常用的擬定離群點(diǎn)的簡(jiǎn)樸方法是:出落在至少高于第三個(gè)四分衛(wèi)數(shù)或低于第一
個(gè)四分衛(wèi)數(shù)1.5義IQR處的值?
二、單選題
(1)對(duì)于下圖所示的正傾斜數(shù)據(jù),中位數(shù)、平均值、眾數(shù)三者之間的關(guān)系是:
A、中位數(shù)=平均值=眾數(shù);。B中位數(shù)>平均值〉眾數(shù);
C、平均值>中位數(shù)〉眾數(shù);。D;眾數(shù)〉中位數(shù)>平均值
答:Co
(2)下面的散點(diǎn)圖顯示哪種屬性相關(guān)性?
A不相關(guān);?B正相關(guān);C負(fù)相關(guān);。D先正相關(guān)然后負(fù)相關(guān);
答:C。
三、簡(jiǎn)答題
(1)什么是基于像素的可視化技術(shù)?它有什么缺陷?
答:對(duì)于一個(gè)m維數(shù)據(jù)集,基于像素的可視化技術(shù)在屏幕上創(chuàng)建m個(gè)窗口,每維一個(gè)。記錄
的m個(gè)維值映射到這些窗口相應(yīng)位置上的m個(gè)像素。像素的顏色反映相應(yīng)的值?;谙袼氐?/p>
可視化技術(shù)特點(diǎn):難以呈現(xiàn)多維空間的數(shù)據(jù)分布,不顯示數(shù)據(jù)子空間中是否存在稠密區(qū)域。
(2)對(duì)稱的和不對(duì)稱的二元屬性有什么區(qū)別?
答:對(duì)稱的二元屬性指變量的兩個(gè)狀態(tài)具有同等價(jià)值或相同權(quán)重;而不對(duì)稱的二元屬性中,變
量的兩個(gè)狀態(tài)的重要性是不同的。對(duì)稱的二元屬性可以使用簡(jiǎn)樸匹配系統(tǒng)評(píng)估它們的相異度;
不對(duì)稱的二元屬性使用Jaccard系數(shù)評(píng)估它們的相異度。*第三章數(shù)據(jù)預(yù)解決
一、填空題
(1)進(jìn)行數(shù)據(jù)預(yù)解決時(shí)所使用的重要方法涉及:數(shù)據(jù)清理、數(shù)據(jù)集成、
數(shù)據(jù)變換和數(shù)據(jù)規(guī)約
(2)數(shù)據(jù)概化是指:沿概念分層向上概化____________________________________________
(3)數(shù)據(jù)壓縮可分為:有損壓縮和無損壓縮兩種類型。
(4)進(jìn)行數(shù)值歸約時(shí),三種常用的有參方法是:線性回歸方法、多元回歸
和對(duì)數(shù)線性模型
二、簡(jiǎn)答題
(1)常用的數(shù)值屬性概念分層的方法有哪些?
答:常用的數(shù)值屬性概念分層的方法有分箱、直方圖分析、聚類分析、基于燧的離散化和通
過臼然劃分分段。
(2)請(qǐng)描述主成份分析(PCA)算法環(huán)節(jié)
答:1)規(guī)范化輸入的數(shù)據(jù):所有屬性落在相同區(qū)間內(nèi);2)計(jì)算k個(gè)標(biāo)準(zhǔn)正交向量,即主成分;
3)每個(gè)輸入數(shù)據(jù)的向量都是這k個(gè)主成分向量的線性組合;4)主成分按照重要限度降序排
列。
(3)在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述解決該問題的各種方
法。
答:解決空缺值的方法有:1)忽略元祖。當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)設(shè)計(jì)
分類或描述),當(dāng)每個(gè)屬性缺少值的比例變化很大時(shí),它的效果非常差。2)人工填寫空缺值。
這種方法工作量大,可行性低。3)使用一個(gè)全局變量填充空缺值:比如使用unknown或-8。
4)使用屬性的平均值填充空缺值。5)使用與給定元祖屬同一類所有樣本的平均值。6)使
用最也許的值填充空缺值。如使用像Bayesian公式或鑒定樹這樣的基于推斷的方法。
(4)常見的數(shù)據(jù)歸約策略涉及哪些?
答:數(shù)據(jù)歸約策略涉及:(1)數(shù)據(jù)立方體聚集(2)維歸約(3)數(shù)據(jù)壓縮(4)數(shù)值歸約(5)
離散化和概念分層產(chǎn)生
第六一七章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)
一、填空題
(1)關(guān)聯(lián)規(guī)則挖掘中,兩個(gè)重要的愛好度度量是:支持度和置信度
(2)Aprior算法涉及連接和剪枝兩個(gè)基本環(huán)節(jié)
(3)項(xiàng)集的頻率是指包含項(xiàng)集的事務(wù)數(shù)___________________________
(4)大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘包含兩個(gè)過程:找出所有頻繁項(xiàng)集和由頻繁
項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則
(5)根據(jù)規(guī)則中所解決的值類型,關(guān)聯(lián)規(guī)則可分為:布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)
規(guī)則
(6)APriori性質(zhì)是指:頻繁項(xiàng)集的所有非空子集也必須是頻繁的
(7)在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項(xiàng)集,而是頻繁謂詞集
二、簡(jiǎn)答題
(1)簡(jiǎn)述在多層關(guān)聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺陷。
答:優(yōu)點(diǎn):搜索時(shí)容易采用優(yōu)化策略,即一個(gè)項(xiàng)假如不滿足最小支持度,它的所有子項(xiàng)都可以不
用搜索。缺陷:最小支持度值設(shè)立困難,太高則將丟掉出現(xiàn)在較低抽象層中故意義的關(guān)聯(lián)規(guī)
則;太低則會(huì)在較高層產(chǎn)生太多的無愛好的規(guī)則。
(2)如何提高Apr沁ri算法的有效性?有哪些常見方法?
答:可以使用以下幾個(gè)思緒提高Apriori算法有效性:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選
項(xiàng)集;改善對(duì)候選項(xiàng)集的支持度計(jì)算方法。常見方法涉及:a、基于hash表的項(xiàng)集計(jì)數(shù);b、
事務(wù)壓縮(壓縮進(jìn)一步迭代的事務(wù)數(shù))c、劃分;d、選樣(在給定數(shù)據(jù)的一個(gè)子集挖掘);e、動(dòng)
態(tài)項(xiàng)集計(jì)數(shù)。
第八章分類
一、填空題
⑴數(shù)據(jù)分類模型的常用表達(dá)形式涉及分類規(guī)則、決策樹和數(shù)學(xué)公式
等。
(2)樸素貝葉斯分類是基于類條件獨(dú)立假設(shè)。
二、簡(jiǎn)答題
(1)在鑒定樹歸納中,為什么樹剪枝是有用的?
答:決策樹建立時(shí),許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和離群點(diǎn)點(diǎn),樹剪枝可以辨認(rèn)并減去
這種分枝,以提高對(duì)未知數(shù)據(jù)分類的準(zhǔn)確性。
(2)為什么樸素貝葉斯分類稱為“樸素”的?簡(jiǎn)述樸素貝葉斯分類優(yōu)缺陷。
答:基于貝葉斯定理的推斷需要大量訓(xùn)練數(shù)據(jù)以覆蓋類條件概率空間,引入了很大開銷。樸
素貝葉斯分類做了類條件獨(dú)立假設(shè),大幅減少了計(jì)算開銷。他的優(yōu)點(diǎn)是容易實(shí)現(xiàn)并在大多數(shù)
情況下可以取得較好的結(jié)果;他的缺陷是類條件獨(dú)立在實(shí)際應(yīng)用中缺少準(zhǔn)確性,由于變量之
間經(jīng)常存在依賴關(guān)系;這種依賴關(guān)系影響了樸素貝葉斯分類器的準(zhǔn)確性。
(3)分類方法的常用評(píng)估度量都有哪些?
答:精度(Precision):標(biāo)記為正類的元祖實(shí)際為正類所占的比例。召回率:正元祖標(biāo)記為正
的比例。F度量:精度和召回率調(diào)和評(píng)估指標(biāo)。準(zhǔn)確率(accuracy),辨認(rèn)率:測(cè)試數(shù)據(jù)中
被對(duì)的分類的元祖所占的比例。靈敏度(Sensitivity):真正例(辨認(rèn))率?特效性(Spe
cifictiy):真負(fù)例率。
(4)簡(jiǎn)述數(shù)據(jù)分類的兩步過程。
答:第一步建立模型,建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器;第二步,在獨(dú)立測(cè)試集
上評(píng)估模型的預(yù)測(cè)準(zhǔn)確率,通過測(cè)試后再使用模型,對(duì)新的數(shù)據(jù)進(jìn)行分類。
三、算法題
(1)使用鑒定樹歸納算法,根據(jù)顧客年齡age(分為3個(gè)年齡段:V18,18.?.23,>23),
收入income(取值為high,medium,low),是否為student(取值為yes和no),信用
credit_rating等級(jí)(取值為fair和excellent)來鑒定用戶是否會(huì)購買PCGame,即
構(gòu)建鑒定樹buys_PCGame,假設(shè)現(xiàn)有的數(shù)據(jù)通過第一次劃分之后得到如下圖所示結(jié)果,并
根據(jù)該結(jié)果對(duì)每一個(gè)劃分中的各個(gè)屬性計(jì)算信息增益
對(duì)age<18的顧客:Gain(income)=0.022,Gain(student)=0.162,Gain(cr
edit_rating)=O.323
對(duì)age>23的顧客:Gain(income)=0.042,Gain(student)=0.462,Gain(cr
edit_rating)=0.155
請(qǐng)根據(jù)以上結(jié)果繪制出鑒定樹buysPCGame,來鑒定用戶是否會(huì)購買PCGame。
incostudecredit_raticlasIncomstudcredit_raclass
mentngseentting
highnofairnohighnofairno
medyesfairnohighyesexcel1yes
iument
highnofairnomedyesfairye
iums
medyesexce11entyeslowyesfairyes
ium
lownoexcellentyes1ownoexcellentno
incomestudencredit_raclass
tting
highnofairyes
mediumyesfairyes
highnofairyes
mediumyesexcellentyes
答:*第十章聚類分析
矩陣
(5)基于網(wǎng)格的聚類方法的優(yōu)點(diǎn)是:解決速度快
二、簡(jiǎn)答題
(1)簡(jiǎn)述基于劃分的聚類方法。劃分的準(zhǔn)則是什么?
答:基于劃分的聚類方法:給定一個(gè)n個(gè)對(duì)象或元祖的數(shù)據(jù)庫,一個(gè)劃分方法構(gòu)建數(shù)據(jù)的k
個(gè)劃分,每個(gè)劃分表達(dá)一個(gè)簇,并且k<=n。劃分方法規(guī)定每個(gè)組至少包含一個(gè)對(duì)象并且每個(gè)
對(duì)象屬于且僅屬于一個(gè)組。聚類目的可以是最優(yōu)化某種度量,比如最小化數(shù)據(jù)點(diǎn)與類中心的
距離平方和等。
劃分準(zhǔn)測(cè)是同一個(gè)聚類中的對(duì)象盡也許地接近或相關(guān),不同聚類中的對(duì)象盡也許的原理
或不同。
(2)列舉離群點(diǎn)挖掘的常見應(yīng)用。
答:離群點(diǎn)檢測(cè)應(yīng)用有:1、欺詐檢測(cè);2、網(wǎng)絡(luò)入侵;3、故障診斷;4、可疑金融交易監(jiān)控等
等。
第四章數(shù)據(jù)倉庫和OLAP技術(shù)
一、填空題
(1)數(shù)據(jù)倉庫的多維數(shù)據(jù)模型可以有三種不同的形式,分別是:星形模式、雪花模
式________和事實(shí)星座模式
(2)給定基本方體,方體的物化有三種選擇:不物化、部分物化和
全物化
(3)著名的數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)師W.H.Inmon認(rèn)為,數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲(chǔ)系統(tǒng)的區(qū)別
的四個(gè)特性是:是向主題、數(shù)據(jù)集成、隨時(shí)間而變化和數(shù)據(jù)不
易丟失
(4)在數(shù)據(jù)訪問模式上,數(shù)據(jù)倉庫以事務(wù)操作為主,而平常應(yīng)用數(shù)據(jù)庫則以只讀查詢
為主。
(5)數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類.分別是:分布的、
代數(shù)的和整體的
(6)關(guān)于數(shù)據(jù)倉庫的設(shè)計(jì),四種不同的視圖必須考慮,分別是:白頂向下視圖、數(shù)據(jù)源
視圖、數(shù)據(jù)倉庫視圖、商務(wù)查詢視圖
(7)0LAP服務(wù)器的類型重要涉及:關(guān)系OLAP服務(wù)器(ROLAP)、多維OLAP服務(wù)器(M
OLAP)和混合OLAP服務(wù)器(1IOLAP)____________
(8)求和函數(shù)sum()是一個(gè)分布的函數(shù)。
(9)方體計(jì)算的重要挑戰(zhàn)是海量數(shù)據(jù)和有限的內(nèi)存和時(shí)間之間的矛盾。
二、簡(jiǎn)答題
(1)為什么在進(jìn)行聯(lián)機(jī)分析解決(OLAP)時(shí),我們需要一個(gè)獨(dú)立的數(shù)據(jù)倉庫,而不是直
接在平常操作的數(shù)據(jù)庫上進(jìn)行。
答:使用一個(gè)獨(dú)立的數(shù)據(jù)倉庫進(jìn)行OLAP解決是為了以下目的:1、提高兩個(gè)系統(tǒng)的性能:
操作數(shù)據(jù)庫是為OLTP而設(shè)計(jì)的,沒有為。LAP操作優(yōu)化,同時(shí)在操作數(shù)據(jù)庫上解決OLAP
查詢,會(huì)大大減少操作任務(wù)的性能;而數(shù)據(jù)庫是為OLAP而設(shè)計(jì),為復(fù)雜的OLAP查詢,多維
視圖,匯總等OLAP功能提供了優(yōu)化。2、兩者有著不同的功能:操作數(shù)據(jù)庫支持多事務(wù)的
并行解決,而數(shù)據(jù)倉庫往往只是對(duì)數(shù)據(jù)記錄進(jìn)行只讀訪問;這是假如將事務(wù)解決的并行機(jī)制
和恢復(fù)機(jī)制用于這種OLAP操作,就會(huì)顯著減少OLAP的性能。3、兩者有著不同的數(shù)據(jù):
數(shù)據(jù)倉庫中存放歷史數(shù)據(jù);平常操作數(shù)據(jù)庫中存放的往往只是最新的數(shù)據(jù)。
(2)為什么說數(shù)據(jù)倉庫具有隨時(shí)間而變化的特性?
答:1、數(shù)據(jù)倉庫的時(shí)間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng)重要保存當(dāng)前數(shù)
據(jù),而數(shù)據(jù)倉庫從歷史的角度提供信息(比如過去5-2023)。2、數(shù)據(jù)倉庫中的每一個(gè)關(guān)鍵
結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)也許就不涉及時(shí)間元素。
(2)試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法(update-d
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)浴加盟合同范例
- 合肥鋼管出租合同范例
- 代建開發(fā)合同范本
- 識(shí)字研究課題申報(bào)書
- 天津小學(xué)課題申報(bào)書格式
- 住房公積金優(yōu)化調(diào)整讓民生更加溫暖
- 農(nóng)業(yè)機(jī)具代理合同范本
- 合同范本正版
- 上海樓梯合同范本
- 人力公司墊資合同范本
- GB/T 11661-2012煉焦業(yè)衛(wèi)生防護(hù)距離
- 《電業(yè)安全工作規(guī)程》
- 新能源概論新能源及其材料課件
- 《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)》-上課講義課件
- 化學(xué)化工專業(yè)英語1課件
- 常見眼底病基礎(chǔ)知識(shí)課件
- 中國文化概論(第三版)全套課件
- 門窗安裝技術(shù)標(biāo)投標(biāo)書
- 【思維導(dǎo)圖速記】2021年小學(xué)英語三年級(jí)下冊(cè)各單元知識(shí)點(diǎn)總結(jié)(新人教版 聯(lián)想記憶)課件
- 新版手機(jī)開發(fā)項(xiàng)目流程圖
- 折彩粽的手工制作ppt公開課
評(píng)論
0/150
提交評(píng)論