




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一 名詞解釋1. . 數(shù)據(jù)挖掘:從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)。2. 決策樹:一個(gè)類似于流程圖的樹結(jié)構(gòu),內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性( 取值 ) 上的測(cè)試,其分支代表每個(gè)結(jié)果;其每個(gè)葉子節(jié)點(diǎn)代表一個(gè)類別,樹的最高節(jié)點(diǎn)就是根節(jié)點(diǎn)。3. 聚類:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程。4. 數(shù)據(jù)分類:從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)數(shù)據(jù)對(duì)象的共性,并將數(shù)據(jù)對(duì)象分成不同的幾類的一個(gè)過程。5. 維:透視或關(guān)于一個(gè)組織想要記錄的實(shí)體。6. 多層次關(guān)聯(lián)規(guī)則:一個(gè)關(guān)聯(lián)規(guī)則的內(nèi)容涉及不同抽象層次的內(nèi)容。7. 單層次關(guān)聯(lián)規(guī)則:一個(gè)關(guān)聯(lián)規(guī)則的內(nèi)容涉及單一個(gè)層次的內(nèi)容。8. 局外者:數(shù)據(jù)庫(kù)中可能包含一些數(shù)據(jù)對(duì)象
2、,它們與數(shù)據(jù)的一般行為或模型不一致。9. 數(shù)據(jù)倉(cāng)庫(kù):一個(gè)面向主體的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理過程的決策制定。10. 數(shù)據(jù)集市:數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門子集,它針對(duì)選定的主題,因此是部門范圍的。11. 數(shù)據(jù)區(qū)別:將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較。12. 數(shù)據(jù)特征化:目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。13. 噪聲數(shù)據(jù):指數(shù)據(jù)中存在錯(cuò)誤、異常( 偏離期望值) 的數(shù)據(jù)。14. 不完整數(shù)據(jù):感興趣的屬性沒有值。15. 不一致數(shù)據(jù):數(shù)據(jù)內(nèi)涵出現(xiàn)不一致的情況。16. 數(shù)據(jù)清洗:消除數(shù)據(jù)中所存在的噪聲以及糾正其不一致的錯(cuò)誤。17. 數(shù)據(jù)集成:將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一
3、起構(gòu)成一個(gè)完整的數(shù)據(jù)集。18. 數(shù)據(jù)消減:通過刪除冗余特征或聚類消除多余數(shù)據(jù)。19. 數(shù)據(jù)轉(zhuǎn)換:將一種格式的數(shù)據(jù)轉(zhuǎn)換為另一種格式的數(shù)據(jù)。20. 分類: 預(yù)測(cè)分類標(biāo)號(hào)(或離散值), 在分類屬性中的訓(xùn)練樣本集和值( 類標(biāo)號(hào) ) 的基礎(chǔ)上分類,數(shù)據(jù)(建立模型)并使用它分類新數(shù)據(jù)。21. 簇:是一組數(shù)據(jù)對(duì)象的集合(是由聚類所生成的)。22. 數(shù)據(jù)源:是表明數(shù)據(jù)地址的聯(lián)機(jī)字符串23. 數(shù)據(jù)源視圖:是一個(gè)抽象層們能夠讓用戶修改查看數(shù)據(jù)的方式,或者定義一個(gè)圖表并在稍后轉(zhuǎn)換實(shí)際的源。24. 一個(gè)圖表題填空:菜單欄、標(biāo)簽頁(yè)、解決方案資源管理器、屬性窗口、錯(cuò)誤窗口、設(shè)計(jì)窗口、設(shè)計(jì)標(biāo)簽。(順時(shí)針方向填寫)P82二
4、. 簡(jiǎn)答題1. 預(yù)測(cè)與分類的區(qū)別是什么分類是預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別,預(yù)測(cè)是用于數(shù)據(jù)對(duì)象的連續(xù)取值2. 數(shù)據(jù)分類由哪幾步過程組成第一步,建立一個(gè)模型,描述指定的數(shù)據(jù)類集或概念集;第二步,使用模型進(jìn)行分類。3. ID3 算法的核心是什么在決策樹各級(jí)節(jié)點(diǎn)上選擇屬性時(shí),用信息增益作為屬性的選擇標(biāo)準(zhǔn),以使得在每一個(gè)葉節(jié)點(diǎn)進(jìn)行測(cè)試時(shí)能獲得關(guān)于被測(cè)試記錄最大的類別信息。4. 為什么樸素貝葉斯分類稱為“樸素”的簡(jiǎn)述樸素貝葉斯分類的主要思想。 樸素貝葉斯分類假定一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?。該假定稱作類條件獨(dú)立。做此假定是為了簡(jiǎn)化所需計(jì)算,并在此意義下稱為“樸素的”。 設(shè)為一個(gè)類別未知的數(shù)據(jù)樣本,
5、H 為某個(gè)假設(shè),若數(shù)據(jù)樣本X 屬于一個(gè)特定的類別C, 分類問題就是決定 P (H|X),即在獲得數(shù)據(jù)樣本 X時(shí)假設(shè)成立的概率。5. 神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)和缺點(diǎn)分別是什么優(yōu)點(diǎn):其對(duì)噪音數(shù)據(jù)的高承受能力,以及它對(duì)未經(jīng)過訓(xùn)練的數(shù)據(jù)的分類能力。缺點(diǎn):需要很長(zhǎng)的訓(xùn)練時(shí)間,因而對(duì)于有足夠長(zhǎng)訓(xùn)練時(shí)間的應(yīng)用更合適。6. 典型的數(shù)據(jù)挖掘系統(tǒng)主要由哪幾部分組成數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù);數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器;知識(shí)庫(kù);數(shù)據(jù)挖掘引擎;圖形用戶界面7. OLAP與OLTP的全稱分別是什么它們兩者之間的區(qū)別是什么聯(lián)機(jī)事務(wù)處理OLTP (on-line transaction processing) ;聯(lián)機(jī)分析處理OLAP
6、(on-lineanalytical processing) ;OLT可口 OLAP的區(qū)別:用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場(chǎng);數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而 OLAP管理歷史的數(shù)據(jù);數(shù)據(jù)庫(kù)設(shè)計(jì):OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì),而OLAP系統(tǒng)通常采用星形和雪花模型;視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù);訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是復(fù)雜的查詢。8. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的區(qū)別是什么數(shù)據(jù)倉(cāng)庫(kù)收集了關(guān)于整個(gè)組織的主題
7、信息,因此是企業(yè)范圍的。對(duì)于數(shù)據(jù)倉(cāng)庫(kù),通常使用星座模式,因?yàn)樗軐?duì)多個(gè)相關(guān)的主題建模;數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門子集,它針對(duì)選定的主題,因此是部門范圍的。對(duì)于數(shù)據(jù)集市,流行星型或雪花模式,因?yàn)樗鼈兌歼m合對(duì)單個(gè)主題建模。9. 不完整數(shù)據(jù)的產(chǎn)生原因有哪些(1) 有些屬性的內(nèi)容有時(shí)沒有(2) 有些數(shù)據(jù)當(dāng)時(shí)被認(rèn)為是不必要的(3) 由于誤解或檢測(cè)設(shè)備失靈導(dǎo)致相關(guān)數(shù)據(jù)沒有記錄下來(4) 與其他記錄內(nèi)容不一致而被刪除(5) 歷史記錄或?qū)?shù)據(jù)的修改被忽略了。10. 噪聲數(shù)據(jù)的產(chǎn)生原因有哪些(1) 數(shù)據(jù)采集設(shè)備有問題(2) 在數(shù)據(jù)錄入過程中發(fā)生了人為或計(jì)算機(jī)錯(cuò)誤(3) 數(shù)據(jù)傳輸過程中發(fā)生錯(cuò)誤(4) 由于命名規(guī)
8、則或數(shù)據(jù)代碼不同而引起的不一致。11. 對(duì)遺漏數(shù)據(jù)有哪些處理方法忽略該條記錄;手工填補(bǔ)遺漏值;利用默認(rèn)值填補(bǔ)遺漏值;利用均值填補(bǔ)遺漏值;利用同類別均值填補(bǔ)遺漏值;利用最可能的值填充遺漏值。12. 數(shù)據(jù)消減的主要策略有哪些數(shù)據(jù)立方合計(jì);維數(shù)消減;數(shù)據(jù)壓縮;數(shù)據(jù)塊消減;離散化與概念層次生成。13. 數(shù)據(jù)源對(duì)象可以創(chuàng)建幾種不同的安全認(rèn)證選項(xiàng)4 種:使用特定用戶名和密碼;使用服務(wù)賬戶;使用當(dāng)前用戶的憑據(jù);默認(rèn)值。14. 數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笥心男┛缮炜s性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀的聚類;用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化;處理 “噪聲” 數(shù)據(jù)的能力;對(duì)于輸入記錄的順序不敏感;高維度; 基
9、于約束的聚類。15. 簡(jiǎn)述下列聚類算法劃分方法:給定一個(gè)n 個(gè)對(duì)象或元組的數(shù)據(jù)庫(kù),一個(gè)劃分方法構(gòu)造數(shù)據(jù)的k 個(gè)劃分,每個(gè)劃分表示一個(gè)聚類,并且k< n 。層次方法:對(duì)給定數(shù)據(jù)對(duì)象集合進(jìn)行層次的分解?;诿芏鹊姆椒ǎ褐灰桥R近區(qū)域的密度超過某個(gè)閥值,就繼續(xù)聚類?;诰W(wǎng)格的方法:把對(duì)象空間量化為有限數(shù)目的單元?;谀P偷姆椒ǎ涸噲D優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性。三 . 計(jì)算題【1.】 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,3
10、5,36,40,45,46,52,70(a) 使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度為3。(b) 使用按箱邊界值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度為3。例題如下操作:* price 的排序后數(shù)據(jù)(美元 ): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28,29, 34* 劃分為(等深的)箱:- 箱 1: 4, 8, 9, 15- 箱 2: 21, 21, 24, 25- 箱 3: 26, 28, 29, 34*用箱平均值平滑:- 箱 1: 9, 9, 9, 9- 箱 2: 23, 23, 23, 23- 箱 3: 29, 29, 29, 29- 用箱邊界值平滑:-
11、 Bin 1: 4, 4, 4, 15- Bin 2: 21,21,25, 25- Bin 3: 26, 26, 26, 34【2.】 使用以下age數(shù)據(jù):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70 ,回答以下問題:(a)使用min-max規(guī)范化,將age值35轉(zhuǎn)換到,區(qū)間。(b)使用z-score規(guī)范化轉(zhuǎn)換age值35,其中,age的標(biāo)準(zhǔn)偏差為年。(c)使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。(d)畫一個(gè)寬度為10的等寬的直方圖。例題如下操作:1 .大最小規(guī)格化:規(guī)格化對(duì)原
12、始數(shù)據(jù)進(jìn)行線性變換。假定min A和maxA分別為屬性A的最小和最大值,最大最小規(guī)格化方法通過計(jì)算將A的值v 映射到區(qū)間new _minA , new _max A中的 v'。j 同0私 jFin .f I +mis .mu 尸 min J例 假定屬性income的最小與最大值分別為 $12,000和$98,000。我們想映射income (income值為$73,600 )到區(qū)間0, 1。2曳又叫皿&ffijUUU-LljajQ2 .零均值規(guī)格化:屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化。A的值v被規(guī)范化為v',由下式計(jì)算:其中,A和b A分別為屬性A的平均值和標(biāo)準(zhǔn)差。
13、當(dāng)屬性A的最大和最小值未知,或局外者左右了最小最大規(guī)格化時(shí),該方法是有用的。- 6-例假定屬性income的平均值和標(biāo)準(zhǔn)差分別為 $54,000和$16,000。使用零均值規(guī)格化方法,彳1$73,600被轉(zhuǎn)換為什么一g" 5MMItOOtl "3.數(shù)點(diǎn)規(guī)格化:屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴于A的最大絕對(duì)值。A的值v被規(guī)范化為v',由下式計(jì)算:其中,j是使得Max(|v ' |)<1的最小整數(shù)。例假定A的值由-986到917。A的最大絕對(duì)值為986。為使用十基數(shù)變換規(guī)格化方法, -986被規(guī)范化為多少用1,000 (即,j=3)除每個(gè)
14、值。這樣,-986被規(guī)范化為。一 k汨上二的叩牌RvfKddH ttf'UrjItt, 鼻餐由林井7幃-元* H ¥ F-' IT -11 UMitll(3 4W1< flu'w* .mV .4. fin91«0ullu SHEivu/9 1w c 89» I Lm« J««tl IB !« t ti 444 4B IB I J- t i» 1El rfB - l£JC« f JBrs to>>4 78J g «H»F9* »
15、;Gt< 4C 23fjlg ivla.olto* .X® fl Vi>s9o I Jis Hi f f 3 .t I t»e < 1-A -it* 11- -a«uxd .2.15- .i.Ea 4 s S3.ke« 19 ? .¥"b .<eE <*« 7 4 -cv .>i frE-1E0 Ha Ke曇救 &NOH¥8t53 59 Jrttop I3T3- 5 S5 C9V2 .s £- Id 91YH-ti?列、?IJbwo 史(w>8 .MB b'sfi . »?- 880- 8 C3QJ cd-c?« w
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國(guó)低壓繼電器市場(chǎng)前景預(yù)測(cè)及投資規(guī)劃研究報(bào)告
- 2025年鞋用PU膠行業(yè)深度研究分析報(bào)告
- 代銷茶葉的合同范本
- 2025年B2B電子商務(wù)項(xiàng)目建議書
- 2025年智能系統(tǒng)建設(shè)政工程勞務(wù)分包設(shè)備租賃合同
- 浙教版2023小學(xué)信息技術(shù)六年級(jí)上冊(cè)2.11《韓信點(diǎn)兵篩選法的實(shí)現(xiàn)》教學(xué)設(shè)計(jì)及反思
- 2025年度預(yù)制構(gòu)件預(yù)埋件安裝與質(zhì)量控制合同
- 中國(guó)洗碗機(jī)行業(yè)市場(chǎng)前瞻與投資戰(zhàn)略規(guī)劃分析報(bào)告
- 2025年新材料研發(fā)專家團(tuán)隊(duì)勞務(wù)協(xié)議
- 2025-2030年中國(guó)制管專用乳化油行業(yè)深度研究分析報(bào)告
- 《道路建筑材料緒論》課件
- 2025年湖南現(xiàn)代物流職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 第二十章手術(shù)減肥及體形塑造美容手術(shù)美容外科學(xué)概論講解
- 2025年蘇州衛(wèi)生職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 履帶式剪叉高空作業(yè)平臺(tái)安全操作規(guī)程
- 《水稻育秧技術(shù)新》課件
- 2024-2025年第一學(xué)期初中德育工作總結(jié)
- 圍手術(shù)期手術(shù)患者護(hù)理要點(diǎn)
- 2025年大連長(zhǎng)興開發(fā)建設(shè)限公司工作人員公開招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 貨物學(xué) 課件1.3貨物的計(jì)量
- 《鈉離子電池用電解液編制說明》
評(píng)論
0/150
提交評(píng)論