數(shù)據(jù)挖掘復(fù)習(xí)提綱_第1頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)提綱_第2頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)提綱_第3頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)提綱_第4頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)提綱_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘與統(tǒng)計(jì)決策課程復(fù)習(xí)提綱 2017.6一、 概念題(約20%)1、 概念解釋(10%)2、 是非題(10%) 概念題復(fù)習(xí)要點(diǎn):1、 數(shù)據(jù)挖掘定義?數(shù)據(jù)挖掘與經(jīng)典統(tǒng)計(jì)建模的異同點(diǎn)? 2、 聚類定義?系統(tǒng)聚類、K均值聚類、Kohonen聚類的原理與特點(diǎn)? 一般聚類數(shù)的判別?聚類結(jié)果的判別? 3、 神經(jīng)網(wǎng)絡(luò)定義?感知機(jī)模型、BP模型、RBF模型的原理與應(yīng)用特點(diǎn)(包括數(shù)據(jù)特點(diǎn)、結(jié)構(gòu)特點(diǎn)、映射特點(diǎn)、權(quán)值修正特點(diǎn)、誤差表示等)?3、 主成分分析與因子分析方法的特點(diǎn)?變量與主成分的關(guān)系?變量與公共因子的關(guān)系? 載荷因子表示公因子與變量的什么關(guān)系?載荷因子取值不同表示公因子與變量關(guān)系的哪些不同? 5、決

2、策樹(shù)方法的定義?ID3、C4.5、二叉樹(shù)方法的不同應(yīng)用特點(diǎn)?決策樹(shù)的評(píng)價(jià)標(biāo)準(zhǔn)?決策樹(shù)的前后剪枝特點(diǎn)?后剪枝的形式評(píng)價(jià)與樹(shù)結(jié)構(gòu)評(píng)價(jià)定義?6、關(guān)聯(lián)分析、時(shí)序關(guān)聯(lián)分析方法的特點(diǎn)? K項(xiàng)頻繁集(大項(xiàng)目集)、K項(xiàng)大序列的定義?最大頻繁(項(xiàng)目)集、最大序列的定義?頻繁集(大項(xiàng)目集)支持度、大序列支持度定義?關(guān)聯(lián)規(guī)則置信度、時(shí)序關(guān)聯(lián)規(guī)則置信度定義?規(guī)則提取特點(diǎn)?規(guī)則檢驗(yàn)定義?7、 遺傳算法的定義與特點(diǎn)?適應(yīng)值函數(shù)、選擇算子、交叉算子、變異算子的理論定義?一般設(shè)計(jì)形式?模式定理的結(jié)論表示?設(shè)計(jì)與計(jì)算題(約80%):二、 聚類分析:給出樣品屬性取值或變量觀察值,1)要求計(jì)算距離矩陣,并按系統(tǒng)聚類法,以兩點(diǎn)最大或

3、最小距離定義兩類相似度進(jìn)行聚類(樣本或變量聚類),2)表出聚類過(guò)程及譜系圖,并判別聚類結(jié)果。三、 主成分/因子分析: 給定變量與因子相關(guān)的載荷矩陣,在已知特征根及累計(jì)貢獻(xiàn)率大于一定比例條件下,1)要求計(jì)算或判別選擇主要變量、主要主成分、主要因子,2)用因子表示變量或用變量表示主成分。四、神經(jīng)網(wǎng)絡(luò)模型:給出已知樣本與模型設(shè)計(jì)要求,1)要求通過(guò)樣本學(xué)習(xí)和權(quán)值修正獲取模型參數(shù),建立神經(jīng)網(wǎng)絡(luò)模型(BP、RBF、感知機(jī)等),2)應(yīng)用建立的模型進(jìn)行檢驗(yàn)、分類或預(yù)測(cè)。五、決策樹(shù)分析:給出某樣本集,1)要求利用ID3算法或C4.5算法或二叉樹(shù)算法,判別節(jié)點(diǎn)與分枝,建立決策樹(shù)。 2)給定檢驗(yàn)樣本集,對(duì)建立決策樹(shù)

4、進(jìn)行檢驗(yàn)。 3)在假定條件下,對(duì)決策樹(shù)進(jìn)行剪枝判別,計(jì)算剪枝形式與剪枝結(jié)構(gòu)評(píng)價(jià)。 六、1)關(guān)聯(lián)分析:給出N個(gè)事務(wù)對(duì)應(yīng)的物品項(xiàng)、最少支持度和最少可信度,要求用AP方法求最大頻繁集和指定項(xiàng)目條件的關(guān)聯(lián)規(guī)則。 2)時(shí)序關(guān)聯(lián)分析:給出N個(gè)時(shí)間顧客的事務(wù)對(duì)應(yīng)的物品項(xiàng),最少支持度和最少可信度,要求用AP-G方法求最大序列和指定條件的時(shí)序關(guān)聯(lián)規(guī)則。 3) 給定檢驗(yàn)樣本集,要求對(duì)提取規(guī)則進(jìn)行檢驗(yàn),要求計(jì)算檢驗(yàn)的誤差。 七、遺傳算法:1)給出N個(gè)個(gè)體組成的種群,在指定或設(shè)計(jì)適值函數(shù)下,進(jìn)行選擇、交叉與變異運(yùn)算;2)給出某一問(wèn)題,要求設(shè)計(jì)基因、個(gè)體和種群,并針對(duì)問(wèn)題設(shè)計(jì)合理的適應(yīng)值函數(shù),設(shè)計(jì)合適的選擇、交叉與變異

5、算子。參考試題形式:一. 概念描述1數(shù)據(jù)挖掘是指 2遺傳算法中的適應(yīng)值函數(shù)是指 3. K-均值聚類是指 4. BP神經(jīng)網(wǎng)絡(luò)是指 5時(shí)序關(guān)聯(lián)分析是指 二. 是非題1. 數(shù)據(jù)倉(cāng)庫(kù)不一定要有數(shù)據(jù)挖掘方法的支持。( )2. 系統(tǒng)聚類中,可以按兩類的最大或最小相似度逐步歸并直至為一類。( ) 3. K-均值聚類中,若給定類中心調(diào)整次數(shù)為終止條件,則初始類中心選擇對(duì)聚類結(jié)果有影響。( )5 決策樹(shù)的CART算法,是通過(guò)信息增益率最大來(lái)選擇測(cè)試屬性。( )6. 在同一實(shí)例集下,具有深度越小、葉結(jié)點(diǎn)數(shù)越多的決策樹(shù)越優(yōu)。( )7 時(shí)序關(guān)聯(lián)分析的Apriori-G 方法的最大序列一定包含客戶標(biāo)識(shí)。( )8. RB

6、F神經(jīng)網(wǎng)絡(luò)的輸入層到隱層的映射是線性的。( )9、5. 具有S型映射函數(shù)的BP神經(jīng)網(wǎng)絡(luò)的輸出變量取值一定要變換到區(qū)間0,1中。( )10、11關(guān)聯(lián)分析的最大頻繁集是唯一的。( )四、 設(shè)有五個(gè)樣本,每樣本有n個(gè)指標(biāo),第i樣本用類表示,兩兩之間的歐氏距離陣如下所示,試1)按最小距離聚類,表出聚類過(guò)程及聚類譜系圖,2)從聚類譜系圖中,通過(guò)類間距離求最合適的聚類類數(shù)。 0 1 0 3 5 0 4 7 2.5 0 6 2 5 8 0四1、設(shè)f(x)=x2, x5,30, 設(shè)想通過(guò)遺傳算法求f(x)最小值。若個(gè)體為二進(jìn)制表示,初始個(gè)體如下,請(qǐng)?jiān)O(shè)計(jì)適值函數(shù),并按要求填寫(xiě)下表 個(gè)體號(hào)初始個(gè)體初始個(gè)體的編碼表

7、示適應(yīng)度復(fù)制數(shù)(整數(shù))隨機(jī)交叉?zhèn)€體號(hào)隨機(jī)交叉點(diǎn)為3時(shí)的交叉結(jié)果順序抽取染色體,按變異概率10%、隨機(jī)變異點(diǎn)為2實(shí)施變異的結(jié)果12711011221301101131910011448010003 2、設(shè)產(chǎn)品質(zhì)量有質(zhì)量指標(biāo)為Y1,Y2YM ,影響質(zhì)量的因素變量為X1,X2,XN,標(biāo)準(zhǔn)質(zhì)量指標(biāo)為Z1,Z2ZM,設(shè)想通過(guò)遺傳算法求一組最優(yōu)組合x(chóng)1,x2,xN,如果采用實(shí)數(shù)編碼,要求為這樣的遺傳算法設(shè)計(jì)1)基因與個(gè)體表示;2)種群表示;3)適值函數(shù)表示。五、設(shè)A,B,C,D,E分別表示五種物品,要求通過(guò)以下五項(xiàng)業(yè)務(wù)應(yīng)用apriori算法分析五種物品的關(guān)聯(lián)程度,求:1)若最少支持度為0.3,求最大頻繁集

8、;2)若最少支持度為0.4,求任兩項(xiàng)集出現(xiàn)而導(dǎo)致另一項(xiàng)集出現(xiàn)的關(guān)聯(lián)規(guī)則。業(yè)務(wù)標(biāo)識(shí) 物品 1 ACDE 2 BCD 3 A 4 CDE 5 ABCD六、設(shè)每個(gè)肺病例有五種癥狀:發(fā)燒(無(wú)、低、中度、高),咳嗽(輕微、中度、劇烈),X光所見(jiàn)陰影(點(diǎn)狀、索條狀、片狀、空洞),血沉(正常、快),聽(tīng)診(正常、干鳴音、水泡音),肺炎和肺結(jié)核部分病例集見(jiàn)下表,試用決策樹(shù)的ID3算法識(shí)別根節(jié)點(diǎn)對(duì)應(yīng)的癥狀及分支樣本(分支樣本用樣本號(hào)表示)。樣本號(hào) 病狀病例號(hào)發(fā)燒咳嗽 X光所見(jiàn)血沉聽(tīng)診肺炎1高劇烈片狀正常水泡音2中度劇烈片狀正常水泡音3低輕微點(diǎn)狀正常干鳴音4高中度片狀正常水泡音5中度輕微片狀正常水泡音肺結(jié)核6無(wú)輕微索條狀正常正常7高劇烈空洞快干鳴音8低輕微索條狀正常正常9無(wú)輕微點(diǎn)狀快干鳴音10低中度片狀快正常七、設(shè)在開(kāi)發(fā)某企業(yè)的DSS中,利用神經(jīng)網(wǎng)絡(luò)模型輔助投資方案選擇。以X1、X2、X3分別表示三個(gè)評(píng)價(jià)投資方案指標(biāo)的定義值,Y表示選擇結(jié)果。已知兩個(gè)樣本的取值如下: X1 X2 X3 Y1 0 1 11 1 1 1假設(shè)閾值為0,且連接權(quán)初始值為0,調(diào)整因子=1。要求: 建立輔助投資方案決策的感知機(jī)模型; 當(dāng)投資方案指標(biāo)為(X1,X2,X3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論