




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程實(shí)驗(yàn)本實(shí)驗(yàn)是數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程的驗(yàn)證性實(shí)驗(yàn)環(huán)節(jié)課程共計(jì) 8 學(xué)時(shí)。·實(shí)驗(yàn)?zāi)繕?biāo) :1、掌握建立和配置數(shù)據(jù)倉(cāng)庫(kù)的基本操作技能。主要包括數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的安 裝。2、掌握數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的處理技術(shù)。主要包括數(shù)據(jù)倉(cāng)庫(kù)的建模、事務(wù)數(shù)據(jù)的 轉(zhuǎn)換、備份數(shù)據(jù)的恢復(fù)。3、掌握基于數(shù)據(jù)倉(cāng)庫(kù)的自動(dòng)數(shù)據(jù)分析技術(shù)的基本操作技能。包括多維數(shù)據(jù)分 析和數(shù)據(jù)挖掘。4、掌握一種專用數(shù)據(jù)挖掘軟件 ,用以分析處理文本或電子表格的數(shù)據(jù)。實(shí)驗(yàn)環(huán)境:l Microsoft SQLServer2000l Microsoft SQLServer2000 Analysis Servcel DBMiner2.0l
2、Microsoft SQLServer2000 PACK4l JAVA 運(yùn)行時(shí)環(huán)境 :JRE5.0l WEKA3.55實(shí)驗(yàn)項(xiàng)目:l 實(shí)驗(yàn) 1:安裝數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)平臺(tái) 1.5 學(xué)時(shí)l 實(shí)驗(yàn) 2:構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)環(huán)境 1.5 學(xué)時(shí)l 實(shí)驗(yàn) 3:多維數(shù)據(jù)分析 1.5 學(xué)時(shí)l 實(shí)驗(yàn) 4:基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘?qū)嶒?yàn) 2.0 學(xué)時(shí)l 實(shí)驗(yàn) 5:數(shù)據(jù)挖掘平臺(tái)應(yīng)用實(shí)驗(yàn) 1.5 學(xué)時(shí)實(shí)驗(yàn) 1:安裝數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)平臺(tái)l 實(shí)驗(yàn)任務(wù) :1. 掌握 Microsoft Server2000 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的安裝與配置2. 安裝實(shí)驗(yàn)分析環(huán)境 :1 安裝 Microsoft Server2000 analysis Service
3、2 安裝 DBMiner2.03 安裝 Java運(yùn)行時(shí)環(huán)境 JRE5.04 安裝 WEKAl 實(shí)驗(yàn)準(zhǔn)備 :請(qǐng)從黑板或網(wǎng)上獲取安裝文件所在的網(wǎng)絡(luò)地址。并記在下面 :網(wǎng)絡(luò)資料的地址是 :本實(shí)驗(yàn)不得超過(guò) 1.5 學(xué)時(shí)。l 實(shí)驗(yàn)指導(dǎo) :Lab1.1檢查并安裝 Microsoft Server2000單元目標(biāo) :確保完整正確的數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)環(huán)境工作步驟:1. 檢查你所使用的電腦上是否有 Microsoft Server2000。如果有 ,啟動(dòng)并檢查 Microsoft Server2000 是否安裝了 Server Pack3以上的補(bǔ)丁文件。2. 如果以上都沒(méi)問(wèn)題 ,則本實(shí)驗(yàn)結(jié)束。3. 下載相應(yīng)的系統(tǒng)文件
4、安裝。先安裝 Microsoft Server2000,再安裝 Server Pack3 或 Server Pack4。Lab1.2檢查并安裝數(shù)據(jù)分析環(huán)境單元目標(biāo) :確保安裝了相應(yīng)的數(shù)據(jù)分析軟件工作步驟:1. 檢查你所使用的電腦是否安裝了 Microsoft Server2000 analysisService,DBMiner2.0, JRE5.0, WEKA3.5.5。如果都已安裝且能正常運(yùn)行,則本實(shí)驗(yàn)結(jié)束。否則進(jìn)入以下步驟。2. 如果沒(méi)有安裝以上軟件。請(qǐng)按以下次序從網(wǎng)絡(luò)資料地址上下載軟件完成安裝。完成 Lab1.1 和 Lab1,2后,本實(shí)驗(yàn)結(jié)束。實(shí)驗(yàn) 2:構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)環(huán)境l 實(shí)驗(yàn)任務(wù)
5、 :本實(shí)驗(yàn)主要驗(yàn)證 ETL 的數(shù)據(jù)處理過(guò)程。主要實(shí)驗(yàn)任務(wù)有 :1. 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)模型 ,并在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中生成相應(yīng)的數(shù)據(jù)表。2. 將事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)入數(shù)據(jù)倉(cāng)庫(kù)中。3. 還原備份和還原的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。l 實(shí)驗(yàn)準(zhǔn)備 :請(qǐng)從黑板或網(wǎng)上獲取數(shù)據(jù)文件所在的網(wǎng)絡(luò)地址。并記在下面 :數(shù)據(jù)文件的地址是 :本_ 實(shí)驗(yàn)不得超過(guò) 1.5 學(xué)時(shí)。本實(shí)驗(yàn)將使用 Microsoft SQLserver 的示例數(shù)據(jù)庫(kù) :Northwind, 這是一個(gè)商貿(mào)公司 的銷售數(shù)據(jù)庫(kù)。我們將這個(gè)事務(wù)型的數(shù)據(jù)導(dǎo)入到分析型的數(shù)據(jù)倉(cāng)庫(kù)中去。l 實(shí)驗(yàn)指導(dǎo) :Lab2.1用 caseStudio2.15建 立數(shù)據(jù)倉(cāng)庫(kù)的星型模型單元目標(biāo)
6、:建立 Northwind_DW 的數(shù)據(jù)倉(cāng)庫(kù)模型。如下圖所示。并根據(jù)該模型生成相應(yīng)的 數(shù)據(jù)倉(cāng)庫(kù)的維表和事實(shí)表的結(jié)構(gòu)。工作步驟:1. 按下圖樣式建立 Northwind_DW 的昨型數(shù)據(jù)模型 ,請(qǐng)根據(jù)原事務(wù)數(shù)據(jù)庫(kù)中相應(yīng)字段的數(shù)據(jù)類型和寬度 ,對(duì)應(yīng)地設(shè)計(jì)相應(yīng)字段的數(shù)據(jù)類型和寬度2. 安裝并啟動(dòng) CaseStudio2.15設(shè), 計(jì)以上模型。3. 運(yùn)行生成腳本 (Generate script生成相應(yīng)的 SQL 代碼。Lab2.2將事務(wù)型數(shù)據(jù)加載到分析數(shù)據(jù)環(huán)境中單元目標(biāo) :根據(jù)以上實(shí)驗(yàn)單元建立的數(shù)據(jù)模型 ,在 MicrosoftSQL2000 中建立相應(yīng)的物理數(shù) 據(jù)倉(cāng)庫(kù)。工作步驟:1. 請(qǐng)從教師課件
7、中 “數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 ”目錄下的 Lab2008中下載文檔“多維數(shù)據(jù)分析操作演練 .pdf ”2. 用 Adobe reader打開(kāi)該文檔。3. 在數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建部分 ,可以使用 Lab2.1中的模型進(jìn)行創(chuàng)建和轉(zhuǎn)化4. 按照上面所列步驟進(jìn)行操作。最終完成事實(shí)表和維表的數(shù)據(jù)轉(zhuǎn)移Lab2.3數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的備份與恢復(fù)單元目標(biāo) :1. 將已生成的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行備份。2. 利用備份文件向新的數(shù)據(jù)庫(kù)中還原數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。工作步驟:1、備份打開(kāi) Sqlserver企業(yè)管理器 ,在需要備份的數(shù)據(jù)庫(kù)上點(diǎn)鼠標(biāo)右鍵 ,所有任務(wù)中選備 份數(shù)據(jù)庫(kù)。再?gòu)?Sqlserver安裝目錄中的 Data目錄下 ,拷貝出要
8、備份的數(shù)據(jù)庫(kù)文件 *.mdf,*.ldf, 并備份這兩個(gè)文件2、還原將要還原的數(shù)據(jù)庫(kù)文件 *.mdf,*.ldf 拷貝到 Sqlserver安裝目錄下的 Data 目錄 下。打開(kāi) Sqlserver企業(yè)管理器 ,新建一個(gè)數(shù)據(jù)庫(kù) ,在數(shù)據(jù)庫(kù)這一項(xiàng)上點(diǎn)鼠標(biāo)右鍵 ,在所 有任務(wù)中選導(dǎo)入數(shù)據(jù)庫(kù) ,以拷貝到 Data目錄下的 mdf 恢復(fù)數(shù)據(jù)庫(kù)。還原過(guò)程中 ,如果有什么異常 ,請(qǐng)參考 “數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 上機(jī) ”目錄下的 “數(shù)據(jù)倉(cāng)庫(kù)實(shí)習(xí)指導(dǎo) .pdf ”中的還原部分的內(nèi)容。實(shí)驗(yàn) 3:多維數(shù)據(jù)分析l 實(shí)驗(yàn)任務(wù) :本實(shí)驗(yàn)主要驗(yàn)證 OLAP 多維分析的過(guò)程。主要包括完成 OLAP 數(shù)據(jù)庫(kù)的創(chuàng)建 , 多維
9、數(shù)據(jù)集的創(chuàng)建。存儲(chǔ)和處理多維數(shù)據(jù) ,瀏覽多維數(shù)據(jù)集等實(shí)驗(yàn)任務(wù)。l 實(shí)驗(yàn)準(zhǔn)備 :本實(shí)驗(yàn)使用的操作參考為 Lab2.2中下載的文檔 , “多維數(shù)據(jù)分析操作演 練 .pdf 。”本實(shí)驗(yàn)不得超過(guò) 1.5 學(xué)時(shí)。l 實(shí)驗(yàn)指導(dǎo) :Lab3.1多維數(shù)據(jù)分析實(shí)驗(yàn)單元目標(biāo) :1.掌握 Microsoft analysis Service的中對(duì) OALP 數(shù)據(jù)庫(kù)的操作步驟2. 在使用過(guò)程中熟悉和理解相應(yīng)的概念。工作步驟:1.在“多維數(shù)據(jù)分析操作演練 .pdf 中”從 P85 開(kāi)始進(jìn)行相應(yīng)的操作演練。2.在實(shí)驗(yàn)過(guò)程中 ,如果對(duì)相應(yīng)的操作還不是很理解 ,請(qǐng)?jiān)?”數(shù)據(jù)倉(cāng)庫(kù) 與數(shù)據(jù)挖掘技術(shù) 上機(jī) ”目錄下有 “Sqlse
10、rve數(shù)r 據(jù)分析 .rar 文”檔 ,解 壓后 ,有詳細(xì)的幫助和演練信息。實(shí)驗(yàn) 4:基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘?qū)嶒?yàn)l 實(shí)驗(yàn)任務(wù) :1.基于 Microsoft SQLserver2000 Analyses Service的數(shù)據(jù)挖掘模型對(duì)數(shù)據(jù) 倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行決策樹(shù)分析和聚類分析 ;2.使用 DBMiner2.0 對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行聚類、關(guān)聯(lián)分析3. 使用 DBMiner2.0 對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析進(jìn)行可視化。l 實(shí)驗(yàn)準(zhǔn)備 :本實(shí)驗(yàn)的實(shí)驗(yàn)指導(dǎo)參考資料在網(wǎng)上 ,請(qǐng)下載參考。本實(shí)驗(yàn)不得超過(guò) 1.5 學(xué)時(shí)。l 實(shí)驗(yàn)指導(dǎo) :Lab4.1 基于 Microsoft SQLserver2000 Analy
11、ses Service的數(shù)據(jù)挖掘單元目標(biāo) :掌握 Microsoft SQLserver2000 Analyses Service的數(shù)據(jù)挖掘模型的使用步驟工 作步驟:請(qǐng)?jiān)凇睌?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 上機(jī) ”目錄下有 “Sqlserve數(shù)r 據(jù)分析 .rar 文”檔, 解壓后,按下圖所指 ,完成“數(shù)據(jù)挖掘”的演練。Lab4.2 基于 DBMiner2.0 的數(shù)據(jù)挖掘 (選做單元目標(biāo) :掌握 DBminer2.0 對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行可視化分類、聚類、關(guān)聯(lián)分析 由于時(shí)間有限 ,指導(dǎo)教師將進(jìn)行一些現(xiàn)場(chǎng)的演練指導(dǎo)。工作步驟:1. 在”數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) ”目錄下下載相應(yīng)的操作手冊(cè)“ DBMiner
12、Manual.pdf 文”檔 ,閱讀第一、二章。2. 對(duì)多維數(shù)據(jù)集進(jìn)行可視化分析。 (chapter 43. 對(duì)多維數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析。 (chapter 64. 對(duì)多維數(shù)據(jù)集進(jìn)行分類挖掘。 (chapter 75. 對(duì)多維數(shù)據(jù)集進(jìn)行聚類分析。 (chapter 8實(shí)驗(yàn) 5:數(shù)據(jù)挖掘平臺(tái)應(yīng)用實(shí)驗(yàn)l 實(shí)驗(yàn)任務(wù) :1.熟悉 WEKA 數(shù)據(jù)挖掘平臺(tái)的基本功能。2.能夠?qū)Υ嬗谖谋净螂娮颖砀裰械臄?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析3. 本實(shí)驗(yàn)為選做 ,對(duì)畢業(yè)論文分析數(shù)據(jù)有利用價(jià)值。l 實(shí)驗(yàn)準(zhǔn)備 :1.下載 Java運(yùn)行時(shí)環(huán)境 JRE1.5。2.下載 WEKA 并安裝運(yùn)行3. 在”數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)”目錄下下載 “W
13、EKA中文使用手冊(cè) .pdf ”有,較詳細(xì)的使用說(shuō)明4. 所需要的數(shù)據(jù)存放在 “數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)WEKA_DAT”A下。l 實(shí)驗(yàn)指導(dǎo) :Lab5.1用 WEKA 進(jìn)行決策樹(shù)分析單元目標(biāo) :掌握 WEKA 進(jìn)行決策樹(shù)分析的步驟。工作步驟:WEKA 把分類 (Classification 和回歸 (Regression都放在 “ Classify選項(xiàng)”卡中 ,這是 有原因的。在這兩個(gè)任務(wù)中 ,都有一個(gè)目標(biāo)屬性 (輸出變量。我們希望根據(jù)一個(gè)樣本 (WEKA 中稱作實(shí)例的一組特征 (輸入變量 ,對(duì)目標(biāo)進(jìn)行預(yù)測(cè)。為了實(shí)現(xiàn)這一目的 ,我們需要有 一個(gè)訓(xùn)練數(shù)據(jù)集 ,這個(gè)數(shù)據(jù)集中每個(gè)實(shí)例的輸入和輸出都是
14、已知的。觀察訓(xùn)練集中 的實(shí)例 ,可以建立起預(yù)測(cè)的模型。有了這個(gè)模型 ,我們就可以新的輸出未知的實(shí)例進(jìn) 行預(yù)測(cè)了。衡量模型的好壞就在于預(yù)測(cè)的準(zhǔn)確程度。在 WEKA 中 ,待預(yù)測(cè)的目標(biāo) (輸出被 稱作 Class屬性,這應(yīng)該是來(lái)自分類任務(wù)的 “類”。一般的,若 Class屬性是分類型時(shí)我 們的任務(wù)才叫分類 ,Class屬性是數(shù)值型時(shí)我們的任務(wù)叫回歸。選擇算法我們使用 C4.5 決策樹(shù)算法對(duì) bank-data建立起分類模型。我們來(lái)看原來(lái)的 “ban-kdata.csv 文”件。 “ ID屬”性肯定是不需要的。由于 C4.5算法可以處理數(shù)值型的 屬性,我們不用像前面用關(guān)聯(lián)規(guī)則那樣把每個(gè)變量都離散化成
15、分類型。盡管如此,我們還是把 “Children屬”性轉(zhuǎn)換成分類型的兩個(gè)值 “YES”和“NO”。另 外 ,我們的訓(xùn)練集僅取原來(lái)數(shù)據(jù)集實(shí)例的一半 ;而從另外一半中抽出若干條作為待預(yù) 測(cè)的實(shí)例 ,它們的 “pep屬”性都設(shè)為缺失值。經(jīng)過(guò)了這些處理的訓(xùn)練集數(shù)據(jù)在這里下 載;待預(yù)測(cè)集數(shù)據(jù)在這里下載。我們用 “Explorer打”開(kāi)訓(xùn)練集 “bank.arff 觀”察,一下它是不是按照前面的要求處 理好了。切換到 “Classify選”項(xiàng)卡 ,點(diǎn)擊 “Choose按”鈕后可以看到很多分類或者回歸 的算法分門別類的列在一個(gè)樹(shù)型框里。3.5 版的 WEKA 中,樹(shù)型框下方有一個(gè) “Filter.按鈕”,點(diǎn)
16、擊可以根據(jù)數(shù)據(jù)集的特性過(guò)濾掉不合適的算法。我們數(shù)據(jù)集的輸入屬性中有 “Binary型”( 即只有兩個(gè) 類的分類型和數(shù)值型的屬性 ,而 Class變量是 “Binary的”;于是我們勾選 “Binary attributes ”“ Numeric attri和bu“tesBinary” class。 ”點(diǎn)“OK”后回到樹(shù)形圖 ,可以發(fā)現(xiàn)一些算法名稱變紅了 ,說(shuō)明它們不能用。選擇 “ trees下”的“ J48這”就,是我們需要的 C4.5 算法,還好它沒(méi)有變紅。點(diǎn)擊 “Choose右”邊的文本框 ,彈出新窗口為該算法設(shè)置各種參數(shù)。點(diǎn) “More”查 看參數(shù)說(shuō)明 ,點(diǎn)“Capabilities是查
17、”看算法適用范圍。這里我們把參數(shù)保持默認(rèn)?,F(xiàn)在 來(lái)看左中的 “Test Option?!蔽覀儧](méi)有專門設(shè)置檢驗(yàn)數(shù)據(jù)集 ,為了保證生成的模型的準(zhǔn) 確性而不至于出現(xiàn)過(guò)擬合 (overfitting 的現(xiàn)象 ,我們有必要采用 10 折交叉驗(yàn)證 (10-fold cross validation來(lái)選擇和評(píng)估模型。若不明白交叉驗(yàn)證的含義可以 Google 一下。建 模結(jié)果 OK,選上“Cros-svalidation 并”在“Folds框”填上 “10?!秉c(diǎn)“Start按”鈕開(kāi)始讓算 法生成決策樹(shù)模型。很快 ,用文本表示的一棵決策樹(shù) ,以及對(duì)這個(gè)決策樹(shù)的誤差分析 等等結(jié)果出現(xiàn)在右邊的 “Classifie
18、r output中。同”時(shí)左下的 “Results list出現(xiàn)”了一個(gè)項(xiàng) 目顯示剛才的時(shí)間和算法名稱。如果換一個(gè)模型或者換個(gè)參數(shù),重新“Start一”次 ,則“ Results list又會(huì)多”出一項(xiàng)。我們看到 “ J48算”法交叉驗(yàn)證的結(jié)果之一為 Correctly Classified Instances 206 68.6667 % 也就是說(shuō)這個(gè)模型的準(zhǔn)確度只有 69%左右也許我們需要對(duì)原屬性進(jìn)行處理 ,或者修改算法的參數(shù)來(lái)提高準(zhǔn)確度。但這里 我們不管它 ,繼續(xù)用這個(gè)模型。右鍵點(diǎn)擊 “ Results list剛才”出現(xiàn)的那一項(xiàng) ,彈出菜單中選擇 “Visualize tree新窗”,
19、口里可以看到圖形模式的決策樹(shù)。建議把這個(gè)新窗口最大化,然后點(diǎn)右鍵 ,選“Fit toscreen ”可,以把這個(gè)樹(shù)看清楚些。看完后截圖或者關(guān)掉。這里我們解釋一下 “Confusion Matrix的”含義。= Confusion Matrix =a b <- classified as74 64 | a = YES30 132 | b = NO這個(gè)矩陣是說(shuō) ,原本“pep是”“YES”的實(shí)例,有 74個(gè)被正確的預(yù)測(cè)為 “YES”有,64 個(gè)錯(cuò)誤的預(yù)測(cè)成了 “NO”原;本“pep是”“NO”的實(shí)例,有 30個(gè)被錯(cuò)誤的預(yù)測(cè)為 “YES”, 有 132 個(gè)正確的預(yù)測(cè)成了 “NO”。74+64+
20、30+132 = 300 是實(shí)例總數(shù) ,而(74+132/300 = 0.68667正好是正確分類的實(shí)例所占比例。這個(gè)矩陣對(duì)角線上的數(shù)字越大 ,說(shuō)明預(yù)測(cè)得越好。模型應(yīng)用現(xiàn)在我們要用生成的模型對(duì)那些待預(yù)測(cè)的數(shù)據(jù)集進(jìn)行預(yù)測(cè)了,注意待預(yù)測(cè)數(shù)據(jù)集和訓(xùn)練用數(shù)據(jù)集各個(gè)屬性的設(shè)置必須是一致的。WEKA 中并沒(méi)有直接提供把模型應(yīng)用到帶預(yù)測(cè)數(shù)據(jù)集上的方法 ,我們要采取間 接的辦法。Test Opion中選”擇 “ Supplied test set并且 “”S,e成t ”“ ban-knew.arff 文”件。重新“Start一”次。注意這次生成的模型沒(méi)有通過(guò)交叉驗(yàn)證來(lái)選擇 ,“Classifier outpu
21、t 給”出的誤差分析也沒(méi)有多少意義。這也是間接作預(yù)測(cè)帶來(lái)的缺陷吧?,F(xiàn)在 , 右鍵點(diǎn)擊“Result list中剛”產(chǎn)生的那一項(xiàng) ,選擇“Visualize classifier errors。我們不”去 管新窗口中的圖有什么含義 ,點(diǎn)“Save按”鈕,把結(jié)果保存成“ban-kpredicted.arff 。這”個(gè) ARFF 文件中就有我們需要的預(yù)測(cè)結(jié)果。在 “Explorer的”“Preproces選s 項(xiàng)”卡中打開(kāi) 這個(gè)新文件 ,可以看到多了兩個(gè)屬性“Instance_numbe和r ”“predictedpep ”“ Instance_nu是m指be一r ”個(gè)實(shí)例。在原 “ ban-kne
22、w.arff 文”件中的位置, “predictedpep就是”模型預(yù)測(cè)的結(jié)果。點(diǎn) “ Edit按”鈕 或者在“ArffViewer?!眽K中打開(kāi)可以查看這個(gè)數(shù)據(jù)集的內(nèi)容。 比如,我們對(duì)實(shí)例 0 的 pep 預(yù)測(cè)值為“YES”, 對(duì)實(shí)例 4 的預(yù)測(cè)值為“NO”使 。用命令行(推薦)雖然 使用圖形界面查看結(jié)果和設(shè)置參數(shù)很方便,但是最直接最 靈活的建模及應(yīng)用的辦 法仍是使用命令行。打開(kāi)“Simple CLI?!眽K,像上面那樣使用“J48算”法的命令格 式為: java weka.classifiers.trees.J48 -C 0.25 -M 2 -t directory-pathbank.arff
23、 -d directory-path bank.model 其中參數(shù)“- C 0.25 和”“-M 2”是和圖形界面中所設(shè)的一樣 的?!?t 后”面跟著的是訓(xùn)練數(shù)據(jù)集的完整路徑(包括目錄和文件名),“-d ”后 面跟著的是保存模型的完整路徑。 注意!這里我們可以把模型保存下來(lái)。 輸入上述 命令后,所得到樹(shù)模型和誤差分析會(huì)在 “Simple CLI上”方顯示,可以復(fù)制下來(lái)保存 在文本文件里。誤差是把模型應(yīng)用到訓(xùn)練集上給出的。 把這個(gè)模型應(yīng)用到 “ ban-knew.arff 所”用 命令的格式為: java weka.classifiers.trees.J48 -p 9 -l directory
24、-pathbank.model -T directory-path bank-new.arff 其中“-p 9 ”說(shuō) 的是模型中 的 Class 屬性是第 9 個(gè)(也就是“pep,”) “-l ”后面是模型的完整路徑, “-T”后面 是待預(yù)測(cè)數(shù)據(jù)集的完整路徑。 輸入上述命令后,在“Simple CLI上”方會(huì)有這樣一些 結(jié)果: 0 YES 0.75 ? 1 NO 0.7272727272727273 ? 2 YES 0.95 ? 3 YES 0.8813559322033898 ? 4 NO 0.8421052631578947 ? .這. 里的第一列就是我們提到過(guò) 的“ Instance_n
25、umber,”第 二列就是剛才的“predictedpep,”第 四列則是“ban-k new.arff 中”原來(lái)的“pep值”(這里都是“?缺”失值) 。第三列對(duì)預(yù)測(cè)結(jié)果的置信度 (confidence ) 。比如說(shuō)對(duì)于實(shí)例 0,我們有 75%的把握說(shuō)它的“pep的”值會(huì)是 “YES”, 對(duì)實(shí)例 4 我們有 84.2%的把握說(shuō)它的“pep值”會(huì)是“NO”。 我們看到,使 用命令行至少有兩個(gè)好處。一個(gè)是可以把模型保存下來(lái),這樣有 新的待預(yù)測(cè)數(shù)據(jù) 出現(xiàn)時(shí),不用每次重新建模,直接應(yīng)用保存好的模型即可。另一 個(gè)是對(duì)預(yù)測(cè)結(jié)果 給出了置信度,我們可以有選擇的采納預(yù)測(cè)結(jié)果,例如,只考慮 那些置信度在 85
26、%以上的結(jié)果??上В钚腥圆荒鼙4娼徊骝?yàn)證等方式選擇過(guò)的模型,也不 能將它們應(yīng)用到待預(yù)測(cè)數(shù)據(jù)上。要實(shí)現(xiàn)這一目的,須用到 “ KnowledgeFlow ?!眽K 的“ PredictionAppender。 L”ab 5.2 用 WEKA 進(jìn)行關(guān)聯(lián)分 析單元目標(biāo):掌握 WEKA 進(jìn)行關(guān)聯(lián)分析的步驟。 工作步驟:目前,WEKA 的關(guān) 聯(lián)規(guī)則分析功能僅能用來(lái)作示范,不適合用來(lái)挖掘大型數(shù) 據(jù)集。我們打算對(duì)前面 的“ban-kdata ”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。 用“Explorer打”開(kāi)“ban-kdata-final.arff 后”, 切換到“Associate選”項(xiàng)卡。默認(rèn)關(guān)聯(lián)規(guī)則分析是用 Apr
27、iori 算法,我們就用這個(gè)算 法,但是點(diǎn)“Choose右”邊的文本框修改默認(rèn)的參數(shù),彈出的窗口中點(diǎn) “More”可以 看到各參數(shù)的說(shuō)明。背景知識(shí)首先我們來(lái)溫習(xí)一下 Apriori 的有關(guān)知識(shí)。對(duì)于一條 關(guān)聯(lián)規(guī)則 L->R,我們常用支持度( Support)和置信度( Confidence)來(lái)衡量它的 重要性。規(guī)則的支持度是用來(lái)估計(jì)在一個(gè)購(gòu)物籃中同時(shí)觀察到 L 和 R 的概率 P(L,R,而規(guī)則的置 信度是估計(jì)購(gòu)物欄中出現(xiàn)了 L 時(shí)也出會(huì)現(xiàn) R 的條件概率 P(R|L。關(guān)聯(lián)規(guī)則的目標(biāo) 一般是產(chǎn)生支持度和置信度都較高的規(guī)則。 有幾個(gè)類似的度量代替置信度來(lái)衡量 規(guī)則的關(guān)聯(lián)程度,它們分別是 L
28、ift (提升度?) P(L,R/(P(LP(R Lift=1 時(shí)表示 L 和 R 獨(dú)立。這個(gè)數(shù)越大,越表明 L 和: R 存在在一個(gè)購(gòu)物籃中不是偶然現(xiàn) 象。 Leverage (不知道怎么翻譯): P(L,R-P(LP(R 它和 Lift 的含義差不 多。 Leverage=0 時(shí) L 和 R 獨(dú)立, Leverage 越大 L 和 R 的關(guān)系越密切。 Conviction (更不知道譯了) P(LP(!R/P(L,!R (!R :表示 R 沒(méi)有發(fā)生) Conviction 也是用來(lái) 衡量 L 和 R 的獨(dú)立性。從它和 lift 的關(guān)系(對(duì) R 取反,代入 Lift 公式后求倒數(shù)) 可以看出
29、,我們也希望這個(gè)值越大越好。 值得注意的是,用 Lift 和 Leverage 作標(biāo) 準(zhǔn)時(shí),L 和 R 是對(duì)稱的, Confidence 和 Conviction 則不然。參數(shù)設(shè)置現(xiàn)在我們計(jì) 劃挖掘出支持度在 10%到 100%之間,并且 lift 值超過(guò) 1.5 且 lift 值排在前 100 位的 那些關(guān)聯(lián)規(guī)則。我們把“l(fā)owerBoundMinSupport和”“upperBoundMinSupport分”別設(shè) 為 0.1 和 1, “metricType設(shè)”為 lift, “minMetric設(shè)”為 1.5, “numRules”設(shè)為 100。 其他選項(xiàng)保持默認(rèn)即可。 “OK”之 后在
30、“Explorer中”點(diǎn)擊“Start開(kāi)”始運(yùn)行算法,在 右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果。 下面是挖掘出來(lái)的 lift 排前 5 的規(guī)則。 Best rules found: 1. age=52_max save_act=YES current_act=YES 113 => income=43759_max 61 conf:(0.54 < lift:(4.05> lev:(0.0 45 conv:(1.85 2. income=43759_max 80 => age=52_max save_act=YES current_act=YES 61 conf:(0.76 &
31、lt; lift:(4.05> lev:(0.0 45 conv:(3.25 3. income=43759_max current_act=YES 63 => age=52_max save_act=YES 61 conf:(0.97 < lift:(3.85> lev:(0.0 45 conv:(15.72 4. age=52_max save_act=YES 151 => income=43759_max current_act=YES 61 conf:(0.4 < lift:(3.85> lev:(0.0 45 conv:(1.49 5. ag
32、e=52_max save_act=YES 151 => income=43759_max 76 conf:(0.5 < lift:(3.77> lev:(0.09 55 conv:(1.72 對(duì)于挖掘出的 每條規(guī)則, WEKA 列出了它們關(guān)聯(lián)程度的四項(xiàng)指標(biāo)。 命令行方式我們也可以利用 命令行來(lái)完成挖掘任務(wù),在“Simlpe CLI?!眽K中輸入如下格式的命令: java weka.associations.Apriori options -t directory-pathbank-data-final.arff 即可完成 Apriori 算法。注意, “-t”參數(shù)后的文件路徑
33、中不能含有空格。 在前面我們使用的 option 為 -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 命令行中使用這些參數(shù)得到的結(jié) 果和前面利用 GUI 得到的一樣。我們還可以加上 I” - “參數(shù),得到不同項(xiàng)數(shù)的頻 繁項(xiàng)集。我用的命令如下: java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:wekabank-data-final.arff 挖掘結(jié)果在上方顯示。 Lab5.3 用 WEKA 進(jìn)行聚類分析單元目標(biāo):掌握 W
34、EKA 進(jìn)行聚類分析的步驟。工作步驟:聚類分析中的“類”( cluster)和前面分類的“類”( class)是不 同的, cluster 對(duì)更加準(zhǔn)確的翻譯應(yīng)該是“簇”。 聚類的任務(wù)是把所有的實(shí)例分配到 若干的簇,使得同一個(gè)簇的實(shí)例聚集在一個(gè)簇中心的周圍,它們之間距離的比較 近;而不同簇實(shí)例之間的距離比較遠(yuǎn)。對(duì)于由數(shù)值型屬性刻畫的實(shí)例來(lái)說(shuō),這個(gè) 距離通常指歐氏距離。現(xiàn)在我們對(duì)前面的“bank data作”聚 類分析,使用最常見(jiàn)的 K 均值(K-means)算法。下面我們簡(jiǎn)單描述一下 K 均值聚類的步驟。 K 均值算 法首先隨機(jī)的指定 K 個(gè)簇中心。然后: 1將每個(gè)實(shí)例分配到距它最近的簇中心,得 到 K 個(gè)簇; 2計(jì)分別計(jì)算各簇中所有實(shí)例的均值,把它們作為各簇新的簇中心。 重復(fù) 1和 2,直到 K 個(gè)簇中心的位置都固定,簇的分配也固定。 上述 K 均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時(shí)要把它變?yōu)槿舾蓚€(gè)取值 0 和 1 的屬 性。 WEKA 將自動(dòng)實(shí)施這個(gè)分類型到數(shù)值型的變換,而且 WEKA 會(huì)自動(dòng)對(duì)數(shù)值型 的數(shù)據(jù)作標(biāo)準(zhǔn)化。因此,對(duì)于原始數(shù)據(jù)“ban-kdata.csv ”, 我們所做的預(yù)處理只是刪 去屬性“id,” 保存為 ARFF 格式后,修改屬性“children為”分類型。這樣得到的數(shù) 據(jù)文件為
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《游動(dòng)物園》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年一年級(jí)上冊(cè)數(shù)學(xué)冀教版
- 2025幼師工作總結(jié)范文(15篇)
- 心理協(xié)會(huì)工作計(jì)劃(15篇)
- 2025保育員個(gè)人近期總結(jié)(4篇)
- 為中考努力拼搏的演講稿(20篇)
- 初中軍訓(xùn)鍛煉的體會(huì)(28篇)
- 中華民族團(tuán)結(jié)演講稿格式(3篇)
- 2025護(hù)士醫(yī)德醫(yī)風(fēng)工作總結(jié)(18篇)
- 參加課題研究心得體會(huì)及收獲
- 智慧課堂平臺(tái)運(yùn)用的精準(zhǔn)教學(xué)
- 新生兒臍部出血的護(hù)理
- 實(shí)驗(yàn)室的智能化設(shè)計(jì)與建設(shè)
- 《中國(guó)海洋大學(xué)》課件
- 排污許可管理培訓(xùn)課件
- 《鹽津鋪?zhàn)庸居芰μ轿鰧?shí)例報(bào)告(10000字論文)》
- 2025年中考語(yǔ)文課內(nèi)名著閱讀專題復(fù)習(xí):第10部 《水滸傳》課件
- 案例:中建八局綠色施工示范工程綠色施工(76P)
- 水產(chǎn)養(yǎng)殖技術(shù)培訓(xùn)
- 2025年希望數(shù)學(xué)五年級(jí)培訓(xùn)題(含答案)
- 保潔投標(biāo)書范本
- 2025年中小學(xué)生讀書知識(shí)競(jìng)賽題庫(kù)及答案
評(píng)論
0/150
提交評(píng)論