版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘設(shè)計指導書自編東華理工大學軟件學院數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程組2012年11月目錄實驗一:數(shù)據(jù)倉庫的環(huán)境配置與構(gòu)建實驗實驗二:數(shù)據(jù)倉庫的OLAP技術(shù)實驗實驗三:數(shù)據(jù)挖掘方法實踐實驗實驗一、數(shù)據(jù)倉庫的環(huán)境配置與構(gòu)建實驗實驗?zāi)康?1了解數(shù)據(jù)挖掘與商務(wù)智能之間的聯(lián)系與區(qū)別;2分析數(shù)據(jù)挖掘倉庫的特性和構(gòu)架;3掌握數(shù)據(jù)挖掘的功能和建模的標準CRISP-DM。4掌握MSS的分析服務(wù)、報表服務(wù)和整合服務(wù),并能夠用以解決實際問題。實驗結(jié)果分析與要求:完成實驗?zāi)康闹械膬?nèi)容,記錄操作中的各個步驟,并進行分析。實驗內(nèi)容:1、將Excel數(shù)據(jù)表導入SQL數(shù)據(jù)庫中的數(shù)據(jù)表材料:SQL范例資料.xls中的三
2、國表。軟件:SQL Server 2008 R2基本步驟:1首先按照三國表中的屬性在數(shù)據(jù)口中建立對應(yīng)的表。2打開VS選擇項目中的“Integration Services”項目,并制定項目的保存位置,最后單擊“確定”按鈕即可新建一個SSIS項目。3在“控制流”選項卡中,從工具箱拖拽“數(shù)據(jù)挖掘查詢?nèi)蝿?wù)”的圖示到工作區(qū)中。4切換“數(shù)據(jù)流”選項卡,先制定數(shù)據(jù)的源,因為要導入的是Excel數(shù)據(jù),所以從工具箱拖拽Excel源的圖示到工作區(qū)中,然后再Excel源上右擊,選擇菜單上的“編輯”。5在Excel源編輯器中,單擊“新建”按鈕來制定Excel數(shù)據(jù)的源,在Excel連接管理器中,單擊“瀏覽”按鈕來選擇
3、Excel 文件,完成后單擊“確定”按鈕。6在“Excel工作表的名稱”下拉列表中選擇要導入的數(shù)據(jù)表,然后單擊“確定”按鈕,完成數(shù)據(jù)源的設(shè)置。7建立數(shù)據(jù)轉(zhuǎn)換,從工具箱中拖拽“數(shù)據(jù)轉(zhuǎn)換”到工作區(qū)中。8在Excel源上右擊,選擇“添加路徑”。9指定“Excel源”到“數(shù)據(jù)轉(zhuǎn)換”,最后單擊“確定”按鈕。10輸出指定“Excel源輸出”,輸入指定“數(shù)據(jù)轉(zhuǎn)換輸入”,單擊“確定”按鈕。11設(shè)置數(shù)據(jù)流的目標,要導入到SQL的數(shù)據(jù)庫中,從工具箱中拖拽“SQL Server目標”到工作區(qū)。12然后在“數(shù)據(jù)轉(zhuǎn)換”上右擊,選擇添加路徑來建立與數(shù)據(jù)流目標的連接。13在“數(shù)據(jù)流”對話框中,指定從“數(shù)據(jù)轉(zhuǎn)換”到“SQL
4、Server目標”,單擊“確定”按鈕。在“選擇輸入輸出”對話框中,輸出指定“數(shù)據(jù)轉(zhuǎn)換輸出”,輸入指定“SQL Server目標輸入”,單擊“確定”按鈕。14最后設(shè)置數(shù)據(jù)導入的位置,在“SQL Server目標”上右擊,選擇“編輯”。15在“SQL 目標編輯器”窗口中,單擊“新建”按鈕,然后在“配置 OLE DB連接管理器”窗口轉(zhuǎn)中,同樣單擊“新建”按鈕。16在“連接管理器”窗口中,“服務(wù)器名”選擇SQL數(shù)據(jù)庫的位置,在“登錄到服務(wù)器”中選擇“使用windows身份驗證”,在“選擇或輸入一個數(shù)據(jù)庫名”指定數(shù)據(jù)要導入的數(shù)據(jù)庫,單擊“確定”按鈕返回上一個窗口,再單擊“確定”按鈕。17最后要指定數(shù)據(jù)要
5、導入哪一個數(shù)據(jù)表,選擇完成后單擊“確定”按鈕。18接下來選擇“映射”,接著單擊“確定”按鈕即可。19現(xiàn)在已經(jīng)完成配置,單擊“啟動調(diào)用”按鈕,測試是否錯誤,執(zhí)行完畢為綠色,執(zhí)行中為黃色,錯誤為紅色。20可以到導入的SQL數(shù)據(jù)庫的數(shù)據(jù)表位置查看數(shù)據(jù)是否都已經(jīng)導入了。選擇SQL Server Management Studio打開后找到之前導出的數(shù)據(jù)表來查看。21選擇“選擇前1000行”后則可以看到結(jié)果。2、對數(shù)據(jù)進行抽樣材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2基本步驟:在“數(shù)據(jù)轉(zhuǎn)換”中選擇“百分比抽樣”,抽樣的百分比為20%。其他同“將Excel數(shù)據(jù)表導入
6、SQL數(shù)據(jù)庫中的數(shù)據(jù)表”的操作步驟。實驗二、交換機數(shù)據(jù)倉庫的OLAP技術(shù)實驗實驗?zāi)康?1掌握決策樹模型的基本概念和計算方法,并用其預(yù)測三國表中“身份屬性”與其他屬性的關(guān)系;2掌握貝葉斯分類器的基本概念,并用其預(yù)測三國表中“身份屬性”與其他屬性的關(guān)系;3掌握關(guān)聯(lián)規(guī)則的基本概念和種類,并用其預(yù)測“腎細胞癌轉(zhuǎn)移情況”。4對比以上三種模型,分析其聯(lián)系與區(qū)別。實驗結(jié)果分析與要求:完成實驗?zāi)康闹械膬?nèi)容,記錄操作中的各個步驟,并進行分析。實驗內(nèi)容:1、使用決策樹模型預(yù)測三國表中“身份屬性”與其他屬性間的關(guān)系;材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2基本步驟:1首先將
7、三國表導入到SQL數(shù)據(jù)庫中。2新建Analysis Service 項目,進入項目中的新建挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫?進入數(shù)據(jù)挖掘向?qū)醉摵髥螕簟跋乱徊健卑粹o。3從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫讀取數(shù)據(jù),即為默認值,故直接在這個頁面單擊“下一步”按鈕。4到數(shù)據(jù)挖掘技術(shù)部分,選擇“Microsoft決策樹”后,單擊“下一步”按鈕。5選擇所要用數(shù)據(jù)的數(shù)據(jù)庫位置后,單擊“下一步”按鈕。6選擇要使用的數(shù)據(jù)表,單擊“下一步”按鈕。7選擇所需輸入變量與預(yù)測變量,以及索引鍵;以序列號碼為索引,身份為預(yù)測變量,并單擊“建議”按鈕以了解預(yù)測變量與其他變量間的相關(guān)性,可找出較具影響力的輸入變量,完成后單擊“確定”
8、按鈕,這時會回到原來的頁面,單擊“下一步”按鈕。8單擊“建議”按鈕,此時程序會提出一些變量的相關(guān)系數(shù),用戶可自行選擇輸入與否。9聲明正確的數(shù)據(jù)屬性,完成后單擊“下一步”按鈕。10在此可選擇測試數(shù)據(jù)的百分比,本實驗中無測試數(shù)據(jù),百分比選擇“0”。11更改挖掘結(jié)構(gòu)名稱,單擊“完成”按鈕。12選擇上方的挖掘模型查看器后,程序詢問是否生成和部署項目,單擊“是”按鈕。13接下來單擊“運行”按鈕。14運行完成后單擊“關(guān)閉”按鈕。15建模完成,生成數(shù)據(jù)挖掘結(jié)構(gòu)接口包含數(shù)據(jù)挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器、挖掘準確度圖標以及挖掘模型預(yù)測;其中在挖掘結(jié)構(gòu)中,主要是呈現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性以及分析的變量。而在挖掘模型
9、中,主要是列出所建立的挖掘模型,也可以新建挖掘模型,并調(diào)整變量,變量使用狀況包含Ignore(忽略、Input(輸入變量、Predict(預(yù)測變量、輸入變量以及PredictOnly(預(yù)測變量。而在挖掘模型上右擊,選擇“設(shè)置算法參數(shù)”針對方法論的參數(shù)設(shè)置加以編輯。挖掘模型查看器則是呈現(xiàn)此樹狀結(jié)構(gòu),對于數(shù)據(jù)的分布進一步的加以了解。而可以從“依賴關(guān)系網(wǎng)絡(luò)”了解因變量與自變量間的關(guān)聯(lián)性強弱程度。2、使用貝葉斯模型預(yù)測三國表中“身份屬性”與其他屬性間的關(guān)系;材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2基本步驟:除挖掘技術(shù)部分選擇合適的挖掘方法外,其他步驟同上。3、
10、使用關(guān)聯(lián)規(guī)則預(yù)測腎癌表中“腎細胞癌轉(zhuǎn)移情況”;材料:SQL范例資料.xls中的腎癌。軟件:SQL Server 2008 R2基本步驟:除挖掘技術(shù)部分選擇合適的挖掘方法外,其他步驟同上。實驗三、數(shù)據(jù)挖掘方法實踐實驗實驗?zāi)康?1掌握邏輯回歸模型;2使用邏輯回歸模型完成三個實例,并進總結(jié)。3使用神經(jīng)網(wǎng)絡(luò)模型對“腎癌”表中數(shù)據(jù)進行分析。實驗內(nèi)容:1、使用邏輯回歸模型對“腎癌”表中數(shù)據(jù)進行分析;材料:SQL范例資料.xls中的腎癌表。軟件:SQL Server 2008 R2基本步驟:1首先將三國表導入到SQL數(shù)據(jù)庫中。2新建Analysis Service 項目,進入項目中的新建挖掘結(jié)構(gòu),使用數(shù)據(jù)挖
11、掘向?qū)斫?進入數(shù)據(jù)挖掘向?qū)醉摵髥螕簟跋乱徊健卑粹o。3從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫讀取數(shù)據(jù),即為默認值,故直接在這個頁面單擊“下一步”按鈕。4到數(shù)據(jù)挖掘技術(shù)部分,選擇“Microsoft邏輯回歸”后,單擊“下一步”按鈕。5確認數(shù)據(jù)庫中的數(shù)據(jù)表。6選擇“癌癥$”數(shù)據(jù)表進行分析,選中“事例”復選框。7選擇變量,其中預(yù)測變量為“腎細胞癌轉(zhuǎn)移情況”,輸入變量為“患者的年齡(歲”、“腎細胞癌血管內(nèi)皮生長因子(VEGF”、“腎細胞癌組織內(nèi)微血管數(shù)(MV”、“腎癌細胞核組織學分級”與“腎細胞癌分期”。8要確定變量的數(shù)據(jù)內(nèi)容類型以及數(shù)據(jù)類型,其中輸入變量中“患者的年齡(歲”、“腎細胞癌組織內(nèi)微血管數(shù)(MV”
12、為Continuous,其他皆為Discrete。9在此可選擇測試數(shù)據(jù)的百分比,本實驗中無測試數(shù)據(jù),百分比選擇“0”。10單擊“挖掘模型查看器”選項卡,所呈現(xiàn)的是概率值,在對應(yīng)的輸入變量條件下,其預(yù)測變量所發(fā)生的概率。11根據(jù)挖掘準確度圖標,紅線越靠近藍色表示越準確。本實驗中原始模型(紅線與理想模型(藍線很接近,表示此模型準確度較高。12再根據(jù)分類矩陣可以發(fā)現(xiàn),建立的邏輯回歸模型所預(yù)測結(jié)果與實際分類結(jié)果的預(yù)測正確率高達97.15%。13根據(jù)邏輯回歸模型,利用“挖掘模型預(yù)測”選項卡生成預(yù)測值。2、使用邏輯回歸模型對“高中成績”表中數(shù)據(jù)進行分析;材料:SQL范例資料.xls中的高中成績。軟件:SQL Server 2008 R2基本步驟:同上。3、使用邏輯回歸模型對“三國”表中數(shù)據(jù)進行分析;數(shù)據(jù)倉庫與數(shù)據(jù)挖掘設(shè)計指導書 材料:SQL 范例
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國安全軟件行業(yè)發(fā)展現(xiàn)狀及投資商業(yè)模式分析報告
- 2024-2030年中國聲磁軟標簽行業(yè)運營模式及發(fā)展策略分析報告
- 2024-2030年中國壓裂車行業(yè)發(fā)展需求及投資戰(zhàn)略研究報告版
- 2024年土地儲備土地轉(zhuǎn)租交易服務(wù)合同模板3篇
- 梅河口康美職業(yè)技術(shù)學院《嵌入式系統(tǒng)設(shè)計及應(yīng)用》2023-2024學年第一學期期末試卷
- 2024年房屋代售全權(quán)協(xié)議3篇
- 主題訓練-“大美?長沙”VI基礎(chǔ)系統(tǒng)設(shè)計
- 2024年度領(lǐng)養(yǎng)孤兒及棄嬰家庭關(guān)愛與教育協(xié)議書范本下載3篇
- 2024年物聯(lián)網(wǎng)智能家居系統(tǒng)研發(fā)合作合同
- 洛陽文化旅游職業(yè)學院《新能源汽車概論》2023-2024學年第一學期期末試卷
- 語文修改語病-三年(2022-2024)高考病句試題真題分析及 備考建議(課件)
- 中國抗癌協(xié)會胰腺癌患者科普指南2024(完整版)
- 齊魯名家談方論藥 知到智慧樹網(wǎng)課答案
- 2023人工智能基礎(chǔ)知識考試題庫(含答案)
- 小學語文跨學科學習任務(wù)群的設(shè)計
- 《敬廉崇潔》的主題班會
- 國家開放大學電大《計算機應(yīng)用基礎(chǔ)(本)》終結(jié)性考試試題答案(格式已排好)任務(wù)一
- 增值稅預(yù)繳稅款表電子版
- 學生學習評價量表模板
- 農(nóng)民工工資支付檢查表
- 投資收益合作合同
評論
0/150
提交評論