數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書

上傳人：伐*** IP屬地：寧夏上傳時(shí)間：2021-10-29 格式：DOC 頁數(shù)：36 大?。?99KB 積分：15 舉報(bào) 版權(quán)申訴

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書_第2頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書_第3頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書_第4頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書_第5頁

已閱讀5頁，還剩31頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、潘怡編著數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書長沙學(xué) 院計(jì) 算機(jī) 科學(xué) 與技術(shù) 系2009年9月前言本書是數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程及數(shù)據(jù)分析與挖掘的實(shí)驗(yàn)指導(dǎo)書。全書分為三個部分，第一部分為實(shí)驗(yàn)內(nèi)容對每個實(shí)驗(yàn)的實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)類型、實(shí)驗(yàn)學(xué)時(shí)、實(shí)驗(yàn)原理及知識點(diǎn)、實(shí)驗(yàn)環(huán)境（硬件環(huán)境、軟件環(huán)境）和實(shí)驗(yàn)內(nèi)容及步驟進(jìn)行簡單介紹，第二部分為實(shí)驗(yàn)指導(dǎo)對每個實(shí)驗(yàn)的實(shí)驗(yàn)方法，實(shí)驗(yàn)步驟及補(bǔ)充的實(shí)驗(yàn)知識進(jìn)行詳細(xì)介紹，第三部分為實(shí)驗(yàn)報(bào)告。本實(shí)踐課程主要介紹數(shù)據(jù)倉庫的工作機(jī)理及其構(gòu)建過程，。要求學(xué)生熟練使用數(shù)據(jù)庫管理系統(tǒng)ms sql server，掌握典型的數(shù)據(jù)倉庫系統(tǒng)及其開發(fā)工具的使用，理解數(shù)據(jù)挖掘的工作原理與

2、流程，掌握典型數(shù)據(jù)挖掘技術(shù)及其工具的使用方法，熟悉sql server bi dev集成挖掘環(huán)境。要求學(xué)生實(shí)驗(yàn)前認(rèn)真準(zhǔn)備，實(shí)驗(yàn)后提供實(shí)驗(yàn)報(bào)告，給出詳細(xì)設(shè)計(jì)方法以及設(shè)計(jì)依據(jù)。實(shí)驗(yàn)報(bào)告的格式應(yīng)采用統(tǒng)一封面，統(tǒng)一的實(shí)驗(yàn)報(bào)告紙。封面應(yīng)包括：課程名稱、實(shí)驗(yàn)序號、名稱、專業(yè)、班級、姓名、同組實(shí)驗(yàn)者、實(shí)驗(yàn)時(shí)間。實(shí)驗(yàn)報(bào)告內(nèi)容應(yīng)包括：實(shí)驗(yàn)名稱、目的、內(nèi)容、實(shí)驗(yàn)步驟、實(shí)驗(yàn)記錄、數(shù)據(jù)處理（或原理論證、或?qū)嶒?yàn)現(xiàn)象描述、或結(jié)構(gòu)說明等）。目錄第一部分實(shí)驗(yàn)內(nèi)容實(shí)驗(yàn)1：實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境實(shí)驗(yàn)2：實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法實(shí)驗(yàn)3：實(shí)踐決策樹挖掘方法實(shí)驗(yàn)4：實(shí)踐聚類挖掘方法實(shí)驗(yàn)5：實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法第二部分

3、實(shí)驗(yàn)指導(dǎo)實(shí)驗(yàn)1：實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境實(shí)驗(yàn)2：實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法實(shí)驗(yàn)3：實(shí)踐決策樹挖掘方法實(shí)驗(yàn)4：實(shí)踐聚類挖掘方法實(shí)驗(yàn)5：實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法第三部分實(shí)驗(yàn)報(bào)告第一部分實(shí)驗(yàn)內(nèi)容實(shí)驗(yàn)1：實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握sql server 2005 analysis services 工具集，包括如何在 bi development studio 的 analysis services 項(xiàng)目中定義數(shù)據(jù)源、數(shù)據(jù)源視圖、維度、屬性、層次結(jié)構(gòu)和多維數(shù)據(jù)集，如何查看多維數(shù)據(jù)集和維度，理解并掌握olap分析的基本過程與方法。二實(shí)驗(yàn)類型驗(yàn)證型三實(shí)驗(yàn)學(xué)時(shí) 4

4、學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1sql server 服務(wù) 2服務(wù)器注冊3系統(tǒng)數(shù)據(jù)源連接4數(shù)據(jù)源視圖處理5多維數(shù)據(jù)集6事實(shí)表和維度表；7星型架構(gòu)模型；8元數(shù)據(jù)結(jié)構(gòu)。五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求：pc及其聯(lián)網(wǎng)環(huán)境；2軟件設(shè)備要求：操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟i. 建立sql server 2005 數(shù)據(jù)挖掘?qū)嶒?yàn)環(huán)境1 啟動sql server 服務(wù)，打開bi開發(fā)環(huán)境2 注冊服務(wù)器3 建立系統(tǒng)數(shù)據(jù)源連接4 建立數(shù)據(jù)庫和數(shù)據(jù)源視圖5 瀏覽多維數(shù)據(jù)集數(shù)據(jù)6 編輯多維數(shù)據(jù)集數(shù)據(jù)ii. 實(shí)踐多維數(shù)據(jù)集分析假

5、設(shè)一連鎖超市的用戶需求如下，從無到有設(shè)計(jì)一個數(shù)據(jù)倉庫的基本架構(gòu)，要求能夠滿足以下查詢：1 查詢公司在2005年的總銷售金額2 查詢公司在2005年第一季度的銷售金額3 查詢公司在2005年上半年的銷售金額4 查詢某供應(yīng)商s1于2005年提供產(chǎn)品p1的金額總量5 查詢某供應(yīng)商s1于2005年提供某產(chǎn)品p1的金額總量6 查詢某門市店d1于2005年共銷售某一種商品p1的總金額7 查詢公司在2005年度共銷售多少金額類別為c1的商品p1的總金額根據(jù)要求：1 建事實(shí)表和維度表2 設(shè)計(jì)星型架構(gòu)模型3 分析元數(shù)據(jù)結(jié)構(gòu)。七思考與練習(xí)1什么是sql sever 2005 bi dev studio？它包含幾個

6、主要部分？2如何注冊服務(wù)器？3如何設(shè)計(jì)數(shù)據(jù)源視圖？4如何建立多維數(shù)據(jù)集？5什么是事實(shí)表和維度表？6什么是星型架構(gòu)？7什么是元數(shù)據(jù)？實(shí)驗(yàn)2：實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘，了解并掌握挖掘結(jié)構(gòu)、挖掘模型的基本概念，能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型，掌握數(shù)據(jù)挖掘設(shè)計(jì)器的使用方法，掌握模型查看器方法，能夠使用挖掘準(zhǔn)確性圖表，了解模型的提升圖，能夠創(chuàng)建數(shù)據(jù)挖掘報(bào)告。二實(shí)驗(yàn)類型設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1sql server 挖掘結(jié)構(gòu)2sql server 挖掘模型3事實(shí)表4嵌套表5鍵6輸入列7可預(yù)測列8挖掘參數(shù)五

7、實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求：pc及其聯(lián)網(wǎng)環(huán)境；2軟件設(shè)備要求：操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1 數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集，對所需數(shù)據(jù)進(jìn)行必要地提取、清洗和校驗(yàn)，為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2 創(chuàng)建數(shù)據(jù)源3 創(chuàng)建數(shù)據(jù)源視圖4 創(chuàng)建挖掘結(jié)構(gòu)5 創(chuàng)建挖掘模型6 使用模型查看器查看挖掘模型7 使用挖掘準(zhǔn)確性圖表查看模型8 使用挖掘模型預(yù)測窗口9 創(chuàng)建數(shù)據(jù)挖掘報(bào)告實(shí)驗(yàn)3：實(shí)踐決策樹挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行決策樹挖掘，選擇合適的數(shù)據(jù)進(jìn)行決策樹分析，并嘗試

8、給出合理解釋（例如，使用案例數(shù)據(jù)庫建立給客戶分群的決策樹挖掘模型，或者判斷學(xué)生升學(xué)意向）。在實(shí)驗(yàn)過程中了解并掌握挖掘模型的參數(shù)意義及設(shè)置方法，能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型，要求使用柱狀圖等方式展現(xiàn)最終挖掘結(jié)果。二實(shí)驗(yàn)類型設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1hunt算法2. 最佳劃分的度量方法3. 信息熵增益五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求：pc及其聯(lián)網(wǎng)環(huán)境；2軟件設(shè)備要求：操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集，對所需數(shù)據(jù)進(jìn)行必要地提取、清洗

9、和校驗(yàn)，為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2創(chuàng)建數(shù)據(jù)源3創(chuàng)建數(shù)據(jù)源視圖4創(chuàng)建挖掘結(jié)構(gòu)5創(chuàng)建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘準(zhǔn)確性圖表查看模型8使用挖掘模型預(yù)測窗口9創(chuàng)建數(shù)據(jù)挖掘報(bào)告實(shí)驗(yàn)4：實(shí)踐聚類挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行聚類挖掘，選擇合適的數(shù)據(jù)進(jìn)行聚類分析，并嘗試給出合理解釋在實(shí)驗(yàn)過程中了解并掌握挖掘模型的參數(shù)意義及設(shè)置方法，能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型，要求能夠掌握模型察看方法。二實(shí)驗(yàn)類型設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1k-mean算法五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求：pc及其聯(lián)網(wǎng)環(huán)境；2軟件設(shè)備要求：操作系統(tǒng)windows,

10、 sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集，對所需數(shù)據(jù)進(jìn)行必要地提取、清洗和校驗(yàn)，為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2創(chuàng)建數(shù)據(jù)源3創(chuàng)建數(shù)據(jù)源視圖4創(chuàng)建挖掘結(jié)構(gòu)5創(chuàng)建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘準(zhǔn)確性圖表查看模型8使用挖掘模型預(yù)測窗口9創(chuàng)建數(shù)據(jù)挖掘報(bào)告實(shí)驗(yàn)5：實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘，了解并掌握挖掘結(jié)構(gòu)、挖掘模型的基本概念，能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型，掌握數(shù)據(jù)挖掘設(shè)計(jì)器的使用方法，掌握模型查看器

11、方法，能夠使用挖掘準(zhǔn)確性圖表，了解模型的提升圖，能夠創(chuàng)建數(shù)據(jù)挖掘報(bào)告。二實(shí)驗(yàn)類型設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1神經(jīng)網(wǎng)絡(luò)的拓?fù)?神經(jīng)網(wǎng)絡(luò)的組合和激活3神經(jīng)網(wǎng)絡(luò)的反向傳播、誤差函數(shù)4神經(jīng)網(wǎng)絡(luò)的處理五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求：pc及其聯(lián)網(wǎng)環(huán)境；2軟件設(shè)備要求：操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集，對所需數(shù)據(jù)進(jìn)行必要地提取、清洗和校驗(yàn)，為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2創(chuàng)建數(shù)據(jù)源3創(chuàng)建數(shù)據(jù)源視圖4創(chuàng)建挖掘結(jié)構(gòu)5創(chuàng)建挖掘模型6使用模型查看器查看挖掘模型7使用挖

12、掘準(zhǔn)確性圖表查看模型8使用挖掘模型預(yù)測窗口9創(chuàng)建數(shù)據(jù)挖掘報(bào)告第二部分實(shí)驗(yàn)指導(dǎo)實(shí)驗(yàn)1：實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境i. 建立sql server 2005 數(shù)據(jù)挖掘?qū)嶒?yàn)環(huán)境一sql sever 2005 安裝1）sql server 2005的一般部署步驟當(dāng)你第一次把sqlserver2005的cd或者dvd光盤放到server里的時(shí)候，你會看到一個引導(dǎo)窗口（圖a），上面是產(chǎn)品介紹和運(yùn)行須知。圖asqlserver2005的引導(dǎo)頁面。要注意的是，即使你是用單張dvd進(jìn)行安裝，這個頁面頂部的文字顯示的還是“光盤12（disc 1 of 2）”。要開始安裝，就要選擇“安裝（install

13、）”標(biāo)題下的“server組件、工具、在線工具書和示例（server components, tools, books online, and samples）”選項(xiàng)。彈出的第一個畫面是產(chǎn)品的最終用戶許可證協(xié)議。你需要勾選“我接受協(xié)議條款和條件（i accept the licensing terms and conditions）”，點(diǎn)擊“下一步（next）”按鈕繼續(xù)。我在這里就不列出許可證頁面了。你對此可能已經(jīng)很熟悉了。下一個畫面（圖b）顯示的是安裝程序要提前安裝的一些程序。.net框架2.0是這里的關(guān)鍵。如果你決定在同一臺server上安裝sqlserver2005以及其他應(yīng)用程序，那就

14、要確保它們都能夠使用這個框架。點(diǎn)擊“安裝（install）”按鈕來安裝這些項(xiàng)目。當(dāng)這些項(xiàng)目安裝完畢后，你可以點(diǎn)擊“下一步”按鈕。圖b當(dāng)所有需要預(yù)先安裝的程序都安裝到你的系統(tǒng)里之后，sqlserver2005的安裝向?qū)Ь蜁?。安裝向?qū)瓿傻牡谝豁?xiàng)任務(wù)是掃描你的系統(tǒng)，以確保它滿足sqlserver2005的最低要求。在下面的圖c里，你會看到系統(tǒng)檢測提示有兩個方面存在問題。第一個是硬件的最低要求。它之所以出現(xiàn)是因?yàn)槲沂怯锰摂M機(jī)來安裝sqlserver2005的，而虛擬機(jī)分配到的內(nèi)存只有384兆，這個問題很容易解決。第二個是要求具有internet信息服務(wù)功能（iis feature require

15、ment），這個有點(diǎn)嚴(yán)重。sqlserver2005的一些服務(wù)，例如報(bào)告服務(wù)（reporting services）要求使用iis。所以，繼續(xù)安裝之前，我要退出sqlserver2005的安裝過程，再在server上安裝iis。之后，才能繼續(xù)進(jìn)行安裝。圖c系統(tǒng)檢測會檢查出一些存在的問題，這樣你可以在安裝之前就解決它們，從而避免一些可能發(fā)生的錯誤。安裝的下一步（圖d）就相當(dāng)簡單了。填好你的名字、公司名和產(chǎn)品密鑰。點(diǎn)擊“下一步”繼續(xù)。圖d在這一畫面里，你需要選希望與sqlserver2005一起安裝的組件。如果這是你的第一臺server，那么就要選上sqlserver數(shù)據(jù)庫服務(wù)（sql serve

16、r database services）選項(xiàng)。為了保證完整性，我安裝了所有的服務(wù)，但是本文不會討論故障轉(zhuǎn)移集群。如果你想要選擇更加詳細(xì)的選項(xiàng)，或者更改默認(rèn)的安裝路徑（c:program filesmicrosoft sql server），點(diǎn)擊“高級（advanced）”按鈕，然后會彈出一個更加常見的功能選擇窗口。下面的圖e向你顯示的是“組件選擇（component selection）”畫面。在圖f里，顯示的是“高級（advanced）”畫面。在窗口里，點(diǎn)擊“下一步（next）”繼續(xù)安裝。圖e qlserver2005的主要組件選擇畫面。圖f sqlserver2005引入了sqlserve

17、r命名實(shí)例（named instance）的概念。你可以選擇升級已有的命名實(shí)例（圖g），你也可以選擇在安裝sqlserver2005時(shí)默認(rèn)的實(shí)例。在本文的例子里，我使用的“默認(rèn)（default）”選項(xiàng)。圖g 擇你的實(shí)例。正如以往，sqlserver服務(wù)需要使用特定的驗(yàn)證信息登錄到系統(tǒng)。你可以選擇讓所有的sql服務(wù)都共享相同的驗(yàn)證信息，或者你可以為每個服務(wù)都提供自己的登錄驗(yàn)證信息，我建議在進(jìn)行更大范圍安裝時(shí)使用后面這種方式。但是，在本文里，我讓所有的服務(wù)都共享一個帳號，并使用內(nèi)置的“本地系統(tǒng)（local system）”帳號。這個畫面還讓你選擇在安裝完成之后啟動哪些服務(wù)。你可以在圖h的屏幕截圖

18、中看到安裝程序默認(rèn)選擇的服務(wù)是哪些。圖h為每項(xiàng)sql服務(wù)選擇服務(wù)帳號在安裝的下一個畫面（圖i）里，系統(tǒng)會問你是否想要使用混合模式的windows身份驗(yàn)證（mixed mode authentication），這種模式讓你可以使用sqlserver帳號。除非你有充足的理由不使用，否則最好使用windows身份驗(yàn)證模式。用戶帳號的維護(hù)更簡單，這是你公司潛在安全漏洞較少的一個地方。如果你需要使用混合模式，就要向安裝程序提供你希望系統(tǒng)管理員（sa）帳號使用的密碼。圖i選擇你的身份驗(yàn)證模式。排序規(guī)則是不同的字符集和排序順序的組，sqlserver正是通過它們才能夠用于不同的區(qū)域和語言。sqlserver

19、2005安裝程序讓你可以選擇“sql排序規(guī)則（sql collations）”，這樣你就可以向后兼容先前版本的sqlserver。但是，如果你要安裝“分析服務(wù)（analysis services）”，sql的排序規(guī)則就不能用于這項(xiàng)服務(wù)。微軟建議你使用windows排序規(guī)則而不用sql排序規(guī)則，除非你需要解決向后兼容性的問題。windows排序規(guī)則為你提供了同時(shí)用于unicode和非unicode文本的連續(xù)字符串比較功能。在本文的安裝示例里，我將用到用于sql和分析服務(wù)的latin1_general排序規(guī)則指示項(xiàng)（圖j）和排序順序。圖j“安裝進(jìn)度（setup progress）”窗口讓你能夠了解

20、安裝程序安裝各個組件到哪一步了。圖o二、其他實(shí)驗(yàn)步驟及方法：參考教材第8章相關(guān)內(nèi)容。ii. 實(shí)踐多維數(shù)據(jù)集分析參考教材第3章及第8章相關(guān)內(nèi)容。實(shí)驗(yàn)2：實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法1挖掘結(jié)構(gòu)和挖掘模型的基本概念挖掘結(jié)構(gòu)和挖掘模型均是sql server analysis services的主要數(shù)據(jù)挖掘?qū)ο?。挖掘結(jié)構(gòu)定義了挖掘的域，挖掘模型則對應(yīng)于挖掘結(jié)構(gòu)中挖掘算法的應(yīng)用。一個挖掘結(jié)構(gòu)包括數(shù)據(jù)和內(nèi)容類型，與數(shù)據(jù)源捆綁，挖掘模型包含一個定一號參數(shù)的算法，以及從挖掘結(jié)構(gòu)得到的列清單。一個挖掘結(jié)構(gòu)可以對應(yīng)多個挖掘模型。2 microsoft 關(guān)聯(lián)算法基本原理關(guān)聯(lián)模型基于包含各事例的標(biāo)識符及各事例所包含項(xiàng)的標(biāo)識符

21、的數(shù)據(jù)集生成。事例中的一組項(xiàng)稱為“項(xiàng)集”。關(guān)聯(lián)模型由事例中一系列項(xiàng)集和說明這些項(xiàng)如何分組的規(guī)則組成。算法標(biāo)識的規(guī)則可用于根據(jù)客戶購物車中已有的項(xiàng)來預(yù)測客戶將來可能購買的產(chǎn)品。以下關(guān)系圖顯示了項(xiàng)集中的一系列規(guī)則。正如該關(guān)系圖中所示，microsoft 關(guān)聯(lián)算法可能會在數(shù)據(jù)集中找到許多規(guī)則。該算法使用兩個參數(shù)（support 和 probability）來說明項(xiàng)集以及該算法生成的規(guī)則。例如，如果 x 和 y 表示購物車中可能有的兩個項(xiàng)，則 support 參數(shù)是數(shù)據(jù)集中包含 x 和 y 這兩項(xiàng)組合的事例的數(shù)目。通過將 support 參數(shù)與用戶定義的 minimum_support 和 maxim

22、um_support 參數(shù)結(jié)合使用，該算法可控制生成的項(xiàng)集數(shù)。probability 參數(shù)也稱為“置信度”，表示數(shù)據(jù)集中既包含 x 也包含 y 的一部分事例。通過將 probability 參數(shù)與 minimum_probability 參數(shù)結(jié)合使用，該算法可控制生成的規(guī)則數(shù)。 microsoft 關(guān)聯(lián)算法遍歷數(shù)據(jù)集以查找同時(shí)出現(xiàn)在某個事例中的項(xiàng)。然后，該算法將最少出現(xiàn)了由 minimum_support 參數(shù)指定的最少事例數(shù)次數(shù)的關(guān)聯(lián)項(xiàng)分為項(xiàng)集。例如，項(xiàng)集可以為“mountain 200=existing, sport 100=existing”，并且支持的數(shù)目可以為 710，那么該算法將根

23、據(jù)項(xiàng)集生成規(guī)則?？梢允褂眠@些規(guī)則根據(jù)是否存在該算法標(biāo)識為重要項(xiàng)的其他特定項(xiàng)，預(yù)測數(shù)據(jù)庫中的某項(xiàng)是否存在。例如，某規(guī)則可以為“if touring 1000=existing and road bottle cage=existing, then water bottle=existing”，并且其概率可能為 0.812。在此例中，該算法發(fā)現(xiàn)由于購物籃中存在 touring 1000 輪胎和水壺套，因此預(yù)測購物籃中也可能存在水壺。3 microsoft 關(guān)聯(lián)算法的列關(guān)聯(lián)模型必須包含一個鍵列、多個輸入列以及一個可預(yù)測列。輸入列必須為離散列。關(guān)聯(lián)模型的輸入數(shù)據(jù)通常包含在兩個表中。例如，一個表可能包含

24、客戶信息，而另一個表可能包含客戶購物情況。您可以使用嵌套表將該數(shù)據(jù)輸入到模型中。在 microsoft sql server 2005 analysis services (ssas) 中，數(shù)據(jù)必須作為包含在事例表中的一系列事例提供給數(shù)據(jù)挖掘算法。不是所有的事例都可以用一行數(shù)據(jù)就可說明。例如，一個事例可能派生自兩個表，其中一個表包含客戶信息，而另一個表包含客戶采購信息?？蛻舯碇械囊晃豢蛻艨赡茉诓少彵碇杏卸鄺l采購信息，在這種情況下，很難使用單個行來說明該數(shù)據(jù)。analysis services 提供了一種用來處理這些事例的獨(dú)特方法，那就是使用“嵌套表”。第一個表（父表）包含客戶的信息，并且為每

25、位客戶關(guān)聯(lián)了一個唯一標(biāo)識符。第二個表（子表）包含每位客戶的采購信息。子表中的采購信息又通過唯一標(biāo)識符（customerkey 列）與父表關(guān)聯(lián)。關(guān)系圖中的第三個表顯示了這兩個表的結(jié)合。嵌套表作為特殊列顯示在事例表中，該列的數(shù)據(jù)類型為 table。對于任何特定事例行，此列均包含從子表中選出的、與父表相關(guān)的行。要創(chuàng)建嵌套表，兩個源表必須包含定義的關(guān)系，以便一個表中的項(xiàng)可與另一個表建立關(guān)聯(lián)。在 business intelligence development studio 中，4使用 microsoft 關(guān)聯(lián)規(guī)則查看器查看挖掘模型項(xiàng)集“項(xiàng)集”選項(xiàng)卡顯示被模型識別為經(jīng)常發(fā)現(xiàn)一起出現(xiàn)的項(xiàng)集的列表。該

26、選項(xiàng)卡顯示具有以下列的網(wǎng)格：“支持”、“大小”和“項(xiàng)集”。有關(guān)支持的詳細(xì)信息，請參閱 microsoft 關(guān)聯(lián)算法?！按笮　绷酗@示項(xiàng)集中的項(xiàng)的數(shù)量?！绊?xiàng)集”列顯示模型發(fā)現(xiàn)的實(shí)際項(xiàng)集?？梢允褂谩帮@示”列表控制項(xiàng)集的格式，可將格式設(shè)置為以下選項(xiàng)：顯示屬性名稱和值僅顯示屬性值僅顯示屬性名稱可以使用“最低支持”和“最小項(xiàng)集大小”來篩選選項(xiàng)卡中顯示的項(xiàng)集數(shù)量。還可使用“篩選項(xiàng)集”并輸入必須存在的項(xiàng)集特征，來進(jìn)一步限制項(xiàng)集的顯示數(shù)量。例如，如果鍵入 water bottle = existing，則可將項(xiàng)集限制為僅包含 water bottle 的那些項(xiàng)集?！昂Y選項(xiàng)集”選項(xiàng)還可顯示以前使用過的篩選器的列表

27、。通過單擊列標(biāo)題，可以對網(wǎng)格中的行進(jìn)行排序。規(guī)則“規(guī)則”選項(xiàng)卡顯示關(guān)聯(lián)算法發(fā)現(xiàn)的規(guī)則?！耙?guī)則”選項(xiàng)卡包含一個具有以下列的網(wǎng)格：“概率”、“重要性”和“規(guī)則”。概率說明出現(xiàn)規(guī)則結(jié)果的可能性。重要性用于度量規(guī)則的用途。盡管規(guī)則出現(xiàn)的概率可能很高，但規(guī)則自身的用途可能并不重要。重要性列就是說明這一情況的。例如，如果每個項(xiàng)集都包含屬性的某個特定狀態(tài)，那么，即使概率非常高，預(yù)測狀態(tài)的規(guī)則也并不重要。重要性越高，規(guī)則越重要。可以使用“最小概率”和“最低重要性”來篩選規(guī)則，此操作類似于可在“項(xiàng)集”選項(xiàng)卡中進(jìn)行的篩選。您也可以使用“篩選規(guī)則”，根據(jù)屬性包含的狀態(tài)來篩選規(guī)則。通過單擊列標(biāo)題，可以對網(wǎng)格中的行

28、進(jìn)行排序。依賴關(guān)系網(wǎng)絡(luò)“依賴關(guān)系網(wǎng)絡(luò)”選項(xiàng)卡包括一個依賴關(guān)系網(wǎng)絡(luò)查看器。查看器中的每個節(jié)點(diǎn)代表一個項(xiàng)，如 state = wa。節(jié)點(diǎn)間的箭頭代表項(xiàng)之間有關(guān)聯(lián)。箭頭的方向表示按照算法發(fā)現(xiàn)的規(guī)則確定的項(xiàng)之間的關(guān)聯(lián)。例如，如果查看器包含三個項(xiàng) a、b 和 c，并且 c 是根據(jù) a 和 b 預(yù)測的，那么，選擇了節(jié)點(diǎn) c 時(shí)，則有兩個箭頭指向節(jié)點(diǎn) c，即 a 到 c 和 b 到 c。查看器左邊的滑塊可當(dāng)作與規(guī)則的概率關(guān)聯(lián)的篩選器使用。降低滑塊將只顯示最強(qiáng)鏈接。5microsoft 決策樹算法參數(shù)microsoft 決策樹算法支持多個參數(shù)，具體參數(shù)詳見幫助文檔6數(shù)據(jù)源可自定義或選擇adventurewo

29、rks示例數(shù)據(jù)庫。實(shí)驗(yàn)3：實(shí)踐決策樹挖掘方法1實(shí)驗(yàn)內(nèi)容可參照msdn幫助文檔。（2microsoft 決策樹算法說明microsoft 決策樹算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分類和回歸算法，用于對離散和連續(xù)屬性進(jìn)行預(yù)測性建模。對于離散屬性，該算法根據(jù)數(shù)據(jù)集中輸入列之間的關(guān)系進(jìn)行預(yù)測。它使用這些列的值或狀態(tài)預(yù)測指定的可預(yù)測列的狀態(tài)。具體地說，該算法標(biāo)識與可預(yù)測列相關(guān)的輸入列。例如，在預(yù)測哪些客戶可能購買自行車的方案中，假如在十名年輕客戶中有九名購買了自行車，但在十名年齡較大的客戶中只有兩名購買了自行車，則該算法

30、從中推斷出年齡是自行車購買情況的最佳預(yù)測因子。決策樹根據(jù)朝向特定結(jié)果發(fā)展的趨勢進(jìn)行預(yù)測。對于連續(xù)屬性，該算法使用線性回歸確定決策樹的拆分位置。如果有多個列設(shè)置為可預(yù)測列，或輸入數(shù)據(jù)包含設(shè)置為可預(yù)測的嵌套表，則該算法將為每個可預(yù)測列分別生成一個決策樹。3microsoft 決策樹算法原理microsoft 決策樹通過在樹中創(chuàng)建一系列拆分（也稱為節(jié)點(diǎn)）來生成數(shù)據(jù)挖掘模型。每當(dāng)發(fā)現(xiàn)輸入列與可預(yù)測列密切相關(guān)時(shí)，算法便會向該模型中添加一個節(jié)點(diǎn)。隨著算法不斷向模型中添加新節(jié)點(diǎn)，便形成了樹結(jié)構(gòu)。該樹的頂端節(jié)點(diǎn)描述了客戶總體可預(yù)測列的分解。隨著模型的不斷增大，該算法將考慮所有列。4microsoft 決策樹

31、算法參數(shù)microsoft 決策樹算法支持多個參數(shù)，具體參數(shù)詳見幫助文檔5使用 microsoft 樹查看器查看挖掘模型決策樹生成決策樹模型時(shí)，analysis services 將為每個可預(yù)測屬性生成一個單獨(dú)的樹。從查看器的“決策樹”選項(xiàng)卡上的“樹”列表中選擇單個樹，可查看該樹。決策樹由一系列拆分組成，最重要的拆分由算法確定，位于“全部”節(jié)點(diǎn)中查看器的左側(cè)。其他拆分出現(xiàn)在右側(cè)?！叭俊惫?jié)點(diǎn)中的拆分最為重要，由于該節(jié)點(diǎn)包含了數(shù)據(jù)集內(nèi)引起拆分的最充分的條件，因而產(chǎn)生了第一個拆分。可以展開或折疊決策樹中的各個節(jié)點(diǎn)，以顯示或隱藏各節(jié)點(diǎn)后出現(xiàn)的拆分。您還可以使用“決策樹”選項(xiàng)卡上的選項(xiàng)來設(shè)置樹的顯

32、示方式。使用“顯示級別”滑塊，可以調(diào)整樹中顯示的級別數(shù)。使用“默認(rèn)擴(kuò)展”，可以設(shè)置模型中所有樹的默認(rèn)顯示級別數(shù)。預(yù)測離散屬性如果樹是使用離散可預(yù)測屬性生成的，則查看器將在樹的每個節(jié)點(diǎn)上顯示以下信息：導(dǎo)致拆分的條件。表示可預(yù)測屬性的狀態(tài)分布情況的直方圖，其中各個狀態(tài)按使用頻率高低進(jìn)行排列?？梢允褂谩爸狈綀D”選項(xiàng)來更改在樹的直方圖中顯示的狀態(tài)數(shù)。如果可預(yù)測屬性有很多狀態(tài)，這一功能將非常有用。各種狀態(tài)按使用頻率高低自左到右顯示在直方圖中；如果選擇顯示的狀態(tài)數(shù)少于屬性的狀態(tài)總數(shù)，則使用頻率最低的狀態(tài)將集中以灰色顯示。若要查看某個節(jié)點(diǎn)的各種狀態(tài)的確切數(shù)目，可以將指針停留在該節(jié)點(diǎn)上來查看 infotip（

33、信息提示），也可以選擇該節(jié)點(diǎn)以便在“挖掘圖例”中查看其詳細(xì)信息。如果使用“背景”選項(xiàng)選擇了特定屬性狀態(tài)，則各個節(jié)點(diǎn)的背景色將表示處于所選狀態(tài)的事例的密集程度?？梢允褂么诉x項(xiàng)來突出顯示包含所關(guān)注的特定目標(biāo)的節(jié)點(diǎn)。預(yù)測連續(xù)屬性如果樹是使用連續(xù)可預(yù)測屬性生成的，則查看器為樹中的每個節(jié)點(diǎn)顯示一個菱形圖，而不是直方圖。菱形圖有一個表示屬性范圍的線條。菱形位于節(jié)點(diǎn)的中間，其寬度表示該節(jié)點(diǎn)處屬性的方差。菱形越窄，說明該節(jié)點(diǎn)生成的預(yù)測越精確。查看器還顯示用于確定節(jié)點(diǎn)中的拆分的回歸公式。其他決策樹顯示選項(xiàng)為決策樹模型啟用鉆取后，即可訪問支持某個節(jié)點(diǎn)的定型事例，方法是：右鍵單擊樹中的該節(jié)點(diǎn)，然后選擇“鉆取”?？梢?/p>

34、在數(shù)據(jù)挖掘向?qū)?nèi)啟用鉆取，也可以在“挖掘模型”選項(xiàng)卡中通過調(diào)整挖掘模型的鉆取屬性來啟用鉆取?？梢允褂谩皼Q策樹”選項(xiàng)卡上的縮放選項(xiàng)來放大或縮小某個樹，也可以使用“調(diào)整為合適大小”將整個模型放入查看器的屏幕中。如果某個樹太大而無法將其調(diào)整為適合屏幕的大小，則可使用“導(dǎo)航”選項(xiàng)在樹中導(dǎo)航。單擊“導(dǎo)航”將打開一個單獨(dú)的導(dǎo)航窗口，可通過它來選擇要顯示的模型部分。還可以將樹視圖圖像復(fù)制到剪貼板上，以便可將其粘貼到文檔或圖像處理軟件中?？梢允褂谩皬?fù)制圖形視圖”僅復(fù)制查看器中樹的可見部分，也可以使用“復(fù)制整個圖形”來復(fù)制樹中所有擴(kuò)展節(jié)點(diǎn)。依賴關(guān)系網(wǎng)絡(luò)“依賴關(guān)系網(wǎng)絡(luò)”顯示了模型中的輸入屬性和可預(yù)測屬性之間的依賴

35、關(guān)系。查看器左側(cè)的滑塊可起到與依賴關(guān)系強(qiáng)度相聯(lián)系的篩選器的作用。如果向下拉動滑塊，則查看器中只會顯示最強(qiáng)鏈接。選擇一個節(jié)點(diǎn)后，查看器將突出顯示該節(jié)點(diǎn)特定的依賴項(xiàng)。例如，如果選擇一個可預(yù)測節(jié)點(diǎn)，查看器也將突出顯示有助于預(yù)測該可預(yù)測節(jié)點(diǎn)的各個節(jié)點(diǎn)。如果查看器包含大量的節(jié)點(diǎn)，則可使用“查找節(jié)點(diǎn)”按鈕來搜索特定的節(jié)點(diǎn)。單擊“查找節(jié)點(diǎn)”將打開“查找節(jié)點(diǎn)”對話框，可以在該對話框中使用篩選器來搜索和選擇特定的節(jié)點(diǎn)。查看器底部的圖例說明了圖表中不同顏色代碼所代表的依賴關(guān)系類型。例如，如果選擇一個可預(yù)測節(jié)點(diǎn)，該節(jié)點(diǎn)將呈青綠色，而預(yù)測所選節(jié)點(diǎn)的節(jié)點(diǎn)呈橙色。挖掘圖例在選中決策樹模型中的某個節(jié)點(diǎn)時(shí)，挖掘圖例顯示

36、下列信息：節(jié)點(diǎn)中按可預(yù)測屬性的狀態(tài)劃分的事例的數(shù)目。節(jié)點(diǎn)的可預(yù)測屬性的各種事例的概率。一個直方圖，其中包含可預(yù)測屬性的各種狀態(tài)的數(shù)目。訪問某個特定節(jié)點(diǎn)所需的條件，也稱為“節(jié)點(diǎn)路徑”。 ?？亢褪褂谩巴诰驁D例”的方式與解決方案資源管理器的使用方式類似。實(shí)驗(yàn)4：實(shí)踐聚類挖掘方法1microsoft 聚類分析算法說明microsoft 聚類分析算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分段算法。該算法使用迭代技術(shù)將數(shù)據(jù)集中的事例分組為包含類似特征的分類。在瀏覽數(shù)據(jù)、標(biāo)識數(shù)據(jù)中的異常及創(chuàng)建預(yù)測時(shí)，這些分組十分有用。聚類分析模

37、型標(biāo)識數(shù)據(jù)集中可能無法通過隨意觀察在邏輯上得出的關(guān)系。例如，在邏輯上可以得知，騎自行車上下班的人的居住地點(diǎn)通常離其工作地點(diǎn)不遠(yuǎn)。但該算法可以找出有關(guān)騎自行車上下班人員的其他并不明顯的特征。在下面的關(guān)系圖中，分類 a 表示有關(guān)通常開車上班人員的數(shù)據(jù)，而分類 b 表示通常騎自行車上班人員的數(shù)據(jù)。聚類分析算法不同于 microsoft 決策樹算法等其他數(shù)據(jù)挖掘算法，區(qū)別在于無需指定可預(yù)測列便能生成聚類分析模型。聚類分析算法嚴(yán)格地根據(jù)數(shù)據(jù)以及該算法所標(biāo)識的分類中存在的關(guān)系定型。2microsoft 聚類分析算法原理microsoft 聚類分析算法首先標(biāo)識數(shù)據(jù)集中的關(guān)系并根據(jù)這些關(guān)系生成一系列分類。散點(diǎn)

38、圖是一種非常有用的方法，可以直觀地表示算法如何對數(shù)據(jù)進(jìn)行分組，如下面的關(guān)系圖所示。散點(diǎn)圖可以表示數(shù)據(jù)集中的所有事例，在該圖中每個事例就是一個點(diǎn)。分類對該圖中的點(diǎn)進(jìn)行分組并闡釋該算法所標(biāo)識的關(guān)系。在最初定義分類后，算法將通過計(jì)算確定分類表示點(diǎn)分組情況的適合程度，然后嘗試重新定義這些分組以創(chuàng)建可以更好地表示數(shù)據(jù)的分類。該算法將循環(huán)執(zhí)行此過程，直到它不能再通過重新定義分類來改進(jìn)結(jié)果為止。microsoft 聚類分析算法提供下列兩種方法來計(jì)算點(diǎn)在分類中的適合程度：expectation maximization (em) 和 k-means。對于 em 聚類分析，該算法使用一種統(tǒng)計(jì)方法來確定分類中存在

39、數(shù)據(jù)點(diǎn)的概率。對于 k-means，該算法使用距離度量值將數(shù)據(jù)點(diǎn)分配給其最接近的分類。生成分類時(shí)不使用其用法設(shè)置為只預(yù)測的列。在生成分類后，將計(jì)算這些列在分類中的分布。3microsoft 聚類分析算法參數(shù)參數(shù) 說明 clustering_method指定算法要使用的聚類分析方法。有下列聚類分析方法可用：scalable em (1)、non-scalable em (2)、scalable k-means (3) 和 non-scalable k-means (4)。默認(rèn)值為 1。cluster_count指定將由算法生成的大致分類數(shù)。如果無法基于相應(yīng)的數(shù)據(jù)生成該大致數(shù)目的分類，則算法將生

40、成盡可能多的分類。如果將 cluster_count 設(shè)置為 0，則算法將使用試探性方法最準(zhǔn)確地確定要生成的分類數(shù)。默認(rèn)值為 10。cluster_seed指定在為建模初始階段隨機(jī)生成分類時(shí)所要使用的種子數(shù)字。默認(rèn)值為 0。minimum_support指定每個分類中的最小事例數(shù)。默認(rèn)值為 1。modelling_cardinality指定在聚類分析過程中構(gòu)建的示例模型數(shù)。默認(rèn)值為 10。stopping_tolerance指定一個值，它可確定何時(shí)達(dá)到收斂而且算法完成建模。當(dāng)分類概率中的整體變化小于 stopping_tolerance 參數(shù)與模型大小之比時(shí)，即達(dá)到收斂。默認(rèn)值為 10。sam

41、ple_size如果 clustering_method 參數(shù)設(shè)置為其中一個可縮放聚類分析方法，請指定算法在每個傳遞中使用的事例數(shù)。如果將 sample_size 參數(shù)設(shè)置為 0，則會在單個傳遞中對整個數(shù)據(jù)集進(jìn)行聚類分析操作，從而導(dǎo)致內(nèi)存和性能問題。默認(rèn)值為 50000。maximum_input_attributes指定算法在調(diào)用功能選擇之前可以處理的最大輸入屬性數(shù)。如果將此值設(shè)置為 0，則指定不限制輸入屬性的最大數(shù)量。默認(rèn)值為 255。maximum_states指定算法支持的最大屬性狀態(tài)數(shù)。如果屬性的狀態(tài)數(shù)大于該最大狀態(tài)數(shù)，算法將使用該屬性的最常見狀態(tài)，同時(shí)忽略剩余狀態(tài)。默認(rèn)值為 100

42、。4使用 microsoft 分類查看器查看聚類挖掘模型microsoft sql server 2005 analysis services (ssas) 中的 microsoft 分類查看器可以顯示使用 microsoft 聚類分析算法生成的挖掘模型。microsoft 聚類分析算法是一種分段算法，用于瀏覽數(shù)據(jù)以標(biāo)識數(shù)據(jù)中的變體并創(chuàng)建預(yù)測。在 analysis services 中瀏覽挖掘模型時(shí)，該模型會使用模型的相應(yīng)查看器，顯示在數(shù)據(jù)挖掘設(shè)計(jì)器的“挖掘模型查看器”選項(xiàng)卡上。microsoft 分類查看器提供了以下選項(xiàng)卡，用于瀏覽分類挖掘模型：分類關(guān)系圖microsoft 分類查看器的“分

43、類關(guān)系圖”選項(xiàng)卡可以顯示挖掘模型中的所有分類。兩個分類之間連線的明暗度表示分類的相似程度。如果明暗度較淺或無明暗度，則表示分類的相似程度較低。連線的顏色越深，鏈接的相似性越強(qiáng)。通過調(diào)整分類右側(cè)的滑塊，可以調(diào)整查看器顯示的連線數(shù)。降低滑塊將只顯示最強(qiáng)鏈接。默認(rèn)情況下，明暗度代表分類的總體。通過使用“明暗度變量”和“狀態(tài)”選項(xiàng)，可以選擇明暗度代表的屬性和狀態(tài)對。明暗度越深，特定狀態(tài)所對應(yīng)的屬性分布范圍就越大。明暗度越淺，分布范圍就越小。若要重命名某個分類，請右鍵單擊其節(jié)點(diǎn)，再選擇“重命名分類”。新名稱會在服務(wù)器中永久保留。若要將關(guān)系圖的可見部分復(fù)制到剪貼板，請單擊“復(fù)制圖形視圖”。若要復(fù)制完整

44、的關(guān)系圖，請單擊“復(fù)制整個圖形”。使用“放大”和“縮小”可以放大或縮小關(guān)系圖，使用“縮放關(guān)系圖以適應(yīng)窗口”可以適應(yīng)屏幕大小。分類剖面圖“分類剖面圖”選項(xiàng)卡可以提供模型中的算法創(chuàng)建的分類的總體視圖。此視圖顯示了分類中的每個屬性以及屬性的分布。每個單元的 infotip 顯示分布統(tǒng)計(jì)信息，每個列標(biāo)題的 infotip 顯示分類的總體。離散屬性顯示為彩條，連續(xù)屬性顯示為菱形圖，表示每個分類中的平均偏差和標(biāo)準(zhǔn)偏差。通過“直方圖條”選項(xiàng)可以控制直方圖中可見的圖條數(shù)。如果存在的圖條數(shù)多于您選擇顯示的圖條數(shù)，則會保留重要性最高的那些圖條，其余圖條則組合到一個灰色的存儲桶內(nèi)?？梢愿姆诸惖哪J(rèn)名稱，使名稱更具

45、描述性。右鍵單擊分類的列標(biāo)題，再選擇“重命名分類”，即可重命名分類。也可以通過選擇“隱藏列”來隱藏分類。若要打開一個窗口，以便為分類提供更大、更詳細(xì)的視圖，請雙擊“狀態(tài)”列中的任一單元，或雙擊查看器中的任一直方圖。單擊列標(biāo)題，可以將列中的屬性按照其對分類的重要性來進(jìn)行排序。也可以在查看器中拖動列以將其重新排序。分類特征若要使用“分類特征”選項(xiàng)卡，請從“分類”列表中選擇一個分類。選擇分類后，可以檢查特定分類的組成特征。分類包含的屬性將列在“變量”列中，所列屬性的狀態(tài)則列在“值”列中。屬性狀態(tài)將按重要性順序列出，重要性由這些狀態(tài)會出現(xiàn)在分類中的概率表示。概率顯示在“概率”列中。分類對比可以使用“

46、分類對比”選項(xiàng)卡來比較兩個分類的屬性。使用“分類 1”和“分類 2”列表可以選擇要比較的分類。查看器將確定分類之間最為重要的一些差異，并按重要性順序顯示與這些差異關(guān)聯(lián)的屬性狀態(tài)。屬性右側(cè)的條表示屬性狀態(tài)所傾向的分類，條的大小則表示屬性狀態(tài)傾向于相應(yīng)分類的程度。實(shí)驗(yàn)5：實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法1microsoft 神經(jīng)網(wǎng)絡(luò)分析算法說明在 sql server analysis services 中，microsoft 神經(jīng)網(wǎng)絡(luò)算法組合輸入屬性的每個可能狀態(tài)和可預(yù)測屬性的每個可能狀態(tài)，并使用定型數(shù)據(jù)計(jì)算概率。之后，可以根據(jù)輸入屬性，將這些概率用于分類或回歸，并預(yù)測被預(yù)測屬性的結(jié)果。使用 microso

47、ft 神經(jīng)元網(wǎng)絡(luò)算法構(gòu)造的挖掘模型可以包含多個網(wǎng)絡(luò)，這取決于用于輸入和預(yù)測的列的數(shù)量，或者取決于僅用于預(yù)測的列的數(shù)量。一個挖掘模型包含的網(wǎng)絡(luò)數(shù)取決于挖掘模型使用的輸入列和預(yù)測列包含的狀態(tài)數(shù)。2microsoft 神經(jīng)網(wǎng)絡(luò)算法原理microsoft 神經(jīng)網(wǎng)絡(luò)算法使用由三層神經(jīng)元（即感知器）組成的多層感知器網(wǎng)絡(luò)，該網(wǎng)絡(luò)也稱為反向傳播 delta 法則網(wǎng)絡(luò)。這些層分別是輸入層、可選隱藏層和輸出層。在一個多層感知器網(wǎng)絡(luò)中，每個神經(jīng)元接收一個或多個輸入，產(chǎn)生一個或多個相同的輸出。每個輸出都是對神經(jīng)元的輸入之和的簡單非線性函數(shù)。輸入只是從輸入層中的節(jié)點(diǎn)傳遞到隱藏層中的節(jié)點(diǎn)，最后傳遞到輸出層。同一層中的神經(jīng)

48、元之間沒有連接。（如果沒有隱藏層，則輸入從輸入層中的節(jié)點(diǎn)傳遞到輸出層中的節(jié)點(diǎn)。）有關(guān)多層感知器神經(jīng)網(wǎng)絡(luò)的詳細(xì)探討不屬于本文檔的范圍。使用 microsoft 神經(jīng)元網(wǎng)絡(luò)算法構(gòu)造的挖掘模型可以包含多個網(wǎng)絡(luò)，這取決于用于輸入和預(yù)測的列的數(shù)量，或者取決于僅用于預(yù)測的列的數(shù)量。一個挖掘模型包含的網(wǎng)絡(luò)數(shù)取決于挖掘模型使用的輸入列和預(yù)測列包含的狀態(tài)數(shù)。在使用 microsoft 神經(jīng)網(wǎng)絡(luò)算法創(chuàng)建的神經(jīng)網(wǎng)絡(luò)中，存在三種神經(jīng)元類型：輸入神經(jīng)元輸入神經(jīng)元提供數(shù)據(jù)挖掘模型的輸入屬性值。對于離散輸入屬性，輸入神經(jīng)元通常代表輸入屬性的單個狀態(tài)，其中包括缺少的值。例如，一個二進(jìn)制輸入屬性生成一個輸入節(jié)點(diǎn)，該節(jié)點(diǎn)說明缺少

49、的或現(xiàn)有的狀態(tài)，并指示該屬性是否存在值。用作輸入屬性的 boolean 列可生成三個輸入神經(jīng)元：一個神經(jīng)元用于 true 值，一個神經(jīng)元用于 false 值，還有一個神經(jīng)元用于缺少或現(xiàn)有的狀態(tài)。具有兩個以上狀態(tài)的離散輸入屬性可為每個狀態(tài)生成一個輸入神經(jīng)元，并為缺少的或現(xiàn)有的狀態(tài)生成一個輸入神經(jīng)元。一個連續(xù)的輸入屬性可生成兩個輸入神經(jīng)元：一個是針對缺少的或現(xiàn)有的狀態(tài)的神經(jīng)元，一個是針對連續(xù)屬性自身的值的神經(jīng)元。輸入神經(jīng)元可向一個或多個隱藏神經(jīng)元提供輸入。隱藏神經(jīng)元隱藏神經(jīng)元接收來自輸入神經(jīng)元的輸入，并向輸出神經(jīng)元提供輸出。輸出神經(jīng)元輸出神經(jīng)元代表數(shù)據(jù)挖掘模型的可預(yù)測屬性值。對于離散輸入屬性

50、，輸出神經(jīng)元通常代表可預(yù)測屬性的單個預(yù)測狀態(tài)，其中包括缺少的值。例如，一個二進(jìn)制可預(yù)測屬性可生成一個輸出節(jié)點(diǎn)，該節(jié)點(diǎn)說明缺少的或現(xiàn)有的狀態(tài)，以指示該屬性是否存在值。用作可預(yù)測屬性的 boolean 列可生成三個輸出神經(jīng)元：一個神經(jīng)元用于 true 值，一個神經(jīng)元用于 false 值，還有一個神經(jīng)元用于缺少或現(xiàn)有的狀態(tài)。具有兩種以上狀態(tài)的離散可預(yù)測屬性可為每個狀態(tài)生成一個輸出神經(jīng)元，并為缺少的或現(xiàn)有的狀態(tài)生成一個輸出神經(jīng)元。連續(xù)可預(yù)測列可生成兩個輸出神經(jīng)元：一個是針對缺少的或現(xiàn)有的狀態(tài)的神經(jīng)元，一個是針對連續(xù)列本身的值的神經(jīng)元。如果通過檢查可預(yù)測列集生成了 500 個以上的輸出神經(jīng)元，則 ana

51、lysis services 將在挖掘模型中生成一個新的網(wǎng)絡(luò)，用于代表超出部分的輸出神經(jīng)元。神經(jīng)元可接收多個輸入：對于輸入神經(jīng)元，神經(jīng)元接收來自原始數(shù)據(jù)的輸入；對于隱藏神經(jīng)元和輸出神經(jīng)元，神經(jīng)元接收來自神經(jīng)網(wǎng)絡(luò)中其他神經(jīng)元的輸出的輸入。輸入在神經(jīng)元之間建立了關(guān)系，而這些關(guān)系可用作分析特定事例集時(shí)的路徑。為每個輸入都分配了一個稱為“權(quán)重”的值，該值用于說明特定的輸入對于隱藏神經(jīng)元或輸出神經(jīng)元的相關(guān)性和重要性。分配給輸入的權(quán)重值越大，則該輸入與算法在確定該輸入是否成功分類一個特定事例時(shí)所收到的神經(jīng)元的相關(guān)性就越高，重要性也就越大。相應(yīng)地，每個神經(jīng)元都分配有一個稱為“激活函數(shù)”的簡單非線性函數(shù)，用于

52、說明特定神經(jīng)元對于神經(jīng)網(wǎng)絡(luò)層的相關(guān)性或重要性。隱藏神經(jīng)元使用雙曲正切函數(shù)作為其激活函數(shù)，但輸出神經(jīng)元使用 s 函數(shù) (sigmoid) 作為其激活函數(shù)。這兩個函數(shù)都是非線性連續(xù)函數(shù)，允許神經(jīng)網(wǎng)絡(luò)在輸入和輸出神經(jīng)元之間建立非線性關(guān)系模型。3microsoft 神經(jīng)網(wǎng)絡(luò)分析算法參數(shù)hidden_node_ratio指定隱藏神經(jīng)元相對于輸入和輸出神經(jīng)元的比率。以下公式可確定隱藏層中神經(jīng)元的初始數(shù)目：hidden_node_ratio * sqrt(total input neurons * total output neurons)默認(rèn)值為 4.0。holdout_percentage指定定型數(shù)據(jù)中

53、用于計(jì)算維持錯誤的事例的百分比，定型挖掘模型時(shí)的停止條件中將用到此百分比。默認(rèn)值為 30。holdout_seed指定一個數(shù)字，用作在算法隨機(jī)確定維持?jǐn)?shù)據(jù)時(shí)偽隨機(jī)生成器的種子。如果該參數(shù)設(shè)置為 0，算法將基于挖掘模型的名稱生成種子，以保證重新處理期間模型內(nèi)容的一致性。默認(rèn)值為 0。maximum_input_attributes確定在應(yīng)用功能選擇前，可應(yīng)用于算法的輸入屬性的最大數(shù)。如果將此值設(shè)置為 0，則為輸入屬性禁用功能選擇。默認(rèn)值為 255。maximum_output_attributes確定在應(yīng)用功能選擇前，可應(yīng)用于算法的輸出屬性的最大數(shù)。如果將此值設(shè)置為 0，則為輸出屬性禁用功能選擇。默認(rèn)值為 255。maxi

人人文庫> 全部分類> 應(yīng)用文書 > 年終總結(jié)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔