




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、潘怡 編著數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實(shí)驗(yàn)指導(dǎo)書長 沙 學(xué) 院 計(jì) 算 機(jī) 科 學(xué) 與 技 術(shù) 系2009年9月前 言本書是數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程及數(shù)據(jù)分析與挖掘的實(shí)驗(yàn)指導(dǎo)書。全書分為三個部分,第一部分為實(shí)驗(yàn)內(nèi)容對每個實(shí)驗(yàn)的實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)類型、實(shí)驗(yàn)學(xué)時(shí)、實(shí)驗(yàn)原理及知識點(diǎn)、實(shí)驗(yàn)環(huán)境(硬件環(huán)境、軟件環(huán)境)和實(shí)驗(yàn)內(nèi)容及步驟進(jìn)行簡單介紹,第二部分為實(shí)驗(yàn)指導(dǎo)對每個實(shí)驗(yàn)的實(shí)驗(yàn)方法,實(shí)驗(yàn)步驟及補(bǔ)充的實(shí)驗(yàn)知識進(jìn)行詳細(xì)介紹,第三部分為實(shí)驗(yàn)報(bào)告。本實(shí)踐課程主要介紹數(shù)據(jù)倉庫的工作機(jī)理及其構(gòu)建過程,。要求學(xué)生熟練使用數(shù)據(jù)庫管理系統(tǒng)ms sql server,掌握典型的數(shù)據(jù)倉庫系統(tǒng)及其開發(fā)工具的使用,理解數(shù)據(jù)挖掘的工作原理與
2、流程,掌握典型數(shù)據(jù)挖掘技術(shù)及其工具的使用方法,熟悉sql server bi dev集成挖掘環(huán)境。要求學(xué)生實(shí)驗(yàn)前認(rèn)真準(zhǔn)備,實(shí)驗(yàn)后提供實(shí)驗(yàn)報(bào)告,給出詳細(xì)設(shè)計(jì)方法以及設(shè)計(jì)依據(jù)。實(shí)驗(yàn)報(bào)告的格式應(yīng)采用統(tǒng)一封面,統(tǒng)一的實(shí)驗(yàn)報(bào)告紙。封面應(yīng)包括:課程名稱、實(shí)驗(yàn)序號、名稱、專業(yè)、班級、姓名、同組實(shí)驗(yàn)者、實(shí)驗(yàn)時(shí)間。實(shí)驗(yàn)報(bào)告內(nèi)容應(yīng)包括:實(shí)驗(yàn)名稱、目的、內(nèi)容、實(shí)驗(yàn)步驟、實(shí)驗(yàn)記錄、數(shù)據(jù)處理(或原理論證、或?qū)嶒?yàn)現(xiàn)象描述、或結(jié)構(gòu)說明等)。目 錄第一部分 實(shí)驗(yàn)內(nèi)容實(shí)驗(yàn)1:實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境實(shí)驗(yàn)2:實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法實(shí)驗(yàn)3:實(shí)踐決策樹挖掘方法實(shí)驗(yàn)4:實(shí)踐聚類挖掘方法實(shí)驗(yàn)5:實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法第二部分
3、 實(shí)驗(yàn)指導(dǎo)實(shí)驗(yàn)1:實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境實(shí)驗(yàn)2:實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法實(shí)驗(yàn)3:實(shí)踐決策樹挖掘方法實(shí)驗(yàn)4:實(shí)踐聚類挖掘方法實(shí)驗(yàn)5:實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法第三部分 實(shí)驗(yàn)報(bào)告第一部分實(shí)驗(yàn)內(nèi)容實(shí)驗(yàn)1:實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握sql server 2005 analysis services 工具集,包括如何在 bi development studio 的 analysis services 項(xiàng)目中定義數(shù)據(jù)源、數(shù)據(jù)源視圖、維度、屬性、層次結(jié)構(gòu)和多維數(shù)據(jù)集,如何查看多維數(shù)據(jù)集和維度,理解并掌握olap分析的基本過程與方法。二實(shí)驗(yàn)類型 驗(yàn)證型三實(shí)驗(yàn)學(xué)時(shí) 4
4、學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1sql server 服務(wù) 2服務(wù)器注冊3系統(tǒng)數(shù)據(jù)源連接4數(shù)據(jù)源視圖處理5多維數(shù)據(jù)集6事實(shí)表和維度表;7星型架構(gòu)模型;8元數(shù)據(jù)結(jié)構(gòu)。五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求:pc及其聯(lián)網(wǎng)環(huán)境;2軟件設(shè)備要求:操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟i. 建立sql server 2005 數(shù)據(jù)挖掘?qū)嶒?yàn)環(huán)境1 啟動sql server 服務(wù),打開bi開發(fā)環(huán)境2 注冊服務(wù)器3 建立系統(tǒng)數(shù)據(jù)源連接4 建立數(shù)據(jù)庫和數(shù)據(jù)源視圖5 瀏覽多維數(shù)據(jù)集數(shù)據(jù)6 編輯多維數(shù)據(jù)集數(shù)據(jù)ii. 實(shí)踐多維數(shù)據(jù)集分析 假
5、設(shè)一連鎖超市的用戶需求如下,從無到有設(shè)計(jì)一個數(shù)據(jù)倉庫的基本架構(gòu),要求能夠滿足以下查詢:1 查詢公司在2005年的總銷售金額2 查詢公司在2005年第一季度的銷售金額3 查詢公司在2005年上半年的銷售金額4 查詢某供應(yīng)商s1于2005年提供產(chǎn)品p1的金額總量5 查詢某供應(yīng)商s1于2005年提供某產(chǎn)品p1的金額總量6 查詢某門市店d1于2005年共銷售某一種商品p1的總金額7 查詢公司在2005年度共銷售多少金額類別為c1的商品p1的總金額根據(jù)要求:1 建事實(shí)表和維度表2 設(shè)計(jì)星型架構(gòu)模型3 分析元數(shù)據(jù)結(jié)構(gòu)。七思考與練習(xí)1什么是sql sever 2005 bi dev studio?它包含幾個
6、主要部分?2如何注冊服務(wù)器?3如何設(shè)計(jì)數(shù)據(jù)源視圖?4如何建立多維數(shù)據(jù)集?5什么是事實(shí)表和維度表?6什么是星型架構(gòu)?7什么是元數(shù)據(jù)?實(shí)驗(yàn)2:實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,了解并掌握挖掘結(jié)構(gòu)、挖掘模型的基本概念,能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型,掌握數(shù)據(jù)挖掘設(shè)計(jì)器的使用方法,掌握模型查看器方法,能夠使用挖掘準(zhǔn)確性圖表,了解模型的提升圖,能夠創(chuàng)建數(shù)據(jù)挖掘報(bào)告。二實(shí)驗(yàn)類型 設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1sql server 挖掘結(jié)構(gòu)2sql server 挖掘模型3事實(shí)表4嵌套表5鍵6輸入列7可預(yù)測列8挖掘參數(shù)五
7、實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求:pc及其聯(lián)網(wǎng)環(huán)境;2軟件設(shè)備要求:操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1 數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集,對所需數(shù)據(jù)進(jìn)行必要地提取、清洗和校驗(yàn),為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2 創(chuàng)建數(shù)據(jù)源3 創(chuàng)建數(shù)據(jù)源視圖4 創(chuàng)建挖掘結(jié)構(gòu)5 創(chuàng)建挖掘模型6 使用模型查看器查看挖掘模型7 使用挖掘準(zhǔn)確性圖表查看模型8 使用挖掘模型預(yù)測窗口9 創(chuàng)建數(shù)據(jù)挖掘報(bào)告實(shí)驗(yàn)3:實(shí)踐決策樹挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行決策樹挖掘,選擇合適的數(shù)據(jù)進(jìn)行決策樹分析,并嘗試
8、給出合理解釋(例如,使用案例數(shù)據(jù)庫建立給客戶分群的決策樹挖掘模型,或者判斷學(xué)生升學(xué)意向)。在實(shí)驗(yàn)過程中了解并掌握挖掘模型的參數(shù)意義及設(shè)置方法,能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型,要求使用柱狀圖等方式展現(xiàn)最終挖掘結(jié)果。二實(shí)驗(yàn)類型 設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1hunt算法2. 最佳劃分的度量方法3. 信息熵增益五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求:pc及其聯(lián)網(wǎng)環(huán)境;2軟件設(shè)備要求:操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集,對所需數(shù)據(jù)進(jìn)行必要地提取、清洗
9、和校驗(yàn),為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2創(chuàng)建數(shù)據(jù)源3創(chuàng)建數(shù)據(jù)源視圖4創(chuàng)建挖掘結(jié)構(gòu)5創(chuàng)建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘準(zhǔn)確性圖表查看模型8使用挖掘模型預(yù)測窗口9創(chuàng)建數(shù)據(jù)挖掘報(bào)告實(shí)驗(yàn)4:實(shí)踐聚類挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行聚類挖掘,選擇合適的數(shù)據(jù)進(jìn)行聚類分析,并嘗試給出合理解釋在實(shí)驗(yàn)過程中了解并掌握挖掘模型的參數(shù)意義及設(shè)置方法,能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型,要求能夠掌握模型察看方法。二實(shí)驗(yàn)類型 設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1k-mean算法五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求:pc及其聯(lián)網(wǎng)環(huán)境;2軟件設(shè)備要求:操作系統(tǒng)windows,
10、 sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集,對所需數(shù)據(jù)進(jìn)行必要地提取、清洗和校驗(yàn),為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2創(chuàng)建數(shù)據(jù)源3創(chuàng)建數(shù)據(jù)源視圖4創(chuàng)建挖掘結(jié)構(gòu)5創(chuàng)建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘準(zhǔn)確性圖表查看模型8使用挖掘模型預(yù)測窗口9創(chuàng)建數(shù)據(jù)挖掘報(bào)告實(shí)驗(yàn)5:實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法一實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)和掌握使用sql server 2005進(jìn)行神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘,了解并掌握挖掘結(jié)構(gòu)、挖掘模型的基本概念,能夠使用數(shù)據(jù)挖掘向?qū)?chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型,掌握數(shù)據(jù)挖掘設(shè)計(jì)器的使用方法,掌握模型查看器
11、方法,能夠使用挖掘準(zhǔn)確性圖表,了解模型的提升圖,能夠創(chuàng)建數(shù)據(jù)挖掘報(bào)告。二實(shí)驗(yàn)類型 設(shè)計(jì)型三實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí)四實(shí)驗(yàn)原理及知識點(diǎn)1神經(jīng)網(wǎng)絡(luò)的拓?fù)?神經(jīng)網(wǎng)絡(luò)的組合和激活3神經(jīng)網(wǎng)絡(luò)的反向傳播、誤差函數(shù)4神經(jīng)網(wǎng)絡(luò)的處理五實(shí)驗(yàn)環(huán)境1硬件設(shè)備要求:pc及其聯(lián)網(wǎng)環(huán)境;2軟件設(shè)備要求:操作系統(tǒng)windows, sql server 2005, sql server 2005 bi dev studio 。六實(shí)驗(yàn)內(nèi)容及步驟1數(shù)據(jù)準(zhǔn)備選定待分析數(shù)據(jù)庫或多維數(shù)據(jù)集,對所需數(shù)據(jù)進(jìn)行必要地提取、清洗和校驗(yàn),為挖掘工作做好數(shù)據(jù)準(zhǔn)備。2創(chuàng)建數(shù)據(jù)源3創(chuàng)建數(shù)據(jù)源視圖4創(chuàng)建挖掘結(jié)構(gòu)5創(chuàng)建挖掘模型6使用模型查看器查看挖掘模型7使用挖
12、掘準(zhǔn)確性圖表查看模型8使用挖掘模型預(yù)測窗口9創(chuàng)建數(shù)據(jù)挖掘報(bào)告第二部分實(shí)驗(yàn)指導(dǎo)實(shí)驗(yàn)1:實(shí)踐sql server數(shù)據(jù)多維分析環(huán)境i. 建立sql server 2005 數(shù)據(jù)挖掘?qū)嶒?yàn)環(huán)境一sql sever 2005 安裝1)sql server 2005的一般部署步驟當(dāng)你第一次把sqlserver2005的cd或者dvd光盤放到server里的時(shí)候,你會看到一個引導(dǎo)窗口(圖a),上面是產(chǎn)品介紹和運(yùn)行須知。圖asqlserver2005的引導(dǎo)頁面。要注意的是,即使你是用單張dvd進(jìn)行安裝,這個頁面頂部的文字顯示的還是“光盤12(disc 1 of 2)”。要開始安裝,就要選擇“安裝(install
13、)”標(biāo)題下的“server組件、工具、在線工具書和示例(server components, tools, books online, and samples)”選項(xiàng)。彈出的第一個畫面是產(chǎn)品的最終用戶許可證協(xié)議。你需要勾選“我接受協(xié)議條款和條件(i accept the licensing terms and conditions)”,點(diǎn)擊“下一步(next)”按鈕繼續(xù)。我在這里就不列出許可證頁面了。你對此可能已經(jīng)很熟悉了。下一個畫面(圖b)顯示的是安裝程序要提前安裝的一些程序。.net框架2.0是這里的關(guān)鍵。如果你決定在同一臺server上安裝sqlserver2005以及其他應(yīng)用程序,那就
14、要確保它們都能夠使用這個框架。點(diǎn)擊“安裝(install)”按鈕來安裝這些項(xiàng)目。當(dāng)這些項(xiàng)目安裝完畢后,你可以點(diǎn)擊“下一步”按鈕。圖b當(dāng)所有需要預(yù)先安裝的程序都安裝到你的系統(tǒng)里之后,sqlserver2005的安裝向?qū)Ь蜁?。安裝向?qū)瓿傻牡谝豁?xiàng)任務(wù)是掃描你的系統(tǒng),以確保它滿足sqlserver2005的最低要求。在下面的圖c里,你會看到系統(tǒng)檢測提示有兩個方面存在問題。第一個是硬件的最低要求。它之所以出現(xiàn)是因?yàn)槲沂怯锰摂M機(jī)來安裝sqlserver2005的,而虛擬機(jī)分配到的內(nèi)存只有384兆,這個問題很容易解決。第二個是要求具有internet信息服務(wù)功能(iis feature require
15、ment),這個有點(diǎn)嚴(yán)重。sqlserver2005的一些服務(wù),例如報(bào)告服務(wù)(reporting services)要求使用iis。所以,繼續(xù)安裝之前,我要退出sqlserver2005的安裝過程,再在server上安裝iis。之后,才能繼續(xù)進(jìn)行安裝。圖c系統(tǒng)檢測會檢查出一些存在的問題,這樣你可以在安裝之前就解決它們,從而避免一些可能發(fā)生的錯誤。安裝的下一步(圖d)就相當(dāng)簡單了。填好你的名字、公司名和產(chǎn)品密鑰。點(diǎn)擊“下一步”繼續(xù)。圖d在這一畫面里,你需要選希望與sqlserver2005一起安裝的組件。如果這是你的第一臺server,那么就要選上sqlserver數(shù)據(jù)庫服務(wù)(sql serve
16、r database services)選項(xiàng)。為了保證完整性,我安裝了所有的服務(wù),但是本文不會討論故障轉(zhuǎn)移集群。如果你想要選擇更加詳細(xì)的選項(xiàng),或者更改默認(rèn)的安裝路徑(c:program filesmicrosoft sql server),點(diǎn)擊“高級(advanced)”按鈕,然后會彈出一個更加常見的功能選擇窗口。下面的圖e向你顯示的是“組件選擇(component selection)”畫面。在圖f里,顯示的是“高級(advanced)”畫面。在窗口里,點(diǎn)擊“下一步(next)”繼續(xù)安裝。圖e qlserver2005的主要組件選擇畫面。圖f sqlserver2005引入了sqlserve
17、r命名實(shí)例(named instance)的概念。你可以選擇升級已有的命名實(shí)例(圖g),你也可以選擇在安裝sqlserver2005時(shí)默認(rèn)的實(shí)例。在本文的例子里,我使用的“默認(rèn)(default)”選項(xiàng)。圖g 擇你的實(shí)例。正如以往,sqlserver服務(wù)需要使用特定的驗(yàn)證信息登錄到系統(tǒng)。你可以選擇讓所有的sql服務(wù)都共享相同的驗(yàn)證信息,或者你可以為每個服務(wù)都提供自己的登錄驗(yàn)證信息,我建議在進(jìn)行更大范圍安裝時(shí)使用后面這種方式。但是,在本文里,我讓所有的服務(wù)都共享一個帳號,并使用內(nèi)置的“本地系統(tǒng)(local system)”帳號。 這個畫面還讓你選擇在安裝完成之后啟動哪些服務(wù)。你可以在圖h的屏幕截圖
18、中看到安裝程序默認(rèn)選擇的服務(wù)是哪些。圖h為每項(xiàng)sql服務(wù)選擇服務(wù)帳號在安裝的下一個畫面(圖i)里,系統(tǒng)會問你是否想要使用混合模式的windows身份驗(yàn)證(mixed mode authentication),這種模式讓你可以使用sqlserver帳號。除非你有充足的理由不使用,否則最好使用windows身份驗(yàn)證模式。用戶帳號的維護(hù)更簡單,這是你公司潛在安全漏洞較少的一個地方。如果你需要使用混合模式,就要向安裝程序提供你希望系統(tǒng)管理員(sa)帳號使用的密碼。圖i選擇你的身份驗(yàn)證模式。排序規(guī)則是不同的字符集和排序順序的組,sqlserver正是通過它們才能夠用于不同的區(qū)域和語言。sqlserver
19、2005安裝程序讓你可以選擇“sql排序規(guī)則(sql collations)”,這樣你就可以向后兼容先前版本的sqlserver。但是,如果你要安裝“分析服務(wù)(analysis services)”,sql的排序規(guī)則就不能用于這項(xiàng)服務(wù)。微軟建議你使用windows排序規(guī)則而不用sql排序規(guī)則,除非你需要解決向后兼容性的問題。windows排序規(guī)則為你提供了同時(shí)用于unicode和非unicode文本的連續(xù)字符串比較功能。在本文的安裝示例里,我將用到用于sql和分析服務(wù)的latin1_general排序規(guī)則指示項(xiàng)(圖j)和排序順序。圖j“安裝進(jìn)度(setup progress)”窗口讓你能夠了解
20、安裝程序安裝各個組件到哪一步了。圖o二、其他實(shí)驗(yàn)步驟及方法:參考教材第8章相關(guān)內(nèi)容。ii. 實(shí)踐多維數(shù)據(jù)集分析參考教材第3章及第8章相關(guān)內(nèi)容。實(shí)驗(yàn)2:實(shí)踐關(guān)聯(lián)規(guī)則挖掘方法1挖掘結(jié)構(gòu)和挖掘模型的基本概念挖掘結(jié)構(gòu)和挖掘模型均是sql server analysis services的主要數(shù)據(jù)挖掘?qū)ο?。挖掘結(jié)構(gòu)定義了挖掘的域,挖掘模型則對應(yīng)于挖掘結(jié)構(gòu)中挖掘算法的應(yīng)用。一個挖掘結(jié)構(gòu)包括數(shù)據(jù)和內(nèi)容類型,與數(shù)據(jù)源捆綁,挖掘模型包含一個定一號參數(shù)的算法,以及從挖掘結(jié)構(gòu)得到的列清單。一個挖掘結(jié)構(gòu)可以對應(yīng)多個挖掘模型。2 microsoft 關(guān)聯(lián)算法基本原理關(guān)聯(lián)模型基于包含各事例的標(biāo)識符及各事例所包含項(xiàng)的標(biāo)識符
21、的數(shù)據(jù)集生成。事例中的一組項(xiàng)稱為“項(xiàng)集”。關(guān)聯(lián)模型由事例中一系列項(xiàng)集和說明這些項(xiàng)如何分組的規(guī)則組成。算法標(biāo)識的規(guī)則可用于根據(jù)客戶購物車中已有的項(xiàng)來預(yù)測客戶將來可能購買的產(chǎn)品。以下關(guān)系圖顯示了項(xiàng)集中的一系列規(guī)則。正如該關(guān)系圖中所示,microsoft 關(guān)聯(lián)算法可能會在數(shù)據(jù)集中找到許多規(guī)則。該算法使用兩個參數(shù)(support 和 probability)來說明項(xiàng)集以及該算法生成的規(guī)則。例如,如果 x 和 y 表示購物車中可能有的兩個項(xiàng),則 support 參數(shù)是數(shù)據(jù)集中包含 x 和 y 這兩項(xiàng)組合的事例的數(shù)目。通過將 support 參數(shù)與用戶定義的 minimum_support 和 maxim
22、um_support 參數(shù)結(jié)合使用,該算法可控制生成的項(xiàng)集數(shù)。probability 參數(shù)也稱為“置信度”,表示數(shù)據(jù)集中既包含 x 也包含 y 的一部分事例。通過將 probability 參數(shù)與 minimum_probability 參數(shù)結(jié)合使用,該算法可控制生成的規(guī)則數(shù)。 microsoft 關(guān)聯(lián)算法遍歷數(shù)據(jù)集以查找同時(shí)出現(xiàn)在某個事例中的項(xiàng)。然后,該算法將最少出現(xiàn)了由 minimum_support 參數(shù)指定的最少事例數(shù)次數(shù)的關(guān)聯(lián)項(xiàng)分為項(xiàng)集。例如,項(xiàng)集可以為“mountain 200=existing, sport 100=existing”,并且支持的數(shù)目可以為 710,那么該算法將根
23、據(jù)項(xiàng)集生成規(guī)則??梢允褂眠@些規(guī)則根據(jù)是否存在該算法標(biāo)識為重要項(xiàng)的其他特定項(xiàng),預(yù)測數(shù)據(jù)庫中的某項(xiàng)是否存在。例如,某規(guī)則可以為“if touring 1000=existing and road bottle cage=existing, then water bottle=existing”,并且其概率可能為 0.812。在此例中,該算法發(fā)現(xiàn)由于購物籃中存在 touring 1000 輪胎和水壺套,因此預(yù)測購物籃中也可能存在水壺。3 microsoft 關(guān)聯(lián)算法的列關(guān)聯(lián)模型必須包含一個鍵列、多個輸入列以及一個可預(yù)測列。輸入列必須為離散列。關(guān)聯(lián)模型的輸入數(shù)據(jù)通常包含在兩個表中。例如,一個表可能包含
24、客戶信息,而另一個表可能包含客戶購物情況。您可以使用嵌套表將該數(shù)據(jù)輸入到模型中。在 microsoft sql server 2005 analysis services (ssas) 中,數(shù)據(jù)必須作為包含在事例表中的一系列事例提供給數(shù)據(jù)挖掘算法。不是所有的事例都可以用一行數(shù)據(jù)就可說明。例如,一個事例可能派生自兩個表,其中一個表包含客戶信息,而另一個表包含客戶采購信息??蛻舯碇械囊晃豢蛻艨赡茉诓少彵碇杏卸鄺l采購信息,在這種情況下,很難使用單個行來說明該數(shù)據(jù)。analysis services 提供了一種用來處理這些事例的獨(dú)特方法,那就是使用“嵌套表”。 第一個表(父表)包含客戶的信息,并且為每
25、位客戶關(guān)聯(lián)了一個唯一標(biāo)識符。第二個表(子表)包含每位客戶的采購信息。子表中的采購信息又通過唯一標(biāo)識符(customerkey 列)與父表關(guān)聯(lián)。關(guān)系圖中的第三個表顯示了這兩個表的結(jié)合。 嵌套表作為特殊列顯示在事例表中,該列的數(shù)據(jù)類型為 table。對于任何特定事例行,此列均包含從子表中選出的、與父表相關(guān)的行。 要創(chuàng)建嵌套表,兩個源表必須包含定義的關(guān)系,以便一個表中的項(xiàng)可與另一個表建立關(guān)聯(lián)。在 business intelligence development studio 中,4使用 microsoft 關(guān)聯(lián)規(guī)則查看器查看挖掘模型項(xiàng)集“項(xiàng)集”選項(xiàng)卡顯示被模型識別為經(jīng)常發(fā)現(xiàn)一起出現(xiàn)的項(xiàng)集的列表。該
26、選項(xiàng)卡顯示具有以下列的網(wǎng)格:“支持”、“大小”和“項(xiàng)集”。有關(guān)支持的詳細(xì)信息,請參閱 microsoft 關(guān)聯(lián)算法?!按笮 绷酗@示項(xiàng)集中的項(xiàng)的數(shù)量?!绊?xiàng)集”列顯示模型發(fā)現(xiàn)的實(shí)際項(xiàng)集??梢允褂谩帮@示”列表控制項(xiàng)集的格式,可將格式設(shè)置為以下選項(xiàng):顯示屬性名稱和值僅顯示屬性值僅顯示屬性名稱可以使用“最低支持”和“最小項(xiàng)集大小”來篩選選項(xiàng)卡中顯示的項(xiàng)集數(shù)量。還可使用“篩選項(xiàng)集”并輸入必須存在的項(xiàng)集特征,來進(jìn)一步限制項(xiàng)集的顯示數(shù)量。例如,如果鍵入 water bottle = existing,則可將項(xiàng)集限制為僅包含 water bottle 的那些項(xiàng)集?!昂Y選項(xiàng)集”選項(xiàng)還可顯示以前使用過的篩選器的列表
27、。通過單擊列標(biāo)題,可以對網(wǎng)格中的行進(jìn)行排序。 規(guī)則“規(guī)則”選項(xiàng)卡顯示關(guān)聯(lián)算法發(fā)現(xiàn)的規(guī)則?!耙?guī)則”選項(xiàng)卡包含一個具有以下列的網(wǎng)格:“概率”、“重要性”和“規(guī)則”。概率說明出現(xiàn)規(guī)則結(jié)果的可能性。重要性用于度量規(guī)則的用途。盡管規(guī)則出現(xiàn)的概率可能很高,但規(guī)則自身的用途可能并不重要。重要性列就是說明這一情況的。例如,如果每個項(xiàng)集都包含屬性的某個特定狀態(tài),那么,即使概率非常高,預(yù)測狀態(tài)的規(guī)則也并不重要。重要性越高,規(guī)則越重要。可以使用“最小概率”和“最低重要性”來篩選規(guī)則,此操作類似于可在“項(xiàng)集”選項(xiàng)卡中進(jìn)行的篩選。您也可以使用“篩選規(guī)則”,根據(jù)屬性包含的狀態(tài)來篩選規(guī)則。 通過單擊列標(biāo)題,可以對網(wǎng)格中的行
28、進(jìn)行排序。 依賴關(guān)系網(wǎng)絡(luò)“依賴關(guān)系網(wǎng)絡(luò)”選項(xiàng)卡包括一個依賴關(guān)系網(wǎng)絡(luò)查看器。查看器中的每個節(jié)點(diǎn)代表一個項(xiàng),如 state = wa。節(jié)點(diǎn)間的箭頭代表項(xiàng)之間有關(guān)聯(lián)。箭頭的方向表示按照算法發(fā)現(xiàn)的規(guī)則確定的項(xiàng)之間的關(guān)聯(lián)。例如,如果查看器包含三個項(xiàng) a、b 和 c,并且 c 是根據(jù) a 和 b 預(yù)測的,那么,選擇了節(jié)點(diǎn) c 時(shí),則有兩個箭頭指向節(jié)點(diǎn) c,即 a 到 c 和 b 到 c。查看器左邊的滑塊可當(dāng)作與規(guī)則的概率關(guān)聯(lián)的篩選器使用。降低滑塊將只顯示最強(qiáng)鏈接。5microsoft 決策樹算法參數(shù)microsoft 決策樹算法支持多個參數(shù),具體參數(shù)詳見幫助文檔6數(shù)據(jù)源可自定義或選擇adventurewo
29、rks示例數(shù)據(jù)庫。實(shí)驗(yàn)3:實(shí)踐決策樹挖掘方法1實(shí)驗(yàn)內(nèi)容可參照msdn幫助文檔。(2microsoft 決策樹算法說明microsoft 決策樹算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分類和回歸算法,用于對離散和連續(xù)屬性進(jìn)行預(yù)測性建模。對于離散屬性,該算法根據(jù)數(shù)據(jù)集中輸入列之間的關(guān)系進(jìn)行預(yù)測。它使用這些列的值或狀態(tài)預(yù)測指定的可預(yù)測列的狀態(tài)。具體地說,該算法標(biāo)識與可預(yù)測列相關(guān)的輸入列。例如,在預(yù)測哪些客戶可能購買自行車的方案中,假如在十名年輕客戶中有九名購買了自行車,但在十名年齡較大的客戶中只有兩名購買了自行車,則該算法
30、從中推斷出年齡是自行車購買情況的最佳預(yù)測因子。決策樹根據(jù)朝向特定結(jié)果發(fā)展的趨勢進(jìn)行預(yù)測。 對于連續(xù)屬性,該算法使用線性回歸確定決策樹的拆分位置。如果有多個列設(shè)置為可預(yù)測列,或輸入數(shù)據(jù)包含設(shè)置為可預(yù)測的嵌套表,則該算法將為每個可預(yù)測列分別生成一個決策樹。3microsoft 決策樹算法原理microsoft 決策樹通過在樹中創(chuàng)建一系列拆分(也稱為節(jié)點(diǎn))來生成數(shù)據(jù)挖掘模型。每當(dāng)發(fā)現(xiàn)輸入列與可預(yù)測列密切相關(guān)時(shí),算法便會向該模型中添加一個節(jié)點(diǎn)。隨著算法不斷向模型中添加新節(jié)點(diǎn),便形成了樹結(jié)構(gòu)。該樹的頂端節(jié)點(diǎn)描述了客戶總體可預(yù)測列的分解。隨著模型的不斷增大,該算法將考慮所有列。4microsoft 決策樹
31、算法參數(shù)microsoft 決策樹算法支持多個參數(shù),具體參數(shù)詳見幫助文檔5使用 microsoft 樹查看器查看挖掘模型決策樹生成決策樹模型時(shí),analysis services 將為每個可預(yù)測屬性生成一個單獨(dú)的樹。從查看器的“決策樹”選項(xiàng)卡上的“樹”列表中選擇單個樹,可查看該樹。 決策樹由一系列拆分組成,最重要的拆分由算法確定,位于“全部”節(jié)點(diǎn)中查看器的左側(cè)。其他拆分出現(xiàn)在右側(cè)?!叭俊惫?jié)點(diǎn)中的拆分最為重要,由于該節(jié)點(diǎn)包含了數(shù)據(jù)集內(nèi)引起拆分的最充分的條件,因而產(chǎn)生了第一個拆分。 可以展開或折疊決策樹中的各個節(jié)點(diǎn),以顯示或隱藏各節(jié)點(diǎn)后出現(xiàn)的拆分。您還可以使用“決策樹”選項(xiàng)卡上的選項(xiàng)來設(shè)置樹的顯
32、示方式。使用“顯示級別”滑塊,可以調(diào)整樹中顯示的級別數(shù)。使用“默認(rèn)擴(kuò)展”,可以設(shè)置模型中所有樹的默認(rèn)顯示級別數(shù)。預(yù)測離散屬性如果樹是使用離散可預(yù)測屬性生成的,則查看器將在樹的每個節(jié)點(diǎn)上顯示以下信息:導(dǎo)致拆分的條件。表示可預(yù)測屬性的狀態(tài)分布情況的直方圖,其中各個狀態(tài)按使用頻率高低進(jìn)行排列??梢允褂谩爸狈綀D”選項(xiàng)來更改在樹的直方圖中顯示的狀態(tài)數(shù)。如果可預(yù)測屬性有很多狀態(tài),這一功能將非常有用。各種狀態(tài)按使用頻率高低自左到右顯示在直方圖中;如果選擇顯示的狀態(tài)數(shù)少于屬性的狀態(tài)總數(shù),則使用頻率最低的狀態(tài)將集中以灰色顯示。若要查看某個節(jié)點(diǎn)的各種狀態(tài)的確切數(shù)目,可以將指針停留在該節(jié)點(diǎn)上來查看 infotip(
33、信息提示),也可以選擇該節(jié)點(diǎn)以便在“挖掘圖例”中查看其詳細(xì)信息。如果使用“背景”選項(xiàng)選擇了特定屬性狀態(tài),則各個節(jié)點(diǎn)的背景色將表示處于所選狀態(tài)的事例的密集程度??梢允褂么诉x項(xiàng)來突出顯示包含所關(guān)注的特定目標(biāo)的節(jié)點(diǎn)。預(yù)測連續(xù)屬性如果樹是使用連續(xù)可預(yù)測屬性生成的,則查看器為樹中的每個節(jié)點(diǎn)顯示一個菱形圖,而不是直方圖。菱形圖有一個表示屬性范圍的線條。菱形位于節(jié)點(diǎn)的中間,其寬度表示該節(jié)點(diǎn)處屬性的方差。菱形越窄,說明該節(jié)點(diǎn)生成的預(yù)測越精確。查看器還顯示用于確定節(jié)點(diǎn)中的拆分的回歸公式。其他決策樹顯示選項(xiàng)為決策樹模型啟用鉆取后,即可訪問支持某個節(jié)點(diǎn)的定型事例,方法是:右鍵單擊樹中的該節(jié)點(diǎn),然后選擇“鉆取”??梢?/p>
34、在數(shù)據(jù)挖掘向?qū)?nèi)啟用鉆取,也可以在“挖掘模型”選項(xiàng)卡中通過調(diào)整挖掘模型的鉆取屬性來啟用鉆取??梢允褂谩皼Q策樹”選項(xiàng)卡上的縮放選項(xiàng)來放大或縮小某個樹,也可以使用“調(diào)整為合適大小”將整個模型放入查看器的屏幕中。如果某個樹太大而無法將其調(diào)整為適合屏幕的大小,則可使用“導(dǎo)航”選項(xiàng)在樹中導(dǎo)航。單擊“導(dǎo)航”將打開一個單獨(dú)的導(dǎo)航窗口,可通過它來選擇要顯示的模型部分。還可以將樹視圖圖像復(fù)制到剪貼板上,以便可將其粘貼到文檔或圖像處理軟件中??梢允褂谩皬?fù)制圖形視圖”僅復(fù)制查看器中樹的可見部分,也可以使用“復(fù)制整個圖形”來復(fù)制樹中所有擴(kuò)展節(jié)點(diǎn)。依賴關(guān)系網(wǎng)絡(luò)“依賴關(guān)系網(wǎng)絡(luò)”顯示了模型中的輸入屬性和可預(yù)測屬性之間的依賴
35、關(guān)系。查看器左側(cè)的滑塊可起到與依賴關(guān)系強(qiáng)度相聯(lián)系的篩選器的作用。如果向下拉動滑塊,則查看器中只會顯示最強(qiáng)鏈接。 選擇一個節(jié)點(diǎn)后,查看器將突出顯示該節(jié)點(diǎn)特定的依賴項(xiàng)。例如,如果選擇一個可預(yù)測節(jié)點(diǎn),查看器也將突出顯示有助于預(yù)測該可預(yù)測節(jié)點(diǎn)的各個節(jié)點(diǎn)。 如果查看器包含大量的節(jié)點(diǎn),則可使用“查找節(jié)點(diǎn)”按鈕來搜索特定的節(jié)點(diǎn)。單擊“查找節(jié)點(diǎn)”將打開“查找節(jié)點(diǎn)”對話框,可以在該對話框中使用篩選器來搜索和選擇特定的節(jié)點(diǎn)。查看器底部的圖例說明了圖表中不同顏色代碼所代表的依賴關(guān)系類型。例如,如果選擇一個可預(yù)測節(jié)點(diǎn),該節(jié)點(diǎn)將呈青綠色,而預(yù)測所選節(jié)點(diǎn)的節(jié)點(diǎn)呈橙色。 挖掘圖例在選中決策樹模型中的某個節(jié)點(diǎn)時(shí),挖掘圖例顯示
36、下列信息: 節(jié)點(diǎn)中按可預(yù)測屬性的狀態(tài)劃分的事例的數(shù)目。節(jié)點(diǎn)的可預(yù)測屬性的各種事例的概率。一個直方圖,其中包含可預(yù)測屬性的各種狀態(tài)的數(shù)目。訪問某個特定節(jié)點(diǎn)所需的條件,也稱為“節(jié)點(diǎn)路徑”。 ??亢褪褂谩巴诰驁D例”的方式與解決方案資源管理器的使用方式類似。實(shí)驗(yàn)4:實(shí)踐聚類挖掘方法1microsoft 聚類分析算法說明microsoft 聚類分析算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分段算法。該算法使用迭代技術(shù)將數(shù)據(jù)集中的事例分組為包含類似特征的分類。在瀏覽數(shù)據(jù)、標(biāo)識數(shù)據(jù)中的異常及創(chuàng)建預(yù)測時(shí),這些分組十分有用。 聚類分析模
37、型標(biāo)識數(shù)據(jù)集中可能無法通過隨意觀察在邏輯上得出的關(guān)系。例如,在邏輯上可以得知,騎自行車上下班的人的居住地點(diǎn)通常離其工作地點(diǎn)不遠(yuǎn)。但該算法可以找出有關(guān)騎自行車上下班人員的其他并不明顯的特征。在下面的關(guān)系圖中,分類 a 表示有關(guān)通常開車上班人員的數(shù)據(jù),而分類 b 表示通常騎自行車上班人員的數(shù)據(jù)。聚類分析算法不同于 microsoft 決策樹算法等其他數(shù)據(jù)挖掘算法,區(qū)別在于無需指定可預(yù)測列便能生成聚類分析模型。聚類分析算法嚴(yán)格地根據(jù)數(shù)據(jù)以及該算法所標(biāo)識的分類中存在的關(guān)系定型。2microsoft 聚類分析算法原理microsoft 聚類分析算法首先標(biāo)識數(shù)據(jù)集中的關(guān)系并根據(jù)這些關(guān)系生成一系列分類。散點(diǎn)
38、圖是一種非常有用的方法,可以直觀地表示算法如何對數(shù)據(jù)進(jìn)行分組,如下面的關(guān)系圖所示。散點(diǎn)圖可以表示數(shù)據(jù)集中的所有事例,在該圖中每個事例就是一個點(diǎn)。分類對該圖中的點(diǎn)進(jìn)行分組并闡釋該算法所標(biāo)識的關(guān)系。在最初定義分類后,算法將通過計(jì)算確定分類表示點(diǎn)分組情況的適合程度,然后嘗試重新定義這些分組以創(chuàng)建可以更好地表示數(shù)據(jù)的分類。該算法將循環(huán)執(zhí)行此過程,直到它不能再通過重新定義分類來改進(jìn)結(jié)果為止。microsoft 聚類分析算法提供下列兩種方法來計(jì)算點(diǎn)在分類中的適合程度:expectation maximization (em) 和 k-means。對于 em 聚類分析,該算法使用一種統(tǒng)計(jì)方法來確定分類中存在
39、數(shù)據(jù)點(diǎn)的概率。對于 k-means,該算法使用距離度量值將數(shù)據(jù)點(diǎn)分配給其最接近的分類。 生成分類時(shí)不使用其用法設(shè)置為只預(yù)測的列。在生成分類后,將計(jì)算這些列在分類中的分布。3microsoft 聚類分析算法參數(shù)參數(shù) 說明 clustering_method指定算法要使用的聚類分析方法。有下列聚類分析方法可用:scalable em (1)、non-scalable em (2)、scalable k-means (3) 和 non-scalable k-means (4)。默認(rèn)值為 1。cluster_count指定將由算法生成的大致分類數(shù)。如果無法基于相應(yīng)的數(shù)據(jù)生成該大致數(shù)目的分類,則算法將生
40、成盡可能多的分類。如果將 cluster_count 設(shè)置為 0,則算法將使用試探性方法最準(zhǔn)確地確定要生成的分類數(shù)。默認(rèn)值為 10。cluster_seed指定在為建模初始階段隨機(jī)生成分類時(shí)所要使用的種子數(shù)字。默認(rèn)值為 0。minimum_support指定每個分類中的最小事例數(shù)。默認(rèn)值為 1。modelling_cardinality指定在聚類分析過程中構(gòu)建的示例模型數(shù)。默認(rèn)值為 10。stopping_tolerance指定一個值,它可確定何時(shí)達(dá)到收斂而且算法完成建模。當(dāng)分類概率中的整體變化小于 stopping_tolerance 參數(shù)與模型大小之比時(shí),即達(dá)到收斂。默認(rèn)值為 10。sam
41、ple_size如果 clustering_method 參數(shù)設(shè)置為其中一個可縮放聚類分析方法,請指定算法在每個傳遞中使用的事例數(shù)。如果將 sample_size 參數(shù)設(shè)置為 0,則會在單個傳遞中對整個數(shù)據(jù)集進(jìn)行聚類分析操作,從而導(dǎo)致內(nèi)存和性能問題。默認(rèn)值為 50000。maximum_input_attributes指定算法在調(diào)用功能選擇之前可以處理的最大輸入屬性數(shù)。如果將此值設(shè)置為 0,則指定不限制輸入屬性的最大數(shù)量。默認(rèn)值為 255。maximum_states指定算法支持的最大屬性狀態(tài)數(shù)。如果屬性的狀態(tài)數(shù)大于該最大狀態(tài)數(shù),算法將使用該屬性的最常見狀態(tài),同時(shí)忽略剩余狀態(tài)。默認(rèn)值為 100
42、。4使用 microsoft 分類查看器查看聚類挖掘模型microsoft sql server 2005 analysis services (ssas) 中的 microsoft 分類查看器可以顯示使用 microsoft 聚類分析算法生成的挖掘模型。microsoft 聚類分析算法是一種分段算法,用于瀏覽數(shù)據(jù)以標(biāo)識數(shù)據(jù)中的變體并創(chuàng)建預(yù)測。在 analysis services 中瀏覽挖掘模型時(shí),該模型會使用模型的相應(yīng)查看器,顯示在數(shù)據(jù)挖掘設(shè)計(jì)器的“挖掘模型查看器”選項(xiàng)卡上。microsoft 分類查看器提供了以下選項(xiàng)卡,用于瀏覽分類挖掘模型:分類關(guān)系圖microsoft 分類查看器的“分
43、類關(guān)系圖”選項(xiàng)卡可以顯示挖掘模型中的所有分類。兩個分類之間連線的明暗度表示分類的相似程度。如果明暗度較淺或無明暗度,則表示分類的相似程度較低。連線的顏色越深,鏈接的相似性越強(qiáng)。通過調(diào)整分類右側(cè)的滑塊,可以調(diào)整查看器顯示的連線數(shù)。降低滑塊將只顯示最強(qiáng)鏈接。默認(rèn)情況下,明暗度代表分類的總體。通過使用“明暗度變量”和“狀態(tài)”選項(xiàng),可以選擇明暗度代表的屬性和狀態(tài)對。明暗度越深,特定狀態(tài)所對應(yīng)的屬性分布范圍就越大。明暗度越淺,分布范圍就越小。 若要重命名某個分類,請右鍵單擊其節(jié)點(diǎn),再選擇“重命名分類”。新名稱會在服務(wù)器中永久保留。 若要將關(guān)系圖的可見部分復(fù)制到剪貼板,請單擊“復(fù)制圖形視圖”。若要復(fù)制完整
44、的關(guān)系圖,請單擊“復(fù)制整個圖形”。使用“放大”和“縮小”可以放大或縮小關(guān)系圖,使用“縮放關(guān)系圖以適應(yīng)窗口”可以適應(yīng)屏幕大小。分類剖面圖“分類剖面圖”選項(xiàng)卡可以提供模型中的算法創(chuàng)建的分類的總體視圖。此視圖顯示了分類中的每個屬性以及屬性的分布。每個單元的 infotip 顯示分布統(tǒng)計(jì)信息,每個列標(biāo)題的 infotip 顯示分類的總體。離散屬性顯示為彩條,連續(xù)屬性顯示為菱形圖,表示每個分類中的平均偏差和標(biāo)準(zhǔn)偏差。通過“直方圖條”選項(xiàng)可以控制直方圖中可見的圖條數(shù)。如果存在的圖條數(shù)多于您選擇顯示的圖條數(shù),則會保留重要性最高的那些圖條,其余圖條則組合到一個灰色的存儲桶內(nèi)??梢愿姆诸惖哪J(rèn)名稱,使名稱更具
45、描述性。右鍵單擊分類的列標(biāo)題,再選擇“重命名分類”,即可重命名分類。也可以通過選擇“隱藏列”來隱藏分類。若要打開一個窗口,以便為分類提供更大、更詳細(xì)的視圖,請雙擊“狀態(tài)”列中的任一單元,或雙擊查看器中的任一直方圖。 單擊列標(biāo)題,可以將列中的屬性按照其對分類的重要性來進(jìn)行排序。也可以在查看器中拖動列以將其重新排序。分類特征若要使用“分類特征”選項(xiàng)卡,請從“分類”列表中選擇一個分類。選擇分類后,可以檢查特定分類的組成特征。分類包含的屬性將列在“變量”列中,所列屬性的狀態(tài)則列在“值”列中。屬性狀態(tài)將按重要性順序列出,重要性由這些狀態(tài)會出現(xiàn)在分類中的概率表示。概率顯示在“概率”列中。分類對比可以使用“
46、分類對比”選項(xiàng)卡來比較兩個分類的屬性。使用“分類 1”和“分類 2”列表可以選擇要比較的分類。查看器將確定分類之間最為重要的一些差異,并按重要性順序顯示與這些差異關(guān)聯(lián)的屬性狀態(tài)。屬性右側(cè)的條表示屬性狀態(tài)所傾向的分類,條的大小則表示屬性狀態(tài)傾向于相應(yīng)分類的程度。實(shí)驗(yàn)5:實(shí)踐神經(jīng)網(wǎng)絡(luò)挖掘方法1microsoft 神經(jīng)網(wǎng)絡(luò)分析算法說明在 sql server analysis services 中,microsoft 神經(jīng)網(wǎng)絡(luò)算法組合輸入屬性的每個可能狀態(tài)和可預(yù)測屬性的每個可能狀態(tài),并使用定型數(shù)據(jù)計(jì)算概率。之后,可以根據(jù)輸入屬性,將這些概率用于分類或回歸,并預(yù)測被預(yù)測屬性的結(jié)果。使用 microso
47、ft 神經(jīng)元網(wǎng)絡(luò)算法構(gòu)造的挖掘模型可以包含多個網(wǎng)絡(luò),這取決于用于輸入和預(yù)測的列的數(shù)量,或者取決于僅用于預(yù)測的列的數(shù)量。一個挖掘模型包含的網(wǎng)絡(luò)數(shù)取決于挖掘模型使用的輸入列和預(yù)測列包含的狀態(tài)數(shù)。2microsoft 神經(jīng)網(wǎng)絡(luò)算法原理microsoft 神經(jīng)網(wǎng)絡(luò)算法使用由三層神經(jīng)元(即感知器)組成的多層感知器網(wǎng)絡(luò),該網(wǎng)絡(luò)也稱為反向傳播 delta 法則網(wǎng)絡(luò)。這些層分別是輸入層、可選隱藏層和輸出層。在一個多層感知器網(wǎng)絡(luò)中,每個神經(jīng)元接收一個或多個輸入,產(chǎn)生一個或多個相同的輸出。每個輸出都是對神經(jīng)元的輸入之和的簡單非線性函數(shù)。輸入只是從輸入層中的節(jié)點(diǎn)傳遞到隱藏層中的節(jié)點(diǎn),最后傳遞到輸出層。同一層中的神經(jīng)
48、元之間沒有連接。(如果沒有隱藏層,則輸入從輸入層中的節(jié)點(diǎn)傳遞到輸出層中的節(jié)點(diǎn)。)有關(guān)多層感知器神經(jīng)網(wǎng)絡(luò)的詳細(xì)探討不屬于本文檔的范圍。使用 microsoft 神經(jīng)元網(wǎng)絡(luò)算法構(gòu)造的挖掘模型可以包含多個網(wǎng)絡(luò),這取決于用于輸入和預(yù)測的列的數(shù)量,或者取決于僅用于預(yù)測的列的數(shù)量。一個挖掘模型包含的網(wǎng)絡(luò)數(shù)取決于挖掘模型使用的輸入列和預(yù)測列包含的狀態(tài)數(shù)。在使用 microsoft 神經(jīng)網(wǎng)絡(luò)算法創(chuàng)建的神經(jīng)網(wǎng)絡(luò)中,存在三種神經(jīng)元類型:輸入神經(jīng)元輸入神經(jīng)元提供數(shù)據(jù)挖掘模型的輸入屬性值。對于離散輸入屬性,輸入神經(jīng)元通常代表輸入屬性的單個狀態(tài),其中包括缺少的值。例如,一個二進(jìn)制輸入屬性生成一個輸入節(jié)點(diǎn),該節(jié)點(diǎn)說明缺少
49、的或現(xiàn)有的狀態(tài),并指示該屬性是否存在值。用作輸入屬性的 boolean 列可生成三個輸入神經(jīng)元:一個神經(jīng)元用于 true 值,一個神經(jīng)元用于 false 值,還有一個神經(jīng)元用于缺少或現(xiàn)有的狀態(tài)。具有兩個以上狀態(tài)的離散輸入屬性可為每個狀態(tài)生成一個輸入神經(jīng)元,并為缺少的或現(xiàn)有的狀態(tài)生成一個輸入神經(jīng)元。一個連續(xù)的輸入屬性可生成兩個輸入神經(jīng)元:一個是針對缺少的或現(xiàn)有的狀態(tài)的神經(jīng)元,一個是針對連續(xù)屬性自身的值的神經(jīng)元。輸入神經(jīng)元可向一個或多個隱藏神經(jīng)元提供輸入。 隱藏神經(jīng)元 隱藏神經(jīng)元接收來自輸入神經(jīng)元的輸入,并向輸出神經(jīng)元提供輸出。輸出神經(jīng)元 輸出神經(jīng)元代表數(shù)據(jù)挖掘模型的可預(yù)測屬性值。對于離散輸入屬性
50、,輸出神經(jīng)元通常代表可預(yù)測屬性的單個預(yù)測狀態(tài),其中包括缺少的值。例如,一個二進(jìn)制可預(yù)測屬性可生成一個輸出節(jié)點(diǎn),該節(jié)點(diǎn)說明缺少的或現(xiàn)有的狀態(tài),以指示該屬性是否存在值。用作可預(yù)測屬性的 boolean 列可生成三個輸出神經(jīng)元:一個神經(jīng)元用于 true 值,一個神經(jīng)元用于 false 值,還有一個神經(jīng)元用于缺少或現(xiàn)有的狀態(tài)。具有兩種以上狀態(tài)的離散可預(yù)測屬性可為每個狀態(tài)生成一個輸出神經(jīng)元,并為缺少的或現(xiàn)有的狀態(tài)生成一個輸出神經(jīng)元。連續(xù)可預(yù)測列可生成兩個輸出神經(jīng)元:一個是針對缺少的或現(xiàn)有的狀態(tài)的神經(jīng)元,一個是針對連續(xù)列本身的值的神經(jīng)元。如果通過檢查可預(yù)測列集生成了 500 個以上的輸出神經(jīng)元,則 ana
51、lysis services 將在挖掘模型中生成一個新的網(wǎng)絡(luò),用于代表超出部分的輸出神經(jīng)元。神經(jīng)元可接收多個輸入:對于輸入神經(jīng)元,神經(jīng)元接收來自原始數(shù)據(jù)的輸入;對于隱藏神經(jīng)元和輸出神經(jīng)元,神經(jīng)元接收來自神經(jīng)網(wǎng)絡(luò)中其他神經(jīng)元的輸出的輸入。輸入在神經(jīng)元之間建立了關(guān)系,而這些關(guān)系可用作分析特定事例集時(shí)的路徑。為每個輸入都分配了一個稱為“權(quán)重”的值,該值用于說明特定的輸入對于隱藏神經(jīng)元或輸出神經(jīng)元的相關(guān)性和重要性。分配給輸入的權(quán)重值越大,則該輸入與算法在確定該輸入是否成功分類一個特定事例時(shí)所收到的神經(jīng)元的相關(guān)性就越高,重要性也就越大。相應(yīng)地,每個神經(jīng)元都分配有一個稱為“激活函數(shù)”的簡單非線性函數(shù),用于
52、說明特定神經(jīng)元對于神經(jīng)網(wǎng)絡(luò)層的相關(guān)性或重要性。隱藏神經(jīng)元使用雙曲正切函數(shù)作為其激活函數(shù),但輸出神經(jīng)元使用 s 函數(shù) (sigmoid) 作為其激活函數(shù)。這兩個函數(shù)都是非線性連續(xù)函數(shù),允許神經(jīng)網(wǎng)絡(luò)在輸入和輸出神經(jīng)元之間建立非線性關(guān)系模型。3microsoft 神經(jīng)網(wǎng)絡(luò)分析算法參數(shù)hidden_node_ratio指定隱藏神經(jīng)元相對于輸入和輸出神經(jīng)元的比率。以下公式可確定隱藏層中神經(jīng)元的初始數(shù)目:hidden_node_ratio * sqrt(total input neurons * total output neurons)默認(rèn)值為 4.0。holdout_percentage指定定型數(shù)據(jù)中
53、用于計(jì)算維持錯誤的事例的百分比,定型挖掘模型時(shí)的停止條件中將用到此百分比。默認(rèn)值為 30。holdout_seed指定一個數(shù)字,用作在算法隨機(jī)確定維持?jǐn)?shù)據(jù)時(shí)偽隨機(jī)生成器的種子。如果該參數(shù)設(shè)置為 0,算法將基于挖掘模型的名稱生成種子,以保證重新處理期間模型內(nèi)容的一致性。默認(rèn)值為 0。maximum_input_attributes確定在應(yīng)用功能選擇前,可應(yīng)用于算法的輸入屬性的最大數(shù)。如果將此值設(shè)置為 0,則為輸入屬性禁用功能選擇。默認(rèn)值為 255。maximum_output_attributes確定在應(yīng)用功能選擇前,可應(yīng)用于算法的輸出屬性的最大數(shù)。如果將此值設(shè)置為 0,則為輸出屬性禁用功能選擇。默認(rèn)值為 255。maxi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貨物運(yùn)輸合同(水路)
- 醫(yī)療行業(yè)人才引進(jìn)合同
- 房地產(chǎn)開發(fā)商與購房者合同大全
- 勞動用工安全責(zé)任合同模板:應(yīng)對與處理
- 地區(qū)授權(quán)代理合同書
- 基礎(chǔ)設(shè)施建設(shè)項(xiàng)目土地征用合同
- 房地產(chǎn) -鏈家地產(chǎn) 二手房業(yè)務(wù)知識與經(jīng)驗(yàn)介紹
- 安全責(zé)任的落實(shí)強(qiáng)化企業(yè)安全主體責(zé)任考核試卷
- 攝影器材行業(yè)知識產(chǎn)權(quán)保護(hù)與合規(guī)經(jīng)營策略研究考核試卷
- 數(shù)據(jù)結(jié)構(gòu)與算法基礎(chǔ)考核試卷
- 2025年黑龍江能源職業(yè)學(xué)院單招職業(yè)傾向性測試題庫完整
- 學(xué)校垃圾處理運(yùn)輸服務(wù)合同
- 廣西2025年01月南寧市良慶區(qū)公開考試招考專職化城市社區(qū)工作者筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 注塑產(chǎn)品生產(chǎn)流程
- 統(tǒng)編版(2025)七年級下冊道德與法治教學(xué)計(jì)劃
- 七年級數(shù)學(xué)下冊 第11章 單元測試卷(蘇科版 2025年春)
- 2024年天津市建筑安全員A證考試題庫及答案
- 2021年江蘇省公務(wù)員考試行測+申論真題及答案解析(A類卷)
- 2024年皖西衛(wèi)生職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫及答案解析
- 《病理學(xué)》課程標(biāo)準(zhǔn)
- 統(tǒng)編版一年級下冊語文全冊完整課件
評論
0/150
提交評論