




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、商務(wù)數(shù)據(jù)分析實(shí)驗(yàn)指導(dǎo)書(shū)適用于國(guó)際經(jīng)濟(jì)與貿(mào)易專業(yè))江西財(cái)經(jīng)大學(xué)國(guó)際經(jīng)貿(mào)學(xué)院編寫(xiě)人:戴愛(ài)明目錄TOC o 1-5 h z前言1 HYPERLINK l bookmark16 o Current Document 實(shí)驗(yàn)一、SPSSClementine軟件功能演練5 HYPERLINK l bookmark30 o Current Document 實(shí)驗(yàn)二、SPSSClementine數(shù)據(jù)可視化9 HYPERLINK l bookmark44 o Current Document 實(shí)驗(yàn)三、決策樹(shù)C5.0建模17 HYPERLINK l bookmark46 o Current Document 實(shí)驗(yàn)四
2、、關(guān)聯(lián)規(guī)則挖掘30 HYPERLINK l bookmark88 o Current Document 實(shí)驗(yàn)五、聚類分析(異常值檢測(cè))38 前言一、課程簡(jiǎn)介商務(wù)數(shù)據(jù)分析充分利用數(shù)據(jù)挖掘技術(shù)從大量商務(wù)數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程。數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量的數(shù)據(jù)中“挖掘”有趣知識(shí)的過(guò)程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),因此,數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面,可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中
3、數(shù)據(jù)來(lái)源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。數(shù)據(jù)挖掘有機(jī)結(jié)合了來(lái)自多學(xué)科技術(shù),其中包括:數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號(hào)處理、空間數(shù)據(jù)分析等,這里我們強(qiáng)調(diào)商務(wù)數(shù)據(jù)分析所處理的是大規(guī)模數(shù)據(jù),且其算法應(yīng)是高效的和可擴(kuò)展的。通過(guò)數(shù)據(jù)分析,可從數(shù)據(jù)庫(kù)中挖掘出有意義的知識(shí)、規(guī)律,或更高層次的信息,并可以從多個(gè)角度對(duì)其進(jìn)行瀏覽察看。所挖掘出的知識(shí)可以幫助進(jìn)行商務(wù)決策支持。當(dāng)前商務(wù)數(shù)據(jù)分析應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行等方面。二、課程的任務(wù)和實(shí)驗(yàn)的教學(xué)目標(biāo)課程編號(hào):課程屬性:
4、專業(yè)任選課實(shí)驗(yàn)學(xué)時(shí):8適用專業(yè):國(guó)際經(jīng)濟(jì)與貿(mào)易先修課程:數(shù)據(jù)庫(kù)技術(shù)、概率論與數(shù)理統(tǒng)計(jì)、統(tǒng)計(jì)學(xué)商務(wù)數(shù)據(jù)分析是一門理論和實(shí)踐相結(jié)合的課程,其上機(jī)實(shí)驗(yàn)的目的主要是實(shí)現(xiàn)數(shù)據(jù)挖掘的主要算法,訓(xùn)練學(xué)生實(shí)際動(dòng)手進(jìn)行數(shù)據(jù)挖掘設(shè)計(jì)和軟件應(yīng)用的能力,加深對(duì)數(shù)據(jù)挖掘相關(guān)概念和算法的理解。本課程具有技術(shù)性和實(shí)踐性較強(qiáng)的特點(diǎn),因此,配合基本原理的講授,應(yīng)當(dāng)安排相應(yīng)的實(shí)習(xí)操作。通過(guò)實(shí)驗(yàn)和操作,使學(xué)生鞏固和加深數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘理論知識(shí),進(jìn)一步加強(qiáng)學(xué)生獨(dú)立分析問(wèn)題和解決問(wèn)題的能力、綜合設(shè)計(jì)及創(chuàng)新能力的培養(yǎng),為今后工作打下良好的基礎(chǔ)。經(jīng)過(guò)多層次、多方式的全面訓(xùn)練后,學(xué)生應(yīng)達(dá)到下列要求:1進(jìn)一步鞏固和加深數(shù)據(jù)挖掘基本知識(shí)的理解
5、,提高綜合運(yùn)用所學(xué)知識(shí),建立、管理和分析商務(wù)數(shù)據(jù)的能力。2能根據(jù)需要選學(xué)參考書(shū),查閱相關(guān)的工具,通過(guò)獨(dú)立思考,深入鉆研有關(guān)問(wèn)題,學(xué)會(huì)自己獨(dú)立分析問(wèn)題、解決問(wèn)題,具有一定的創(chuàng)新能力。3能正確處理大規(guī)模數(shù)據(jù),選擇數(shù)據(jù)挖掘工具的開(kāi)發(fā)平臺(tái)和相關(guān)的軟件解決實(shí)踐問(wèn)題。4能獨(dú)立撰寫(xiě)實(shí)驗(yàn)報(bào)告,準(zhǔn)確分析實(shí)驗(yàn)結(jié)果,總結(jié)有關(guān)的問(wèn)題提出相關(guān)的建議。三、實(shí)驗(yàn)教材及參考書(shū)理論課教材及參考書(shū):肯數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程(叢書(shū)名:高等院校信息管理與信息系統(tǒng)專業(yè)系列教材)作者:陳文偉編著,清華大學(xué)出版社,2006.8肯數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,蘇新寧等編著,清華大學(xué)出版社,2006.4肯數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民編著,電
6、子工業(yè)出版社,2007.11肯JiaweiHan,MichelineKamber.DataMining:ConceptsandTechniques.高等教育出版社(影印版),2001.5.肯IanH.Witten,EibeFrank.DataMining:PracticalMachineLearningToolsandTechniques(第二版).機(jī)械工業(yè)出版社(影印版),2005.肯RichardJ.Roiger,MichaelW.Geatz.DataMining:ATutorial-BasedPrimer清華大學(xué)出版社,2003.實(shí)驗(yàn)教材:肯數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù),謝邦昌主
7、編,機(jī)械工業(yè)出版社,2008.4肯數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典,元昌安主編,電子工業(yè)出版社,2009.8四、實(shí)驗(yàn)基本內(nèi)容及學(xué)時(shí)分配按照商務(wù)數(shù)據(jù)分析實(shí)驗(yàn)教學(xué)大綱的要求,共設(shè)立實(shí)驗(yàn)4個(gè),總計(jì)20學(xué)時(shí)。試驗(yàn)基本內(nèi)容與學(xué)時(shí)分配如下表:序號(hào)實(shí)驗(yàn)名稱實(shí)驗(yàn)學(xué)時(shí)每組人數(shù)實(shí)驗(yàn)屬性實(shí)驗(yàn)者類別開(kāi)出要求1SPSSClementine軟件功能演練11演練本科必開(kāi)2實(shí)驗(yàn)一、SPSSClementine數(shù)據(jù)可視化11演練本科必開(kāi)3分類發(fā)現(xiàn)21驗(yàn)證綜合本科必開(kāi)4關(guān)聯(lián)規(guī)則21驗(yàn)證綜合本科必開(kāi)5聚類分析(異常檢測(cè))21驗(yàn)證綜合本科必開(kāi)五、實(shí)驗(yàn)方式與基本要求1、本課程的實(shí)驗(yàn)為非單獨(dú)設(shè)課,因此,應(yīng)該課程的內(nèi)容安
8、排和進(jìn)度,配合技術(shù)原理的講授,進(jìn)行相應(yīng)的操作和實(shí)驗(yàn)。2、該課以綜合性實(shí)驗(yàn)為主,教師給出實(shí)驗(yàn)題目,實(shí)驗(yàn)前學(xué)生必須進(jìn)行預(yù)習(xí),3、在規(guī)定的時(shí)間內(nèi),由學(xué)生獨(dú)立完成,出現(xiàn)問(wèn)題,教師要引導(dǎo)學(xué)生獨(dú)立分析、解決,不得包辦代替。4、實(shí)驗(yàn)中按要求做好學(xué)生實(shí)驗(yàn)情況及結(jié)果記錄,實(shí)驗(yàn)后認(rèn)真填寫(xiě)實(shí)驗(yàn)記錄。5、實(shí)驗(yàn)指導(dǎo)書(shū)僅作為上機(jī)時(shí)的參考步驟,不能作為唯一的依據(jù)以教材和課堂講授為準(zhǔn)。實(shí)驗(yàn)一、SPSSClementine軟件功能演練【實(shí)驗(yàn)?zāi)康摹?、熟悉SPSSClementine軟件功能和操作特點(diǎn)。2、了解SPSSClementine軟件的各選項(xiàng)面板和操作方法。3、熟練掌握SPSSClementine工作流程?!緦?shí)驗(yàn)內(nèi)容】1
9、、打開(kāi)SPSSClementine軟件,逐一操作各選項(xiàng),熟悉軟件功能。2、打開(kāi)一有數(shù)據(jù)庫(kù)、或新建數(shù)據(jù)文件,讀入SPSSClementine,并使用各種輸出節(jié)點(diǎn),熟悉數(shù)據(jù)輸入輸出。(要求:至少做access數(shù)據(jù)庫(kù)文件、excel文件、txt文件、可變文件的導(dǎo)入、導(dǎo)出)【實(shí)驗(yàn)步驟】1、啟動(dòng)Clementine:請(qǐng)從Windows的“開(kāi)始”菜單中選擇:所有程序SPSSClementine11.1飼SPSSClementine11.1SPSSClementineclient11.1DhFTi0EDocijjtimtatiunLii:erLEeAuthurii:=ltiunWii:=Lt_dSFSSCl
10、emerLtine:Client11.1SFSSLichtlshUtility2、Clementine窗口當(dāng)?shù)谝淮螁?dòng)Clementine時(shí),工作區(qū)將以默認(rèn)視圖打開(kāi)。中間的區(qū)域稱作流工作區(qū)。在Clementine中,這將是用來(lái)工作的主要區(qū)域。Clementine中絕大部分的數(shù)據(jù)和建模工具都在選項(xiàng)板中,該區(qū)域位于流工作區(qū)的下方。每個(gè)選項(xiàng)卡都包含一組以圖形表示數(shù)據(jù)挖掘任務(wù)的節(jié)點(diǎn),例如訪問(wèn)和過(guò)濾數(shù)據(jù),創(chuàng)建圖形和構(gòu)建模型。E收藏夾(F)數(shù)據(jù)源(U)記錄選項(xiàng)(尺)字段選項(xiàng)(D)A圖形(G)|建模訓(xùn))數(shù)據(jù)庫(kù)建模(B)輸出(0)導(dǎo)出(E)|麺據(jù)理變項(xiàng)女件選匿抽樣忙總導(dǎo)腔類里辻總割臣圈殺闿圈且古圈命念HQ神竪
11、阿貉Kohonen05.0C&RTK-MeansS平田B服務(wù)器:本地服務(wù)器|128MB/14OMB要將節(jié)點(diǎn)添加到工組區(qū),可在節(jié)點(diǎn)選項(xiàng)板中雙擊圖標(biāo)或?qū)⑵渫献е凉ぷ鲄^(qū)后釋放。隨后可將各個(gè)圖標(biāo)連接以創(chuàng)建一個(gè)表示數(shù)據(jù)流動(dòng)的流。窗口的右上方是輸出和對(duì)象管理器。這些選項(xiàng)卡用于查看和管理各種Clementine對(duì)象。“流”選項(xiàng)卡包含了當(dāng)前會(huì)話中打開(kāi)的所有流??梢詫⑦@些流保存并關(guān)閉也可將其添加到工程中。流輸出模型豹疣1越drug:也drugplot曲druglearn:也fraud納drugreport輸出”選項(xiàng)卡包含了由Clementine中的流操作產(chǎn)生的各類文件??梢燥@示、重命名和關(guān)閉此處所列的表格、圖形
12、和報(bào)告。疣輸出模型陽(yáng))Table(13于字段,1,000條記錄)Drug的分布Na_to_K的直方圖PatientRecords(8個(gè)字段,200.怛訊日認(rèn)K的散點(diǎn)圖HDrug的分析“模型”選項(xiàng)卡是一個(gè)功能強(qiáng)大的工具,包含了在一次會(huì)話中產(chǎn)生的所有模型(即,已在Clementine中構(gòu)建完畢的模型)。通過(guò)它,可以對(duì)模型作更深入的查看、將其添加至流中、導(dǎo)出或?yàn)槠浼幼⒔?。窗口右?cè)底部的部分是工程工具,它用來(lái)創(chuàng)建和管理數(shù)據(jù)挖掘工程。查看在Clementine中創(chuàng)建的工程有兩種方式-類視圖或CRISP-DM視圖。“CRISP-DM”選項(xiàng)卡提供了一種組織工程的方式?!邦悺边x項(xiàng)卡提供了一種在Clementi
13、ne中按類別(即,按照所創(chuàng)建對(duì)象的類別)組織工作的方式。當(dāng)要獲取數(shù)據(jù)、流、模型等對(duì)象的詳盡目錄時(shí),這種視圖十分有用。實(shí)驗(yàn)二、SPSSClementine數(shù)據(jù)可視化實(shí)驗(yàn)?zāi)康摹?、熟悉SPSSClementine繪圖。2、了解SPSSClementine圖形選項(xiàng)面板各節(jié)點(diǎn)的使用方法3、熟練掌握SPSSClementine數(shù)據(jù)可視化流程?!緦?shí)驗(yàn)內(nèi)容】1、打開(kāi)SPSSClementine軟件,逐一操作各圖形選項(xiàng)面板,熟悉軟件功能。2、打開(kāi)一有數(shù)據(jù)庫(kù)、或新建數(shù)據(jù)文件,讀入SPSSClementine,并使用各種輸出節(jié)點(diǎn),熟悉數(shù)據(jù)輸入輸出。(要求:至少做分布圖、直方圖、收集圖、多重散點(diǎn)圖、時(shí)間散點(diǎn)圖)實(shí)驗(yàn)
14、步驟】1、啟動(dòng)Clementine:請(qǐng)從Windows的“開(kāi)始”菜單中選擇所有程序PSSClementine11.1SPSSClementineclient11.1SPSSClementine11.1DhFTi0EIlociurienor.Lii:erLEehutherizationWii:=Lt_dSFSSClementineClient11.1SFSSLichtlshUtility2、建立一個(gè)流、導(dǎo)入相關(guān)數(shù)據(jù),打開(kāi)圖形選項(xiàng)面板3、繪制以下各類圖形1)以顏色為層次的圖2)以大小為層次的圖nnonu.uou-0.070-iJt*1*J*VtIO.OBO-I*AllProgramsSPSSCle
15、mentine11.1Demos訪問(wèn)這些文件。文件druglearn.str位于Classification_Module目錄中。此demo中使用的數(shù)據(jù)字段包括:年齡(數(shù)值)性別M或FBP血壓:高、正?;虻湍懝檀佳褐械哪懝檀己浚赫;騿JNa血液中鈉的濃度K血液中鉀的濃度藥品對(duì)患者有效的處方藥1、讀取文本數(shù)據(jù)使用變量文件節(jié)點(diǎn)讀取定界文本數(shù)據(jù)??梢詮倪x項(xiàng)板中添加變量文件節(jié)點(diǎn),方法是單擊源選項(xiàng)卡找到此節(jié)點(diǎn),或者使用收藏夾選項(xiàng)卡(默認(rèn)情況下,其中包含此節(jié)點(diǎn))。然后,雙擊新添加的節(jié)點(diǎn)以打開(kāi)相應(yīng)的對(duì)話框。c|)E文件軽收藏夾(F)數(shù)據(jù)源(U)記錄選項(xiàng)(尺)字段選項(xiàng)Q)圖刑(0)逹模(M)輸出(1)(D
16、數(shù)據(jù)理可童文件A/0/0逸匿抽樣匯總導(dǎo)出蟄型辻詩(shī)般點(diǎn)圈井帝圈_&方圈神經(jīng)網(wǎng)絡(luò)單擊緊挨“文件”框右邊以省略號(hào)“.”標(biāo)記的按鈕,瀏覽到系統(tǒng)中的Clementine安裝目錄。打開(kāi)demos目錄,然后選擇名為DRUG1n的文件。選擇從文件讀取字段名,并注意已載入此對(duì)話框中的字段和值。單擊數(shù)據(jù)選項(xiàng)卡,覆蓋和更改某個(gè)字段的存儲(chǔ)。注意,存儲(chǔ)不同于類型或數(shù)據(jù)字段的用途。類型選項(xiàng)卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來(lái)查看各個(gè)字段的實(shí)際值,具體取決于在值列中的選擇。此過(guò)程稱為實(shí)例化。Var.File|g|刷新|C:ProgramFileslSPSSClementine1,1DEMOSDRUG1n字段
17、覆蓋存儲(chǔ)類型輸入格式AgeSexBP-CholesterolNa乞Drugtaptaputrutr數(shù)符符整字字(未知)IAI子骨申數(shù)據(jù)過(guò)濾類型注辭查看當(dāng)前字段查看未使用的字段設(shè)置類型選項(xiàng)卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來(lái)查看各個(gè)字段的實(shí)際值,具體取決于在值列中的選擇。此過(guò)程稱為實(shí)例化。DRUGln魚(yú)I刷新)lIVk讀取值清除值渚際所有值字段類型值缺失檢查方向AgeSexBPCholesterol746M/FHIGH.LODNORMAU.0.500169,.0.020022,.drugA.dru.數(shù)據(jù)過(guò)濾類型注解查看當(dāng)前字段查看未使用的字段設(shè)置$CLEO_DEMOS/DRUG1
18、n2、添加表?,F(xiàn)在已載入數(shù)據(jù)文件,可以瀏覽一下某些記錄的值。其中一個(gè)方法就是構(gòu)建一個(gè)包含表節(jié)點(diǎn)的流。要將表節(jié)點(diǎn)添加到流中,可雙擊選項(xiàng)板中的表節(jié)點(diǎn)圖標(biāo)或?qū)⑵渫戏诺焦ぷ鲄^(qū)。雙擊選項(xiàng)板中的某個(gè)節(jié)點(diǎn)后,該節(jié)點(diǎn)將自動(dòng)與流工作區(qū)中的選定節(jié)點(diǎn)相連接。此外,如果尚未連接節(jié)點(diǎn),則可以使用鼠標(biāo)中鍵將源節(jié)點(diǎn)與表節(jié)點(diǎn)相連接要模擬鼠標(biāo)中鍵操作,請(qǐng)?jiān)谑褂檬髽?biāo)時(shí)按下Alt鍵。要查看表,請(qǐng)單擊工具欄上的綠色箭頭按鈕執(zhí)行流,或者右鍵單擊表節(jié)點(diǎn),然后選擇執(zhí)行。druigleaz-n*-Cleaeiitine文件(E)編輯插入d)視圖兇工具超節(jié)點(diǎn)窗口Q幫助匾表IT亍字段-200條記錄)-inlxi12文件編輯生成回x|AgeSex
19、BPCholesterolNaKDrug17825MNORMALHIGH0.780.04drugY17939MNORMALHIGH0.610.04drugY18067FNORMALHIGH0.790.05drugY18122FHIGHNORMAL0.820.04drugY18259FNORMALHIGH0.880.06drugX18320FLOWNORMAL0.810.07drugX18436FHIGHNORMAL0.580.04drugY18518FHIGHHIGH0.890.02drugY18657FNORMALNORMAL0.550.02drugY18770MHIGHHIGH0.590.
20、06drugE18847MHIGHHIGH0.560.05drugA18965MHIGHNORMAL0.860.02drugY19064MHIGHNORMAL0.740.04drugY19158MHIGHHIGH0.770.04drugY19223MHIGHHIGH0.530.07drugA19372MLOWHIGH0.550.03drugY19472MLOWHIGH0.500.07drugC19546FHIGHHIGH0.770.02drugY19656FLOWHIGH0.850.07drugC19716MLOWHIGH0.740.06drugC19852MNORMALHIGH0.550.0
21、6drug/19923MNORMALNORMAL0.780.06drug/20040FLOWNORMAL0.680.06cirugX:3、創(chuàng)建分布圖數(shù)據(jù)挖掘過(guò)程中,創(chuàng)建匯總視圖通常有助于研究數(shù)據(jù)。Clementine提供了若干不同類型的圖表供您選擇,具體取決于要匯總分析的數(shù)據(jù)類型。例如,要找出每種藥物的對(duì)癥患者的比例,請(qǐng)使用分布節(jié)點(diǎn)。將分布節(jié)點(diǎn)添加到流,并將其與源節(jié)點(diǎn)相連接,然后雙擊該節(jié)點(diǎn)以編輯要顯示的選項(xiàng)。選擇藥品作為要顯示其分布的目標(biāo)字段。然后,在對(duì)話框中單擊執(zhí)行最終圖表將有助于查看數(shù)據(jù)的“結(jié)構(gòu)”。結(jié)果表明,藥品Y的對(duì)癥患者最多,而藥品B和藥品C的對(duì)癥患者最少。此外,還可以添加并執(zhí)行數(shù)據(jù)審
22、核節(jié)點(diǎn),同時(shí)快速瀏覽所有字段的分布圖和直方圖??梢栽凇拜敵觥边x項(xiàng)卡中找到數(shù)據(jù)審核節(jié)點(diǎn)。4、創(chuàng)建散點(diǎn)圖現(xiàn)在我們來(lái)看一下有哪些因素會(huì)對(duì)藥品(目標(biāo)變量)產(chǎn)生影響。作為研究員您一定知道鈉和鉀的濃度在血液中有著重要的影響。由于兩者都是數(shù)值,您可以用顏色區(qū)分藥品,創(chuàng)建一個(gè)關(guān)于鈉和鉀的散點(diǎn)圖。將散點(diǎn)圖節(jié)點(diǎn)放在工作區(qū)中,并將其與源節(jié)點(diǎn)相連接,然后雙擊該節(jié)點(diǎn)對(duì)其進(jìn)行編輯在“散點(diǎn)圖”選項(xiàng)卡中,選擇Na作為X字段,選擇K作為Y字段,并選擇藥品作為交疊字段。然后單擊執(zhí)行。此散點(diǎn)圖清楚地顯示一個(gè)閾值,在此閾值上方,對(duì)癥藥品始終是Y,在此閾值下方,對(duì)癥藥品均不是Y。此閾值是一個(gè)比率,即鈉(Na)和鉀(K)的比率。Odru
23、QAdruciBOdruciCOdruqXDtliq0.05-0.04-0.03-0.02-Na0.80.95、創(chuàng)建網(wǎng)絡(luò)圖因?yàn)楹芏鄶?shù)據(jù)字段均可分類,也可嘗試?yán)L制網(wǎng)絡(luò)圖,此圖表將反映不同類別之間的聯(lián)系。首先,將網(wǎng)絡(luò)節(jié)點(diǎn)與您工作區(qū)中的源節(jié)點(diǎn)相連接。Na-to-KNa-to-K?在“網(wǎng)絡(luò)節(jié)點(diǎn)”對(duì)話框中,選擇BP(血壓)和藥品。然后單擊執(zhí)行。此圖顯示,藥品Y與三種級(jí)別的血壓均相關(guān)。Y是最佳藥品。 實(shí)驗(yàn)四、關(guān)聯(lián)規(guī)則挖掘【實(shí)驗(yàn)?zāi)康摹?、熟悉C5.0規(guī)則歸納2、掌握購(gòu)物籃分析的方法?!緦?shí)驗(yàn)內(nèi)容】1、字段和記錄的篩選。2、規(guī)則歸納(C5.0)分類。3、購(gòu)物籃分析?!緦?shí)驗(yàn)步驟】本示例處理描述超
24、級(jí)市場(chǎng)購(gòu)物籃內(nèi)容(即,所購(gòu)買的全部商品的集合)的虛構(gòu)數(shù)據(jù),以及購(gòu)買者的相關(guān)個(gè)人數(shù)據(jù)(可通過(guò)忠誠(chéng)卡方案獲得)。目的是尋找購(gòu)買相似產(chǎn)品并且可按人口統(tǒng)計(jì)學(xué)方式(如按年齡、收入等)刻畫(huà)其特征的客戶群。本示例說(shuō)明了數(shù)據(jù)挖掘的兩個(gè)階段:關(guān)聯(lián)規(guī)則建模和一個(gè)揭示所購(gòu)買商品之間聯(lián)系的Web顯示C5.0規(guī)則歸納(描繪已標(biāo)識(shí)產(chǎn)品組的購(gòu)買者的特征)注意:此應(yīng)用不直接使用預(yù)測(cè)建模,因此,不對(duì)最終模型進(jìn)行準(zhǔn)確性度量,在數(shù)據(jù)挖掘過(guò)程中也不存在與之相關(guān)的訓(xùn)練/檢驗(yàn)兩個(gè)步驟的區(qū)分。本例使用名為baskrule的流,該流引用名為BASKETS1n的數(shù)據(jù)文件。任何ClementineClient安裝的Demos目錄中都具有這些文件
25、,通過(guò)從Windows的“開(kāi)始”菜單中選擇StartAllProgramsSPSSClementine11.1Demos可訪問(wèn)這些文件。文件baskrule位于Classification_Module目錄下。1、訪問(wèn)數(shù)據(jù)使用“變量文件”節(jié)點(diǎn)連接到數(shù)據(jù)集BASKETSln,選擇要從該文件讀取的字段名稱。將“類型”節(jié)點(diǎn)連接到數(shù)據(jù)源,然后將該節(jié)點(diǎn)連接到“表”節(jié)點(diǎn)。將字段卡ID的類型設(shè)置為無(wú)類型(因?yàn)槊總€(gè)忠誠(chéng)卡ID在數(shù)據(jù)集中只出現(xiàn)一次,因此對(duì)于建模沒(méi)有用處)。選擇集作為字段性別的類型(這是為了確保GRI建模算法不會(huì)將性別視為標(biāo)志)。fruitveg&freshmeat.webtypebeer_bea
26、ns_pizzm現(xiàn)在,執(zhí)行該流以將“類型”節(jié)點(diǎn)實(shí)例化并顯示表。數(shù)據(jù)集包含18個(gè)字段其中每條記錄表示一個(gè)購(gòu)物籃。下列標(biāo)題中會(huì)顯示18個(gè)字段。購(gòu)物籃摘要:cardid.購(gòu)買此籃商品的客戶的忠誠(chéng)卡標(biāo)識(shí)符。value.購(gòu)物籃的總購(gòu)買價(jià)格。pmethod.購(gòu)物籃的支付方法??ǔ钟姓叩膫€(gè)人詳細(xì)信息:sexhomeown.卡持有者是否擁有住房。收入age購(gòu)物籃內(nèi)容產(chǎn)品類別的出現(xiàn)標(biāo)志:fruitvegfreshmeatdairycannedvegcannedmeatfrozenmealbeerwinesoftdrinkfishconfectionery3、發(fā)現(xiàn)購(gòu)物籃內(nèi)容的關(guān)系首先,需要使用一般規(guī)則歸納(GRI
27、)大致了解購(gòu)物籃內(nèi)容的關(guān)系(關(guān)聯(lián))以生成關(guān)聯(lián)規(guī)則。選擇要在此建模過(guò)程中使用的字段,方法是:編輯“類型”節(jié)點(diǎn),將所有產(chǎn)品類別的方向設(shè)置為雙向,并將所有其他方向設(shè)置為無(wú)。(雙向表示該字段可以是結(jié)果模型的輸入或輸出。)注意:通過(guò)按住Shift鍵并單擊以選擇多個(gè)字段,然后指定列中的選項(xiàng),可為多個(gè)字段設(shè)置選項(xiàng)。IVII恵回讀取值渚除值渚除所雀type字段類型值缺失檢查方向cardidvaluepmethodsexhomeownincome10.007,4.CARD.CA.F,MYES/NO10200,30.16,50fruitvegfreshmeatdairy-cannedvegcannedmeatfr
28、ozenmealFFFFFFT/T/T/T/T/T/向無(wú)無(wú)無(wú)無(wú)無(wú)無(wú)無(wú)孜0OOOOOO、輸入輸出歡向查看當(dāng)前字段查看未使用的字段設(shè)置類型格式注解確定(0)取消(C)應(yīng)用追)重置指定了用于建模的字段后,請(qǐng)將GRI節(jié)點(diǎn)附加到“類型”節(jié)點(diǎn),編輯它,選擇選項(xiàng)只顯示值為真的標(biāo)志變量,然后執(zhí)行GRI節(jié)點(diǎn)。結(jié)果(管理器窗口右上角“模型”選項(xiàng)卡上的非精練模型)包含您可以查看(使用上下文菜單,然后選擇瀏覽)的關(guān)聯(lián)規(guī)則。這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關(guān)聯(lián);酒和糖果也具有關(guān)聯(lián)。出現(xiàn)雙向關(guān)聯(lián)規(guī)則(如:frozenmealbeerbeerfrozenmeal)Web顯示(只顯示雙向關(guān)聯(lián))可能會(huì)突出顯示此數(shù)據(jù)
29、中的一些模式。將Web節(jié)點(diǎn)附加到“類型”節(jié)點(diǎn),編輯Web節(jié)點(diǎn),選擇所有購(gòu)物籃內(nèi)容字段,選擇僅顯示true標(biāo)志,然后執(zhí)行Web節(jié)點(diǎn)。fruitvegno130150170因?yàn)榇蠖鄶?shù)產(chǎn)品類別組合都會(huì)出現(xiàn)在多個(gè)購(gòu)物籃中,所以此Web上的強(qiáng)鏈OconfectioneryOfrozenmealOcannedveQfreshmeatwineooocannedmeatOfishOsoftdrink接,請(qǐng)使用工具欄上的滑塊來(lái)實(shí)現(xiàn)最多只顯示50個(gè)連接。接太多,無(wú)法顯示GRI模型表示的客戶群。要提高臨界值以便只顯示最強(qiáng)的鏈要指定弱連接和強(qiáng)連接,請(qǐng)單擊工具欄上的黃色雙箭頭按鈕。這會(huì)展開(kāi)顯示W(wǎng)eb輸出摘要和控件的對(duì)話
30、框。選擇大小表示強(qiáng)/正常/弱。將弱鏈接設(shè)置為低于90。將強(qiáng)鏈接設(shè)置為高于100。在最終顯示中,會(huì)有三個(gè)客戶群突出顯示:購(gòu)買魚(yú)和果蔬的客戶,可將這類客戶稱為“健康食客”購(gòu)買酒和糧果的客戶購(gòu)買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶請(qǐng)注意,GRI僅標(biāo)識(shí)這些客戶群中的最后兩個(gè);健康食客未形成足夠強(qiáng)的模式,GRI無(wú)法發(fā)現(xiàn)它。4、描繪客戶群的特征現(xiàn)在,已經(jīng)根據(jù)客戶購(gòu)買的產(chǎn)品類型標(biāo)識(shí)了三個(gè)客戶群,但是還要知道這些客戶是誰(shuí),即,他們的人口統(tǒng)計(jì)學(xué)特征。通過(guò)為每個(gè)群中的每名客戶添加標(biāo)志,并使用規(guī)則歸納(C5.0)來(lái)基于規(guī)則描繪這些標(biāo)志的特征,可以實(shí)現(xiàn)這一點(diǎn)。首先,必須獲取每個(gè)群的標(biāo)志。使用剛剛創(chuàng)建的W
31、eb顯示,可以自動(dòng)生成每個(gè)群的標(biāo)志。使用鼠標(biāo)右鍵,單擊fruitveg和fish之間的鏈接,并選擇為鏈接生成“派生”節(jié)點(diǎn)。編輯最終的“派生”節(jié)點(diǎn)以將“派生”字段名稱更改為健康。使用從wine到confectionery的鏈接重復(fù)該練習(xí),并將最終的“派生”字段命名為wine_chocs。對(duì)于第三個(gè)群(涉及三個(gè)鏈接),首先要確保未選擇任何鏈接。然后,在按住shift鍵的同時(shí)單擊鼠標(biāo)左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個(gè)鏈接。(一定要處于“交互”模式而不是“編輯”模式。)然后,從Web顯示菜單中選擇:生成:導(dǎo)出節(jié)點(diǎn)(“和”)將最終“派生”字段的名稱更改為beer
32、_beans_pizza。要描繪這些客戶群的特征,請(qǐng)連續(xù)將現(xiàn)有的類型節(jié)點(diǎn)連接到這三個(gè)導(dǎo)出節(jié)點(diǎn),然后附加另一個(gè)類型節(jié)點(diǎn)。在新類型節(jié)點(diǎn)中,請(qǐng)將除以下字段外的所有字段的方向都設(shè)置為無(wú):value、pmethod、sex、homeown、income和age(這些字段的方向應(yīng)該設(shè)置為輸入),以及相關(guān)的客戶群(例如,beer_beans_pizza,它們的方向應(yīng)該設(shè)置為輸出)。附加C5.0節(jié)點(diǎn),將輸出類型設(shè)置為規(guī)則集,然后執(zhí)行它。最終模型(用于beer_beans_pizza)包含此客戶群的明確人口統(tǒng)計(jì)學(xué)特征:Rule1forT:ifincomeT通過(guò)在第二個(gè)類型節(jié)點(diǎn)中選擇其他客戶群標(biāo)志作為輸出,可將同
33、一方法應(yīng)用到這些標(biāo)志。通過(guò)在此上下文中使用GRI代替C5.0,可生成更多替代特征描繪;GRI也可用于同時(shí)描繪所有客戶群標(biāo)志的特征,原因是,GRI并非被限制到一個(gè)輸出字段。示例說(shuō)明如何使用Clementine通過(guò)建模(使用GRI)和直觀化(使用Web顯示)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的關(guān)系(即鏈接)。這些鏈接與數(shù)據(jù)中的案例組相對(duì)應(yīng),并且,通過(guò)建模(使用C5.0規(guī)則集)可詳細(xì)研究這些組并描繪其特征。例如,在零售領(lǐng)域,可能會(huì)使用這種客戶組確定特殊優(yōu)惠目標(biāo),以提高直接郵寄的響應(yīng)率,或自定義某分部的存貨產(chǎn)品范圍以與其人口統(tǒng)計(jì)學(xué)基礎(chǔ)的需求匹配。1、2、。3、。實(shí)驗(yàn)五、聚類分析(異常值檢測(cè))【實(shí)驗(yàn)?zāi)康摹?、熟悉各種聚類分析
34、方法2、了解神經(jīng)網(wǎng)絡(luò)分析方法與過(guò)程3、掌握異常檢測(cè)的方法?!緦?shí)驗(yàn)內(nèi)容】1、聚類分析。2、神經(jīng)網(wǎng)絡(luò)建模。3、異常檢測(cè)。【實(shí)驗(yàn)步驟】此示例顯示了Clementine在檢測(cè)詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財(cái)政補(bǔ)貼申請(qǐng)。有兩種財(cái)政補(bǔ)貼類型在考慮之列:耕地開(kāi)發(fā)財(cái)政補(bǔ)貼和退役田地財(cái)政補(bǔ)貼。本例使用虛擬數(shù)據(jù)演示如何通過(guò)分析方法來(lái)發(fā)現(xiàn)與標(biāo)準(zhǔn)數(shù)據(jù)的偏差,同時(shí)突出了有必要進(jìn)一步調(diào)查的異常記錄。財(cái)政補(bǔ)貼申請(qǐng)金額取決于田地的類型和大小,您會(huì)特別關(guān)注其中的不合理部分。分析通過(guò)兩個(gè)階段執(zhí)行:先使用“異常檢測(cè)”進(jìn)行預(yù)篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進(jìn)行深入分析。本例使用名為fraud_anomalies.str的流,
35、該流引用名為grantfraudN.db的數(shù)據(jù)文件??梢詮娜魏蜟lementineClient安裝軟件的Demos目錄下找到這些文件,也可以通過(guò)從Windows的“開(kāi)始”菜單選擇StartAllProgramsSPSSClementine11.1Demos訪問(wèn)這些文件。文件fraud_anomalies.str位于Classification_Module目錄下。此示例顯示了Clementine在檢測(cè)詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財(cái)政補(bǔ)貼申請(qǐng)。有兩種財(cái)政補(bǔ)貼類型在考慮之列:耕地開(kāi)發(fā)財(cái)政補(bǔ)貼和退役田地財(cái)政補(bǔ)貼。本例使用虛擬數(shù)據(jù)演示如何通過(guò)分析方法來(lái)發(fā)現(xiàn)與標(biāo)準(zhǔn)數(shù)據(jù)的偏差,同時(shí)突出了有必要
36、進(jìn)一步調(diào)查的異常記錄。財(cái)政補(bǔ)貼申請(qǐng)金額取決于田地的類型和大小,您會(huì)特別關(guān)注其中的不合理部分。分析通過(guò)兩個(gè)階段執(zhí)行:先使用“異常檢測(cè)”進(jìn)行預(yù)篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進(jìn)行深入分析。本例使用名為fraud_anomalies.str的流,該流引用名為grantfraudN.db的數(shù)據(jù)文件。可以從任何ClementineClient安裝軟件的Demos目錄下找到這些文件,也可以通過(guò)從Windows的“開(kāi)始”菜單選擇StartAllProgramsSPSSClementine11.1Demos訪問(wèn)這些文件。文件fraud_anomalies.str位于Classification_Module目錄
37、下。此數(shù)據(jù)包含9個(gè)字段:ID。唯一標(biāo)識(shí)符。姓名。申請(qǐng)人姓名。區(qū)域。地理位置(中部北部西南部東南部)。田地質(zhì)量。以整數(shù)為計(jì)量單位-農(nóng)戶申報(bào)的田地質(zhì)量。降雨量。以整數(shù)為計(jì)量單位-田地年降雨量。田地收入。以實(shí)數(shù)為計(jì)量單位-申報(bào)的田地年收入。主要農(nóng)作物。主產(chǎn)農(nóng)作物(玉米小麥馬鈴薯油菜籽)。申請(qǐng)類型。申請(qǐng)的財(cái)政補(bǔ)貼類型(decommission_land/arable_dev)。申請(qǐng)金額。以實(shí)數(shù)為計(jì)量單位-申請(qǐng)的財(cái)政補(bǔ)貼額。1、預(yù)篩選要快速篩選異常記錄,可以使用異常檢測(cè)節(jié)點(diǎn)(如樣本文件fraud_anomalies.str中所示)。首先使用變量文件節(jié)點(diǎn)連接到數(shù)據(jù)集grantfraudN.db。此數(shù)據(jù)集包
38、含字段名稱,因此可以將表節(jié)點(diǎn)添加到流并執(zhí)行以檢查其構(gòu)成。此外,還可以通過(guò)單擊源節(jié)點(diǎn)中的類型選項(xiàng)卡并讀取值對(duì)數(shù)據(jù)有一些初步了解。farmsizev.claimval在類型選項(xiàng)卡中,單擊讀取值讀取數(shù)據(jù),然后將姓名和ID字段的方向設(shè)置為無(wú),因?yàn)榻_^(guò)程中不使用這些字段。所有其他字段的方向應(yīng)設(shè)置為輸入,這樣他們將作為輸入內(nèi)容包含在異常檢測(cè)模型中。grajitfraudH_db回刷新ll$CLEO_DEMOS/grantfraudN.dbIVI6-(ynk讀取值清除值渚除所有值字段類型值缺失檢查方向ldnameregionfarmsizerainfall47093.5,1maize.pot.decomm
39、is9371.14,6id601,601midlands,.400,193015,109farmincomemaincropJa|claimtype觀claimvalue查看當(dāng)前字段查看未使用的字段設(shè)置數(shù)據(jù)過(guò)濾類型注解文件取消(C)應(yīng)用重置(H)在異常檢測(cè)節(jié)點(diǎn)的“模型”選項(xiàng)卡中,選擇訓(xùn)練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目,然后輸入值10。然后執(zhí)行此節(jié)點(diǎn),并將生成的節(jié)點(diǎn)添加到流。在已生成模型的“設(shè)置”選項(xiàng)卡中,可以選擇相應(yīng)選項(xiàng)放棄非異常記錄,這樣在評(píng)分過(guò)程中,只有標(biāo)記為潛在異常的記錄才保留在流中。添加表節(jié)點(diǎn)并執(zhí)行,以查看得分?jǐn)?shù)據(jù)。模型生成的$0-Anomaly字段表明哪些記錄為潛在異常
40、記錄。由于在“設(shè)置”選項(xiàng)卡中選中了放棄記錄選項(xiàng),所以僅列出標(biāo)記為潛在異常的記錄。還列出了每條記錄的整體異常指數(shù)值,同時(shí)給出了對(duì)等組和最有可能造成記錄異常的三個(gè)字段。您可以使用圖表更方便地查看要標(biāo)記的記錄。例如,您可以針對(duì)申請(qǐng)金額繪制田地大小,并附上$0-Anomaly字段來(lái)查看異常記錄。(將散點(diǎn)圖節(jié)點(diǎn)添加到生成的異常檢測(cè)模型中。要查看顯示所有記錄(不僅僅是異常記錄)的完整散點(diǎn)圖,請(qǐng)取消選擇已生成模型中“設(shè)置”選項(xiàng)卡上的放棄記錄選項(xiàng)。)如您所期望的那樣,將標(biāo)志出金額最高的申請(qǐng)。不過(guò),還標(biāo)志出了許多其他金額的申請(qǐng),其中包括某些金額最低的申請(qǐng)。要弄清事情緣由,有必要進(jìn)一步觀察數(shù)據(jù)。2、數(shù)據(jù)調(diào)查。要繼續(xù)分析詐欺數(shù)據(jù),可以使用勘察表來(lái)調(diào)查數(shù)據(jù)(如樣本文件fraud.str中所示)。此操作可幫您設(shè)立對(duì)建模很有用的假設(shè)條件。在本例中,我們將逐步講解從訪問(wèn)數(shù)據(jù)到訓(xùn)練神經(jīng)網(wǎng)絡(luò)的具體操作步驟。tablenameclairalue首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時(shí)出現(xiàn)多份財(cái)政補(bǔ)貼資助申請(qǐng)表。要檢查重復(fù)申請(qǐng),請(qǐng)將分布節(jié)點(diǎn)連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識(shí)別每塊田地的唯一值)。最終的分布圖將顯示一些進(jìn)行了多次申請(qǐng)的田地。(要查看結(jié)果,請(qǐng)單擊計(jì)數(shù)列標(biāo)題,按
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生態(tài)風(fēng)險(xiǎn)評(píng)估模型優(yōu)化-全面剖析
- 七年級(jí)數(shù)學(xué)學(xué)習(xí)提升計(jì)劃
- 企業(yè)文化建設(shè)方案范文
- 工程招標(biāo)期間的溝通與協(xié)調(diào)措施
- 非營(yíng)利組織審計(jì)風(fēng)險(xiǎn)應(yīng)對(duì)措施
- 技術(shù)保密合同(2篇)
- 一年級(jí)下冊(cè)心理健康復(fù)習(xí)計(jì)劃
- 柴油采購(gòu)合同質(zhì)量保證措施
- 五年級(jí)數(shù)學(xué)下冊(cè)小組合作學(xué)習(xí)計(jì)劃
- 創(chuàng)新型人才培養(yǎng)的心得體會(huì)
- 2025年紫金財(cái)產(chǎn)保險(xiǎn)股份有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年高中作文素材積累:15個(gè)“小眾又萬(wàn)能”的人物素材
- 2025年春新人教版語(yǔ)文一年級(jí)下冊(cè)教學(xué)課件 11 浪花
- 水利工程信息化項(xiàng)目劃分表示例、單元工程質(zhì)量標(biāo)準(zhǔn)、驗(yàn)收應(yīng)提供的資料目錄
- 2025年安徽省水利水電勘測(cè)設(shè)計(jì)研究總院股份有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 2025年行政執(zhí)法人員執(zhí)法資格考試必考題庫(kù)及答案(共232題)
- DB31∕T 360-2020 住宅物業(yè)管理服務(wù)規(guī)范
- 2024-2030年中國(guó)街舞培訓(xùn)行業(yè)發(fā)展趨勢(shì)及競(jìng)爭(zhēng)格局分析報(bào)告
- 2024年度中國(guó)鮮食玉米行業(yè)發(fā)展前景分析簡(jiǎn)報(bào)
- 《電力建設(shè)工程施工安全管理導(dǎo)則》(NB∕T 10096-2018)
- 裝修拆除安全協(xié)議書(shū)范本(2篇)
評(píng)論
0/150
提交評(píng)論