版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 線上資料探勘之環(huán)境建置以DBMiner為例何明鴻 張耿浩 蔡敬賢義守大學資訊管理技術(shù)系九十年四月至九十年十二月指導教授:王學亮 摘要近年來資料庫知識挖掘與資料分析對決策活動的支援成為熱門的研究領(lǐng)域,它從大量的資料中淬取出有用的資訊,以支援企業(yè)做決策的分析。會員與顧客是企業(yè)的重要資產(chǎn),企業(yè)行銷的目標是在滿足顧客的需求,但解顧客的心意並不是那麼容易,企業(yè)無從得知顧客的各種需求,就因為如此企業(yè)在做各種決策的過程中,常遭遇到重重的困難;因此必須知道顧客的嗜好、需求、甚至慾望,在其購買的行為中找出其購買動機。等,並將所有的資料彙集成資訊,以供決策單位進行產(chǎn)品、策略、行銷、通路及價格的決策之用。從資料庫
2、中發(fā)掘出有的資訊的活動稱為資料探勘(Data mining),亦可稱為資料庫知識挖掘;企業(yè)在日積月累之後,資料庫中自然會儲存數(shù)以萬計的數(shù)位資料,而這些資料如不加以運用,基本上它只是一筆筆的記錄而已,但若能運用資訊科技的技術(shù),將這些原本看似無用的資料加以分析與探勘,尋找出資料與資料間的關(guān)係,必定有助於企業(yè)的發(fā)展,更能協(xié)助企業(yè)制定具有競爭力的策略。關(guān)鍵字:資料探勘(Data mining)壹、導論本研究是依據(jù)組員所搜集之資料庫,探討其留下的包括會員資料及交易的歷史記錄,進行其消費行為的分析,從不同的角度,透過這個資料庫中大量的資料,以挖掘出隱藏在資料庫中對企業(yè)有用的資訊。本文件的架構(gòu)如下:第一節(jié)為
3、論文的導論;第二節(jié)為針對Data Mining等領(lǐng)域之技術(shù)的介紹;第三節(jié)就我們在文件中所提出的系統(tǒng)架構(gòu)進行解說;第四節(jié)介紹我們將如何把資料探勘技術(shù)(Association Rule)做實務(wù)上的應用;最後,在第五節(jié)中我們除了對探勘技術(shù)在消費資料庫上的應用做出結(jié)論外,並且提出了未來的研究方向與展望。貳、資料探勘技術(shù)之介紹何謂Data Mining?簡單來說,Data Mining就是在龐大的資料庫中尋找出有價值的隱藏事件,藉由統(tǒng)計及人工智慧的科學技術(shù),將資料做深入分析,找出其中的知識,並根據(jù)企業(yè)的問題建立不同的模型,以提供企業(yè)進行決策時的依據(jù)。藉由Data Mining的技術(shù)將其龐大的顧客資料做篩
4、選、分析、推演及預測,找出哪些是最有貢獻的顧客,哪些是高流失率族群,或是預測一個新的產(chǎn)品或促銷活動可能帶來的回應率,能夠在適當?shù)臅r間提供適合的產(chǎn)品及服務(wù)。也就是說,透過Data Mining企業(yè)得以了解他的顧客,掌握他們的喜好,滿足他們的需要。Data Mining提供的技術(shù)很多,以下列舉幾項常用的功能:1.分類(Classification) 分類就是分析資料的所有特質(zhì),再將其指派至一個現(xiàn)有的群集中。例如,將信用狀況區(qū)分為高風險、中度風險及低風險,或是將顧客區(qū)分為高貢獻度族群、高忠誠度族群等。藉由分類可以對不同族群給予不同的產(chǎn)品及服務(wù)。它使用的Data Mining技術(shù)有決策樹(Decisi
5、on Tree) ,等。2.關(guān)聯(lián)規(guī)則(Association rule)購物籃分析(Market Basket Analysis)關(guān)聯(lián)分組的功能是去發(fā)掘哪些事物總是同時發(fā)生。舉例來說,買A商品的通常同時購買C商品。美國一個應用Data Mining做購物籃分析的有名實例是零售連鎖商Walmart發(fā)現(xiàn)的星期四、尿布和啤酒。也就是由購物籃分析發(fā)現(xiàn)在禮拜四晚上,消費者通常會同時購買尿布和啤酒。這樣的發(fā)現(xiàn)提供了Walmart更多可與此結(jié)合的行銷點子。事實上,購物籃分析就是達成交叉銷售的方法。3. 群集化(Clustering)群集化就是將一群異質(zhì)的群體區(qū)隔為同質(zhì)性較高的群體或是子群。它與分類不同的是,
6、群集化沒有依靠事先明確定義的類別來進行分類,資料是根據(jù)自身的相近性來群集在一起的。因此,群集化可說是分類的前置作業(yè),它也是進行市場區(qū)隔的第一步。本系統(tǒng)主要由SQL SERVER 2000所提供的Analysis Services及DBMiner所構(gòu)成,而本組所欲探勘的主題是運用DBMiner2.0,所提供的Association rule Mining Wizard 來觀察進行關(guān)聯(lián)規(guī)則探勘之後的關(guān)係,此部份可在第四個章節(jié)中探討。參、需求分析和設(shè)計原則(一)需求分析目前我們使用的硬體軟體需求為下: 硬體使用環(huán)境:PENTIUM 500以上Hard Disk 10GBRam 128 MB軟體開發(fā)環(huán)
7、境: Window 2000 Server SQL 2000 Office 2000 DBMiner 2.0(二)系統(tǒng)設(shè)計: 系統(tǒng)架構(gòu)圖1.各領(lǐng)域?qū)<姨峁I(yè)知識決定應用的目標資料探勘的結(jié)果希望達成那些目標必須先確定,因為它關(guān)係著資料收集、資料的前處理及資料屬性的選擇,以及應該選用那一種或多種資料探勘的方法來處理最適當。2.資料規(guī)格化(Data Specification)資料來源及取得方法確定以後,我們針對資料的類型給予規(guī)格化,諸如文字型(Text)、數(shù)字型(Numerical)、種類型(Categorical)、影像(Image)、圖形(Graph)、時間性(Timing)等,使後續(xù)的資料
8、收集及資料前置處理能有一致,並提供資料屬性選擇上的基礎(chǔ),進而方便資料庫及資料倉儲系統(tǒng)的建置與運作。3.資料產(chǎn)生與收集資料的收集方法,需要考慮如何從現(xiàn)有資訊應用系統(tǒng)中的舊有資料作轉(zhuǎn)換的問題,要如何擷取出我們所要的部分,資料量要多少才足夠,資料分散及不同資料型態(tài)整合的問題,這都是在這個步驟要探討及考慮的地方。4.資料前置處理在將資料存入資料倉儲之前,我們收集到的資料中某些欄位可能會有遺失內(nèi)容、不正確的干擾資料、資料內(nèi)容不一致性的問題,都必須先給予改善。還有為了提高處理的效率與準確性,我們可能會先將資料給予整合(Integration)、轉(zhuǎn)換(Transformation )、精練(Refining
9、)或過濾(Filtering)的處理。5.資料庫系統(tǒng)及資料倉儲的建構(gòu)由資料型態(tài)決定資料庫系統(tǒng)的類型是文數(shù)字資料庫(Text/Numeric Database)、空間式資料庫(Spatial Database)或多媒體資料庫(Multimedia Database)。由於我們利用資料探勘的技術(shù)來找出隱藏在資料庫中的資訊,所要處理的資料可能分散在不同資料庫,而且資料量可能會達數(shù)百萬筆以上,對於搜尋資料庫的時間可能是整個資料探勘的關(guān)鍵,若是資料未經(jīng)前置處理,沒有系統(tǒng)化的存放在資料庫中,則在萃取知識前將花費大量的時間在資料的處理上,因此我們採用資料倉儲來克服這些問題。資料倉儲的重要性就是在於對我們將搜
10、尋的資料做預處理的動作,透過搜集資料時的預處理作業(yè),並將資料再加以分類和整合後再存進資料倉儲中,如此可減少資料探勘在對資料進行搜尋的時間。這是資料探勘配合使用資料倉儲最大的好處。6.屬性的挑選在一般情況之下,資料收集所考慮到的屬性都是廣泛的,當進行資料分析時才由其中挑選合適的屬性所構(gòu)成的資料集進行分析,通常這樣的屬性挑選動作都是由該領(lǐng)域的專家負責針對特定的分析目標選擇適當?shù)膶傩约?,即使如此我們也不能夠保證這樣的屬性集是否適合進行資料分析,這是因為屬性內(nèi)的值可能是空的、錯誤的,而導致不正確的分析結(jié)果。此外,若選擇過多的屬性,除了資料發(fā)生錯誤的機會增加之外,在資料分析的效率上也有很大的影響,但是不
11、足的屬性亦不能達到正確的分析結(jié)果,因此挑選適當?shù)膶傩约赃M行資料分析(或探勘)就成為十分重要的課題。7.資料探勘引擎資料探勘引擎是整個架構(gòu)的核心,也是最為重要的環(huán)節(jié)。經(jīng)常被使用的方法或技術(shù)有關(guān)聯(lián)法則(Association rule)、分類(Classification)、組群化(Clustering)、序列型樣(Sequential Pattern)等。8.結(jié)果評估/解釋經(jīng)挖掘得到的規(guī)則(Rules)或型樣(Patterns)可能非常的多,我們要如何設(shè)定參數(shù)值,例如關(guān)聯(lián)法則中的支持度(Support)及可靠度(Confidence)的值、組群化中的組群個數(shù)k 的值及分類中的階層數(shù),才能使得挖
12、掘的結(jié)果更有可用性與解釋性。另外,我們可以設(shè)定一些限制條件來過濾出較有意義的(Interesting)結(jié)果出來。還有如何來解釋和評估所挖掘出來的規(guī)則或型樣,這需要專家的參與及協(xié)助我們完成。9.視覺化的展示最後要將所探勘到的結(jié)果以視覺化的方式來展示,讓使用者很清楚的看出挖掘到的結(jié)果。要如何視覺化和以那一種方式來呈現(xiàn),可以由使用者的喜好來選擇。(如:文字描述,圖形化介面,等。)10.知識庫知識庫用來儲存專家的專業(yè)知識以及探勘所獲得的可用知識,這可隨時的更新,做為以後相關(guān)應用的參考,以及提供各項決策支援的依據(jù)。肆、Association rule實務(wù)上的應用(一)SQL SERVER 2000 An
13、alysis Services(1)Cute的建立Cube是以維度(Dimension) 及量值 (Measure) 來定義其結(jié)構(gòu);它一種概念性的容器,其中包含事實資料表中的詳細數(shù)值,以及多維度的資料結(jié)構(gòu)中所有可能的彙總數(shù)值。(圖一) Cute的建立精靈(3)量值選擇所謂的量值是指資料庫中您所要分析的計量數(shù)值。(圖二)量值選擇精靈(3)維度的建立維度是有組織的類別階層架構(gòu),稱為層級,用以說明資料倉儲事實資料表 (Fact Table) 中的資料。(圖三)維度建立精靈(4)Cute處理分析服務(wù)會將用於Cute中所有的維度結(jié)構(gòu)組合為一份多維度的Cute,然後,它會從倉儲事實資表中讀取詳細的資料列,
14、並且將詳細的數(shù)值存在資料儲存體中。(圖四) Cute處理(二)DBMiner(1) DBMiner主畫面:系統(tǒng)進入的主要畫面(圖一) 主畫面(2) 探勘精靈開始使用探勘精靈,在欲探勘的Cute上按右鍵或選擇這個按鍵進入,進入探勘精靈選擇欲探勘的Cute。(圖二) 探勘精靈(3) 決定要探勘的方法選擇Association(關(guān)聯(lián)規(guī)則),進行探勘。 (圖三)探勘方法選項(4) Association(關(guān)聯(lián)規(guī)則)關(guān)聯(lián)規(guī)則的探勘是表示出一個資料集,在不同的屬性中,有一些數(shù)值會共同發(fā)生,這會讓人聯(lián)想到它們之間是有存在的一些關(guān)係。假定你有兩個屬性A and B,關(guān)聯(lián)規(guī)則典型的例子如下:A1 A2 K Ai
15、 Bj Where Ai and Bj are attribute value.這樣的規(guī)則可以解釋為在同一個交易中如果A1 and A2Ai發(fā)生則通常B1 and B2 Bn也會發(fā)生。而會發(fā)生的比例可用二個量值 Support(支持度)and condifidence(信賴度) 來反應出有用及確實的規(guī)則。假設(shè)有一個規(guī)則A B Ø 支持度:交易中包含A B(both A and B)的機率。support(A B)= frequency AB/ totalcountØ 信賴度:交易中包含A,也包含B。confidence(A B) = support AB / support
16、 (A)DBMiner提供三種關(guān)聯(lián)規(guī)則:1.Inter-dimension Association關(guān)聯(lián)一群維度或與兩個以上的維度產(chǎn)生文叉資料。如(圖四)(圖四) Inter-dimension Association2.Intra-dimensional association。此關(guān)聯(lián)規(guī)則在一個維度的範圍內(nèi)與其他一個維度或幾個維度進行分群。如(圖五) (圖五)Intra-dimensional association3.Hybrid-dimension Association混合的維度關(guān)聯(lián)規(guī)則是結(jié)合inter- dimensional and intra-dimensional的方法探勘。如(
17、圖六)(圖六) )Hybrid-dimension Association(5)選擇Hyprid association mining。如(圖七)(圖七) 選擇Hyprid association mining(5)Specifying Constraints關(guān)聯(lián)規(guī)則可以被明確具體指定一個或多個的限制條件,限制條件指定的一個維度值必須在任何關(guān)聯(lián)規(guī)則中顯露出來,此限制條件是依據(jù)使用者想要對探勘的內(nèi)容更進一步將其劃分出來。 (圖八)(圖八) Specifying Constraints(6)Support and Confidence Thresholds此支持度及信賴度的門檻值是可依據(jù)使用者的需
18、求來設(shè)定,預設(shè)是support 10%,confidence 90%。如(圖九)(圖九) Support and Confidence Thresholds(7)統(tǒng)計及處理進度資訊由此進度表可以得知處理的相關(guān)資訊,若無法順利完成處理進度,系統(tǒng)將會顯示出錯誤訊息,或是處理後並沒有任何的關(guān)聯(lián)規(guī)則(圖十)統(tǒng)計及處理進度資訊(8) 探勘結(jié)果表單(圖十一)關(guān)聯(lián)規(guī)則探勘結(jié)果表單(9)頻繁項目表單(圖十二) 頻繁項目表單(10)探勘結(jié)果條狀圖(圖十三)探勘結(jié)果條狀圖(11) 探勘結(jié)果球狀圖(圖十四)球狀圖伍、結(jié)論及未來發(fā)展我們目前處在一個資訊爆炸的時代,在接下來的日子裏,即將引爆的是資訊革命,這場革命將改變我們的生活方式和商業(yè)的方法,但並不是每個人都能從中獲益,錯過機會的人將會被淘汰,那些擅用資料挖掘和類似強大技術(shù)的公司,將可從他們的資料中發(fā)現(xiàn)寶貴的趨勢,建立並加強與客戶、合作夥伴、和供應廠商的關(guān)係,獲得領(lǐng)先的競爭優(yōu)勢。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- (立項說明)工業(yè)合成油項目投資計劃書
- 石河子大學《儀器分析實驗》2022-2023學年第一學期期末試卷
- 石河子大學《書寫技能訓練一》2021-2022學年第一學期期末試卷
- 石河子大學《經(jīng)典音樂歌舞電影賞析》2022-2023學年期末試卷
- 沈陽理工大學《數(shù)》2022-2023學年第一學期期末試卷
- 沈陽理工大學《科技文獻檢索》2022-2023學年第一學期期末試卷
- 2018年四川內(nèi)江中考滿分作文《我心中的英雄》21
- 沈陽理工大學《Matab原理與應用》2023-2024學年第一學期期末試卷
- 貴州新概念新型材料合同套路
- 合肥市場監(jiān)管局股權(quán)質(zhì)押合同模板
- 電子商務(wù)師職業(yè)技能等級證書培訓方案
- JBT 14615-2024 內(nèi)燃機 活塞運動組件 清潔度限值及測定方法(正式版)
- DL5009.2-2013電力建設(shè)安全工作規(guī)程第2部分:電力線路
- 八年級下冊 第六單元 23《馬說》公開課一等獎創(chuàng)新教學設(shè)計
- 理智與情感:愛情的心理文化之旅智慧樹知到期末考試答案章節(jié)答案2024年昆明理工大學
- GA/T 2097-2023執(zhí)法辦案管理場所信息應用技術(shù)要求
- GB 20052-2024電力變壓器能效限定值及能效等級
- 陶行知與鄉(xiāng)村教育智慧樹知到期末考試答案章節(jié)答案2024年麗水學院
- 手術(shù)切口感染PDCA案例
- 依托國家中小學智慧教育平臺開展有效教學的研究課題申報評審書
- 小學大思政課實施方案設(shè)計
評論
0/150
提交評論