![數(shù)據(jù)挖掘系統(tǒng)設(shè)計技術(shù)分析_第1頁](http://file4.renrendoc.com/view/c1eaaf6c19eb6468723d30078be92883/c1eaaf6c19eb6468723d30078be928831.gif)
![數(shù)據(jù)挖掘系統(tǒng)設(shè)計技術(shù)分析_第2頁](http://file4.renrendoc.com/view/c1eaaf6c19eb6468723d30078be92883/c1eaaf6c19eb6468723d30078be928832.gif)
![數(shù)據(jù)挖掘系統(tǒng)設(shè)計技術(shù)分析_第3頁](http://file4.renrendoc.com/view/c1eaaf6c19eb6468723d30078be92883/c1eaaf6c19eb6468723d30078be928833.gif)
![數(shù)據(jù)挖掘系統(tǒng)設(shè)計技術(shù)分析_第4頁](http://file4.renrendoc.com/view/c1eaaf6c19eb6468723d30078be92883/c1eaaf6c19eb6468723d30078be928834.gif)
![數(shù)據(jù)挖掘系統(tǒng)設(shè)計技術(shù)分析_第5頁](http://file4.renrendoc.com/view/c1eaaf6c19eb6468723d30078be92883/c1eaaf6c19eb6468723d30078be928835.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘系統(tǒng)設(shè)計技術(shù)分析【摘要】數(shù)據(jù)挖掘技術(shù)則是商業(yè)智能(BusinessIntelligence)中最高端的,最具商業(yè)價值的技術(shù)。數(shù)據(jù)挖掘是統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)庫、模式識別、人工智能等學(xué)科的交叉,隨著海量數(shù)據(jù)搜集、強大的多處理器計算機和數(shù)據(jù)挖掘算法等基礎(chǔ)技術(shù)的成熟,數(shù)據(jù)挖掘技術(shù)高速發(fā)展,成為21世紀(jì)商業(yè)領(lǐng)域最核心競爭力之一。本文從設(shè)計思路、系統(tǒng)架構(gòu)、模塊規(guī)劃等方面分析了數(shù)據(jù)挖掘系統(tǒng)設(shè)計技術(shù)?!娟P(guān)鍵詞】數(shù)據(jù)挖掘;商業(yè)智能;技術(shù)分析引言數(shù)據(jù)挖掘是適應(yīng)信息社會從海量的數(shù)據(jù)庫中提取信息的需要而產(chǎn)生的新學(xué)科。它可廣泛應(yīng)用于電信、金融、銀行、零售與批發(fā)、制造、保險、公共設(shè)施、政府、教育、遠(yuǎn)程通訊、軟件開發(fā)、運輸?shù)雀鱾€企事業(yè)單位及國防科研上。數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域非常廣闊,廣闊的應(yīng)用領(lǐng)域使用數(shù)據(jù)挖掘的應(yīng)用前景相當(dāng)光明。我們相信,隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和日益成熟,它必將被更多的用戶采用,使企業(yè)管理者得到更多的商務(wù)智能。1、參考標(biāo)準(zhǔn)1.1挖掘過程標(biāo)準(zhǔn):CRISP-DMCRISP-DM全稱是跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)。它由SPSS、NCR、以及DaimlerChrysler三個公司在1996開始提出,是數(shù)據(jù)挖掘公司和使用數(shù)據(jù)挖掘軟件的企業(yè)一起制定的數(shù)據(jù)挖掘過程的標(biāo)準(zhǔn)。這套標(biāo)準(zhǔn)被各個數(shù)據(jù)挖掘軟件商用來指導(dǎo)其開發(fā)數(shù)據(jù)挖掘軟件,同時也是開發(fā)數(shù)據(jù)挖掘項目的過程的標(biāo)準(zhǔn)方法。挖掘系統(tǒng)應(yīng)符合CRISP-DM的概念和過程。1.2olefordmolefordm是微軟于2000年提出的數(shù)據(jù)挖掘標(biāo)準(zhǔn),主要是在微軟的SQLSERVER軟件中實現(xiàn)。這個標(biāo)準(zhǔn)主要是定義了一種SQL擴(kuò)展語言:DMX。也就是挖掘系統(tǒng)使用的語言。標(biāo)準(zhǔn)定義了許多重要的數(shù)據(jù)挖掘模型定義和使用的操作原語。相當(dāng)于為軟件提供商和開發(fā)人員之間提供了一個接口,使得數(shù)據(jù)挖掘系統(tǒng)能與現(xiàn)有的技術(shù)和商業(yè)應(yīng)用有效的集成。我們在實現(xiàn)過程中發(fā)現(xiàn)這個標(biāo)準(zhǔn)有很多很好的概念,但也有一些是勉為其難的,原因主要是挖掘系統(tǒng)的整體概念并不是非常單純,而是像一個發(fā)掘信息的方法集,所以任何概念并不一定符合所有的情況,也有一些需要不斷完善和發(fā)展中的東西。PMML是1999年由DMG發(fā)布了1.0版本,他主要是一個基于XML的模型描述語言,利用XML的描述能力來表達(dá)各種挖掘模型和規(guī)則。標(biāo)準(zhǔn)化的描述使得各個不同的廠商的軟件之間可以共享,交換這些挖掘模型。所以他主要是一種模型和規(guī)則的描述語言。1.4對于標(biāo)準(zhǔn)的基本判斷CRISP-DM的流程已經(jīng)成為業(yè)界的基本認(rèn)識,但他更像一個項目指導(dǎo)思想,而不是單純硬性規(guī)范。olefordm規(guī)范了挖掘模型和操作原語,使挖掘軟件能有效,簡單的整合進(jìn)現(xiàn)有的企業(yè)軟件架構(gòu),對于推動挖掘軟件的使用和普及意義非凡。但olefordm的規(guī)則模型對于結(jié)構(gòu)復(fù)雜,形態(tài)各異的模型規(guī)則用簡單的平面表來表示就顯得非常怪異,而PMML正好彌補了這個缺陷,PMML利用了XML的描述能力,能有效的描述挖掘模型和規(guī)則。挖掘服務(wù)器主要以上我們對于這些標(biāo)準(zhǔn)的基本判斷為基礎(chǔ),吸收CRISP-DM和olefordm的核心的優(yōu)良概念,在實際開發(fā)中我們也是根據(jù)實際需求來拓展了一些概念和修正了一些做法,為客戶和開發(fā)使用人員提供更好的軟件。2、軟件功能設(shè)計2.1設(shè)計思想數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架設(shè)計采用如下的原則:采用分層的設(shè)計,模塊化的原則采用先進(jìn)和成熟的技術(shù)使用C++語言使用(C/C++語言是實現(xiàn)服務(wù)器級別軟件的首選);使用泛型思想,面向?qū)ο蠹夹g(shù);使用STL容器或開發(fā)STL更優(yōu)化的C++容器。標(biāo)準(zhǔn)性系統(tǒng)的設(shè)計和開發(fā)遵循國際標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn);符合CRISP-DM規(guī)定的數(shù)據(jù)挖掘項目實施的過程流程標(biāo)準(zhǔn),遵循olefordm規(guī)范中挖掘模型和操作原語;使用DMX作為用戶的接口來驅(qū)動數(shù)據(jù)挖掘過程。良好的可擴(kuò)展性系統(tǒng)支持多個層面的可擴(kuò)展性,通過快速開發(fā)/重組、參數(shù)配置等多個方面使得系統(tǒng)可以實現(xiàn)客戶未來不斷變化的需求;系統(tǒng)有合理的層次結(jié)構(gòu);要有較強的擴(kuò)展能力,可快速方便的插入新算法;系統(tǒng)要求支持平臺無關(guān)性,能夠適應(yīng)多種主流主機平臺、數(shù)據(jù)庫平臺、中間件平臺,具有較強的跨系統(tǒng)平臺的能力。系統(tǒng)能適應(yīng)不同的網(wǎng)絡(luò)結(jié)構(gòu),可根據(jù)業(yè)務(wù)的發(fā)展靈活擴(kuò)展硬件產(chǎn)品。2.2系統(tǒng)架構(gòu)體系根據(jù)架構(gòu)分析和設(shè)計思想產(chǎn)生系統(tǒng)的架構(gòu)圖,并對架構(gòu)圖進(jìn)行描述,說明分層的原因、層次的職責(zé)。首先從系統(tǒng)整體架構(gòu)來闡述,然后對數(shù)據(jù)挖掘服務(wù)器進(jìn)一步分層,模塊化,并完整說明每層實現(xiàn)的功能。2.3系統(tǒng)整體架構(gòu)上面的架構(gòu)圖由:數(shù)據(jù)層、挖掘服務(wù)器層、驅(qū)動層和客戶層組成。數(shù)據(jù)層:由業(yè)務(wù)系統(tǒng)的各個數(shù)據(jù)庫或數(shù)據(jù)倉庫組成。通過ODBC或相應(yīng)的驅(qū)動為挖掘服務(wù)器層提供數(shù)據(jù)支持。挖掘服務(wù)器層:實現(xiàn)對數(shù)據(jù)進(jìn)行預(yù)處理,包括主成分分析、抽樣、過濾、投影、離散等,創(chuàng)建、訓(xùn)練、評估模型,預(yù)測,修改模型參數(shù),刪除規(guī)則,刪除模型等一系列功能。本層通過Socket與上面的驅(qū)動層交互,接收驅(qū)動層的DMX語句,執(zhí)行完成后作出響應(yīng)并返回結(jié)果到上一層。驅(qū)動層:根據(jù)客戶層的具體平臺分為JAVA驅(qū)動和C++驅(qū)動,驅(qū)動層提供API接口供客戶端調(diào)用。類似于數(shù)據(jù)庫系統(tǒng)中的JDBC驅(qū)動和ODBC驅(qū)動??蛻魧樱禾幱谙到y(tǒng)的最上層。系統(tǒng)最終用戶的使用界面和設(shè)備。包括基于瀏覽器的瘦客戶端和基于GUI的胖客戶端應(yīng)用。3、數(shù)據(jù)挖掘服務(wù)器架構(gòu)本架構(gòu)圖是對服務(wù)器客戶端架構(gòu)的進(jìn)一步分層,模塊化后的描述。上面的架構(gòu)圖由數(shù)據(jù)源接口層、核心服務(wù)層、傳輸層和用戶驅(qū)動(接口)層組成。數(shù)據(jù)源接口層:提供獲取數(shù)據(jù)的接口。核心服務(wù)層:由許多核心服務(wù)單元組成,包括會話管理、DMX解析、DMX引擎、算法、模型管理、內(nèi)存管理、異步框架、持久化管理、并發(fā)控制、異常處理和計算與排序緩沖區(qū)等。傳輸層:用于獲取上層的輸入,并向上層返回結(jié)果。用戶驅(qū)動(接口)層:用戶使用DMX語句提交給本層完成模型管理、模型訓(xùn)練、模型預(yù)測等功能。4、模塊概要設(shè)計4.1.1服務(wù)器內(nèi)存。系統(tǒng)內(nèi)存主要分為3塊:系統(tǒng)管理模型和規(guī)則的內(nèi)存,用于排序及其它計算操作的緩沖區(qū)內(nèi)存,用戶連接私有內(nèi)存。內(nèi)容管理的目標(biāo)是實現(xiàn):不產(chǎn)生內(nèi)存碎片;內(nèi)存不會泄露;內(nèi)存分配和刪除要快;盡量做到總是有內(nèi)存可用。4.1.2大數(shù)據(jù)量支持。數(shù)據(jù)挖掘服務(wù)器提供對巨大數(shù)據(jù)量的支持。當(dāng)然,有些算法對于大數(shù)據(jù)量是沒有意義的,比如說神經(jīng)網(wǎng)絡(luò),這是由算法本身的特征決定的。數(shù)據(jù)挖掘服務(wù)器可以支持大量數(shù)據(jù),但也有可能導(dǎo)致計算量的急劇增加,所以相應(yīng)的計算機也應(yīng)該比較強勁。用戶可以通過一個參數(shù)MaxMemoryBuffer來設(shè)置某一次處理可以使用的最大內(nèi)存,如果所需內(nèi)存超過這個數(shù)值,系統(tǒng)將使用用戶的硬盤空間來處理數(shù)據(jù),所以如果用戶希望有比較大的內(nèi)存,希望優(yōu)化性能的話可以設(shè)大這個參數(shù),盡可能將數(shù)據(jù)在內(nèi)存處理。4.1.3客戶端數(shù)據(jù)集。BI系統(tǒng)往往工作在巨大的數(shù)據(jù)量的環(huán)境中。所以挖掘服務(wù)器是以效率為優(yōu)先考慮設(shè)計的,盡量使用更少的內(nèi)存,更少的代碼來加快執(zhí)行速度。挖掘服務(wù)器的驅(qū)動中,結(jié)果集有三種數(shù)據(jù)緩沖類型,對應(yīng)著不同的用戶需求和資源(內(nèi)存)需求的選項:不緩沖數(shù)據(jù)集,緩沖一行數(shù)據(jù)集(包括該行的所有子表),緩沖整個數(shù)據(jù)集。不緩沖數(shù)據(jù)集提供深度單向遍歷能力。特點是只使用很少的內(nèi)存。這種數(shù)據(jù)集的內(nèi)存需求為除了連接會使用一個網(wǎng)絡(luò)傳輸?shù)木彌_區(qū)以外,該數(shù)據(jù)集幾乎不會申請其它任何內(nèi)存,這種情況對于內(nèi)存使用苛刻的用戶使用,或作為更底層的代碼集成進(jìn)用戶的系統(tǒng),這種低資源要求是非常適合的。但不緩沖數(shù)據(jù)集付出的代價是在結(jié)果集中有嵌套表的情況下順序來讀取這些嵌套表。這個概念是遞歸的,也就是說有多層嵌套表時,必須也是按深度遍歷的方式來讀取。緩沖一行數(shù)據(jù)集提供主數(shù)據(jù)集上單向遍歷,子所有嵌套表隨機遍歷。特點是內(nèi)存需求適中,遍歷能力能滿足大多數(shù)需求。這個選項是默認(rèn)的選項。這種數(shù)據(jù)集至少會緩沖主數(shù)據(jù)集的任意一行數(shù)據(jù),包括該行的所有子嵌套表。系統(tǒng)會分配一個適當(dāng)大小的內(nèi)存池來分配所生成的結(jié)果集對象。這些內(nèi)存在在用戶遍歷完一行時釋放,接下來被重用。全緩沖數(shù)據(jù)集提供主數(shù)據(jù)集,子嵌套表的隨機訪問能力,但在數(shù)據(jù)集比較大時會占用比較大的內(nèi)存。如果對數(shù)據(jù)集要求隨機訪問的話可以使用這種數(shù)據(jù)集。用戶在使用數(shù)據(jù)集時可以根據(jù)使用需求,資料意味著狀況來決定使用什么類型的數(shù)據(jù)集。圖中灰色部分表示各自占用的內(nèi)存。4.2挖掘算法數(shù)據(jù)挖掘服務(wù)器系統(tǒng)將算法分離出來,系統(tǒng)為算法的接入提供統(tǒng)一的接口,將算法當(dāng)成一種可插入式的模塊。從系統(tǒng)框架的角度來看,并不關(guān)心算法是如何實現(xiàn)的。這種設(shè)計無疑使本系統(tǒng)有很強的可擴(kuò)展性,將來可以方便的插入新的數(shù)據(jù)挖掘算法。系統(tǒng)實現(xiàn)的挖掘算法應(yīng)基本覆蓋目前主流的挖掘算法,能滿足用戶各種數(shù)據(jù)挖掘任務(wù)需求。算法實現(xiàn)中充分考慮運行速度和內(nèi)存的使用,力求達(dá)到最佳的運行效率。多個算法只掃描一遍輸入數(shù)據(jù)集以實現(xiàn)支持大數(shù)據(jù)量的要求,對部分挖掘算法考慮增量挖掘。4.3數(shù)據(jù)源4.3.1統(tǒng)一數(shù)據(jù)源架構(gòu)。統(tǒng)一數(shù)據(jù)源是產(chǎn)品應(yīng)支持的數(shù)據(jù)源架構(gòu),挖掘服務(wù)器使用其中的平面格式部分(即表或類表的一維數(shù)據(jù))。統(tǒng)一數(shù)據(jù)源的概念是在企業(yè)的信息系統(tǒng)中提供統(tǒng)一接口的數(shù)據(jù)源接口,而不管數(shù)據(jù)實際是從不同的數(shù)據(jù)庫、文件、WebService或其它接口提供的。4.3.2數(shù)據(jù)源連接池。如果數(shù)據(jù)來源是數(shù)據(jù)庫,用戶可以對連接池進(jìn)行設(shè)置。4.3.3數(shù)據(jù)源種類。挖掘系統(tǒng)現(xiàn)在支持平面數(shù)據(jù)源格式,包括ORACLE(原生接口),DB2(原生接口),及ODBC接口的數(shù)據(jù)源,及文本文件。4.4異常處理為了最大程度實現(xiàn)異常處理的通用性、可擴(kuò)展性以及可配置性,系統(tǒng)采用統(tǒng)一的異常處理框架,并且提供統(tǒng)一的異常處理接口。通過統(tǒng)一配置錯誤信息,各模塊中不論任何地方,只需調(diào)用此唯一的接口,框架就會根據(jù)配置信息執(zhí)行需要的異常處理。參考文獻(xiàn)Microsoft公司2000
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球氟化鋰蒸發(fā)材料行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球針織翻邊毛線帽行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國智慧生態(tài)解決方案行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球全自動小袋拆包機行業(yè)調(diào)研及趨勢分析報告
- 無人機技術(shù)研發(fā)項目合同
- 2025上海市房屋買賣合同書(簡易范本)
- 產(chǎn)品銷售代理合同
- 購銷校服合同范本
- 倉儲服務(wù)定金合同模板
- 2025合同模板化妝品采購合同范本
- 2024年小升初語文入學(xué)分班測試卷四(統(tǒng)編版)
- 流行文化對青少年價值觀的影響研究
- 中國保險行業(yè)協(xié)會官方-2023年度商業(yè)健康保險經(jīng)營數(shù)據(jù)分析報告-2024年3月
- 設(shè)計質(zhì)量管理和保證措施及設(shè)計質(zhì)量管理和質(zhì)量保證措施
- 2024電力系統(tǒng)安全規(guī)定
- 小學(xué)二年級語文上冊閱讀理解專項訓(xùn)練20篇(含答案)
- 科技論文圖表等規(guī)范表達(dá)
- 高考寫作指導(dǎo)議論文標(biāo)準(zhǔn)語段寫作課件32張
- 2021年普通高等學(xué)校招生全國英語統(tǒng)一考試模擬演練八省聯(lián)考解析
- 華能火力發(fā)電機組節(jié)能降耗技術(shù)導(dǎo)則(2023年版)
- 基礎(chǔ)知識3500個常用漢字附拼音
評論
0/150
提交評論