




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘理論與技術(shù)研究論文導讀:數(shù)據(jù)挖掘正是這樣一種技術(shù), 它可以從大量的數(shù)據(jù)中抽取潛在的有用信息和模式, 來幫助我們進行科學的決策。數(shù)據(jù)倉庫(Data Warehouse ,簡稱DW) 是一項基于數(shù)據(jù)管理和運用的綜合性技術(shù)和解決方案。DM 是決策支持的一個過程,是決策支持的重要組成局部,是數(shù)據(jù)分析的發(fā)現(xiàn)模式,它主要基于人工智能,機器學習,統(tǒng)計學等技術(shù),高度自動化地分析企業(yè)原有數(shù)據(jù),從而開掘出意料之外的或未知的關(guān)系、模式和聯(lián)系,預測客戶的行為,幫助企業(yè)決策者作出正確的決策。關(guān)鍵詞:數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,決策支持0.引言隨著數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用, 人們越來越感到數(shù)據(jù)豐富;而知識貧乏。面對龐大的數(shù)據(jù)
2、資源, 人們迫切需要能夠自動處理數(shù)據(jù)資源并能將其轉(zhuǎn)化為知識的自開工具。數(shù)據(jù)挖掘正是這樣一種技術(shù), 它可以從大量的數(shù)據(jù)中抽取潛在的有用信息和模式, 來幫助我們進行科學的決策。1.數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover Database ,KDD) ,是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘(Data Mining ,簡稱DM) 比擬公認的定義是W. J . Frawley、G. Piatetsky、Shapiro 等人提出的:就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。是利用一些方法和模型,通過對數(shù)據(jù)進行
3、分析,探索出這些數(shù)據(jù)中不明顯、事先不知道和有使用潛力的信息。對于一個企業(yè)領(lǐng)導來說,如果不僅僅滿足于統(tǒng)計報表,那么DM 就是必要的。近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,無數(shù)個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學研究和工程開發(fā)等,DM 能提供非常重要的,對決策者可能是完全嶄新的決策信息。數(shù)據(jù)挖掘能提供的數(shù)據(jù)的模式有以下幾類:(1) 概念描述概念是對一個包含大量數(shù)據(jù)的數(shù)據(jù)集合總體情況的概括性描述。用戶通過對數(shù)據(jù)庫中細節(jié)數(shù)據(jù)的數(shù)據(jù)泛化;來用高層次的抽象名稱來描述數(shù)據(jù)庫所反映的定性概念。還可以通過對不同的數(shù)據(jù)庫進行比照泛化, 從而得出不同數(shù)據(jù)庫間相對的概念。(2) 關(guān)聯(lián)規(guī)那么關(guān)聯(lián)
4、規(guī)那么的挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有價值的各項條目間存在的內(nèi)在聯(lián)系。從而利用這些關(guān)聯(lián)規(guī)那么進行決策。如從商業(yè)貿(mào)易記錄中找出不同商品銷售情況的關(guān)聯(lián), 發(fā)現(xiàn)消費者的消費愛好, 改變銷售模式以迎合消費者, 提高銷售額。(3) 分類與預測分類指找出能夠反映某一數(shù)據(jù)集合的特征的模型或函數(shù), 以便將未知的事例反映到某種離散的類別。但對于連續(xù)的數(shù)值預測那么成為預測;。(4) 聚類分析聚類是一種特殊的分類, 與分類分析方法不同, 聚類分析是在預先不知道預劃定類的情況下, 根據(jù)信息相似度原那么進行信息集聚的一種方法。(5) 異類分析對于數(shù)據(jù)庫中那些不屬于分類預測或聚類分析所獲得的模型的數(shù)據(jù)對象就稱為異類。例如:
5、 可以根據(jù)信用卡的使用地點、購置商品的類型來發(fā)現(xiàn)屬于信用卡詐騙的購置行為( 異類數(shù)據(jù)) 。(6) 演化分析數(shù)據(jù)對象的模型會隨著時間的變化而改變,而對這一變化趨勢的描述就稱為數(shù)據(jù)演化分析。例如: 利用演化分析方法可對股票的交易數(shù)據(jù)進行時序分析, 獲得股票市場的股票演化規(guī)律。2.數(shù)據(jù)挖掘的理論框架2.1基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉庫(Data Warehouse ,簡稱DW) 是一項基于數(shù)據(jù)管理和運用的綜合性技術(shù)和解決方案。DW作為一種新型的數(shù)據(jù)存儲地,為DM 提供了新的支持平臺。DM 是決策支持的一個過程,是決策支持的重要組成局部,是數(shù)據(jù)分析的發(fā)現(xiàn)模式,它主要基于人工智能,機器學習,統(tǒng)計學等
6、技術(shù),高度自動化地分析企業(yè)原有數(shù)據(jù),從而開掘出意料之外的或未知的關(guān)系、模式和聯(lián)系,預測客戶的行為,幫助企業(yè)決策者作出正確的決策。如圖1 描述了數(shù)據(jù)倉庫環(huán)境中的DM的體系結(jié)構(gòu)。DM要發(fā)揮作用,首先必須在企業(yè)中實現(xiàn)DW,同時還必須具備實施DM的技術(shù)和工具,只有這樣才能具體實施DM。圖1 數(shù)據(jù)倉庫環(huán)境中的DM的體系結(jié)構(gòu)DM的特點是處理的數(shù)據(jù)規(guī)模十分龐大; 查詢是決策者提出的隨機查詢,需要靠DM技術(shù)尋找可能感興趣的數(shù)據(jù); 在一些應(yīng)用中,由于數(shù)據(jù)不斷變化,因此要求DM 能快速做出反響,以提高決策支持。DM即要發(fā)現(xiàn)潛在規(guī)那么,還要管理和維護規(guī)那么。DM 中規(guī)那么的發(fā)現(xiàn)主要基于大樣本的統(tǒng)計規(guī)律,發(fā)現(xiàn)的規(guī)律不
7、必適用于所有數(shù)據(jù),當?shù)竭_某一閾值時便可以認為有此規(guī)律。DM 技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預測。例如加拿大BC 省 公司要求加拿大Simon Fraser 大學KDD 研究組,根據(jù)其擁有十多年的客戶數(shù)據(jù),總結(jié)、分析并提出新的 收費和管理方法,制定既有利于公司又有利于客戶的優(yōu)惠政策。這樣就把人們對數(shù)據(jù)的應(yīng)用,從低層次的末端查詢操作,提高到為各級經(jīng)營決策者提供決策支持。2.2數(shù)據(jù)挖掘的方法(1) 關(guān)聯(lián)規(guī)那么關(guān)聯(lián)規(guī)那
8、么是夠揭示大型數(shù)據(jù)集合中有趣的趨勢、模式和規(guī)那么,形式為A1 A2 ?Am B1 B2 ?Bn;其中Ai ( i = 1 ,2 , ?, m) ,Bj ( j = 1 ,2 ,?, n) 是數(shù)據(jù)庫中的數(shù)據(jù)項之間的關(guān)聯(lián)即根據(jù)一個事務(wù)中某些項的出現(xiàn),可以推導出另一些項在同一事務(wù)中也出現(xiàn)。是搜索業(yè)務(wù)系統(tǒng)中的所有細節(jié)和事務(wù),從中尋找出重復概率很高的模式。關(guān)聯(lián)分析是在給定一組工程類別;和一些記錄集合的條件下,通過分析記錄集合,計算最小值信度,從而推導出各工程之間的相關(guān)性。事務(wù)數(shù)據(jù)庫中的關(guān)聯(lián)挖掘是大型數(shù)據(jù)庫中關(guān)聯(lián)規(guī)那么挖掘的典型情況。在這種情況下,對每個組成項都有具體明確的數(shù)值,一個客戶的事務(wù)(交易) 將
9、包括這些項的子集。(2) 神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是通過模擬人腦反復學習技術(shù)來工作的。對給出的樣本數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)通過類似人類記憶過程的方式學習數(shù)據(jù)中的統(tǒng)計規(guī)律,歸納出能描述樣本特征的數(shù)據(jù)模型,然后用已學會的數(shù)據(jù)模型分類新給出的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)已經(jīng)很好地運用于區(qū)分貸款詐騙,圖象識別,判斷健康狀況,分析、理解股票和債券的異常波動等領(lǐng)域。一個神經(jīng)網(wǎng)絡(luò)是大型并行分布的處理器,它由很多簡單的處理單元組成。神經(jīng)網(wǎng)絡(luò)具有容錯能力,并且擅長模式識別和趨勢預測。在有限知識的情況下,人工神經(jīng)網(wǎng)絡(luò)算法經(jīng)常被用于數(shù)據(jù)模型的構(gòu)造。神經(jīng)網(wǎng)絡(luò)可以成功地應(yīng)用于圖像挖掘的分類中。例如對醫(yī)學X光片、傳感圖像等進行分類。(3) 決策樹是通過
10、一系列規(guī)那么對數(shù)據(jù)進行分類的過程。它以信息論中的信息增益原理為根底尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個結(jié)點,再根據(jù)字段的不同取值建立樹的分枝;在每個分枝中集中重復建樹的下層結(jié)點和分枝的過程,即可建立決策樹。它用樹形結(jié)構(gòu)來表示決策集合,主要特點是使用了決策樹圖,因而整個決策分析過程具有直觀、簡潔、清晰等優(yōu)點。典型的決策樹方法有分類回歸樹。(4) 遺傳算法遺傳算法是一種新的優(yōu)化技術(shù),基于生物進化的概念設(shè)計了一系列的過程來到達優(yōu)化的目的。它模擬生物進化過程,由選擇、交叉、突變?nèi)齻€根本算子組成。遺傳算法已在優(yōu)化計算、分類等方面發(fā)揮了顯著作用。(5) 可視化技術(shù)采用直觀的圖形方式將信息模式
11、、數(shù)據(jù)的關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,決策者可以通過可視化技術(shù)交互地分析數(shù)據(jù)關(guān)系??梢暬瘮?shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清晰。另外,還有規(guī)那么歸納,公式發(fā)現(xiàn),模糊集合,統(tǒng)計學等方法。2.3數(shù)據(jù)挖掘的過程首先選擇和準備待挖掘的數(shù)據(jù),對待挖掘數(shù)據(jù)進行預處理。這個階段可分3 步:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇的目的是區(qū)分出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高DM的質(zhì)量。預處理是為了克服目前DM 工具的局限性,主要是通過凈化、減縮、轉(zhuǎn)換、群聚、分類等手段降低數(shù)據(jù)的復雜性,
12、并且重新加以組織。其次研究開發(fā)一種或多種DM 工具,如IBM 的IDM 和SGI的Mine Set 等。第三用DM工具來發(fā)現(xiàn)未知的知識,運用所發(fā)現(xiàn)的知識于決策支持,到達事業(yè)和企業(yè)單位的特定目標。這個階段進行實際的DM,要先決定如何產(chǎn)生假設(shè),是發(fā)現(xiàn)型(discovery- driven) 的DM,還是驗證型(verification- driven) DM;弄清用戶要求,從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù),把最有價值的信息區(qū)分出來,并且通過決策支持工具提交決策者。還要對信息進行過濾處理,主要對前一階段產(chǎn)生的數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行處理,對喪失的數(shù)據(jù)進行填補。如果
13、斷策者不滿意,需要重復以上DM 過程。DM的根本過程如圖2。圖2 DM的根本過程3.數(shù)據(jù)挖掘技術(shù)的研究數(shù)據(jù)挖掘的核心技術(shù)是進行數(shù)據(jù)挖掘所采用的算法。數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)對象中獲得數(shù)據(jù)的模式/模型, 找出容易理解的規(guī)那么和關(guān)系。這些規(guī)那么用于預測未來趨勢、評價用戶、評估風險或?qū)o定的數(shù)據(jù)進行概念性的描述。數(shù)據(jù)挖掘不是一個完全自動化的過程, 需要做準備工作, 其后要考慮數(shù)據(jù)有關(guān)的因素和預期目的, 然后用最正確的數(shù)據(jù)挖掘方法進行運算。這些算法包括: 人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、近鄰算法等。對數(shù)據(jù)挖掘的理論研究主要在以下六個方面:OLAP 技術(shù)、面向?qū)傩缘臍w納法、關(guān)聯(lián)規(guī)那么、分類和預測、聚類和與
14、數(shù)據(jù)倉庫的集成技術(shù)。3.1 OLAP 技術(shù)聯(lián)機分析處理(On2LineAnalytical Processing ,OLAP) 是關(guān)系數(shù)據(jù)庫之父E. F. Codd 博士在1993 年提出的。OLAP 可以在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉庫或數(shù)據(jù)集市上進行,使用數(shù)據(jù)立方體結(jié)構(gòu),OLAP 操作可以有效地實現(xiàn)。OLAP 技術(shù)主要是應(yīng)用隱含在數(shù)據(jù)里的領(lǐng)域背景知識對數(shù)據(jù)進行操作,為用戶在不同的抽象層上提供數(shù)據(jù)。OLAP 技術(shù)一般都是集成在數(shù)據(jù)倉庫中實現(xiàn)的。3.2面向?qū)傩缘臍w納方法1991年,Jiawei Han等提出了面向?qū)傩缘臍w納方法(Attribute2Oriented ,AO),這是一種有效的、完整的
15、知識發(fā)現(xiàn)算法,算法的一個關(guān)鍵就是攀升屬性所對應(yīng)的概念層次樹,把原始數(shù)據(jù)集的數(shù)據(jù)泛化到用戶感興趣的概念層上,減少數(shù)據(jù)集的大小,從而降低知識發(fā)現(xiàn)過程的計算復雜度。3.3關(guān)聯(lián)規(guī)那么關(guān)聯(lián)規(guī)那么的挖掘最早是由R. Agrawal 等人于1993年提出。在關(guān)聯(lián)規(guī)那么算法的研究中,生成所有的頻繁工程集是核心問題。關(guān)聯(lián)規(guī)那么最早是由購物籃分析開始的,但是隨著研究的擴展和深入,關(guān)聯(lián)規(guī)那么的應(yīng)用范圍不斷擴大,因此出現(xiàn)了多種形式關(guān)聯(lián)規(guī)那么的研究。由最簡單的單維、單層、布爾關(guān)聯(lián)規(guī)那么逐漸向復雜形式擴展。在根本失聯(lián)規(guī)那么的根底上提出了布爾型加權(quán)關(guān)聯(lián)規(guī)那么和廣義模糊型加權(quán)關(guān)聯(lián)規(guī)那么算法,由單層的關(guān)聯(lián)規(guī)那么擴展為多層次關(guān)聯(lián)
16、規(guī)那么的研究,提出了基于多維標度關(guān)聯(lián)規(guī)那么算法,其他類型的關(guān)聯(lián)規(guī)那么如借助正態(tài)模糊數(shù)模型,軟化數(shù)量屬性的劃分邊界,生成語言值關(guān)聯(lián)規(guī)那么,引入正態(tài)云模型來替代對屬性論域的劃分,提出了挖掘正態(tài)云關(guān)聯(lián)規(guī)那么的方法,基于關(guān)聯(lián)規(guī)那么的缺乏,還提出了轉(zhuǎn)移規(guī)那么及其算法。另外對于關(guān)聯(lián)規(guī)那么挖掘指導思想也出現(xiàn)了變化,提出了概念指導的關(guān)聯(lián)規(guī)那么的挖掘算法和基于概念格的關(guān)聯(lián)規(guī)那么的提取算法。3.4分類和預測分類和預測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。主要的分類方法有:決策樹歸納分類法、貝葉斯分類法、后向傳播分類法等。國內(nèi)的分類方法研究主要集中在以下內(nèi)容:1)研究貝葉斯網(wǎng)絡(luò)在
17、分類方法中的應(yīng)用。2) 結(jié)合其他理論進行算法研究3.5聚類聚類是一個活潑的研究領(lǐng)域,聚類就是將數(shù)據(jù)對象分組成為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象那么差異較大,聚類算法具體可以分為:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法等。聚類分析可以用作獨立的數(shù)據(jù)挖掘工具,來獲得對數(shù)據(jù)分布的了解,也可以作為其它數(shù)據(jù)挖掘算法的預處理步驟。3.6與數(shù)據(jù)倉庫的集成技術(shù)研究目前比擬通用的對數(shù)據(jù)倉庫的定義是W. H.Inmon 在1996 年提出的,他認為數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘
18、提供了更廣闊的活動空間。數(shù)據(jù)倉庫完成了數(shù)據(jù)的收集、集成、存儲、管理等工作,數(shù)據(jù)挖掘面對的是經(jīng)初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘能更專注于知識的發(fā)現(xiàn)。數(shù)據(jù)倉庫具有不同于數(shù)據(jù)庫的新特點,并對數(shù)據(jù)挖掘技術(shù)提出了更高的要求,數(shù)據(jù)挖掘技術(shù)要充分發(fā)揮潛力,就必須和數(shù)據(jù)倉庫的開展結(jié)合起來。4.數(shù)據(jù)挖掘開展方向1) 加強對復雜數(shù)據(jù)的挖掘技術(shù)的研究,目前數(shù)據(jù)挖掘的所處理的數(shù)據(jù)類型已經(jīng)由簡單的結(jié)構(gòu)化數(shù)據(jù)開展到復雜的半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù),并且由單維、低維上升為多維、高維。數(shù)據(jù)挖掘技術(shù)開展的整體趨勢由處理簡單的挖掘問題逐步到解決復雜的挖掘問題。2) 加強對數(shù)據(jù)挖掘應(yīng)用系統(tǒng)和對算法測試的研究。目前國內(nèi)關(guān)于數(shù)據(jù)挖掘理論研
19、究較多,但對數(shù)據(jù)挖掘應(yīng)用系統(tǒng)和算法測試的研究方面較少,在算法的性能改良方面,可以采用國際上相關(guān)研究所采用的相同數(shù)據(jù)集對現(xiàn)有的算法和新改良的算法進行比照測試,以檢驗新算法的合理性和有效性。除了選擇人工測試數(shù)據(jù)集外最好能夠采用真實測試數(shù)據(jù)集。3) 加強對挖掘結(jié)果的有效性研究。由于計算機軟硬件技術(shù)的快速開展,今后的算法研究將更多的集中在挖掘結(jié)果的有效性上,現(xiàn)在的一些算法所花費的時間已以秒計算了,但是其挖掘結(jié)果的數(shù)量卻遠遠超出了可以理解的范圍。對于挖掘結(jié)果的有效性需要有科學的方法加以評估。此外提高算法的可伸縮性、對算法的動態(tài)維護和基于約束的挖掘算法等也都是主要的研究方向。4) 多種數(shù)據(jù)挖掘方法的結(jié)合使
20、用。數(shù)據(jù)挖掘的方法各有其優(yōu)缺點,很多模式,特別是與分類有關(guān)的模式,可以用不同的算法來實現(xiàn),以適應(yīng)不同的需求環(huán)境。因此集成的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能夠提供多種途徑來解決復雜問題。5) 重視數(shù)據(jù)挖掘技術(shù)的實際應(yīng)用。論文參考網(wǎng)。論文參考網(wǎng)。目前國內(nèi)有關(guān)應(yīng)用的成功案例較少。有關(guān)方面可以借鑒其他先進國家的經(jīng)驗,引入成功系統(tǒng)進行外鄉(xiāng)化研究等。實際數(shù)據(jù)挖掘應(yīng)用的開發(fā)有助于對數(shù)據(jù)挖掘的理解,從而更好地改良數(shù)據(jù)挖掘的技術(shù)。6) 隨著數(shù)據(jù)倉庫技術(shù)的進一步開展,并行分布式數(shù)據(jù)挖掘算法的研究需要加強。7) 加強人機交互能力的完善解釋機制。論文參考網(wǎng)。需要把用戶所要解決的問題方便地轉(zhuǎn)化為數(shù)據(jù)挖掘技術(shù)人員能夠理解并解決的問題,
21、并將挖掘結(jié)果以用戶能理解的方式表達出來。對算法的研究也將趨向于簡單化和易于理解。8) 多語言挖掘,對于處理多種語言的工具研究。9) 保護隱私權(quán)的研究。數(shù)據(jù)挖掘能從不同的角度及層次上看待數(shù)據(jù),這將有可能影響數(shù)據(jù)的私有性和平安性,如何在保護隱私權(quán)的情況下又能夠進行充分的數(shù)據(jù)挖掘是一個重要的研究方向。另外需要指出的是,中國在技術(shù)研究中對技術(shù)本身研究較多,而對技術(shù)經(jīng)濟問題研究較少。數(shù)據(jù)挖掘技術(shù)歸根結(jié)底是一種手段或工具,對于數(shù)據(jù)挖掘技術(shù)的研究是為了更好的促進社會經(jīng)濟的開展。如何對數(shù)據(jù)挖掘技術(shù)系統(tǒng)進行有效的管理和利用是一個值得關(guān)注的重要問題。5.結(jié)束語數(shù)據(jù)挖掘技術(shù)是一個年輕而充滿希望的研究領(lǐng)域,商業(yè)利益的強大驅(qū)動力將會不停地促進它的開展,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用, 而且要對這些數(shù)據(jù)進行微觀及宏觀的統(tǒng)計、分析、綜合和推理, 以指導實際問題的求解, 試圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián), 甚至利用已有的數(shù)據(jù)對未來的活動進行預測。數(shù)據(jù)挖掘技術(shù)的研究取得了一定的成果,但是數(shù)據(jù)挖掘技術(shù)研究仍然面臨著許多問題和挑戰(zhàn),還存在許多問題等待我們?nèi)ヌ剿骱脱芯?。參考文獻【1】 Ji
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人增資公司合同范例
- 產(chǎn)品購銷及改造合同范例
- led顯示屏采購合同范例
- 債轉(zhuǎn)讓合同范例
- 加工酒合同范例
- 書店書拋售合同范例
- 個人營運汽車租賃合同范例
- 買房委托中介合同范例
- 住房桌椅租房合同范例
- 專柜聯(lián)營合同范例
- 人工挖孔樁施工危險源辨識與評價及應(yīng)對措施
- 品管圈成果匯報——提高導管固定正確率PPT課件
- 第2講 麥克斯韋方程組
- 讀懂教材、讀懂學生、讀懂課堂,構(gòu)建和諧有效的課堂教學
- 裝飾施工進度計劃網(wǎng)絡(luò)圖及橫道圖
- 機械畢業(yè)實習報告
- 材料科學與工程專業(yè) 畢業(yè)論文
- 糖尿病視網(wǎng)膜病變PPT課件
- 古詩分類講解五思鄉(xiāng)懷人詩
- 多極磁燃氣環(huán)保節(jié)能器-合力金科技
- 青少年心理學書籍:青少年心理學
評論
0/150
提交評論