數(shù)據(jù)挖掘與統(tǒng)計學應(yīng)用_第1頁
數(shù)據(jù)挖掘與統(tǒng)計學應(yīng)用_第2頁
數(shù)據(jù)挖掘與統(tǒng)計學應(yīng)用_第3頁
數(shù)據(jù)挖掘與統(tǒng)計學應(yīng)用_第4頁
數(shù)據(jù)挖掘與統(tǒng)計學應(yīng)用_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘與統(tǒng)計學應(yīng)用一、關(guān)鍵詞和摘要關(guān)鍵詞:統(tǒng)計學 數(shù)據(jù)挖掘 知識發(fā)現(xiàn)摘要:1、數(shù)據(jù)挖掘與統(tǒng)計應(yīng)用之間關(guān)系統(tǒng)計學和數(shù)據(jù)挖掘有很多共同點,但與此同時它們也有很多差異。本文討論了兩門學科的性質(zhì),重點論述它們的異同。數(shù)據(jù)挖掘,顧名思義就是從大量的數(shù)據(jù)中挖掘出有用的信息。DM(數(shù)據(jù)挖掘)是揭示存在于數(shù)據(jù)里的模式及數(shù)據(jù)間的關(guān)系的學科,它強調(diào)對大量觀測到的數(shù)據(jù)庫的處理。它是涉及數(shù)據(jù)庫管理,人工智能,機器學習,模式識別,及數(shù)據(jù)可視化等學科的邊緣學科。用統(tǒng)計的觀點看,它可以看成是通過計算機對大量的復雜數(shù)據(jù)集的自動探索性分析。目前對該學科的作用盡管有點夸大其詞,但該領(lǐng)域?qū)ι虡I(yè),工業(yè),及科學研究都有極大的影響,且

2、提供了大量的為促使新方法的發(fā)展而進行的研究工作。盡管數(shù)據(jù)挖掘和統(tǒng)計分析之間有明顯的聯(lián)系,但迄今為止大部分的數(shù)據(jù)挖掘方法都不是產(chǎn)生于統(tǒng)計學科。這篇文章對這一現(xiàn)象作了一些解釋,并說明了為什么統(tǒng)計學家應(yīng)該關(guān)注數(shù)據(jù)挖掘。統(tǒng)計學可能會對數(shù)據(jù)挖掘產(chǎn)生很大影響,但這可能要求統(tǒng)計學家們改變他們的一些基本思路及操作原則。2、數(shù)據(jù)挖掘的發(fā)展前景隨著計算機應(yīng)用的越來越廣泛,每年都要積累大量的數(shù)據(jù),運用數(shù)據(jù)挖掘技術(shù)在這些數(shù)據(jù)當中我們可以找出“金子”來。數(shù)據(jù)挖掘技術(shù)主要又分成“關(guān)聯(lián)規(guī)則”,“時間序列”“聚集”,“分類”,“估值”等這幾類. 據(jù)國外專家預(yù)測,在今后的510年內(nèi),隨著數(shù)據(jù)量的日益積累以及計算機的廣泛應(yīng)用,數(shù)

3、據(jù)挖掘?qū)⒃谥袊纬梢粋€產(chǎn)業(yè)。2000年7月IDC發(fā)布了關(guān)于信息存取工具市場的報告,其中估計1999年的數(shù)據(jù)挖掘的市場大概是7.5億美元,估計在下個5年內(nèi)市場的年增長率(Compound Annual Growth Rate)為32.4%,其中亞太地區(qū)為26.6%,并且預(yù)測此市場在2002年時會達到22億美元。二、簡介數(shù)據(jù)挖掘與統(tǒng)計學有著共同目標,但分析方法和性質(zhì)不同統(tǒng)計學和數(shù)據(jù)挖掘有著共同的目標:發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實上,由于它們的目標相似,一些人(尤其是統(tǒng)計學家)認為數(shù)據(jù)挖掘是統(tǒng)計學的分支。這是一個不切合實際的看法。因為數(shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計算機學科,例如數(shù)據(jù)庫

4、技術(shù)和機器學習,而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計學家所關(guān)注的有很大不同。 統(tǒng)計學和數(shù)據(jù)挖掘研究目標的重迭自然導致了迷惑。事實上,有時候還導致了反感。統(tǒng)計學有著正統(tǒng)的理論基礎(chǔ)(尤其是經(jīng)過本世紀的發(fā)展),而現(xiàn)在又出現(xiàn)了一個新的學科,有新的主人,而且聲稱要解決統(tǒng)計學家們以前認為是他們領(lǐng)域的問題。這必然會引起關(guān)注。更多的是因為這門新學科有著一個吸引人的名字,勢必會引發(fā)大家的興趣和好奇。把“數(shù)據(jù)挖掘”這個術(shù)語所潛在的承諾和“統(tǒng)計學”作比較的話,統(tǒng)計的最初含義是“陳述事實”,以及找出枯燥的大量數(shù)據(jù)背后的有意義的信息。當然,統(tǒng)計學的現(xiàn)代的含義已經(jīng)有很大不同的事實。而且,這門新學科同商業(yè)有特殊的關(guān)聯(lián)(盡管它還有科

5、學及其它方面的應(yīng)用)。 本文的目的是逐個考察這兩門學科的性質(zhì),區(qū)分它們的異同,并關(guān)注與數(shù)據(jù)挖掘相關(guān)聯(lián)的一些難題。首先,我們注意到“數(shù)據(jù)挖掘”對統(tǒng)計學家來說并不陌生。例如,Everitt定義它為:“僅僅是考察大量的數(shù)據(jù)驅(qū)動的模型,從中發(fā)現(xiàn)最適合的”。統(tǒng)計學家因而會忽略對數(shù)據(jù)進行特別的分析,因為他們知道太細致的研究卻難以發(fā)現(xiàn)明顯的結(jié)構(gòu)。盡管如此,事實上大量的數(shù)據(jù)可能包含不可預(yù)測的但很有價值的結(jié)構(gòu)。而這恰恰引起了注意,也是當前數(shù)據(jù)挖掘的任務(wù)。三、統(tǒng)計學的性質(zhì)統(tǒng)計學決不是數(shù)學的分支,而是一門獨立學科試圖為統(tǒng)計學下一個太寬泛的定義是沒有意義的。盡管可能做到,但會引來很多異議。相反,我要關(guān)注統(tǒng)計學不同于數(shù)

6、據(jù)挖掘的特性。統(tǒng)計學決不是數(shù)學的分支,而是一門獨立學科統(tǒng)計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身并不是壞事,只有越精確才能避免錯誤,發(fā)現(xiàn)真理。但是如果過度的話則是有害的。這個保守的觀點源于統(tǒng)計學是數(shù)學的分支這樣一個看法,我是不同意這個觀點的.管統(tǒng)計學確實以數(shù)學為基礎(chǔ)(正如物理和工程也以數(shù)學為基礎(chǔ),但沒有被認為是數(shù)學的分支),但它同其它學科還有緊密的聯(lián)系。數(shù)學背景和追求精確加強了這樣一個趨勢:在采用一個方法之前先要證明,而不是象計算機科學和機器學習那樣注重經(jīng)驗。這就意味著有時候和統(tǒng)計學家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被

7、證明)。統(tǒng)計雜志傾向于發(fā)表經(jīng)過數(shù)學證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學科的綜合,已經(jīng)從機器學習那里繼承了實驗的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明如果方法不能產(chǎn)生結(jié)果的話就會被放棄。統(tǒng)計分析是以樣本推斷總體,而數(shù)據(jù)挖掘使用的往往是總體數(shù)據(jù)正是統(tǒng)計文獻顯示了(或夸大了)統(tǒng)計的數(shù)學精確性。同時還顯示了其對推理的側(cè)重。盡管統(tǒng)計學的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計論文的話就會發(fā)現(xiàn)這些文獻的核心問題就是在觀察了樣本的情況下如何去推斷總體。當然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會提到數(shù)據(jù)挖掘的一個特定屬性就是要處理的是一個大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常

8、常得到的只是一個樣本,但是需要描述樣本取自的那個大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常??梢缘玫綌?shù)據(jù)總體,例如關(guān)于一個公司的所有職工數(shù)據(jù),數(shù)據(jù)庫中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價值了(例如,年度業(yè)務(wù)的平均值),因為觀測到的值也 就是估計參數(shù)。這就意味著,建立的統(tǒng)計模型可能會利用一系列概率表述(例如,一些參數(shù)接近于0,則會從模型中剔除掉),但當總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無意義。在這里,我們可以很方便的應(yīng)用評估函數(shù):針對數(shù)據(jù)的足夠的表述。事實是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時常常會利用吻合度的單純

9、特性( 例如,應(yīng)用分支定理)。但當我們應(yīng)用概率陳述時則不會得到這些特性。統(tǒng)計應(yīng)用和數(shù)據(jù)挖掘中模型的差別統(tǒng)計學和數(shù)據(jù)挖掘部分交迭的第三個特性是在現(xiàn)代統(tǒng)計學中起核心作用的“模型” ?;蛟S“模型”這個術(shù)語更多的含義是變化。一方面,統(tǒng)計學模型是基于分析變量間的聯(lián)系,但另一方面這些模型關(guān)于數(shù)據(jù)的總體描述確實沒有道理的。關(guān)于信用卡業(yè)務(wù)的回歸模型可能會把收入作為一個獨立的變量,因為一般認為高收入會導致大的業(yè)務(wù)。這可能是一個理論模型(盡管基于一個不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進行逐步的搜索,從而獲得一個有很大預(yù)測價值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個模型

10、的時候,常常關(guān)注的就是后者)。 還有其它方法可以區(qū)分統(tǒng)計模型,但在這里我將不作探討。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計學是以模型為主的。而計算,模型選擇條件是次要的,只是如何建立一個好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準則起了核心的作用。(當然在統(tǒng)計學中有一些以準則為中心的獨立的特例。數(shù)據(jù)挖掘接觸到的大量數(shù)據(jù)中的偶然因素可以使統(tǒng)計方法失效很多情況下,數(shù)據(jù)挖掘的本質(zhì)是很偶然的發(fā)現(xiàn)非預(yù)期但很有價值的信息。這說明數(shù)據(jù)挖掘過程本質(zhì)上是實驗性的。這和確定性的分析是不同的。(實際上,一個人是不能完全確定一個理論的,只能提供證據(jù)和不確定的證據(jù)。)確定性分析著眼于最適合的模型建立一個推薦模型,這個

11、模型也許不能很好的解釋觀測到的數(shù)據(jù)。很多,或許是大部分統(tǒng)計分析提出的是確定性的分析。然而,實驗性的數(shù)據(jù)分析對于統(tǒng)計學并不是新生事務(wù),或許這是統(tǒng)計學家應(yīng)該考慮作為統(tǒng)計學的另一個基石,而這已經(jīng)是數(shù)據(jù)挖掘的基石。所有這些都是正確的,但事實上,數(shù)據(jù)挖掘所遇到的數(shù) 據(jù)集按統(tǒng)計標準來看都是巨大的。在這種情況下,統(tǒng)計工具可能會失效:百萬個偶然因素可能就會使其失效。統(tǒng)計分析之前需要準備大量數(shù)據(jù),以期得到確定的目的;數(shù)據(jù)挖掘往往已有數(shù)據(jù)庫,而目的也是不確定的如果數(shù)據(jù)挖掘的主要目的是發(fā)現(xiàn),那它就不關(guān)心統(tǒng)計學領(lǐng)域中的在回答一個特定的問題之前,如何很好的搜集數(shù)據(jù),例如實驗設(shè)計和調(diào)查設(shè)計。數(shù)據(jù)挖掘本質(zhì)上假想數(shù)據(jù)已經(jīng)被搜

12、集好,關(guān)注的只是如何發(fā)現(xiàn)其中的秘密。從數(shù)據(jù)學習的想法已經(jīng)提出很長時間了。但在忽然之間人們對數(shù)據(jù)挖掘的興趣卻變得如此強烈,這是為什么呢?主要原因是近來它與數(shù)據(jù)庫管理領(lǐng)域有了聯(lián)系。數(shù)據(jù),特別大量的數(shù)據(jù)保存在數(shù)據(jù)庫管理系統(tǒng)中。傳統(tǒng)的DBMS集中于在線轉(zhuǎn)換過程(OLTP n-line transaction processing);也就是數(shù)據(jù)組織的目的是存儲并快速恢復單個記錄。它們過去常用來記錄庫存,薪水表記錄,帳單記錄,發(fā)貨記錄,等等。最近,數(shù)據(jù)庫管理界對將數(shù)據(jù)庫管理系統(tǒng)用于決策支持越來越感興趣。四、數(shù)據(jù)挖掘的性質(zhì)什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的定義非常模糊,對它的定義取決于定義者的觀點和背景。如下是一些

13、DM文獻中的定義: 數(shù)據(jù)挖掘是一個確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。-Fayyad.數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進行關(guān)鍵的商業(yè)決策的過程。-Zekulin. 數(shù)據(jù)挖掘是用在知識發(fā)現(xiàn)過程,來辯識存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法 。-Ferruzza 數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。-Jonn 數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個決策支持過程。 -Parsaye 雖然數(shù)據(jù)挖掘的這些定義有點不可觸摸,但在目前它已經(jīng)成為一種商業(yè)事業(yè)。如同在過去的歷次淘金熱中一樣,目標是開發(fā)礦工。利潤最大的是賣

14、工具給礦工,而不是干實際的開發(fā)。數(shù)據(jù)挖掘這個概念被用作一種裝備來出售計算機硬件和軟件。硬件制造商強調(diào)數(shù)據(jù)挖掘需要高的計算能力。必須存儲,快速讀寫非常大的數(shù)據(jù)庫,并將密集的計算方法用于這些數(shù)據(jù)。這需要大容量的磁盤空間,快速的內(nèi)置大量RAM的計算機。數(shù)據(jù)挖掘為這些硬件打開了新的市場。軟件提供者強調(diào)競爭優(yōu)勢。你的對手使用它,你最好得跟上。同時強調(diào)它將增加 傳統(tǒng)的數(shù)據(jù)庫的價值。許多組織在處理存貨,帳單,會計的數(shù)據(jù)庫方面有大量的業(yè)務(wù)。這些數(shù)據(jù)庫的創(chuàng)建和維護都耗資巨大。現(xiàn)在只需要將相對少的投資用于數(shù)據(jù)挖掘工具,就可以發(fā)現(xiàn)隱藏在這些數(shù)據(jù)中的具有極高利潤的信息金塊。當前數(shù)據(jù)挖掘產(chǎn)品的特點: -迷人的圖形用戶界

15、面 .數(shù)據(jù)庫(查尋語言) .一套數(shù)據(jù)分析過程 -窗口形式的界面 .靈活方便的輸入 -點擊式按鍵-輸入對話框 -利用圖表分析 -復雜的圖形輸出 -大量數(shù)據(jù)圖 -靈活的圖形解釋 -樹,網(wǎng)絡(luò),飛行模擬 - 結(jié)果方便的處理。 這些軟件包對決策者來說就象數(shù)據(jù)挖掘?qū)<摇?數(shù)據(jù)挖掘和計算機科學的聯(lián)系當前對數(shù)據(jù)挖掘的興趣在學術(shù)界引發(fā)了一些議題。數(shù)據(jù)挖掘作為一種商業(yè)事業(yè)看上去很可行,但它是否能被定為一種智能訓練。當然它和計算機科學有極重要的聯(lián)系。這些包括: .集聚體(ROLAP)的高效計算 .快速的立體(X * X)查尋 .為提高在線查尋的速度的線下預(yù)查尋 .在線查尋的并行計算 .將DBMS方法轉(zhuǎn)化為數(shù)據(jù)挖掘算

16、法。 .基于磁盤而不是RAM的實現(xiàn) .基本數(shù)據(jù)挖掘算法的并行實現(xiàn) 從統(tǒng)計數(shù)據(jù)分析的眼光我們可以問數(shù)據(jù)挖掘方法是否是智能訓練。到目前為止,仍可以說它是,也可以說不是。數(shù)據(jù)挖掘包中廣為人知的程序來自機器學習,模式識別,神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)可視化領(lǐng)域。它們強調(diào)看和感覺和感官性的存在。這樣看上去并不是在意具體的表現(xiàn),而是要迅速占領(lǐng)市場。在這個領(lǐng)域中目前大部分的研究集中在改進當前的機器學習方法和加速已存在的算法。然而,在將來數(shù)據(jù)挖掘幾乎可以肯定地說是一種智能訓練。當一種技術(shù)的效率提高了十倍,人們總要認真地重新考慮怎樣應(yīng)用它。想一想人類從走到飛的歷史進程,每一次提高都大約是以前的十倍,并且每一次量的提高都重新改

17、變了我們隊如何使 用交通工具的想法。Chuck Dickens(前SLAC的計算指導)曾說到:每次計算機的能力提高十倍,我們都應(yīng)該從總體上重新思考一下我們應(yīng)該怎樣算,算什么的問題。一個相應(yīng)的說法可能是每次數(shù)據(jù)量增加十倍,我們就應(yīng)該從總體上重新考慮一下怎樣分析它。從當前幾乎大多數(shù)使用的數(shù)據(jù)挖掘工具發(fā)明的那一段時間到現(xiàn)在,計算機的處理能力和數(shù)據(jù)量都增加了好幾個數(shù)量級。新的數(shù)據(jù)挖掘方法在將來一定會更智能更有學術(shù)性(商業(yè)性)。我們過去曾給予數(shù)據(jù)挖掘方法智能的生命力,但統(tǒng)計學作為一個學科是否應(yīng)該關(guān)心它的發(fā)展。統(tǒng)計科學中萌芽,但隨后絕大部分又被統(tǒng)計學忽略的方法領(lǐng)域數(shù)據(jù)挖掘是否也會如此?在統(tǒng)計學的歷史上就忽

18、略了許多在其它數(shù)據(jù)處理相關(guān)領(lǐng)域發(fā)展的新方法。如下是一些相關(guān)領(lǐng)域的例子。其中帶*的是那些在統(tǒng)計科學中萌芽,但隨后絕大部分又被統(tǒng)計學忽略的方法領(lǐng)域。 1 模式識別*-CS/工程 2 數(shù)據(jù)庫管理-CS/圖書館科學 3 神經(jīng)網(wǎng)絡(luò)*-心理學/CS/工程 4 機器學習*-CS/AI 5 圖形模型*(Beyes 網(wǎng))-CS/AI 6 遺傳工程-CS/工程 7 化學統(tǒng)計學*-化學 8 數(shù)據(jù)可視化*-CS/科學計算 可以肯定地說,個別的統(tǒng)計學家已經(jīng)致力于這些領(lǐng)域,但公平地說他們并未被我們的統(tǒng)計學領(lǐng)域擁抱(或者說熱情地擁抱)。五、 討論對數(shù)據(jù)挖掘的認識的誤區(qū)數(shù)據(jù)挖掘有時候是一次性的實驗。這是一個誤解。它更應(yīng)該被看

19、作是一個不斷的過程(盡管數(shù)據(jù)集時確定的)。從一個角度檢查數(shù)據(jù)可以解釋結(jié)果,以相關(guān)的觀點檢查可能會更接近等等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期的模式同樣非預(yù)期的模式要以非預(yù)期的方法來發(fā)現(xiàn)。 與把數(shù)據(jù)挖掘作為一個過程的觀點相關(guān)聯(lián)的是認識到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的可以回顧。然而,可以解釋這個事實并不能否定挖掘出它們的價值。沒有這些實驗,可能根本不會想到這些。實際上,只有那些可以依據(jù)過去經(jīng)驗形成的合理的解釋的結(jié)構(gòu)才會是有價值的。 顯然在數(shù)據(jù)挖掘存在著一個潛在的機會。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而

20、,也不應(yīng)就此掩蓋危險。所有真正的數(shù)據(jù)集(即使那些是以完全自動方式搜集的數(shù)據(jù))都有產(chǎn)生錯誤的可能。關(guān)于人的數(shù)據(jù)集(例如事務(wù)和行為數(shù)據(jù))尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的“非預(yù)期的結(jié)構(gòu)”本質(zhì)上是無意義的,而是因為偏離了理想的過程。(當然,這樣的結(jié)構(gòu)可能會是有意義的:如果數(shù)據(jù)有問題,可能會干擾搜集數(shù)據(jù)的目的,最好還是了解它們)。與此相關(guān)聯(lián)的是如何確保(和至少為事實提供支持)任何所觀察到的模式是“真實的”,它們反應(yīng)了一些潛在的結(jié)構(gòu)和關(guān)聯(lián)而不僅僅是一個特殊的數(shù)據(jù)集,由于一個隨機的樣本碰巧發(fā)生。在這里,記分方法可能是相關(guān)的,但需要更多的統(tǒng)計學家和數(shù)據(jù)挖掘工作者的研究。 數(shù)據(jù)挖掘與統(tǒng)計應(yīng)用

21、的前景也許,現(xiàn)在的統(tǒng)計學正處在一個十字路口,我們可以決定是接受還是拒絕改變。如上所說,兩種觀點都極富說服力。雖然觀點豐富,但誰也不能肯定哪一種戰(zhàn)略能保持我們領(lǐng)域的健康發(fā)展和生命力。大多數(shù)統(tǒng)計學家好象認為統(tǒng)計學對信息科學的影響越來越小。它們也不太同意為此作些什么。站主導的觀點認為我們有市場問題,我們在別的領(lǐng)域的顧客和同事不了解我們的價值和重要性。中國的數(shù)據(jù)挖掘相對與統(tǒng)計學的發(fā)展,起步更晚,但發(fā)展更快,以spss的數(shù)據(jù)挖掘軟件clementine的銷售為例,中國目前的銷量以經(jīng)以較快的速度在增長了.愿中國的統(tǒng)計應(yīng)用能先于經(jīng)濟發(fā)展與世界接軌!附:1.目前數(shù)據(jù)挖掘的主要軟件目前硬件和軟件供應(yīng)者的目的是在市場還未飽和前通過迅速推出數(shù)據(jù)挖掘產(chǎn)品為數(shù)據(jù)挖掘作廣告。如果一個公司為數(shù)據(jù)挖掘包投資了五萬至十萬美元,這也可能只是實驗,人們在新產(chǎn)品未被證實比舊產(chǎn)品具有很大優(yōu)勢之前是不會貿(mào)然購買的。以下是一些當前的數(shù)據(jù)挖掘產(chǎn)品: IBM: Intelligent Miner '智能礦工' Tandem: 'relational Data Miner' '關(guān)系數(shù)據(jù)礦工' AngossSoftware: 'KnowledgeSEEDER' 知識搜索者 Thinking Machines Corporation: 'DarwinTM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論