統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘中文_第1頁
統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘中文_第2頁
統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘中文_第3頁
統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘中文_第4頁
統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘中文_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘:交叉學(xué)科摘要:統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有很多共同點(diǎn),但與此同時它們也有很多差異。本文討論了兩門學(xué)科的性質(zhì),重點(diǎn)論述它們的異同。關(guān)鍵詞:統(tǒng)計(jì)學(xué)知識發(fā)現(xiàn).簡介統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實(shí)上,由于它們的目標(biāo)相似,一些人(尤其是統(tǒng)計(jì)學(xué)家認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支。這是一個不切合實(shí)際的看法。因?yàn)閿?shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計(jì)算機(jī)學(xué)科,例如數(shù)據(jù)庫技術(shù)和機(jī)器學(xué)習(xí),而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計(jì)學(xué)家所關(guān)注的有很大不同。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘研究目標(biāo)的重迭自然導(dǎo)致了迷惑。事實(shí)上,有時候還導(dǎo)致了反感。統(tǒng)計(jì)學(xué)有著正統(tǒng)的理論基礎(chǔ)(尤其是經(jīng)過本世紀(jì)的發(fā)展,而現(xiàn)在又出現(xiàn)了一個新的學(xué)科,有新的主人,而且聲稱要解決統(tǒng)計(jì)學(xué)家們以前認(rèn)為是他們領(lǐng)域的問題。這必然會弓I起關(guān)注。更多的是因?yàn)檫@門新學(xué)科有著一個吸引1人的名字,勢必會弓1發(fā)大家的興趣和好奇。把“數(shù)據(jù)挖掘”這個術(shù)語所潛在的承諾和“統(tǒng)計(jì)學(xué)”作比較的話,統(tǒng)計(jì)的最初含義是“陳述事實(shí)”,以及找出枯燥的大量數(shù)據(jù)背后的有意義的信息。當(dāng)然,統(tǒng)計(jì)學(xué)的現(xiàn)代的含義已經(jīng)有很大不同的事實(shí)。而且,這門新學(xué)科同商業(yè)有特殊的關(guān)聯(lián)(盡管它還有科學(xué)及其它方面的應(yīng)用。本文的目的是逐個考察這兩門學(xué)科的性質(zhì),區(qū)分它們的異同,并關(guān)注與數(shù)據(jù)挖掘相關(guān)聯(lián)的一些難題。首先,我們注意到“數(shù)據(jù)挖掘”對統(tǒng)計(jì)學(xué)家來說并不陌生。例如,Everitt定義它為:“僅僅是考察大量的數(shù)據(jù)驅(qū)動的模型,從中發(fā)現(xiàn)最適合的”。統(tǒng)計(jì)學(xué)家因而會忽略對數(shù)據(jù)進(jìn)行特別的分析,因?yàn)樗麄冎捞?xì)致的研究卻難以發(fā)現(xiàn)明顯的結(jié)構(gòu)。盡管如此,事實(shí)上大量的數(shù)據(jù)可能包含不可預(yù)測的但很有價值的結(jié)構(gòu)。而這恰恰引起了注意,也是當(dāng)前數(shù)據(jù)挖掘的任務(wù)。.統(tǒng)計(jì)學(xué)的性質(zhì)試圖為統(tǒng)計(jì)學(xué)下一個太寬泛的定義是沒有意義的。盡管可能做到,但會弓I來很多異議。相反,我要關(guān)注統(tǒng)計(jì)學(xué)不同于數(shù)據(jù)挖掘的特性。差異之一同上節(jié)中最后一段提到的相關(guān),即統(tǒng)計(jì)學(xué)是一門比較保守的學(xué)科,目前有一種趨勢是越來越精確。當(dāng)然,這本身并不是壞事,只有越精確才能避免錯誤,發(fā)現(xiàn)真理。但是如果過度的話則是有害的。這個保守的觀點(diǎn)源于統(tǒng)計(jì)學(xué)是數(shù)學(xué)的分支這樣一個看法,我是不同意這個觀點(diǎn)的(參見【15】,【9】,【14】,【2】,【3】盡管統(tǒng)計(jì)學(xué)確實(shí)以數(shù)學(xué)為基礎(chǔ)(正如物理和工程也以數(shù)學(xué)為基礎(chǔ),但沒有被認(rèn)為是數(shù)學(xué)的分支,但它同其它學(xué)科還有緊密的聯(lián)系。數(shù)學(xué)背景和追求精確加強(qiáng)了這樣一個趨勢:在采用一個方法之前先要證明,而不是象計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。這就意味著有時候和統(tǒng)計(jì)學(xué)家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被證明。統(tǒng)計(jì)雜志傾向于發(fā)表經(jīng)過數(shù)學(xué)證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明如果方法不能產(chǎn)生結(jié)果的話就會被放棄。正是統(tǒng)計(jì)文獻(xiàn)顯示了(或夸大了統(tǒng)計(jì)的數(shù)學(xué)精確性。同時還顯示了其對推理的側(cè)重。盡管統(tǒng)計(jì)學(xué)的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計(jì)論文的話就會發(fā)現(xiàn)這些文獻(xiàn)的核心問題就是在觀察了樣本的情況下如何去推斷總體。當(dāng)然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會提到數(shù)據(jù)挖掘的一個特定屬性就是要處理的是一個大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常??梢缘玫綌?shù)據(jù)總體,例如關(guān)于一個公司的所有職工數(shù)據(jù),數(shù)據(jù)庫中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價值了(例如,年度業(yè)務(wù)的平均值,因?yàn)橛^測到的值也就是估計(jì)參數(shù)。這就意味著,建立的統(tǒng)計(jì)模型可能會利用一系列概率表述(例如,一些參數(shù)接近于0,則會從模型中剔除掉,但當(dāng)總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無意義。在這里,我們可以很方便的應(yīng)用評估函數(shù):針對數(shù)據(jù)的足夠的表述。事實(shí)是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時常常會利用吻合度的單純特性(例如,應(yīng)用分支定理。但當(dāng)我們應(yīng)用概率陳述時則不會得到這些特性。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘部分交迭的第三個特性是在現(xiàn)代統(tǒng)計(jì)學(xué)中起核心作用的“模型”?;蛟S“模型”這個術(shù)語更多的含義是變化。一方面,統(tǒng)計(jì)學(xué)模型是基于分析變量間的聯(lián)系,但另一方面這些模型關(guān)于數(shù)據(jù)的總體描述確實(shí)沒有道理的。關(guān)于信用卡業(yè)務(wù)的回歸模型可能會把收入作為一個獨(dú)立的變量,因?yàn)橐话阏J(rèn)為高收入會導(dǎo)致大的業(yè)務(wù)。這可能是一個理論模型(盡管基于一個不牢靠的理論。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進(jìn)行逐步的搜索,從而獲得一個有很大預(yù)測價值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個模型的時候,常常關(guān)注的就是后者。還有其它方法可以區(qū)分統(tǒng)計(jì)模型,但在這里我將不作探討。對此可參見【10]。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計(jì)學(xué)是以模型為主的。而計(jì)算,模型選擇條件是次要的,只是如何建立一個好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準(zhǔn)則起了核心的作用。(當(dāng)然在統(tǒng)計(jì)學(xué)中有一些以準(zhǔn)則為中心的獨(dú)立的特例。Gifi的關(guān)于學(xué)校的非線性多變量分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點(diǎn),給定一些最常用的MVA(多變量分析問題,既可以從模型出發(fā)也可以技術(shù)出發(fā)。正如我們已經(jīng)在1.1節(jié)所看到的基于模型的經(jīng)典的多變量統(tǒng)計(jì)分析,……然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計(jì)算方法也是不可行的。在這種情形下,我們從另外一個角度出發(fā),應(yīng)用設(shè)計(jì)的一系列技術(shù)來回答MVA問題,暫不考慮模型和最優(yōu)判別的選擇。相對于統(tǒng)計(jì)學(xué)而言,準(zhǔn)則在數(shù)據(jù)挖掘中起著更為核心的作用并不奇怪,數(shù)據(jù)挖掘所繼承的學(xué)科如計(jì)算機(jī)科學(xué)及相關(guān)學(xué)科也是如此。數(shù)據(jù)集的規(guī)模常常意味著傳統(tǒng)的統(tǒng)計(jì)學(xué)準(zhǔn)則不適合數(shù)據(jù)挖掘問題,不得不重新設(shè)計(jì)。部分地,當(dāng)數(shù)據(jù)點(diǎn)被逐一應(yīng)用以更新估計(jì)量,適應(yīng)性和連續(xù)性的準(zhǔn)則常常是必須的。盡管一些統(tǒng)計(jì)學(xué)的準(zhǔn)則已經(jīng)得到發(fā)展,但更多的應(yīng)用是機(jī)器學(xué)習(xí)。(正如“學(xué)習(xí)”所示的那樣很多情況下,數(shù)據(jù)挖掘的本質(zhì)是很偶然的發(fā)現(xiàn)非預(yù)期但很有價值的信息。這說明數(shù)據(jù)挖掘過程本質(zhì)上是實(shí)驗(yàn)性的。這和確定性的分析是不同的。(實(shí)際上,一個人是不能完全確定一個理論的,只能提供證據(jù)和不確定的證據(jù)。確定性分析著眼于最適合的模型-建立一個推薦模型,這個模型也許不能很好的解釋觀測到的數(shù)據(jù)。很多,或許是大部分統(tǒng)計(jì)分析提出的是確定性的分析。然而,實(shí)驗(yàn)性的數(shù)據(jù)分析對于統(tǒng)計(jì)學(xué)并不是新生事務(wù),或許這是統(tǒng)計(jì)學(xué)家應(yīng)該考慮作為統(tǒng)計(jì)學(xué)的另一個基石,而這已經(jīng)是數(shù)據(jù)挖掘的基石。所有這些都是正確的,但事實(shí)上,數(shù)據(jù)挖掘所遇到的數(shù)據(jù)集按統(tǒng)計(jì)標(biāo)準(zhǔn)來看都是巨大的。在這種情況下,統(tǒng)計(jì)工具可能會失效:百萬個偶然因素可能就會使其失效。(【11】中包含例子如果數(shù)據(jù)挖掘的主要目的是發(fā)現(xiàn),那它就不關(guān)心統(tǒng)計(jì)學(xué)領(lǐng)域中的在回答一個特定的問題之前,如何很好的搜集數(shù)據(jù),例如實(shí)驗(yàn)設(shè)計(jì)和調(diào)查設(shè)計(jì)。數(shù)據(jù)挖掘本質(zhì)上假想數(shù)據(jù)已經(jīng)被搜集好,關(guān)注的只是如何發(fā)現(xiàn)其中的秘密。.數(shù)據(jù)挖掘的性質(zhì)由于統(tǒng)計(jì)學(xué)基礎(chǔ)的建立在計(jì)算機(jī)的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計(jì)學(xué)工具包含很多可以手工實(shí)現(xiàn)的方法。因此,對于很多統(tǒng)計(jì)學(xué)家來說,1000個數(shù)據(jù)就已經(jīng)是很大的了。但這個“大”對于英國大的信用卡公司每年350,000,000筆業(yè)務(wù)或AT&T每天200,000,000個長途呼叫來說相差太遠(yuǎn)了。很明顯,面對這么多的數(shù)據(jù),則需要設(shè)計(jì)不同于那些“原則上可以用手工實(shí)現(xiàn)”的方法。這意味這計(jì)算機(jī)(正是計(jì)算機(jī)使得大數(shù)據(jù)可能實(shí)現(xiàn)對于數(shù)據(jù)的分析和處理是關(guān)鍵的。分析者直接處理數(shù)據(jù)將變得不可行。相反,計(jì)算機(jī)在分析者和數(shù)據(jù)之間起到了必要的過濾的作用。這也是數(shù)據(jù)挖掘特別注重準(zhǔn)則的另一原因。盡管有必要,把分析者和數(shù)據(jù)分離開很明顯導(dǎo)致了一些關(guān)聯(lián)任務(wù)。這里就有一個真正的危險(xiǎn):非預(yù)期的模式可能會誤導(dǎo)分析者,這一點(diǎn)我下面會討論。我不認(rèn)為在現(xiàn)代統(tǒng)計(jì)中計(jì)算機(jī)不是一個重要的工具。它們確實(shí)是,并不是因?yàn)閿?shù)據(jù)的規(guī)模。對數(shù)據(jù)的精確分析方法如bootstrap方法、隨機(jī)測試,迭代估計(jì)方法以及比較適合的復(fù)雜的模型正是有了計(jì)算機(jī)才是可能的。計(jì)算機(jī)已經(jīng)使得傳統(tǒng)統(tǒng)計(jì)模型的視野大大的擴(kuò)展了,還促進(jìn)了新工具的飛速發(fā)展。下面來關(guān)注一下歪曲數(shù)據(jù)的非預(yù)期的模式出現(xiàn)的可能性。這和數(shù)據(jù)質(zhì)量相關(guān)。所有數(shù)據(jù)分析的結(jié)論依賴于數(shù)據(jù)質(zhì)量。GIGO的意思是垃圾進(jìn),垃圾出,它的弓[用到處可見。一個數(shù)據(jù)分析者,無論他多聰明,也不可能從垃圾中發(fā)現(xiàn)寶石。對于大的數(shù)據(jù)集,尤其是要發(fā)現(xiàn)精細(xì)的小型或偏離常規(guī)的模型的時候,這個問題尤其突出。當(dāng)一個人在尋找百萬分之一的模型的時候,第二個小數(shù)位的偏離就會起作用。一個經(jīng)驗(yàn)豐富的人對于此類最常見的問題會比較警覺,但出錯的可能性太多了。此類問題可能在兩個層次上產(chǎn)生。第一個是微觀層次,即個人記錄。例如,特殊的屬性可能丟失或輸錯了。我知道一個案例,由于挖掘者不知道,丟失的數(shù)據(jù)被記錄為99而作為真實(shí)的數(shù)據(jù)處理。第二個是宏觀層次,整個數(shù)據(jù)集被一些選擇機(jī)制所歪曲。交通事故為此提供了一個好的示例。越嚴(yán)重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那么精確。事實(shí)上,很高比例的數(shù)據(jù)根本沒有記錄。這就造成了一個歪曲的映象-可能會導(dǎo)致錯誤的結(jié)論。統(tǒng)計(jì)學(xué)很少會關(guān)注實(shí)時分析,然而數(shù)據(jù)挖掘問題常常需要這些。例如,銀行事務(wù)每天都會發(fā)生,沒有人能等三個月得到一個可能的欺詐的分析。類似的問題發(fā)生在總體隨時間變化的情形。我的研究組有明確的例子顯示銀行債務(wù)的申請隨時間、競爭環(huán)境、經(jīng)濟(jì)波動而變化。至此,我們已經(jīng)論述了數(shù)據(jù)分析的問題,說明了數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)的差異,盡管有一定的重迭。但是,數(shù)據(jù)挖掘者也不可持完全非統(tǒng)計(jì)的觀點(diǎn)。首先來看一個例子:獲得數(shù)據(jù)的問題。統(tǒng)計(jì)學(xué)家往往把數(shù)據(jù)看成一個按變量交叉分類的平面表,存儲于計(jì)算機(jī)等待分析。如果數(shù)據(jù)量較小,可以讀到內(nèi)存,但在許多數(shù)據(jù)挖掘問題中這是不可能的。更糟糕的是,大量的數(shù)據(jù)常常分布在不同的計(jì)算機(jī)上?;蛟S極端的是,數(shù)據(jù)分布在全球互聯(lián)網(wǎng)上。此類問題使得獲得一個簡單的樣本不大可能。(先不管分析“整個數(shù)據(jù)集”的可能性,如果數(shù)據(jù)是不斷變化的這一概念可能是不存在的,例如電話呼叫當(dāng)描述數(shù)據(jù)挖掘技術(shù)的時候,我發(fā)現(xiàn)依據(jù)以建立模型還是模式發(fā)現(xiàn)為目的可以很方便的區(qū)分兩類常見的工具。我已經(jīng)提到了模型概念在統(tǒng)計(jì)學(xué)中的核心作用。在建立模型的時候,盡量要概括所有的數(shù)據(jù),以及識別、描述分布的形狀。這樣的“全”模型的例子如對一系列數(shù)據(jù)的聚類分析,回歸預(yù)測模型,以及基于樹的分類法則。相反,在模式發(fā)現(xiàn)中,則是盡量識別小的(但不一定不重要偏差,發(fā)現(xiàn)行為的異常模式。例如EEG軌跡中的零星波形、信用卡使用中的異常消費(fèi)模式,以及不同于其它特征的對象。很多時候,這第二種實(shí)驗(yàn)是數(shù)據(jù)挖掘的本質(zhì)-試圖發(fā)現(xiàn)渣滓中的金塊。然而,第一類實(shí)驗(yàn)也是重要的。當(dāng)關(guān)注的是全局模型的建立的話,樣本是可取的(可以基于一個十萬大小的樣本發(fā)現(xiàn)重要的特性,這和基于一個千萬大小的樣本是等效的,盡管這部分的取決于我們想法的模型的特征。然而,模式發(fā)現(xiàn)不同于此。僅選擇一個樣本的話可能會忽略所希望檢測的情形。盡管統(tǒng)計(jì)學(xué)主要關(guān)注的是分析定量數(shù)據(jù),數(shù)據(jù)挖掘的多來源意味著還需要處理其它形式的數(shù)據(jù)。特別的,邏輯數(shù)據(jù)越來越多-例如當(dāng)要發(fā)現(xiàn)的模式由連接的和分離的要素組成的時候。類似的,有時候會碰到高度有序的結(jié)構(gòu)。分析的要素可能是圖象,文本,語言信號,或者甚至完全是(例如,在交替分析中科學(xué)研究資料。.討論數(shù)據(jù)挖掘有時候是一次性的實(shí)驗(yàn)。這是一個誤解。它更應(yīng)該被看作是一個不斷的過程(盡管數(shù)據(jù)集時確定的。從一個角度檢查數(shù)據(jù)可以解釋結(jié)果,以相關(guān)的觀點(diǎn)檢查可能會更接近等等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期的模式-同樣非預(yù)期的模式要以非預(yù)期的方法來發(fā)現(xiàn)。與把數(shù)據(jù)挖掘作為一個過程的觀點(diǎn)相關(guān)聯(lián)的是認(rèn)識到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的-可以回顧。然而,可以解釋這個事實(shí)并不能否定挖掘出它們的價值。沒有這些實(shí)驗(yàn),可能根本不會想到這些。實(shí)際上,只有那些可以依據(jù)過去經(jīng)驗(yàn)形成的合理的解釋的結(jié)構(gòu)才會是有價值的。顯然在數(shù)據(jù)挖掘存在著一個潛在的機(jī)會。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當(dāng)然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而,也不應(yīng)就此掩蓋危險(xiǎn)。所有真正的數(shù)據(jù)集(即使那些是以完全自動方式搜集的數(shù)據(jù)都有產(chǎn)生錯誤的可能。關(guān)于人的數(shù)據(jù)集(例如事務(wù)和行為數(shù)據(jù)尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的“非預(yù)期的結(jié)構(gòu)”本質(zhì)上是無意義的,而是因?yàn)槠x了理想的過程。(當(dāng)然,這樣的結(jié)構(gòu)可能會是有意義的:如果數(shù)據(jù)有問題,可能會干擾搜集數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論