數(shù)據(jù)挖掘結(jié)課論文-袁博_第1頁
數(shù)據(jù)挖掘結(jié)課論文-袁博_第2頁
數(shù)據(jù)挖掘結(jié)課論文-袁博_第3頁
數(shù)據(jù)挖掘結(jié)課論文-袁博_第4頁
數(shù)據(jù)挖掘結(jié)課論文-袁博_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一、引言(一)數(shù)據(jù)挖掘的定義關(guān)于數(shù)據(jù)挖掘的定義很多,其中被廣泛接受的定義是:數(shù)據(jù)挖掘是一個(gè)從不完整的、不明確的、大量的并且包含噪聲,具有很大隨機(jī)性的實(shí)際應(yīng)用數(shù)據(jù)中,提取出隱含其中、事先未被人們獲知、卻潛在有用的知識(shí)或模式的過程。該定義包含了一下幾個(gè)含義:(1)數(shù)據(jù)源必須為大量的、真實(shí)的并且包含噪聲的;(2)挖掘到的新知識(shí)必須為用戶需求的、感興趣的;(3)挖掘到的知識(shí)為易理解的、可接受的、有效并且可運(yùn)用的;(4)挖掘出的知識(shí)并不要求適用于所有領(lǐng)域,可以僅支持某個(gè)特定的應(yīng)用發(fā)現(xiàn)問題。[1]這個(gè)定義準(zhǔn)確的敘述了數(shù)據(jù)挖掘的作用,即對(duì)海量、雜亂無章的數(shù)據(jù)進(jìn)行處理和分析,并發(fā)現(xiàn)隱藏在這些數(shù)據(jù)中的有用的知識(shí),為決策提供支持。(二)神經(jīng)網(wǎng)絡(luò)簡述神經(jīng)網(wǎng)絡(luò)是模擬人類的形象直覺思維,在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),通過簡化、歸納,提煉總結(jié)出來的一類并行處理網(wǎng)絡(luò),利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu)來表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)。[2]起初,神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用并未被看好,其主要原因是神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)復(fù)雜、可解釋性差、訓(xùn)練時(shí)間長等缺陷。但其對(duì)噪聲數(shù)據(jù)的高承受能力和低錯(cuò)誤率的優(yōu)點(diǎn),以及各種網(wǎng)絡(luò)訓(xùn)練算法的陸續(xù)提出與優(yōu)化,尤其是各種網(wǎng)絡(luò)剪枝算法和規(guī)則提取算法的不斷提出與完善,使得神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用越來越為廣大使用者所青睞。二、神經(jīng)網(wǎng)絡(luò)技術(shù)基礎(chǔ)理論(一)神經(jīng)元節(jié)點(diǎn)模型生物神經(jīng)元,也成神經(jīng)細(xì)胞,是構(gòu)成神經(jīng)系統(tǒng)的基本單元。生物神經(jīng)元主要由細(xì)胞體、樹突和軸突構(gòu)成。人們將生物神經(jīng)元抽象化,建立了一種人工神經(jīng)元模型。(1)連接權(quán)連接權(quán)對(duì)應(yīng)于生物神經(jīng)元的突觸,各個(gè)人工神經(jīng)元之間的連接強(qiáng)度由連接權(quán)的權(quán)值表示,權(quán)值正表示激活,為負(fù)表示抑制。(2)求和單元求和單元用于求和各輸入信號(hào)的加權(quán)和(線性組合)。(3)激活函數(shù)激活函數(shù)起非線性映射作業(yè),并將人工神經(jīng)元輸出幅度限制在一定范圍內(nèi),一般限制在(0,1)或者(?1,1)之間。(二)神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)是由大量人工神經(jīng)元廣泛互聯(lián)而成的,它可以用來模擬神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能。人工神經(jīng)網(wǎng)絡(luò)可以看成是以人工神經(jīng)元為節(jié)點(diǎn),用有向加權(quán)弧連接起來的有向圖。根據(jù)連接方式,ANN主要分為兩大類:前饋型網(wǎng)絡(luò)前饋型網(wǎng)絡(luò)是靜態(tài)非線性映射,通過簡單非線性處理的復(fù)合映射可獲得復(fù)雜的非線性處理能力。網(wǎng)絡(luò)中各個(gè)神經(jīng)元接受前一級(jí)的輸入,并輸出到下一級(jí),網(wǎng)絡(luò)中沒有反饋,且同層中的神經(jīng)元之間無連接。(2)反饋型網(wǎng)絡(luò)反饋型神經(jīng)網(wǎng)絡(luò)是一種從輸出到輸入具有反饋連接的神經(jīng)網(wǎng)絡(luò),神經(jīng)元的輸出可以反饋至同層或者前層神經(jīng)元。因此,信號(hào)能夠正向和反向流通。(三)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法下面介紹神經(jīng)網(wǎng)絡(luò)中最基本的幾種學(xué)習(xí)算法:(1)Hebb型學(xué)習(xí)Hebb型學(xué)習(xí)的出發(fā)點(diǎn)是Hebb學(xué)習(xí)規(guī)則,即如果神經(jīng)網(wǎng)絡(luò)中某一神經(jīng)元同另一直接與它連接的神經(jīng)元同時(shí)處于興奮狀態(tài),那么這兩個(gè)神經(jīng)元之間的連接強(qiáng)度將得到加強(qiáng)。該學(xué)習(xí)方式可用如下表示:(2)誤差修正學(xué)習(xí)誤差修正學(xué)習(xí)是一種有導(dǎo)師的學(xué)習(xí)過程,其基本思想是利用神經(jīng)網(wǎng)絡(luò)的期望輸出與實(shí)際之間的偏差作為連接權(quán)值調(diào)整的參考,并最終減少這種偏差。最基本的誤差修正規(guī)則規(guī)定:連接權(quán)值的變化與神經(jīng)元希望輸出和實(shí)際輸出之差成正比。該規(guī)則的連接權(quán)的計(jì)算公式如下所示:(3)競爭型學(xué)習(xí)競爭型學(xué)習(xí)是指網(wǎng)絡(luò)中某一組神經(jīng)元相互競爭對(duì)外界刺激模式響應(yīng)的權(quán)力,在競爭中獲勝的神經(jīng)元,其連接權(quán)會(huì)向著對(duì)這一刺激模式競爭更為有利的方向發(fā)展。競爭型學(xué)習(xí)是一種典型的無導(dǎo)師學(xué)習(xí),學(xué)習(xí)時(shí)只需要給定一個(gè)輸入模式集作為訓(xùn)練集,網(wǎng)絡(luò)自行組織訓(xùn)練模式,并將其分成不同類型。[3]隨機(jī)型學(xué)習(xí)隨機(jī)型學(xué)習(xí)的基本思想是結(jié)合隨機(jī)過程、概率和能量(函數(shù))等概念來調(diào)整網(wǎng)絡(luò)的變量,從而使網(wǎng)絡(luò)的目標(biāo)函數(shù)達(dá)到最大(或最?。?。網(wǎng)絡(luò)的變量可以是連接權(quán),也可以是神經(jīng)元的狀態(tài)[4]。(四)典型神經(jīng)網(wǎng)絡(luò)模型自1957年美國學(xué)者F.Rosenblatt于第一屆人工智能會(huì)議上展示他構(gòu)造的第一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型—MP模型以來,據(jù)統(tǒng)計(jì)到目前為止,已提出的神經(jīng)網(wǎng)絡(luò)模型有上百種之多。前饋型網(wǎng)絡(luò),以BP(BackPropagation)模型、函數(shù)型網(wǎng)絡(luò)為代表,用于分類、預(yù)測和模式識(shí)別等方面;反饋型網(wǎng)絡(luò),以Hopfield離散模型和連續(xù)模型為代表,常用于聯(lián)想記憶和優(yōu)化計(jì)算;自組織型網(wǎng)絡(luò),以Kohonen和ART模型為代表,常用于聚類和模式識(shí)別。(1)BP誤差反向傳播網(wǎng)絡(luò),是一種多層前向網(wǎng)絡(luò),采用最小均方差學(xué)習(xí)方式。這是一種最廣泛應(yīng)用的網(wǎng)絡(luò)。它可用于語言綜合,識(shí)別和自適應(yīng)控制等用途。BP神經(jīng)網(wǎng)絡(luò)是需要有教師的訓(xùn)練。(2)Hopfield網(wǎng)絡(luò)是由相同的神經(jīng)元構(gòu)成的單層,并且不具學(xué)習(xí)功能的自聯(lián)想網(wǎng)絡(luò),并且需要對(duì)稱連接。(3)Kohonen自組織神經(jīng)網(wǎng)絡(luò),也稱為自組織特征映射網(wǎng)絡(luò)SOM。它的輸入層是單層單維神經(jīng)元;而輸出層是二維的神經(jīng)元,神經(jīng)元之間存在以“墨西哥帽”形式進(jìn)行側(cè)向交互的作用。因而,在輸出層中,神經(jīng)元之間有近揚(yáng)遠(yuǎn)抑的反饋特性,從而使Kohonen網(wǎng)絡(luò)可以作為模式特征的檢測器。(4)ART網(wǎng)絡(luò)也是一種自組織網(wǎng)絡(luò)模型,無教師學(xué)習(xí)網(wǎng)絡(luò)。它能夠較好地協(xié)調(diào)適應(yīng)性,穩(wěn)定性和復(fù)雜性的要求。在ART網(wǎng)絡(luò)中,通常需要兩個(gè)功能互補(bǔ)的子系統(tǒng)(注意子系統(tǒng)和取向子系統(tǒng))相互作用。它不足之處是在于對(duì)轉(zhuǎn)換、失真和規(guī)模變化較敏感。[5]三、基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘過程經(jīng)過研究,得出了如圖所示的基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘的過程。該過程由數(shù)據(jù)準(zhǔn)備、規(guī)則提取和規(guī)則評(píng)估三個(gè)階段組成。[6](一)數(shù)據(jù)準(zhǔn)備擁有數(shù)據(jù)是進(jìn)行數(shù)據(jù)挖掘的必要條件,但僅僅擁有數(shù)據(jù)還是不夠的。因此很有必要在實(shí)施數(shù)據(jù)挖掘之前進(jìn)行數(shù)據(jù)準(zhǔn)備。所謂數(shù)據(jù)準(zhǔn)備就是對(duì)被挖掘的數(shù)據(jù)進(jìn)行定義、處理和表示,以使它適應(yīng)于特定的數(shù)據(jù)挖掘方法。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘過程中的第一個(gè)重要步驟,在整個(gè)數(shù)據(jù)挖掘過程中起著舉足輕重的作用。它主要包括以下四個(gè)過程。(1)數(shù)據(jù)清洗:數(shù)據(jù)清洗就是填充數(shù)據(jù)中的空缺值,消除噪聲數(shù)據(jù),糾正數(shù)據(jù)中的不一致數(shù)據(jù)。因?yàn)閿?shù)據(jù)倉庫中的數(shù)據(jù)來源于異質(zhì)操作數(shù)據(jù)庫,這些異質(zhì)操作數(shù)據(jù)庫中的數(shù)據(jù)并非都是正確的,常常不可避免地存在著不完整、不一致、不精確和重復(fù)的臟數(shù)據(jù)。數(shù)據(jù)清洗可以在數(shù)據(jù)裝入數(shù)據(jù)倉庫之前或之后進(jìn)行。目前最常用的數(shù)據(jù)清洗方法有基于規(guī)則的方法、可視化的方法和統(tǒng)計(jì)的方法。(2)數(shù)據(jù)選擇:數(shù)據(jù)選擇就是選擇用于本次挖掘的數(shù)據(jù)列和行。在絕大多數(shù)情況下,雖然人們無法精確地知道哪些參數(shù)是對(duì)決策最重要的,但神經(jīng)網(wǎng)絡(luò)可以幫助人們建立一個(gè)與參數(shù)相關(guān)的模型,進(jìn)而幫助確定哪些是最重要的參數(shù)。數(shù)據(jù)選擇實(shí)際上是在兩個(gè)維上進(jìn)行的。首先是列或參數(shù)維的選擇,其次是行或記錄維的選擇。(3)數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理就是對(duì)選擇后的干凈數(shù)據(jù)進(jìn)行增強(qiáng)處理。這種增強(qiáng)處理有時(shí)意味著根據(jù)一個(gè)或多個(gè)字段產(chǎn)生新的數(shù)據(jù)項(xiàng),有時(shí)意味著用一個(gè)信息量更大的字段去代替若干個(gè)字段。應(yīng)該說明的是,輸入字段的數(shù)目不應(yīng)該是提供給數(shù)據(jù)挖掘算法信息量的量度。因?yàn)橛行?shù)據(jù)可能是冗余的,也就是說,有些屬性只不過是相同事實(shí)的不同度量方式而已。(4)數(shù)據(jù)表示:數(shù)據(jù)表示就是將數(shù)據(jù)預(yù)處理后的數(shù)據(jù)轉(zhuǎn)化成基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法可以接受的形式?;谏窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘只能處理數(shù)值數(shù)據(jù),因此需要將符號(hào)數(shù)據(jù)轉(zhuǎn)化為數(shù)值數(shù)據(jù)。各種常見的神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)算法、網(wǎng)絡(luò)結(jié)構(gòu)以及基本功能見參考文獻(xiàn)[7]。(二)規(guī)則提取規(guī)則的提取方法很多,其中最為常用的方法有如下幾種。(1)LRE的方法:用LRE的方法對(duì)MLP(多層感知器)進(jìn)行規(guī)則提取主要有兩步:第一,對(duì)網(wǎng)絡(luò)中的每一隱層結(jié)點(diǎn)和輸出結(jié)點(diǎn),搜索不同的輸入組合使得輸入加權(quán)和大于當(dāng)前結(jié)點(diǎn)的閾值;第二,對(duì)每個(gè)組合產(chǎn)生一條規(guī)則,其前提是各個(gè)輸入條件的合取。Either、KT、Subset算法就是LRE方法中有代表性的三種方法。這三種方法的優(yōu)點(diǎn)是所產(chǎn)生的規(guī)則較容易理解;缺點(diǎn)是搜索空間大、搜索效率低、前后產(chǎn)生的規(guī)則有可能發(fā)生重復(fù)以及不能保證所有有用的規(guī)則都被產(chǎn)生出來。[9](2)黑盒的方法:黑盒的方法僅考慮從前饋神經(jīng)網(wǎng)絡(luò)的輸入和輸出的行為來提取規(guī)則,之所以稱它為黑盒方法,是因?yàn)槭褂迷摲椒ㄔ谔崛∫?guī)則時(shí)不考慮神經(jīng)網(wǎng)絡(luò)的類型和結(jié)構(gòu),只關(guān)心網(wǎng)絡(luò)的輸入與輸出之間的映射關(guān)系。SaitoandNakano為了從訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)提取醫(yī)療診斷規(guī)則而提出的改進(jìn)算法就是該方法的一個(gè)典型的例子。(3)提取模糊規(guī)則的方法:在模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)模糊系統(tǒng)的研究中,有些模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)模糊系統(tǒng)中包含了模糊規(guī)則的提取和精華方法。(4)從遞歸網(wǎng)絡(luò)中提取規(guī)則的方法:該方法將遞歸網(wǎng)絡(luò)的狀態(tài)和有限自動(dòng)機(jī)的狀態(tài)相對(duì)應(yīng),從離散時(shí)間遞歸網(wǎng)絡(luò)中提取出有限自動(dòng)機(jī)的文法規(guī)則。另外,使用該方法可以提高神經(jīng)網(wǎng)絡(luò)的泛化能力。(5)最近,Tasa和Ghosh又提出了一些新的規(guī)則提取方法:二值輸入輸出規(guī)則提取算法、部分規(guī)則提取算法以及全部規(guī)則提取算法。有關(guān)這三種算法的具體描述見參考文獻(xiàn)[8]。(三)規(guī)則評(píng)估盡管規(guī)則評(píng)估的目標(biāo)依賴于各個(gè)具體的應(yīng)用,但總體說來,可以根據(jù)以下目標(biāo)來評(píng)估規(guī)則:(1)尋找提取規(guī)則的最優(yōu)順序,使得它在給定的數(shù)據(jù)集上取得最好的效果;(2)測試被提取規(guī)則的正確性;(3)檢測在神經(jīng)網(wǎng)絡(luò)中還有多少知識(shí)未被提取出來;(4)檢測被提取出來的規(guī)則與訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)之間存在的不一致性的地方。但是,預(yù)先確定規(guī)則的順序?qū)σ?guī)則的運(yùn)用有著重要的作用,然而,從神經(jīng)網(wǎng)絡(luò)中提取規(guī)則的過程并未給出任何有關(guān)規(guī)則順序的信息,但可以在以下三個(gè)測度的基礎(chǔ)上實(shí)現(xiàn)它:健壯性測度,它在給定的數(shù)據(jù)集上測試每條規(guī)則被激發(fā)的次數(shù),顯然它與規(guī)則的順序無關(guān);完備性測度,它測試有多少模式被單獨(dú)一條規(guī)則所識(shí)別;錯(cuò)誤警戒性測度,它測試一條規(guī)則被錯(cuò)誤激發(fā)的次數(shù)。[10]四、總結(jié)目前,全球信息技術(shù)迅速發(fā)展,互聯(lián)網(wǎng)快速普及,現(xiàn)代信息系統(tǒng)進(jìn)入了大數(shù)據(jù)時(shí)代,人們不得不面對(duì)著從過量和海量的數(shù)據(jù)和信息中挖掘出自己真正需要的數(shù)據(jù)的境況。所以數(shù)據(jù)挖掘算法的研究在近十年來受到了全世界專家學(xué)者極大的關(guān)注,并飛速發(fā)展。數(shù)據(jù)挖掘算法在發(fā)展過程中不斷融合其他領(lǐng)域的知識(shí),產(chǎn)生了多種多樣的算法,除傳統(tǒng)分類算法、聚類算法之外,還有人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、規(guī)則推導(dǎo)等,它們都有自身的優(yōu)勢特點(diǎn)及廣泛適用的應(yīng)用領(lǐng)域,具有很好的研究價(jià)值。本文對(duì)數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)方法進(jìn)行研究,重點(diǎn)闡述了神經(jīng)網(wǎng)絡(luò)技術(shù)的基礎(chǔ)理論及基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘過程。遺憾的是因?yàn)闀r(shí)間有限,對(duì)于神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用研究并未涉及。參考文獻(xiàn)[1]黃浩鋒.嵌入式數(shù)據(jù)挖掘概述[J].福建電腦,2008,1(4):16-18.[2]楊青杰.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].商場現(xiàn)代化,2008,1(16):25-27.[3]HANJiawei,KAMBERM..數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2001:4-20,223-253.[4]沈俊霞.人工神經(jīng)網(wǎng)絡(luò)幾種學(xué)習(xí)算法的對(duì)比.運(yùn)城學(xué)院學(xué)報(bào),2005.32.[5]杜華英,趙躍龍.人工神經(jīng)網(wǎng)絡(luò)典型模型的比較研究.計(jì)算機(jī)技術(shù)與發(fā)展.2006,16(5):97~98.[6]尹松,周永權(quán),李陶深.數(shù)據(jù)聚類方法的研究與分析田.航空計(jì)算機(jī),2005,35(l):63一66.[7]SpragueRHJr,WastonHJ.DecisionSupportSy

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論