數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘中分類技術(shù)應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類技術(shù)在很多領(lǐng)域都有應(yīng)用,例如可以通過(guò)客戶分類構(gòu)造一個(gè)分類模型來(lái)對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估;當(dāng)前的市場(chǎng)營(yíng)銷中很重要的一個(gè)特點(diǎn)是強(qiáng)調(diào)客戶細(xì)分。客戶類別分析的功能也在于此,采用數(shù)據(jù)挖掘中的分類技術(shù),可以將客戶分成不同的類別,比如呼叫中心設(shè)計(jì)時(shí)可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征;其他分類應(yīng)用如文獻(xiàn)檢索和搜索引擎中的自動(dòng)文本分類技術(shù);安全領(lǐng)域有基于分類技術(shù)的入侵檢測(cè)等等。機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的研究人員已經(jīng)提出了許多具體的分類預(yù)測(cè)方法。下面對(duì)分類流程作個(gè)簡(jiǎn)要描述:訓(xùn)練:訓(xùn)練集一>特征選取——>訓(xùn)?——>分類器分類:新樣本——>特征選取——>分類一>判決最初的數(shù)據(jù)挖掘分類應(yīng)用大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前數(shù)據(jù)挖掘方法都要求具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力且具有可擴(kuò)展能力神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是解決分類問(wèn)題的一種行之有效的方法。神經(jīng)網(wǎng)絡(luò)是一組連接輸入/輸出單元的系統(tǒng),每個(gè)連接都與一個(gè)權(quán)值相對(duì)應(yīng),在將簡(jiǎn)單的單元連接成較復(fù)雜的系統(tǒng)后,通過(guò)并行運(yùn)算實(shí)現(xiàn)其功能,其中系統(tǒng)的知識(shí)存儲(chǔ)于網(wǎng)絡(luò)結(jié)構(gòu)和各單元之間的連接權(quán)中。在學(xué)習(xí)階段,通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,達(dá)到對(duì)輸入樣本的正確分類。神經(jīng)網(wǎng)絡(luò)有對(duì)噪聲數(shù)據(jù)的高承受能力和對(duì)未經(jīng)訓(xùn)練數(shù)據(jù)的模式分類能力。神經(jīng)網(wǎng)

絡(luò)概括性強(qiáng)、分類精度高,可以實(shí)現(xiàn)有監(jiān)督和無(wú)監(jiān)督的分類任務(wù),所以神經(jīng)網(wǎng)絡(luò)在分類中應(yīng)用非常廣泛。在結(jié)構(gòu)上,可以把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層(見圖4)。網(wǎng)絡(luò)的每一個(gè)輸入節(jié)點(diǎn)對(duì)應(yīng)樣本一個(gè)特征,而輸出層節(jié)點(diǎn)數(shù)可以等于類別數(shù),也可以只有一個(gè),(輸入層的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)個(gè)的預(yù)測(cè)變量。輸出層的節(jié)點(diǎn)對(duì)應(yīng)目標(biāo)變量,可有多個(gè))。在輸入層和輸出層之間是隱含層(對(duì)神經(jīng)網(wǎng)絡(luò)使用者來(lái)說(shuō)不可見),隱含層的層數(shù)和每層節(jié)點(diǎn)的個(gè)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。圖4:一個(gè)神經(jīng)元幽絡(luò)隱含層圖4:一個(gè)神經(jīng)元幽絡(luò)除了輸入層的節(jié)點(diǎn),神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都與很多它前面的節(jié)點(diǎn)(稱為此節(jié)點(diǎn)的輸入節(jié)點(diǎn))連接在一起,每個(gè)連接對(duì)應(yīng)一個(gè)權(quán)重Wxy,此節(jié)點(diǎn)的值就是通過(guò)它所有輸入節(jié)點(diǎn)的值與對(duì)應(yīng)連接權(quán)重乘積的和作為一個(gè)函數(shù)的輸入而得到,我們把這個(gè)函數(shù)稱為活動(dòng)函數(shù)或擠壓函數(shù)。如圖5中節(jié)點(diǎn)4輸出到節(jié)點(diǎn)6的值可通過(guò)如下計(jì)算得到:

W14*節(jié)點(diǎn)1的值+W24*節(jié)點(diǎn)2的值神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都可表示成預(yù)測(cè)變量(節(jié)點(diǎn)1,2)的值或值的組合(節(jié)點(diǎn)3-6)。注意節(jié)點(diǎn)6的值已經(jīng)不再是節(jié)點(diǎn)1、2的線性組合,因?yàn)閿?shù)據(jù)在隱含層中傳遞時(shí)使用了活動(dòng)函數(shù)。實(shí)際上如果沒有活動(dòng)函數(shù)的話,神經(jīng)元網(wǎng)絡(luò)就等價(jià)于一個(gè)線性回歸函數(shù),如果此活動(dòng)函數(shù)是某種特定的非線性函數(shù),那神經(jīng)網(wǎng)絡(luò)又等價(jià)于邏輯回歸。圖5:帶極重W時(shí)的神經(jīng)元網(wǎng)絡(luò)調(diào)整節(jié)點(diǎn)間連接的權(quán)重就是在建立(也稱訓(xùn)練)神經(jīng)網(wǎng)絡(luò)時(shí)要做的工作。最早的也是最基本的權(quán)重調(diào)整方法是錯(cuò)誤回饋法,現(xiàn)在較新的有變化坡度法、類牛頓法、Levenberg-Marquardt法、和遺傳算法等。無(wú)論采用那種訓(xùn)練方法,都需要有一些參數(shù)來(lái)控制訓(xùn)練的過(guò)程,如防止訓(xùn)練過(guò)度和控制訓(xùn)練的速度。決定神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(或體系結(jié)構(gòu))的是隱含層及其所含節(jié)點(diǎn)的個(gè)數(shù),以及節(jié)點(diǎn)之間的連接方式。要從頭開始設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò),必須要決定隱含層和節(jié)點(diǎn)的數(shù)目,活動(dòng)函數(shù)的形式,以及對(duì)權(quán)重做那些限制等,當(dāng)然如果采用成熟軟件工具的話,他會(huì)幫你決定這些事情。在諸多類型的神經(jīng)網(wǎng)絡(luò)中,最常用的是前向傳播式神經(jīng)網(wǎng)絡(luò),也就是我們前面圖示中所描繪的那種。我們下面詳細(xì)討論一下,為討論方便假定只含有一層隱含節(jié)點(diǎn)??梢哉J(rèn)為錯(cuò)誤回饋式訓(xùn)練法是變化坡度法的簡(jiǎn)化,其過(guò)程如下:前向傳播:數(shù)據(jù)從輸入到輸出的過(guò)程是一個(gè)從前向后的傳播過(guò)程,后一節(jié)點(diǎn)的值通過(guò)它前面相連的節(jié)點(diǎn)傳過(guò)來(lái),然后把值按照各個(gè)連接權(quán)重的大小加權(quán)輸入活動(dòng)函數(shù)再得到新的值,進(jìn)一步傳播到下一個(gè)節(jié)點(diǎn)。回饋:當(dāng)節(jié)點(diǎn)的輸出值與我們預(yù)期的值不同,也就是發(fā)生錯(cuò)誤時(shí),神經(jīng)網(wǎng)絡(luò)就要“學(xué)習(xí)”(從錯(cuò)誤中學(xué)習(xí))。我們可以把節(jié)點(diǎn)間連接的權(quán)重看成后一節(jié)點(diǎn)對(duì)前一節(jié)點(diǎn)的“信任”程度(他自己向下一節(jié)點(diǎn)的輸出更容易受他前面哪個(gè)節(jié)點(diǎn)輸入的影響)。學(xué)習(xí)的方法是采用懲罰的方法,過(guò)程如下:如果一節(jié)點(diǎn)輸出發(fā)生錯(cuò)誤,那么看它的錯(cuò)誤是受哪個(gè)(些)輸入節(jié)點(diǎn)的影響而造成的,是不是他最信任的節(jié)點(diǎn)(權(quán)重最高的節(jié)點(diǎn))陷害了他(使他出錯(cuò)),如果是則要降低對(duì)他的信任值(降低權(quán)重),懲罰他們,同時(shí)升高那些做出正確建議節(jié)點(diǎn)的信任值。對(duì)那些收到懲罰的節(jié)點(diǎn)來(lái)說(shuō),他也需要用同樣的方法來(lái)進(jìn)一步懲罰它前面的節(jié)點(diǎn)。就這樣把懲罰一步步向前傳播直到輸入節(jié)點(diǎn)為止。對(duì)訓(xùn)練集中的每一條記錄都要重復(fù)這個(gè)步驟,用前向傳播得到輸出值,如果發(fā)生錯(cuò)誤,則用回饋法進(jìn)行學(xué)習(xí)。當(dāng)把訓(xùn)練集中的每一條記錄都運(yùn)行過(guò)一遍之后,我們稱完成一個(gè)訓(xùn)練周期。要完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可能需要很多個(gè)訓(xùn)練周期,經(jīng)常是幾百個(gè)。訓(xùn)練完成之后得到的神經(jīng)網(wǎng)絡(luò)就是在通過(guò)訓(xùn)練集發(fā)現(xiàn)的模型,描述了訓(xùn)練集中響應(yīng)變量受預(yù)測(cè)變量影響的變化規(guī)律。由于神經(jīng)網(wǎng)絡(luò)隱含層中的可變參數(shù)太多,如果訓(xùn)練時(shí)間足夠長(zhǎng)的話,神經(jīng)網(wǎng)絡(luò)很可能把訓(xùn)練集的所有細(xì)節(jié)信息都“記”下來(lái),而不是建立一個(gè)忽略細(xì)節(jié)只具有規(guī)律性的模型,我們稱這種情況為訓(xùn)練過(guò)度。顯然這種“模型”對(duì)訓(xùn)練集會(huì)有很高的準(zhǔn)確率,而一旦離開訓(xùn)練集應(yīng)用到其他數(shù)據(jù),很可能準(zhǔn)確度急劇下降。為了防止這種訓(xùn)練過(guò)度的情況,我們必須知道在什么時(shí)候要停止訓(xùn)練。在有些軟件實(shí)現(xiàn)中會(huì)在訓(xùn)練的同時(shí)用一個(gè)測(cè)試集來(lái)計(jì)算神經(jīng)網(wǎng)絡(luò)在此測(cè)試集上的正確率,一旦這個(gè)正確率不再升高甚至開始下降時(shí),那么就認(rèn)為現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到做好的狀態(tài)了可以停止訓(xùn)練。圖6中的曲線可以幫我們理解為什么利用測(cè)試集能防止訓(xùn)練過(guò)度的出現(xiàn)。在圖中可以看到訓(xùn)練集和測(cè)試集的錯(cuò)誤率在一開始都隨著訓(xùn)練周期的增加不斷降低,而測(cè)試集的錯(cuò)誤率在達(dá)到一個(gè)谷底后反而開始上升,我們認(rèn)為這個(gè)開始上升的時(shí)刻就是應(yīng)該停止訓(xùn)練的時(shí)刻。訓(xùn)練集錯(cuò)誤Q1的湖303仙5W訓(xùn)姮周罪訓(xùn)練集錯(cuò)誤Q1的湖303仙5W訓(xùn)姮周罪測(cè)試集錯(cuò)誤神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì)方法在本質(zhì)上有很多差別。神經(jīng)網(wǎng)絡(luò)的參數(shù)可以比統(tǒng)計(jì)方法多很多。如圖4中就有13個(gè)參數(shù)(9個(gè)權(quán)重和4個(gè)限制條件)。由于參數(shù)如此之多,參數(shù)通過(guò)各種各樣的組合方式來(lái)影響輸出結(jié)果,以至于很難對(duì)一個(gè)神經(jīng)網(wǎng)絡(luò)表示的模型做出直觀的解釋。實(shí)際上神經(jīng)網(wǎng)絡(luò)也正是當(dāng)作“黑盒”來(lái)用的,不用去管“盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。比如銀行可能需要一個(gè)筆跡識(shí)別軟件,但他沒必要知道為什么這些線條組合在一起就是一個(gè)人的簽名,而另外一個(gè)相似的則不是。在很多復(fù)雜度很高的問(wèn)題如化學(xué)試驗(yàn)、機(jī)器人、金融市場(chǎng)的模擬、和語(yǔ)言圖像的識(shí)別,等領(lǐng)域神經(jīng)網(wǎng)絡(luò)都取得了很好的效果。神經(jīng)網(wǎng)絡(luò)分類算法的重點(diǎn)是構(gòu)造閾值邏輯單元,一個(gè)值邏輯單元是一個(gè)對(duì)象,它可以輸入一組加權(quán)系數(shù)的量,對(duì)它們進(jìn)行求和,如果這個(gè)和達(dá)到或者超過(guò)了某個(gè)閾值,輸出一個(gè)量。如有輸入值X1,X2,...,Xn和它們的權(quán)系數(shù):W1,W2,...,Wn,求和計(jì)算出的Xi*Wi,產(chǎn)生了激發(fā)層a=(X1*W1)+(X2*W2)+...+(Xi*Wi)+.??+(Xn*Wn),其中Xi代表樣本的不同特征,Wi是實(shí)時(shí)特征評(píng)估模型中得到的權(quán)系數(shù)。對(duì)于單輸出型,網(wǎng)絡(luò)的每一個(gè)輸入節(jié)點(diǎn)對(duì)應(yīng)樣本一個(gè)特征,而輸出層節(jié)點(diǎn)只有一個(gè),為每個(gè)類建立一個(gè)這樣的網(wǎng)絡(luò),對(duì)每一類進(jìn)行分別訓(xùn)練,將屬于這一類的樣本的期望輸出設(shè)為1,而把屬于其他類的樣本的期望輸出設(shè)為0;在識(shí)別階段,將未知類別的樣本輸入到每一個(gè)網(wǎng)絡(luò),如果某個(gè)網(wǎng)絡(luò)的輸出接近1(或大于某個(gè)閾值,比如0.5)則判斷該樣本屬于這一類;如果有多個(gè)網(wǎng)絡(luò)的輸出均大于閾值,則或者將類別判斷為具有最大輸出的那一類,或者做出拒絕。神經(jīng)網(wǎng)絡(luò)的另一個(gè)優(yōu)點(diǎn)是很容易在并行計(jì)算機(jī)上實(shí)現(xiàn),可以把他的節(jié)點(diǎn)分配到不同的CPU上并行計(jì)算。在使用神經(jīng)網(wǎng)絡(luò)時(shí)有幾點(diǎn)需要注意:第一,神經(jīng)網(wǎng)絡(luò)很難解釋,目前還沒有能對(duì)神經(jīng)網(wǎng)絡(luò)做出顯而易見解釋的方法學(xué)。第二,神經(jīng)網(wǎng)絡(luò)會(huì)學(xué)習(xí)過(guò)度,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)一定要恰當(dāng)?shù)氖褂靡恍┠車?yán)格衡量神經(jīng)網(wǎng)絡(luò)的方法,如前面提到的測(cè)試集方法和交叉驗(yàn)證法等。這主要是由于神經(jīng)網(wǎng)絡(luò)太靈活、可變參數(shù)太多,如果給足夠的時(shí)間,他幾乎可以“記住”任何事情。第三,除非問(wèn)題非常簡(jiǎn)單,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)可能需要相當(dāng)可觀的時(shí)間才能完成。當(dāng)然,一旦神經(jīng)網(wǎng)絡(luò)建立好了,在用它做預(yù)測(cè)時(shí)運(yùn)行時(shí)還是很快的。第四,建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備工作量很大。一個(gè)很有誤導(dǎo)性的神話就是不管用什么數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)都能很好的工作并做出準(zhǔn)確的預(yù)測(cè)。這是不確切的,要想得到準(zhǔn)確度高的模型必須認(rèn)真的進(jìn)行數(shù)據(jù)清洗、整理、轉(zhuǎn)換、選擇等工作,對(duì)任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn)。比如神經(jīng)網(wǎng)絡(luò)要求所有的輸入變量都必須是0-1(或-1—+1)之間的實(shí)數(shù),因此像“地區(qū)”之類文本數(shù)據(jù)必須先做必要的處理之后才能用作神經(jīng)網(wǎng)絡(luò)的輸入。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)算法,有一些固有的缺陷,比如層數(shù)和神經(jīng)元個(gè)數(shù)難以確定,容易陷入局部極小,還有過(guò)學(xué)習(xí)現(xiàn)象,這些本身的缺陷在SVM算法、進(jìn)化算法中可以得到很好的解決。在計(jì)算機(jī)科學(xué)中,進(jìn)化算法實(shí)質(zhì)上是一種優(yōu)化處理過(guò)程;但這種過(guò)程與傳統(tǒng)的優(yōu)化方法不同,傳統(tǒng)的優(yōu)化方法都是用代價(jià)函數(shù)來(lái)衡量動(dòng)作的行為,從而通過(guò)選擇一個(gè)好的動(dòng)作使操作的對(duì)象得

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論