基于突現(xiàn)自組織映射的火山巖識(shí)別數(shù)據(jù)挖掘方法_第1頁
基于突現(xiàn)自組織映射的火山巖識(shí)別數(shù)據(jù)挖掘方法_第2頁
基于突現(xiàn)自組織映射的火山巖識(shí)別數(shù)據(jù)挖掘方法_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于突現(xiàn)自組織映射的火山巖識(shí)別數(shù)據(jù)挖掘方法

巖石識(shí)別是評(píng)價(jià)井土流度的基礎(chǔ)。主要方法有界面圖、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)等。BP網(wǎng)絡(luò)和自組織映射(Self-OrganizingMap,SOM)是應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型。但是高度參數(shù)化的BP網(wǎng)絡(luò)需要很高的工程技巧確定合適的參數(shù),否則很容易過度擬合到訓(xùn)練數(shù)據(jù)中;標(biāo)準(zhǔn)SOM遇到高維復(fù)雜、差異不明顯的數(shù)據(jù)時(shí),往往由于類簇相互重疊而無法得到有意義的聚類信息。突現(xiàn)自組織映射(EmergentSelf-OrganizingMap,ESOM)擴(kuò)展了標(biāo)準(zhǔn)SOM算法,尤其適合高維數(shù)據(jù)的可視化聚類。筆者以準(zhǔn)噶爾盆地陸東-五彩灣地區(qū)火山巖巖性識(shí)別為例,研究一種將ESOM作為綜合數(shù)據(jù)挖掘工具用于測(cè)井巖性識(shí)別的新方法。1som映射算法的聚類分析SOM神經(jīng)網(wǎng)絡(luò)為一單層前饋網(wǎng)絡(luò),由輸入層和輸出層(競爭層)組成。輸入層所在空間稱為數(shù)據(jù)空間或樣本空間,神經(jīng)元數(shù)與樣本維數(shù)相同;競爭層由兩維網(wǎng)絡(luò)組成,稱為映射空間。網(wǎng)絡(luò)是全連接的,可以把任意高維數(shù)據(jù)映射到低維空間,并且保持其拓?fù)浣Y(jié)構(gòu)不變。SOM經(jīng)過充分訓(xùn)練并且收斂后,具有聚類、特征選擇、降維可視化等功能。突現(xiàn)指的是在一個(gè)由大量個(gè)體組成的系統(tǒng)中自發(fā)涌現(xiàn)出來的集體行為,這種行為不能從系統(tǒng)個(gè)體的知識(shí)中預(yù)測(cè)甚至“想象”。比如生命之于無生命的物理化學(xué)特性,心靈之于神經(jīng)細(xì)胞的生理活動(dòng),就是突現(xiàn)現(xiàn)象。ESOM的基本思想就是改進(jìn)標(biāo)準(zhǔn)SOM映射使其能產(chǎn)生突現(xiàn)現(xiàn)象,以達(dá)到揭示隱藏在數(shù)據(jù)中宏觀結(jié)構(gòu)的目的。如果想要SOM產(chǎn)生突現(xiàn),必須滿足2個(gè)關(guān)鍵條件:①映射空間必須要有充足的神經(jīng)元;②學(xué)習(xí)算法必須是拓?fù)浔3值?。?duì)于條件①,ESOM選擇的神經(jīng)元個(gè)數(shù)至少上千,遠(yuǎn)遠(yuǎn)大于預(yù)期的類簇個(gè)數(shù);對(duì)于條件②,SOM映射算法本身就是拓?fù)浔3值?因此ESOM直接繼承該算法,并采用無邊界超環(huán)面映射空間。ESOM訓(xùn)練結(jié)果是高維原型向量的低維網(wǎng)絡(luò),樣本匹配神經(jīng)元坐標(biāo)并不能提供直觀可視化信息,必須采用額外的方法來可視化。這些方法主要有基于距離的U矩陣法、基于密度的P矩陣法和基于距離和密度結(jié)合的U*矩陣法3種。研究采用U矩陣法。定義神經(jīng)元ni的鄰域Ui為:Ui={nj|k(nj,ni)<u,nj≠ni}(1)式中,k為映射空間上的距離度量;u為正數(shù)閾值常量;神經(jīng)元的U高度uh(ni)等于ni權(quán)向量到Ui內(nèi)所有神經(jīng)元權(quán)向量距離之和:uh(ni)=∑nj∈Uid(ni,nj)(2)uh(ni)=∑nj∈Uid(ni,nj)(2)式中,d為樣本空間上的距離度量。為了可視化,典型作法是將U高度以等高線的形式顯示在SOM的底平面上,這類地形圖顯示了樣本空間的距離關(guān)系,實(shí)現(xiàn)了距離特征的突現(xiàn),能夠很直觀地檢查出類簇結(jié)構(gòu)和異常點(diǎn)。U矩陣可視化的性質(zhì)如下:①樣本匹配神經(jīng)元的坐標(biāo)位置關(guān)系代表了數(shù)據(jù)空間的拓?fù)浣Y(jié)構(gòu);②如果U高度比較大,說明該神經(jīng)元與其他神經(jīng)元相距較遠(yuǎn),而U高度小的神經(jīng)元,則處于其他神經(jīng)元的包圍之中;③樣本匹配神經(jīng)元一般位于“盆地”區(qū)域;④輸入數(shù)據(jù)中的異常點(diǎn)位于“漏斗”狀區(qū)域;⑤“山脈”代表了類簇邊界。在平面映射空間中,邊界處神經(jīng)元的鄰域要比中間位置神經(jīng)元的鄰域數(shù)據(jù)量少,這會(huì)導(dǎo)致映射結(jié)果的邊界效應(yīng),解決辦法是將平面空間邊界連接起來轉(zhuǎn)換為超環(huán)面映射空間。另一個(gè)問題是將環(huán)面映射的U矩陣再轉(zhuǎn)為平面顯示時(shí),位于邊界處的突現(xiàn)結(jié)構(gòu)將被切斷,給分析觀察帶來不便。解決辦法是將多張無邊界U矩陣平鋪重復(fù)顯示,這樣就能完整展現(xiàn)邊界處的突現(xiàn)結(jié)構(gòu)。SOM可視為帶有拓?fù)浼s束的k均值聚類算法的變體,對(duì)于輸出神經(jīng)元較少的SOM可稱為拓?fù)鋕均值SOM(TKM-SOM),其能力等同于k均值聚類,而且這時(shí)拓?fù)浔3值淖饔貌淮?。ESOM聚類時(shí)明顯不同于TKM-SOM。TKM-SOM神經(jīng)元就代表類簇,k等于映射神經(jīng)元數(shù)量,而ESOM需要通過人工觀察U矩陣上的“地形特征”識(shí)別類簇,或者通過突現(xiàn)聚類算法來實(shí)施聚類,如U*F算法或U*C算法。對(duì)于BP神經(jīng)網(wǎng)絡(luò),如果網(wǎng)絡(luò)太小的話精度低,如果太大則又容易過度擬合,ESOM無此缺點(diǎn),神經(jīng)元數(shù)量多并不會(huì)增加模型的自由度,因?yàn)樯窠?jīng)元受拓?fù)浔3窒拗?增大規(guī)模意味著增加數(shù)據(jù)空間到映射空間的投影分辨率。2巖石巖性結(jié)構(gòu)及激發(fā)參數(shù)數(shù)據(jù)挖掘(DataMining)是從海量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。應(yīng)用數(shù)據(jù)挖掘就是一個(gè)人機(jī)交互、多次迭代進(jìn)行的智能數(shù)據(jù)分析過程。ESOM具有可視化、聚類和分類功能,是非常理想的數(shù)據(jù)挖掘工具。下面結(jié)合火山巖巖性識(shí)別介紹ESOM數(shù)據(jù)挖掘流程。樣本數(shù)據(jù)取自準(zhǔn)噶爾盆地陸東-五彩灣地區(qū),共收集了12口井的230塊火山巖巖心樣品,全部來自石炭系。根據(jù)該區(qū)塊地質(zhì)情況和測(cè)井評(píng)價(jià)要求,選取4種主要的火山熔巖:玄武巖、安山巖、英安巖、流紋巖進(jìn)行研究。選擇自然電位SP(mV)、自然伽馬GR(API)、聲波時(shí)差A(yù)C(μs/m)、密度DEN(g/cm3)、補(bǔ)償中子CNL(%)、沖洗帶電阻率RXO(Ω·m)、過渡帶電阻率Ri(Ω·m)和地層電阻率Rt(Ω·m)等8條常規(guī)測(cè)井曲線作為識(shí)別參數(shù)。將巖心與測(cè)井曲線深度對(duì)齊并取值,去掉一些有缺失值或明顯異常的樣品,整理后有效樣品共214塊,其中玄武巖50塊、安山巖123塊、英安巖30塊、流紋巖11塊。挖掘流程分為6步。①數(shù)據(jù)預(yù)處理:首先對(duì)3條電阻率曲線取對(duì)數(shù),再將全部8條測(cè)井曲線進(jìn)行Z變換,并歸一化到區(qū)間。然后將數(shù)據(jù)按80∶20比例劃分為訓(xùn)練集和測(cè)試集,測(cè)試集41條,訓(xùn)練集173條,其中玄武巖40條、安山巖100條、英安巖24條、流紋巖9條。②網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù)設(shè)計(jì):ESOM網(wǎng)格50行82列,無邊界環(huán)面映射;權(quán)值初始化方法為高斯隨機(jī)數(shù);訓(xùn)練算法為在線算法;采用歐氏距離函數(shù);鄰域半徑和學(xué)習(xí)率線性衰減;映射神經(jīng)元4格排列;近鄰函數(shù)為高斯函數(shù);訓(xùn)練代數(shù)為20。其中關(guān)鍵的是神經(jīng)元個(gè)數(shù),推薦設(shè)置為4000個(gè)以上。③可視化設(shè)計(jì)和分析:決定采用何種可視化方法、背景顏色梯度類型、是否顯示等值線、是否平鋪重復(fù)顯示等,這里采用U矩陣法。④聚類分析:采用人工觀察或自動(dòng)化聚類算法。⑤分類:識(shí)別出映射空間中的類簇區(qū)域,賦于該區(qū)域所有神經(jīng)元以類簇標(biāo)簽,之后ESOM成為類似于k最近鄰的分類器,這里k=1。不同之處是,類簇分配是通過可視化方式進(jìn)行的,而且可以輕易識(shí)別出那些無法分配類別的點(diǎn),這可以使人有更多參與判斷的機(jī)會(huì);⑥如果對(duì)挖掘結(jié)果不滿意,返回第①步重新調(diào)整數(shù)據(jù)、測(cè)井曲線和訓(xùn)練參數(shù),再次進(jìn)行挖掘。3巖性分區(qū)和類簇采用DatabionicsESOMTools完成火山巖巖性數(shù)據(jù)挖掘工作,每次迭代除了改變算法參數(shù)之外,主要調(diào)整參與挖掘的測(cè)井參數(shù)。經(jīng)過多次嘗試,挑選出最佳測(cè)井參數(shù)組合方案,該方案只用了GR、AC、DEN和CNL等4種參數(shù)。將訓(xùn)練集作為輸入數(shù)據(jù)映射生成ESOM模型,其U矩陣可視化結(jié)果見圖1。圖中白色代表U高度高值,黑色代表低值;字母代表樣本的匹配神經(jīng)元,其中A為安山巖,B為玄武巖,R為流紋巖,D為英安巖。圖1(a)為4幅無邊界U矩陣平鋪重復(fù)顯示圖,可以發(fā)現(xiàn)4種巖性被很好地聚集在圖中的“盆地”區(qū)域(黑色部分),“山脈”(白色部分)代表類簇邊界。同樣也可以看出有些類簇區(qū)域跨越了單幅圖邊界(比如安山巖區(qū)),而在平鋪圖上則展示出完整結(jié)構(gòu)。去除圖中冗余部分后形成一個(gè)類似島嶼的圖像,稱之為U地圖。隨后分析U地圖進(jìn)行手動(dòng)交互聚類,以山脈為邊界,劃分4種巖性的類簇區(qū)域,見圖1(b)。由于巖性復(fù)雜,安山巖區(qū)域內(nèi)部又劃分為3個(gè)小區(qū)域。由于受研究區(qū)塊巖樣數(shù)量和測(cè)井曲線限制,玄武巖、流紋巖和安山巖的樣本數(shù)量少,因此類簇區(qū)域小,尤其是流紋巖更小,而且部分流紋巖巖樣落入英安巖區(qū)域。但總體上各種巖性區(qū)域很好地被區(qū)分開,這為分類打了下良好的基礎(chǔ)。將測(cè)試數(shù)據(jù)集在ESOM模型上進(jìn)行投影,以樣本落入的巖性區(qū)作為該樣本的巖性。結(jié)果發(fā)現(xiàn)3個(gè)樣品識(shí)別錯(cuò)誤:1塊安山巖和1塊玄武巖被投影到山脈區(qū),劃入無類別區(qū)域,這是由于訓(xùn)練樣本中并沒有覆蓋這2塊巖樣的某些特征;1塊流紋巖被錯(cuò)分到英安巖區(qū),這是由于流紋巖和英安巖的訓(xùn)練樣本過少,類簇代表性低造成的。測(cè)試集共有41塊巖樣,正確分類38塊,分類準(zhǔn)確率為92.68%。4人工參與區(qū)域地質(zhì)及分類ESOM網(wǎng)絡(luò)具有自組織和自適應(yīng)能力,采用大規(guī)模神經(jīng)元并采用U矩陣可視化處理后,能揭示數(shù)據(jù)中的突現(xiàn)現(xiàn)象,發(fā)現(xiàn)類簇結(jié)構(gòu)和異常點(diǎn),而這種能力是非突現(xiàn)SOM所不具備的。人工可以參與ESOM的聚類過程,因此可以融入專家

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論