版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)的標準化在數(shù)據(jù)分析之前,我們通常需要先將數(shù)據(jù)標準化(normalization),利用標準化后的數(shù)據(jù)進行數(shù)據(jù)分析。數(shù)據(jù)標準化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標準化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標數(shù)據(jù)性質(zhì),使所有指標對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的m比件。去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標能夠進行比較和加權(quán)。數(shù)據(jù)標準化的方法有很多種,常用的有“最小一最大標準化"、“Z-sc
2、ore標準化”和“按小數(shù)定標標準化”等。經(jīng)過上述標準化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標測評值,即各指標值都處于同一個數(shù)量級別上,可以進行綜合測評分析。一、Min-max標準化min-max標準化方法是對原始數(shù)據(jù)進行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區(qū)間0,1中的值x',其公式為:新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值)二、z-score標準化這種方法基于原始數(shù)據(jù)的均值(mean)和標準差(standarddeviation)進行數(shù)據(jù)的標準化。將A的原始值x使用z-score標準化到x'。z-sc
3、ore標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標準差spss默認的標準化方法就是z-score標準化。用Excel進行z-score標準化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計算,其實標準化的公式很簡單。步驟如下:求出各變量(指標)的算術(shù)平均值(數(shù)學期望)xi和標準差si;.進行標準化處理:zij=(xijxi)/si,其中:zij為標準化后的變量值;xij為實際變量值。將逆指標前的正負號對調(diào)。標準化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平三、Decimalscaling小數(shù)定標
4、標準化這種方法通過移動數(shù)據(jù)的小數(shù)點位置來進行標準化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimalscaling標準化到x'的計算方法是:x'=x/(10*j)其中,j是滿足條件的最小整數(shù)。例如假定A的值由-986到917,A的最大絕對值為986,為使用小數(shù)定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。注意,標準化會對原始數(shù)據(jù)做出改變,因此需要保存所使用的標準化方法的參數(shù),以便對后續(xù)的數(shù)據(jù)進行統(tǒng)一的標準化。除了上面提到的數(shù)據(jù)標準化外還有對數(shù)Logistic模式、模糊量化模式等等:對數(shù)Logist
5、ic模式:新數(shù)據(jù)=1/(1+eA(-原數(shù)據(jù))模糊量化模式:新數(shù)據(jù)=1/2+1/2sin派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2),X為原數(shù)據(jù)數(shù)據(jù)歸一化歸一化是一種簡化計算的方式,即將有量綱的表達式,經(jīng)過變換,化為無量綱的表達式、成為純量。歸一化是為了加快訓練網(wǎng)絡(luò)的收斂性、可以不進行歸一化處理歸一化的具體作用是歸納統(tǒng)一樣本的統(tǒng)計分布性。歸一化在0-1之間是統(tǒng)計的概率分布,歸一化在-1-+1之間是統(tǒng)計的坐標分布。歸一化有同一、統(tǒng)一和合一的意思。無論是為了建模還是為了計算,首先基本度量單位要同一,神經(jīng)網(wǎng)絡(luò)是以樣本在事件中的統(tǒng)計分別幾率來進行訓練(概率計算)和預(yù)測的,歸一化是同
6、一在0-1之間的統(tǒng)計概率分布;SVM是以降維后線性劃分距離來分類和仿真的,因此時空降維歸一化是統(tǒng)一在-1-+1之間的統(tǒng)計坐標分布。當所有樣本的輸入信號都為正值時,與第一隱含層神經(jīng)元相連的權(quán)值只能同時增加或減小,從而導致學習速度很慢。為了避免出現(xiàn)這種情況,加快網(wǎng)絡(luò)學習速度,可以對輸入信號進行歸一化,使得所有樣本的輸入信號其均值接近于0或與其均方差相比很小。歸一化是因為sigmoid函數(shù)的取值是0至U1之間的,網(wǎng)絡(luò)最后一個節(jié)點的輸出也是如此,所以經(jīng)常要對樣本的輸出歸一化處理。所以這樣做分類的問題時用0.90.10,1就要比用要好。但是歸一化處理并不總是合適的,根據(jù)輸出值的分布情況,標準化等其它統(tǒng)計
7、變換方法有時可能更好。主要是為了數(shù)據(jù)處理方便提出來的,把數(shù)據(jù)映射到01范圍之內(nèi)處理,更加便捷快速,應(yīng)該歸到數(shù)字信號處理范疇之內(nèi)。歸一化方法(NormalizationMethod)1。把數(shù)變?yōu)?0,1)之間的小數(shù)主要是為了數(shù)據(jù)處理方便提出來的,把數(shù)據(jù)映射到01范圍之內(nèi)處理,更加便捷快速,應(yīng)該歸到數(shù)字信號處理范疇之內(nèi)。2。把有量綱表達式變?yōu)闊o量綱表達式歸一化是一種簡化計算的方式,即將有量綱的表達式,經(jīng)過變換,化為無量綱的表達式,成為純量。比如,復數(shù)阻抗可以歸一化書寫:Z二R+jcoL=R(1+jcoL/R),復數(shù)部分變成了純數(shù)量了,沒有量綱。標準化方法(NormalizationMethod)數(shù)
8、據(jù)的標準化是將數(shù)據(jù)按比例縮放、使之落入一個小的特定區(qū)間。由于信用指標體系的各個指標度量單位是不同的、為了能夠?qū)⒅笜藚⑴c評價計算、需要對指標進行規(guī)范化處理、通過函數(shù)變換將其數(shù)俏映射到某個數(shù)俏區(qū)間。關(guān)于神經(jīng)網(wǎng)絡(luò)(matlab)歸一化的整理關(guān)于神經(jīng)網(wǎng)絡(luò)歸一化方法的整理由于采集的各數(shù)據(jù)單位不一致,因而須對數(shù)據(jù)進行-1,1歸一化處理,歸一化方法主要有如下幾種,供大家參考:(byjames)1、線性函數(shù)轉(zhuǎn)換.表達式如下:y=(x-MinValue)/(MaxValue-MinValue)說明:x、y分別為轉(zhuǎn)換前、后的值,MaxValue、MinValue分別為樣本的最大值和最小值。2、對數(shù)函數(shù)轉(zhuǎn)換,表達式
9、如下:y=log10(x)說明:以10為底的對數(shù)函數(shù)轉(zhuǎn)換。3、反余切函數(shù)轉(zhuǎn)換、表達式如下:y=atan(x)*2/PI歸一化是為了加快訓練網(wǎng)絡(luò)的收斂性,可以不進行歸一化處理歸一化的具體作用是歸納統(tǒng)一樣本的統(tǒng)計分布性。歸一化在0-1之間是統(tǒng)計的概率分布,歸一化在-1+1之間是統(tǒng)計的坐標分布。歸一化有同一、統(tǒng)一和合一的意思。無論是為了建模還是為了計算,首先基本度量單位要同一,神經(jīng)網(wǎng)絡(luò)是以樣本在事件中的統(tǒng)計分別幾率來進行訓練(概率計算)和預(yù)測的,歸一化是統(tǒng)一在0-1之間的統(tǒng)計概率分布:當所有樣本的輸入信號都為正值時,與第一隱含層神經(jīng)元相連的權(quán)值只能同時增加或減小,從而導致學習速度很慢。為了避免出現(xiàn)這
10、種情況,加快網(wǎng)絡(luò)學習速度,可以對輸入信號進行歸一化,使得所有樣本的輸入信號其均值接近于0或與其均方差相比很小。歸一化是因為sigmoid函數(shù)的取值是0至U1之間的,網(wǎng)絡(luò)最后一個節(jié)點的輸出也是如此,所以經(jīng)常要對樣本的輸出歸一化處理。所以這樣做分類的問題時用0.90.10.1就要比用100要好。但是歸一化處理并不忘、是含話的;根據(jù)輸出俏的分布情況;標準化等其它統(tǒng)計變換方法有時可能更好關(guān)于用premnmx語句進行歸一化:,T)Premnmx語句格式:Pn,minp,maxp,Tn,mint,maxt=premnmx(P其中P,T_分別為原始輸入和輸出數(shù)據(jù),minp和maxp分別為P中的最小值和最大值
11、(最大最小是針對矩陣的行來取,而min(p)是針對矩陣的列來取)。mint和maxt分別為T的最小值和最大值。premnmx函數(shù)用于將網(wǎng)絡(luò)的輸入數(shù)據(jù)或輸出數(shù)據(jù)進行歸一化,歸一化后的數(shù)據(jù)將分布在-1,1區(qū)間內(nèi)。我們在訓練網(wǎng)絡(luò)時如果所用的是經(jīng)過歸一化的樣本數(shù)據(jù).那么以后使用網(wǎng)絡(luò)時所用的新數(shù)據(jù)也應(yīng)該和樣本數(shù)據(jù)接受相同的預(yù)處理、這就要用至tramnmx。關(guān)于用tramnmx語句進行歸一化:Tramnmx語句格式:Pn=tramnmx(P,minp,maxp)其中P和Pn分別為變換前、后的輸入數(shù)據(jù),maxp和minp分另為premnmx函數(shù)找到的最大俏和最小俏。(byterry2008)matlab中的
12、歸一化處理有三種方法1. premnmx、postmnmx、tramnmx2. restd、poststd、trastd3. 自己編程具體用那種方法就和你的具體問題有關(guān)了(byhappy)pm=max(abs(p(i,:);p(i,:)=p(i,:)/pm;和fori=1:27p(i,:)=(p(i,:)-min(p(i,:)/(max(p(i,:)-min(p(i,:);end可以歸一到01之間0.1+(x-min)/(max-min)*(0.9-0.1)其中max和min分別表示樣本最大值和最小值。這個可以歸一到0.1-0.9矢巨陣歸化歸一化化定義:我是這樣認為的,歸一化化就是要把你需要處
13、理的數(shù)據(jù)經(jīng)過處理后(通過某種算法)限制在你需要的一定范圍內(nèi)。首先歸一化是為了后面數(shù)據(jù)處理的方便,其次是保正程序運行時收斂加快。在matlab里面,用于:歸一化的方法共有三種(1) premnmx、postmnmx、tramnmxpremnmx才旨的是歸至111。prestd、poststd、trastdprestd歸一到單位方差和零均值。(3)是用matlab語言自己編程。關(guān)于自己編程一般是歸一到0.10.9。為什么要用歸一化呢?首先先說一個概念,叫做奇異樣本數(shù)據(jù),所謂奇異樣本數(shù)據(jù)數(shù)據(jù)指的是相對于其他輸入樣本特別大或特別小的樣本矢量。下面舉例:m=0.110.150.320.4530;0.13
14、0.240.270.2545;其中的第五列數(shù)據(jù)相對于其他4列數(shù)據(jù)就可以成為奇異樣本數(shù)據(jù)(下面所說的網(wǎng)絡(luò)均值bp)。奇異樣本數(shù)據(jù)存在所引起的網(wǎng)絡(luò)訓練時間增加,并可能引起網(wǎng)絡(luò)無法收斂,所以對于訓練樣本存在奇異樣本數(shù)據(jù)的數(shù)據(jù)集在訓練之前,最好先進形歸一化,若不存在奇異樣本數(shù)據(jù),則不需要事先歸一化。一個小程序:p=1.37111.38021.36361.35981.35021.34041.32841.31601.31181.30321.29891.29451.29231.29231.28561.27881.27421.26721.25771.22791.19031.08640.9956;t=01.38
15、1.681.982.082.232.532.832.933.133.233.333.433.533.633.733.833.934.034.134.234.334.43;u=p;tt=t;p=(p-min(p)/(max(p)-min(p);%g歸一化t=(t-min(t)/(max(t)-min(t);net=newff(minmax(p),231,'tansig''purelin','traingdx');net.trainParam.epochs=1000;net.trainParam.goal=0.001;net.trainParam.show=10;net.trainParam.lr=0.05;net,tr,Y,E=train(net,p,t);a=sim
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年城市別墅裝修改造服務(wù)協(xié)議
- 2024水電項目工程承包協(xié)議范本
- 2024年酒店用品買賣協(xié)議
- 2024年房屋租賃三方協(xié)議樣本
- 店鋪裝修設(shè)計與施工一體化協(xié)議模板
- 2024年度勞動力成本協(xié)議樣本
- DB11∕T 1697-2019 動力鋰離子蓄電池制造業(yè)綠色工廠評價要求
- 2024年度中央空調(diào)系統(tǒng)翻新工程協(xié)議
- 2024商業(yè)采購協(xié)議模板全面指南
- 2024年輔導班家長服務(wù)協(xié)議
- 水系統(tǒng)中央空調(diào)工程材料清單
- 小學六年級數(shù)學上冊口算題300道(全)
- 《干粉滅火器檢查卡》
- 校園監(jiān)控值班記錄表(共2頁)
- 試樁施工方案 (完整版)
- 走中國工業(yè)化道路的思想及成就
- ESTIC-AU40使用說明書(中文100版)(共138頁)
- 河北省2012土建定額說明及計算規(guī)則(含定額總說明)解讀
- Prolog語言(耐心看完-你就入門了)
- 保霸線外加電流深井陽極地床陰極保護工程施工方案
- 藍色商務(wù)大氣感恩同行集團公司20周年慶典PPT模板
評論
0/150
提交評論