數(shù)據(jù)處理方法_第1頁
數(shù)據(jù)處理方法_第2頁
數(shù)據(jù)處理方法_第3頁
數(shù)據(jù)處理方法_第4頁
數(shù)據(jù)處理方法_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

回歸問題和一些機(jī)器學(xué)習(xí)算法中,以及訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,通常需要對原始數(shù)據(jù)進(jìn)行中心化(Zero-centered或者M(jìn)ean-subtraction)處理和標(biāo)準(zhǔn)化(Standardization或Normalization)處理。目的:通過中心化和標(biāo)準(zhǔn)化處理,得至籃值為0,標(biāo)準(zhǔn)差為1的服從標(biāo)準(zhǔn)正態(tài)布的數(shù)據(jù)。計(jì)算過程由下式表示:下面解釋一下為什么需要使用這些數(shù)據(jù)預(yù)處理步驟。在一些實(shí)際問題中,我們得到的樣本數(shù)據(jù)都是多個(gè)維度的,即一個(gè)樣本是用多個(gè)特征來表征的。比如在預(yù)測房價(jià)的問題中,影響房價(jià)的因素有房子面積 、臥室數(shù)量等,我們得到的樣本數(shù)據(jù)就是這樣一些樣本點(diǎn),這里的、又被稱為特征。很顯然,這些特征的量綱和數(shù)值得量級(jí)都是不一樣的,在預(yù)測房價(jià)時(shí),如果直接使用原始的數(shù)據(jù)值,那么他們對房價(jià)的影響程度將是不一樣的,而通過標(biāo)準(zhǔn)化處理,可以使得不同的特征具有相同的尺度(Scale)。這樣,在使用梯度下降法學(xué)習(xí)參數(shù)的時(shí)候,不同特征對參數(shù)的影響程度就一樣了。簡言之,當(dāng)原始數(shù)據(jù)不同維度上的特征的尺度(單位)不一致時(shí),需要標(biāo)準(zhǔn)化步驟對數(shù)據(jù)進(jìn)行預(yù)處理。下圖中以二維數(shù)據(jù)為例:左圖表示的是原始數(shù)據(jù);中間的是中心化后的數(shù)據(jù),數(shù)據(jù)被移動(dòng)大原點(diǎn)周圍;右圖將中心化后的數(shù)據(jù)除以標(biāo)準(zhǔn)差,得到為標(biāo)準(zhǔn)化的數(shù)據(jù),可以看出每個(gè)維度上的尺度是一致的(紅色線段的長度表示尺度)。originaldata zero-centereddat;其實(shí),在不同的問題中,中心化和標(biāo)準(zhǔn)化有著不同的意義,

?比如在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,通過將數(shù)據(jù)標(biāo)準(zhǔn)化,能夠加速權(quán)重參數(shù)的收斂。?另外,對于主成分分析(PCA)問題,也需要對數(shù)據(jù)進(jìn)行中心化和標(biāo)準(zhǔn)化等預(yù)處理步驟二、利用Excel對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理在使用各種方法進(jìn)行綜合評價(jià)時(shí),首先要對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和無量綱化處理,本例分享利用office的Excel對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使用的是極值處理法。1.O該種方法的算法即標(biāo)準(zhǔn)化公式如咐圖所示r注:對于指標(biāo)值恒定的情況不適用.>極值處理法其中,Mj=m產(chǎn)胰辦 {勺J(下述各式同)o對■于指標(biāo)為極1小型的情風(fēng),上京變?yōu)?_碼-%□特點(diǎn):XijG[0,1],最大值為1,最小值為0,琦[指標(biāo)值恒定的情況不適用(分母為0)不適用"1.該種方法的算法即標(biāo)準(zhǔn)化公式如附圖所示,注:對于指標(biāo)值恒定的情況不適用。2.3.這里以我國2007年中部地區(qū)6省的稅收數(shù)據(jù)為例進(jìn)行計(jì)算。易知,附圖中的稅收指標(biāo)為極大型數(shù)據(jù)。所以采用的公式為x=(x-min)/(Max-min),這樣標(biāo)準(zhǔn)化后的數(shù)據(jù)最大值為1,最小值為02.3.使用Max,Min函數(shù)分別求出數(shù)據(jù)矩陣中每列中的最大值和最小值。Max146.1136184.2366102.922830.257825.885742.873315.6567.800418.230314.99751.968917.105435.06983.3696Min53.053495.078837.810614.82712.828617.00985.78243.17994.12461.13110.30811.79335.57530.0874再求出極值處理法的分母即最大值與最小值的差值max-min93.060289.157865.112215.430723.057125.86359.87364.620514.105713.86641.660815.312129.49453.28224. 使用每列中的數(shù)值與最小值的差比上分母即可求出標(biāo)準(zhǔn)化后的數(shù)據(jù)。公式舉例:值=(B6-$B$13)/$B$14。如附圖所示為使用極值處理法后的前后數(shù)據(jù)對比。―、熵shang權(quán)法介紹熵最先由申農(nóng)引入信息論,目前已經(jīng)在工程技術(shù)、社會(huì)經(jīng)濟(jì)等領(lǐng)域得到了非常廣泛的應(yīng)用。熵權(quán)法的基本思路是根據(jù)指標(biāo)變異性的大小來確定客觀權(quán)重。一般來說,若某個(gè)指標(biāo)的信息熵與越小,表明指標(biāo)值得變異程度越大,提供的信息量越多,在綜合評價(jià)中所能起到的作用也越大,其權(quán)重也就越大。相反,某個(gè)指標(biāo)的信息熵言越大,表明指標(biāo)值得變異程度越小,提供的信息量也越少,在綜合評價(jià)中所起到的作用也越小,其權(quán)重也就越小。二、熵權(quán)法賦權(quán)步驟數(shù)據(jù)標(biāo)準(zhǔn)化將各個(gè)指標(biāo)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。假設(shè)給定了k個(gè)指標(biāo)Xub’*,其中K=&□%,???,"}。假設(shè)對各指標(biāo)T._x質(zhì)—mg〔葺)數(shù)據(jù)標(biāo)準(zhǔn)化后的值為虹,氐…,氐,那么汀 冷一加心0。求各指標(biāo)的信息熵E?=-知(m)-1£堯hi伉j根據(jù)信息論中信息熵的定義,一組數(shù)據(jù)的信息熵’ i=lyOPtj—%-/、,% "—丑 lim以hi吐、=0其中 日,如果A?"-,則定義'-。確定各指標(biāo)權(quán)重根據(jù)信息熵的計(jì)算公式,計(jì)算出各個(gè)指標(biāo)的信息熵為三耳-二。通過信息熵計(jì)算各指標(biāo)的權(quán)重::=三二=1:-勺。三、熵權(quán)法賦權(quán)實(shí)例背景介紹某醫(yī)院為了提高自身的護(hù)理水平,對擁有的11個(gè)科室進(jìn)行了考核,考核標(biāo)準(zhǔn)包括9項(xiàng)整體護(hù)理,并對護(hù)理水平較好的科室進(jìn)行獎(jiǎng)勵(lì)。下表是對各個(gè)科室指標(biāo)考核后的評分結(jié)果。表111個(gè)科室。蜓整體護(hù)理評價(jià)指標(biāo)得分表科窒x2炙X.X:.囊X-也A.10090100:旌100100皿100B10010078.6100卯100100100100C75100S5.7100如100100100100D100100~8.61009010094.4100100E1009010。-100100嵌100100soF100100100100如10010085.7100G10010078.610090100?5.6100100H87.5100S5.7-100100?100100100100I1001優(yōu)923100so100100100100J10090100100100100100100100K10010092.910090100100100100但是由于各項(xiàng)護(hù)理的難易程度不同,因此需要對9項(xiàng)護(hù)理進(jìn)行賦權(quán),以便能夠更加合理的對各個(gè)科室的護(hù)理水平進(jìn)行評價(jià)。熵權(quán)法進(jìn)行賦權(quán)1)數(shù)據(jù)標(biāo)準(zhǔn)化根據(jù)原始評分表,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后可以得到下列數(shù)據(jù)標(biāo)準(zhǔn)化表表211個(gè)科室9項(xiàng)整體護(hù)理評價(jià)指標(biāo)得分表標(biāo)準(zhǔn)化表科室X1X2X3X4X5X6X7X8X9A1.000.001.000.000.501.001.001.001.00B1.001.000.001.000.501.001.001.001.00

2)求各指標(biāo)的信息熵根據(jù)信息炳的計(jì)算公式三= 三;二」.%":.%,可以計(jì)算出9項(xiàng)護(hù)理指標(biāo)各自的信息炳如下:表39項(xiàng)指標(biāo)信息熵表X1X2X3X4X5X6X7X8X9信息燔0.950.870.840.960.940.960.960.960.963)計(jì)算各指標(biāo)的權(quán)重T.1.7=If,(i=1根據(jù)指標(biāo)權(quán)重的計(jì)算公式二三■-''"',可以得到各個(gè)指標(biāo)的權(quán)重如下表所示:表49項(xiàng)指標(biāo)權(quán)重表WiW2W3W4W5W6W7W8W9權(quán)重0.080.220.270.070.110.070.070.070.07對各個(gè)科室進(jìn)行評分根據(jù)計(jì)算出的指標(biāo)權(quán)重,以及對11個(gè)科室9項(xiàng)護(hù)理水平的評分。設(shè)Z,為第l個(gè)科室的最終得分,則了二三If」,各個(gè)科室最終得分如下表所示表511個(gè)科室最終得分表科室ABCDEFGHIJK得分95.7193.1493.1792.7795.8498.0190.2195.1795.9797.8197.02指標(biāo)體系的類型及構(gòu)建原則:1.指標(biāo)體系的類型傳媒競爭力的評價(jià)指標(biāo),是用來評價(jià)傳媒在實(shí)現(xiàn)一定目標(biāo)(中長期或短期)過程中擁有的競爭優(yōu)勢所采用的標(biāo)準(zhǔn)和尺度。指標(biāo)體系是一系列指標(biāo)的構(gòu)成體,這些指標(biāo)之間存在有機(jī)的聯(lián)系并相互作用,指標(biāo)體系通過揭示這種聯(lián)系和相互作用的規(guī)律來反映傳媒競爭力系統(tǒng)的結(jié)構(gòu)狀況,考察系統(tǒng)結(jié)構(gòu)的穩(wěn)定性和應(yīng)變能力,辨明系統(tǒng)功能和效益的演變動(dòng)向和發(fā)展趨勢,最終達(dá)到對傳媒競爭力系統(tǒng)進(jìn)行有效控制的目的。依據(jù)競爭力評價(jià)的目的以及指標(biāo)選取的范圍,可以將傳媒競爭力的評價(jià)指標(biāo)體系分為綜合指標(biāo)體系和單項(xiàng)指標(biāo)體系。單項(xiàng)指標(biāo)體系只針對研究對象的某一方面進(jìn)行評價(jià),所選擇的指標(biāo)也只限于與這一方面相關(guān)的因素。其功能是評價(jià)傳媒的局部競爭力。綜合指標(biāo)體系針對研究對象的全部領(lǐng)域進(jìn)行評價(jià),所選擇的指標(biāo)涉及傳媒的各個(gè)方面。其功能是評價(jià)傳媒的整體競爭力。依據(jù)指標(biāo)體系的內(nèi)在邏輯關(guān)系,又可將其分為描述性指標(biāo)體系和分析性指標(biāo)體系。描述性指標(biāo)體系主要反映系統(tǒng)的實(shí)際狀況或條件,如資源、環(huán)境條件等。它按照一定的體系匯集社會(huì)經(jīng)濟(jì)各項(xiàng)統(tǒng)計(jì)中能描述傳媒競爭力狀態(tài)的各項(xiàng)指標(biāo)。描述性指標(biāo)體系具有以下幾個(gè)基本功能:①匯集描述傳媒競爭力狀況和趨勢的基本數(shù)據(jù),力圖全面、翔實(shí)地反映傳媒競爭力發(fā)展的基本狀態(tài);②它是搜集傳媒競爭力數(shù)據(jù)的框架;③它是協(xié)調(diào)、統(tǒng)一各項(xiàng)統(tǒng)計(jì)的基礎(chǔ)。分析性指標(biāo)體系主要是分析計(jì)量評價(jià)對象各因子之間的內(nèi)在聯(lián)系和各因子的發(fā)展趨勢,如有關(guān)資源效率、經(jīng)濟(jì)效率等方面的指標(biāo)。分析性指標(biāo)體系的指標(biāo)具有高度綜合性和創(chuàng)新性,可以達(dá)到綜合評價(jià)的目的,洞察和把握傳媒競爭力存在及發(fā)展的狀態(tài)和趨勢。但是,分析性指標(biāo)體系在設(shè)置和應(yīng)用中會(huì)碰到指標(biāo)權(quán)重難以確定的問題。另外,傳媒競爭力評價(jià)指標(biāo)的標(biāo)準(zhǔn)(標(biāo)準(zhǔn)值或基準(zhǔn)值)也并不是一個(gè)絕對概念,隨著時(shí)間的變化和外在條件的變化,標(biāo)準(zhǔn)也應(yīng)該做相應(yīng)的變更。依據(jù)競爭力評價(jià)的對象范圍,可以將傳媒競爭力的評價(jià)指標(biāo)體系分為總體性評價(jià)指標(biāo)體系和分類性評價(jià)指標(biāo)體系??傮w性評價(jià)指標(biāo)體系是對所有傳媒進(jìn)行綜合評價(jià)的系統(tǒng),針對的是傳媒競爭力的同一性問題;分類性指標(biāo)體系是對不同類型的媒體進(jìn)行評估的系統(tǒng),它可以解決媒體的差異性問題。兩者可以互相參照,但一般說來,總體評價(jià)方法可以為分類評價(jià)方法提供理論依據(jù);而分類評價(jià)則可以通過對各種不同類型媒體的具體評價(jià),積累大量的實(shí)際數(shù)據(jù),為總體性評價(jià)提供實(shí)踐基礎(chǔ)。本文的首要目標(biāo)是構(gòu)擬一個(gè)總體性的綜合評價(jià)指標(biāo)體系,在此基礎(chǔ)上,以實(shí)際應(yīng)用為主要目的可以再構(gòu)建分類性的綜合或單項(xiàng)指標(biāo)體系。為了既能反映一個(gè)媒體競爭力的現(xiàn)實(shí)存在狀態(tài),又能體現(xiàn)這種競爭力的發(fā)展趨勢,我們將試圖使指標(biāo)體系的描述性與分析性統(tǒng)一起來。但無論是哪一類的指標(biāo)體系,都應(yīng)具有實(shí)用性、定量化和綜合性等幾個(gè)一般性的特征。2.構(gòu)建指標(biāo)體系的原則根據(jù)傳媒競爭力的性質(zhì)、層次和存在形態(tài),傳媒競爭力的評價(jià)不可能基于單個(gè)指標(biāo)數(shù)據(jù)用一種簡單的方法就能完成,而必須考慮諸多方面的因素。與此相應(yīng),確立評價(jià)指標(biāo)也應(yīng)該遵循以下幾個(gè)基本原則。五種賦權(quán)法及其比較摘要:本文介紹了五種確定評估指標(biāo)權(quán)重的方法及其比較。權(quán)重是綜合評價(jià)中的一個(gè)重要的指標(biāo)體系,合理地分配權(quán)重是量化評估的關(guān)鍵,權(quán)重的構(gòu)成是否合理,也直接影響到評估的科學(xué)性。為了更好地選擇確定權(quán)重的方法,我們給出了幾種方法的詳細(xì)計(jì)算過程,以便進(jìn)行精確對比。關(guān)鍵詞:權(quán)重統(tǒng)計(jì)平均法變異系數(shù)法層次分析法德爾菲法排序法一、 權(quán)重的概念權(quán)重是一個(gè)相對的概念,是針對某一指標(biāo)而言。某一指標(biāo)的權(quán)重是指該指標(biāo)在整體評價(jià)中的相對重要程度。權(quán)重表示在評價(jià)過程中,是被評價(jià)對象的不同側(cè)面的重要程度的定量分配,對各評價(jià)因子在總體評價(jià)中的作用進(jìn)行區(qū)別對待。事實(shí)上,沒有重點(diǎn)的評價(jià)就不算是客觀的評價(jià),每個(gè)人員的性質(zhì)和所處的層次不同,其工作的重點(diǎn)也肯定是不能一樣的。因此,相對工作所進(jìn)行的業(yè)績考評必須對不同內(nèi)容對目標(biāo)貢獻(xiàn)的重要程度做出估計(jì),即權(quán)重的確定。二、 3種主要的確定權(quán)重的方法(一)統(tǒng)計(jì)平均法統(tǒng)計(jì)平均數(shù)法(Statisticalaveragemethod)是根據(jù)所選擇的各位專家對各項(xiàng)評價(jià)指標(biāo)所賦予的相對重要性系數(shù)分別求其算術(shù)平均值,計(jì)算出的平均數(shù)作為各項(xiàng)指標(biāo)的權(quán)重。其基本步驟是:第一步,確定專家。一般選擇本行業(yè)或本領(lǐng)域中既有實(shí)際工作經(jīng)驗(yàn)、又有扎實(shí)的理論基礎(chǔ)、并公平公正道德高尚的專家;第二步,專家初評。將待定權(quán)數(shù)的指標(biāo)提交給各位專家,并請專家在不受外界干擾的前提下獨(dú)立的給出各項(xiàng)指標(biāo)的權(quán)數(shù)值;第三步,回收專家意見。將各位專家的數(shù)據(jù)收回,并計(jì)算各項(xiàng)指標(biāo)的權(quán)數(shù)均值和標(biāo)準(zhǔn)差;第四步,分別計(jì)算各項(xiàng)指標(biāo)權(quán)重的平均數(shù)。如果第一輪的專家意見比較集中,并且均值的離差在控制的范圍之內(nèi),即可以用均值確定指標(biāo)權(quán)數(shù)。如果第一輪專家的意見比較分散,可以把第一輪的計(jì)算結(jié)果反饋給專家,并請他們重新給出自己的意見,直至各項(xiàng)指標(biāo)的權(quán)重與其均值的離差不超過預(yù)先給定的標(biāo)準(zhǔn)為止,即達(dá)到各位專家的意見基本一致,才能將各項(xiàng)指標(biāo)的權(quán)數(shù)的均值作為相應(yīng)指標(biāo)的權(quán)數(shù)。(二)變異系數(shù)法變異系數(shù)法(Coefficientofvariationmethod)是直接利用各項(xiàng)指標(biāo)所包含的信息,通過計(jì)算得到指標(biāo)的權(quán)重。是一種客觀賦權(quán)的方法。此方法的基本做法是:在評價(jià)指標(biāo)體系中,指標(biāo)取值差異越大的指標(biāo),也就是越難以實(shí)現(xiàn)的指標(biāo),這樣的指標(biāo)更能反映被評價(jià)單位的差距。由于評價(jià)指標(biāo)體系中的各項(xiàng)指標(biāo)的量綱不同,不宜直接比較其差別程度。為了消除各項(xiàng)評價(jià)指標(biāo)的量綱不同的影響,需要用各項(xiàng)指標(biāo)的變異系數(shù)來衡量各項(xiàng)指標(biāo)取值的差異程度。各項(xiàng)指標(biāo)的變異系數(shù)公式如下:iiixV圖圖圖圖ni,,2,1圖圖 (14—1)式中:iV是第i項(xiàng)指標(biāo)的變異系數(shù)、也稱為標(biāo)準(zhǔn)差系數(shù);問是第i項(xiàng)指標(biāo)的標(biāo)準(zhǔn)差;ix是第i項(xiàng)指標(biāo)的平均數(shù)。各項(xiàng)指標(biāo)的權(quán)重為:000niiiiVVW1(14—2)例如,英國社會(huì)學(xué)家英克爾斯提出了在綜合評價(jià)一個(gè)國家或地區(qū)的現(xiàn)代化程度時(shí),其各項(xiàng)指標(biāo)的權(quán)重的確定方法就是采用的變異系數(shù)法?!纠吭?yán)米儺愊禂?shù)法綜合評價(jià)一個(gè)國家現(xiàn)代化程度時(shí)的指標(biāo)體系中的各項(xiàng)指標(biāo)的權(quán)重。數(shù)據(jù)資料是選取某一年的數(shù)據(jù),包括中國在內(nèi)的中等收入水平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論