




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
12種數(shù)據(jù)量綱化處理方式目錄TOC\o"1-5"\h\z量綱化基本說明 21) 標準化(S) 32) 中心化(C) 3\o"CurrentDocument"3) 歸一化(MMS) 34) 均值化(MC) 3\o"CurrentDocument"5) 正向化(MMS) 46) 逆向化(NMMS) 4\o"CurrentDocument"7) 區(qū)間化(Interval) 48) 初值化(Init) 49) 最小值化(MinS) 5\o"CurrentDocument"10) 最大值化(MaxS) 511) 求和歸一化(SN) 512) 平方和歸一化(SSN) 5如何使用SPSSAU進行量綱化操作 5\o"CurrentDocument"量綱化如何使用? 6在進行數(shù)據(jù)分析時,數(shù)據(jù)具有單位是非常常見的,比如說GDP可以以億作為單元,也可以以百萬作為單位,那么此時就會出現(xiàn)由于單位問題導致的數(shù)字大小問題;這種情況對于分析可能產生影響,因此需要對其進行處理,但是處理的前提是不能失去數(shù)字的相對意義,即之前數(shù)字越大代表GDP越高,處理后的數(shù)據(jù)也不能失去這個特性,類似這樣的處理我們統(tǒng)稱為量綱化。也或者計算距離,數(shù)字1和2的距離可以直接相減得到距離值為1;另外一組數(shù)據(jù)為10000和20000,兩個數(shù)字直接相減得到距離值為10000。如果說距離數(shù)字越大代表距離越遠,那么明顯的10000大于1,但這種情況僅僅是由于數(shù)據(jù)單位導致的,而并非實際希望如何,因此就需要進行量綱化處理。量綱化有很多種方式,但具體應該使用那一種方式,并沒有固定的標準,而應該結合數(shù)據(jù)情況或者研究算法,選擇最適合的量綱化處理方式,SPSSAU共提供12種量綱化處理方法,如下圖。SPSSAU數(shù)屈處理。生成變量->12種量綱化平方和歸T七(SSNJ最大值優(yōu)[MaxG)最小值化[MinS:求和歸T七(SN)區(qū)間化(Inteiwall逆向化〔NMMS)1ST七CMMS)正向化CMMS)初值化Clnit)均值化CMC)標冷化⑸中心化CC}1量綱化基本說明關于量綱化,其具體的公式計算如下,接下來會逐一說明。12種量綱化類型類型意義公式標準化(S)讓數(shù)據(jù)變成平均值為0,標準差為1(X-Mean)/Std中心化(C)讓數(shù)據(jù)變成平均值為0X-Mean歸一化(MMS)讓數(shù)據(jù)壓縮在【0,1】范圍內(X-Min)/(Max-Min)均值化(MC)以平均值作為標準進行對比X/Mean正向化(MMS)讓數(shù)據(jù)壓縮在【0,1】范圍內(X-Min)/(Max-Min)逆向化(NMMS)讓數(shù)據(jù)壓縮在【0,1】范圍內,且數(shù)據(jù)方向顛倒(Max-X)/(Max-Min)區(qū)間化(Interval)讓數(shù)據(jù)壓縮在自己希望的范圍內將數(shù)據(jù)壓縮在a和b之間,默認分別是1和2。a+(b-a)*(X-Min)/(Max-Min)初值化(Init)數(shù)據(jù)除以第1個數(shù)字X/該列第1個不為空的數(shù)據(jù)最小值化(MinS)以最小值作為標準進行對比X/Min最大值化(MaxS)以最大值作為標準進行對比X/Max求和歸一化(SN)數(shù)據(jù)表達總和的比例X/Sum(X)平方和歸一化(SSN)數(shù)據(jù)表達平方和的比例X/Sqrt(Sum(XA2))備注:表格中,X表示某數(shù)據(jù),Mean表示平均值,Std表示標準差;Min表示最小值,Max表示最大值,Sum表示求和,Sqrt表示開根號。1)標準化(S)標準化是一種最為常見的量綱化處理方式。其計算公式為:(X-Mean)/Std。此種處理方式會讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0,標準差一定是1。針對數(shù)據(jù)進行了壓縮大小處理,同時還讓數(shù)據(jù)具有特殊特征(平均值為0標準差為1)。在很多研究算法中均有使用此種處理,比如聚類分析前一般需要進行標準化處理,也或者因子分析時默認會對數(shù)據(jù)標準化處理。比如聚類分析時,其內部算法原理在于距離大小來衡量數(shù)據(jù)間的聚集關系,因此默認SPSSAU會選中進行標準化處理。除此之外,還有一些特殊的研究方法,比如社會學類進行中介作用,或者調節(jié)作用研究時,也可能會對數(shù)據(jù)進行標準化處理。2)中心化(C)中心化這種量綱處理方式可能在社會科學類研究中使用較多,比如進行中介作用,或者調節(jié)作用研究。其計算公式為:X-Mean。此種處理方式會讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0。針對數(shù)據(jù)進行了壓縮大小處理,同時還讓數(shù)據(jù)具有特殊特征(平均值為0)。平均值為0是一種特殊情況,比如在社會學研究中就偏好此種量綱處理方式,調節(jié)作用研究時可能會進行簡單斜率分析,那么平均值為0表示中間狀態(tài),平均值加上一個標準差表示高水平狀態(tài);也或者平均值減一個標準差表示低水平狀態(tài)。3)歸一化(MMS)歸一化的目的是讓數(shù)據(jù)壓縮在【0,1】范圍內,包括兩個邊界數(shù)字0和數(shù)字1;其計算公式為(X-Min)/(Max-Min)。當某數(shù)據(jù)剛好為最小值時,則歸一化后為0;如果數(shù)據(jù)剛好為最大值時,則歸一化后為1。歸一化也是一種常見的量綱處理方式,可以讓所有的數(shù)據(jù)均壓縮在【0,1】范圍內,讓數(shù)據(jù)之間的數(shù)理單位保持一致。4)均值化(MC)均值化在綜合評價時有可能使用,比如進行灰色關聯(lián)法研究時就常用此種處理方式;其計算公式為X/Mean,即以平均值作為單位,全部數(shù)據(jù)均去除以平均值。需要特別說明一點是,此種處理方式有個前提,即所有的數(shù)據(jù)均應該大于0,否則可能就不適合用此種量綱方式。5) 正向化(MMS)正向化的目的是對正向指標保持正向且量綱化,什么意思呢。比如這樣一些指標GDP增長率、科研產出數(shù)量、失業(yè)率共3個指標;明顯的,GDP增長率、科研產出數(shù)量是數(shù)字越大越好,而失業(yè)率是數(shù)字越小越好。正向化的目的就是讓數(shù)字越大越好的意思,而且同時其還讓數(shù)據(jù)壓縮在【0,1】范圍內即進行了量綱處理。其計算公式為(X-Min)/(Max-Min)。當某數(shù)據(jù)剛好為最小值時,則歸一化后為0;如果數(shù)據(jù)剛好為最大值時,則歸一化后為1。正向化和歸一化的公式剛好完全相等,但正向化強調讓數(shù)字保持越大越好的特性且對數(shù)據(jù)單位壓縮,而歸一化僅強調數(shù)字壓縮在【0,1】之間。正向化的使用情況為:當指標中有正向指標,又有負向指標時;此時使用正向化讓正向指標全部量綱化;也或者指標全部都是正向指標,讓所有正向指標都量綱化處理。逆向化(NMMS)逆向化的目的是對逆向指標正向且量綱化,什么意思呢。比如這樣一些指標GDP增長率、科研產出數(shù)量、失業(yè)率共3個指標;明顯的,GDP增長率、科研產出數(shù)量是數(shù)字越大越好,而失業(yè)率是數(shù)字越小越好。逆向化的目的就是讓數(shù)字越小越好的意思,而且同時其還讓數(shù)據(jù)壓縮在【0,1】范圍內即進行了量綱處理。其計算公式為(Max-X)/(Max-Min)。從公式就可以看出,分母永遠是大于0隨著X的增大,分子會越來越小,那么就對逆向指標逆向化處理之后就會得到一個這樣的特征,即數(shù)字越大越好(數(shù)字越大時,其實X是越小)。相當于將逆向指標逆向化后,新的數(shù)據(jù)為數(shù)字越大越好,這樣便于進行方向的統(tǒng)一,尤其是在指標同時出現(xiàn)正向指標和逆向指標時,針對逆向指標進行逆向處理,是非常常見的處理方式。區(qū)間化(Interval)區(qū)間化的目的是讓數(shù)據(jù)壓縮在【a,b】范圍內,a和b是自己希望的區(qū)間值,如果a=O,b=l,那么其實就是一種特殊情況即歸一化;其計算公式為a+(b-a)*(X-Min)/(Max-Min)。此公式會讓數(shù)據(jù)永遠的保持在【a,b】之間,SPSSAU默認a為1,b為2,即將數(shù)據(jù)壓縮在【1,2】之間,當然研究者根據(jù)需要進行設置即可。它的目的僅僅是對數(shù)據(jù)進行壓縮在固定的區(qū)間,保持數(shù)據(jù)數(shù)理單位的一致性。初值化(Init)初值化在綜合評價時有可能使用,比如進行灰色關聯(lián)法研究時就常用此種處理方式;其計算公式為X/該列第1個不為空的數(shù)據(jù),即以數(shù)據(jù)中第1個不為空的數(shù)據(jù)作為參照標準,其余的數(shù)據(jù)全部去除以該值。比如說2000,2001,2002,2003,一直到2020共計21年的GDP數(shù)據(jù),第1個數(shù)據(jù)就是2000年的GDP,所有的數(shù)據(jù)都去除以2000年的GDP,相當于以2000年GDP作為參照標準,所有數(shù)據(jù)全部除以2000年的GDP(包括2000年GDP除以自己得到數(shù)字1)。一般來說,初值化這種處理方式適用于有著一種趨勢或規(guī)律性的數(shù)據(jù),比如上述2000~2020年的GDP等,而且數(shù)據(jù)正常情況下都是全部大于0,因為出現(xiàn)負數(shù),通常會失去其特定意義。最小值化(MinS)最小值化,其目的是讓最小值作為參照標準,所有的數(shù)據(jù)全部除以最小值;其計算公式為X/Min,即以最小值作為單位,全部數(shù)據(jù)全部去除以最小值。需要特別說明一點是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。10)最大值化(MaxS)最大值化,其目的是讓最大值作為參照標準,所有的數(shù)據(jù)全部除以最大值;其計算公式為X/Max即以最大值作為單位,全部數(shù)據(jù)全部去除以最大值。需要特別說明一點是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。11)求和歸一化(SN)求和歸一化,其目的是讓‘求和值'作為參照標準,所有的數(shù)據(jù)全部除以求和值,得到的數(shù)據(jù)相當于為求和的占比;其計算公式為X/Sum(X),即以所有數(shù)據(jù)的'求和值'作為單位,全部數(shù)據(jù)全部去除以‘求和值'。需要特別說明一點是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。TOPSIS法的時候使用此種處理方式較多。12)平方和歸一化(SSN)平方和歸一化,其目的是讓'平方和值'作為參照標準,所有的數(shù)據(jù)全部除以平方和值,得到的數(shù)據(jù)相當于為平方和的占比;其計算公式為X/Sqrt(Sum(XT)),即以所有數(shù)據(jù)的'平方和值'作為單位,全部數(shù)據(jù)全部去除以'平方和值'。需要特別說明一點是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。TOPSIS法的時候使用此種處理方式較多。2如何使用SPSSAU進行量綱化操作關于使用SPSSAU進行量綱化相關操作上,其位置在SPSSAU儀表盤〉數(shù)據(jù)處理〉生成變量中,截圖如下:平均值 *請輸入變量名干常用平均值求和虛擬{啞)變量標準化⑸中心優(yōu)Q萊積{交互頃)目総對麹Ln)10為底對麹LogIBH—均值化{MG正向逆向優(yōu)(NMMS)區(qū)間化{Interval)初值化Unit)最彷值化{MinS】雖大値mrviaxS)求和掃THSN}平方fQH^{SSN)-SPSSAU可批量進行某種類型的量綱化操作,默認SPSSAU會在處理的名稱前加上字母進行標識,比如名稱為“A”的標題進行標準化操作,那么SPSSAU會輸出“S_A”。“S”表示進行了標準化處理。3量綱化如何使用?量綱化按是否具有實際意義可分為兩類,一類是量綱處理方式有著一定的實際意義,另一類是僅數(shù)理角度的量綱處理方式;如下圖:
兩案彌優(yōu)艾佰化CMC)二冷和歸Tt[史眄\f中心出<C)三吆(MMS)加理丿七兩案彌優(yōu)艾佰化CMC)二冷和歸Tt[史眄\f中心出<C)三吆(MMS)加理丿七的晝血瑾.三一討(MM5J住勺七(NMMS)&間比(Interva■-奮準七{Sj1\斎口歸Tt(SN)苛實研息義F?藝進羔S^iHRj(MaxS)耳小恒憂(MinS)量綱化的目的是將數(shù)據(jù)進行量綱單位統(tǒng)一化,有的量綱化具有實際意義,比如均值化,初值化,最小值化,最大值化,和求和歸一化,平方和歸一化共6種。分別代表數(shù)據(jù)除以平均值,數(shù)據(jù)除以第1個數(shù),數(shù)據(jù)除以最小值,數(shù)據(jù)除以最大值,數(shù)據(jù)除以求和值,數(shù)據(jù)除以平方和值。相當于說,它們都找到一個參照標準項,然后所有數(shù)據(jù)去除以參照標準項。此6種方式的特點在于,一般要求數(shù)據(jù)全部都大于0,如果出現(xiàn)小于0或者等于0就有可能出問題,比如剛好分母為0,那么就出現(xiàn)無法相除。除此之外,僅數(shù)理化的量綱處理,包括標準化,中心化,歸一化,正向化,逆向化,區(qū)間化,均在于讓數(shù)據(jù)保持在一定的區(qū)間范圍內,而且處理后帶有一定的數(shù)理特征,比如標準化后數(shù)據(jù)的平均值為0標準差為1;中心化后數(shù)據(jù)平均值為0;歸一化后數(shù)據(jù)最小為0最大為1;正向化后數(shù)據(jù)最小為0最大為1;逆向化后數(shù)據(jù)最小為0最大為1;區(qū)間化是研究者自行設定處理后數(shù)據(jù)壓縮在對應的范圍內。號均直叱<MC)J?ffllfitdni]L,■j3吐小ia叱iMiftfij號均直叱<MC)J?ffllfitdni]L,■j3吐小ia叱iMiftfij評方加b平萬細呂一出{5ilU:l<p狀世⑸ 瞬希Et干i肚切糕躍切I/?中心址口 址理百花磴I毛即畫加1/進埶d崗丈G1點和日Tt恬MI歸TEilMMS]薩P2砲理比的S;閔牡理擦專館正勺代[MMS]V.R|\!|fe/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國來電顯示電話機市場調查研究報告
- 2025年中國木漿小盤紙數(shù)據(jù)監(jiān)測研究報告
- 2025年中國有源射頻收發(fā)器集成電路市場調查研究報告
- 2025年中國智能數(shù)字光柱顯示調節(jié)儀數(shù)據(jù)監(jiān)測研究報告
- 2025年中國無塵布切割機市場調查研究報告
- 2025年中國無刷電動螺絲批市場調查研究報告
- 2025年中國新型手搖二折床市場調查研究報告
- 2025年中國數(shù)字顯示滑動式剖面沉降儀數(shù)據(jù)監(jiān)測報告
- 2025至2031年中國精密微型互感器行業(yè)投資前景及策略咨詢研究報告
- 2025年中國工藝籃市場調查研究報告
- 人民防空工程標識設置標準(試行)
- 傳承勞動精神彰顯青春風采發(fā)言稿
- 智能物流無人機配送行業(yè)發(fā)展建議
- DB11-T854-2023占道作業(yè)交通安全設施設置技術要求
- 東盟互聯(lián)互通總體規(guī)劃2025
- 2024-2030年中國婦科凝膠行業(yè)市場發(fā)展分析及前景趨勢與投資研究報告
- 中華人民共和國執(zhí)業(yè)醫(yī)師法培訓課件
- 遼寧省大連市西崗區(qū) 2023-2024學年八年級下學期7月期末道德與法治試題
- 房樹人繪畫分析(附圖)
- 《團體標準 碳纖維復合芯導線配套金具技術條件 第2部分:接續(xù)管》
- 2024年國家義務教育質量監(jiān)測-八年級心理健康考核試題
評論
0/150
提交評論