SAS軟件與統(tǒng)計(jì)應(yīng)用論文_第1頁
SAS軟件與統(tǒng)計(jì)應(yīng)用論文_第2頁
SAS軟件與統(tǒng)計(jì)應(yīng)用論文_第3頁
SAS軟件與統(tǒng)計(jì)應(yīng)用論文_第4頁
SAS軟件與統(tǒng)計(jì)應(yīng)用論文_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、SAS軟件與統(tǒng)計(jì)應(yīng)用教程論文第 頁摘 要本學(xué)期通過對SAS軟件與統(tǒng)計(jì)應(yīng)用這門課的學(xué)習(xí),讓我知道SAS系統(tǒng)是一個(gè)大型的應(yīng)用軟件系統(tǒng),具有完備的數(shù)據(jù)訪問、管理、分析、呈現(xiàn),以及應(yīng)用開發(fā)功能。這篇文章運(yùn)用主成分分析綜合評(píng)價(jià)方法,對1999年我國西部地區(qū)教育人力資源發(fā)展水平進(jìn)行處理和分析,采用的是西藏,新疆等西部省份教育人力資源發(fā)展水平(原始數(shù)據(jù)見附錄)。選出14個(gè)省的情況作為統(tǒng)計(jì)分析數(shù)據(jù),其中分析的項(xiàng)目為:每百萬人口學(xué)校數(shù);每十萬人口畢業(yè)生數(shù);每十萬人口招生數(shù);每十萬人口在校生數(shù);每十萬人口研究生數(shù);每十萬人口教職工數(shù);每十萬人口專職教師數(shù);高級(jí)教師占專職教師的比例;每所學(xué)校在校生數(shù);生師比。依次用

2、A1,A2,A3,A4,A5,A6,A7,A8,A9,A10表示。用“分析家”作主成分分析,并且對數(shù)據(jù)進(jìn)行如下處理:第一:對于所選取的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行簡單描述統(tǒng)計(jì)分析,得出數(shù)據(jù)的平均值、數(shù)據(jù)標(biāo)準(zhǔn)差,最大值,最小值等。第二:對于所選取的統(tǒng)計(jì)數(shù)據(jù)用”analyst”作主成分分析計(jì)算相關(guān)系數(shù)矩陣的特征值、上下特征值之差、各主成分的方差貢獻(xiàn)率、以及累積貢獻(xiàn)率。第三:由相關(guān)系數(shù)矩陣的兩個(gè)最大特征值的特征向量,可以寫出第一、第二主成分的得分。第四:在“insight”里面繪制了散點(diǎn)圖。由圖可知,在散點(diǎn)圖越靠向右上角的地區(qū),教育人力資源發(fā)展水平越高,越靠向左上角的地區(qū),教育人力資源發(fā)展水平越低。從以上結(jié)論分析可

3、以知道影響各省份教育人力資源發(fā)展水平的主要因素,從而可以更好地幫助國家調(diào)整教育人力資源結(jié)構(gòu),更好地發(fā)展我國西部教育事業(yè)。關(guān)鍵字: analyst 主成分分析 教育人力資源發(fā)展 MEANS過程目 錄TOC o 1-3 h u HYPERLINK l _Toc11134 第一章 基本介紹 PAGEREF _Toc11134 3 HYPERLINK l _Toc18411 1.1 研究目的 PAGEREF _Toc18411 3 HYPERLINK l _Toc567 1.2 采用方法 PAGEREF _Toc567 3 HYPERLINK l _Toc9798 1.3 理論知識(shí) PAGEREF _

4、Toc9798 3 HYPERLINK l _Toc31796 第二章 數(shù)據(jù)預(yù)處理 PAGEREF _Toc31796 4 HYPERLINK l _Toc17228 第三章 具體模型 PAGEREF _Toc17228 4 HYPERLINK l _Toc9677 3.1 建立數(shù)據(jù)集 PAGEREF _Toc9677 4 HYPERLINK l _Toc24477 3.2 具體模型(程序) PAGEREF _Toc24477 4 HYPERLINK l _Toc13355 運(yùn)行結(jié)果及分析 PAGEREF _Toc13355 5 HYPERLINK l _Toc32439 4.1 使用“分析家

5、”做主成分分析的步驟 PAGEREF _Toc32439 5 HYPERLINK l _Toc7134 4.2 主成分的結(jié)果分析 PAGEREF _Toc7134 8 HYPERLINK l _Toc3510 參考文獻(xiàn) PAGEREF _Toc3510 12 HYPERLINK l _Toc23867 附錄 PAGEREF _Toc23867 13第一章 基本介紹1.1 研究目的通過SAS軟件分析,對1999年我國西部地區(qū)教育人力資源發(fā)展水平有一個(gè)大致了解。隨著國家教育方針的調(diào)整,西部各地區(qū)為了促進(jìn)本地區(qū)的教育發(fā)展,分別采取了各種措施,教育方面的發(fā)展有了顯著地成就。本文通過SAS軟件分析,對1

6、999年我國西部地區(qū)教育人力資源發(fā)展水平有一個(gè)大致了解,從而可以更好地幫助國家調(diào)整(優(yōu)化)教育人力資源結(jié)構(gòu),使人民的受教育水平更加優(yōu)越。1.2 采用方法(1)描述性統(tǒng)計(jì)量:means。(2)檢驗(yàn):使用analyst模塊進(jìn)行主成分分析。1.3 理論知識(shí)Means過程(均值過程): 用于對數(shù)據(jù)型變量產(chǎn)生針對單個(gè)變量的簡單描述性統(tǒng)計(jì)。proc means過程時(shí),會(huì)對所有數(shù)值型變量進(jìn)行操作,得到各變量的非缺失觀測數(shù)N,均值MEAN,標(biāo)準(zhǔn)差STD DEV,最大值Max和最小值Min五種統(tǒng)計(jì)值,但means過程可以計(jì)算16種統(tǒng)計(jì)量。主成分分析:是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量

7、是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。主成分分析是數(shù)學(xué)上對數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來眾多的具有一定相關(guān)性的指標(biāo)(比如p個(gè)指標(biāo)),重新組合成一組新的互不相關(guān)的綜合指標(biāo)來代替原來指標(biāo)。通常數(shù)學(xué)上的處理就是將原來p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合。為了有效地反映原有信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語言表達(dá)就是要求Cov(F1,F(xiàn)2)0。稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四、

8、第p個(gè)主成分。第二章 數(shù)據(jù)預(yù)處理對數(shù)據(jù)較少的程序,可以用DATA步建立永久的SAS集。永久的SAS集,由定義邏輯庫與定義數(shù)據(jù)集兩步完成。邏輯庫定義通過LIBNAME語句完成,數(shù)據(jù)集定義用DATA 語句實(shí)現(xiàn)。指定邏輯庫的命令語句為全程語句,其格式如下:LIBNAME ;指定要建立數(shù)據(jù)集的命令語句格式如下:DATA .;LIBNAME語句把磁盤中的子目錄與用戶定義的邏輯庫名連接起來。用此方法根據(jù)已知的數(shù)據(jù)就可以建立生成以下的數(shù)據(jù)集。第三章 具體模型3.1 建立數(shù)據(jù)集 2012年11月19日 星期一 下午12時(shí)19分55秒 5Obs region A1 A2 A3 A4 A5 A6 A7 A8 A9

9、 A101 海南 0.66 49 64 191 12.0 47 19 0.33 2914 10.1602 廣西 0.62 41 69 192 34.0 40 18 0.33 3113 10.4503 山西 0.72 61 118 193 60.0 74 30 0.33 4092 10.1704 內(nèi)蒙古 0.80 46 77 211 53.0 71 32 0.36 2617 7.4305 四川 0.75 66 112 314 164.0 77 32 0.39 4199 10.1006 重慶 0.50 41 77 211 120.0 53 21 0.37 4192 10.1007 貴州 0.54

10、28 67 152 21.0 35 16 0.33 2823 8.9508 云南 0.57 38 66 176 49.0 44 20 0.38 3079 83619 西藏 1.56 42 65 157 3.9 68 30 0.14 1005 5.10010 陜西 1.19 100 188 496 398.0 140 55 0.36 4173 9.90011 甘肅 0.71 55 90 246 113.0 65 27 0.31 3480 9.23012 青海 1.18 49 68 183 17.0 68 34 0.20 1558 5.32013 寧夏 0.92 49 83 242 25.0 73

11、 33 0.33 2624 7.52014 新疆 0.96 66 110 305 51.0 96 42 0.30 3180 7.2303.2 具體模型(程序)Data work.data1;input region $1-10 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10;cards;海南 0.66 49 64 191 12 47 19 0.33 2914 10.16廣西 0.62 41 69 192 34 40 18 0.33 3113 10.45山西 0.72 61 118 193 60 74 30 0.33 4092 10.17內(nèi)蒙古 0.8 46 77 211 53 7

12、1 32 0.36 2617 7.43四川 0.75 66 112 314 164 77 32 0.39 4199 10.1重慶 0.5 41 77 211 120 53 21 0.37 4192 10.1貴州 0.54 28 67 152 21 35 16 0.33 2823 8.95云南 0.57 38 66 176 49 44 20 0.38 3079 8361西藏 1.56 42 65 157 3.9 68 30 0.14 1005 5.1陜西 1.19 100 188 496 398 140 55 0.36 4173 9.9甘肅 0.71 55 90 246 113 65 27 0.

13、31 3480 9.23青海 1.18 49 68 183 17 68 34 0.2 1558 5.32寧夏 0.92 49 83 242 25 73 33 0.33 2624 7.52新疆 0.96 66 110 305 51 96 42 0.3 3180 7.23;run;proc print;run;第四章 運(yùn)行結(jié)果及分析4.1 使用“分析家”做主成分分析的步驟 1) 在“分析家”中打開數(shù)據(jù)集work.data1; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Multivariate(多元分析)”“Principal Components(主成分分析)”,打開“Principal C

14、omponents”對話框;3) 在對話框中輸入主成分分析的變量,如圖4-1;圖4-14) 單擊“Statistics(統(tǒng)計(jì))”按鈕,打開“Principal Components:Statistics”對話框;在“# of components:”右邊的框中指定主成分的個(gè)數(shù)10,如圖4-2,單擊“OK”返回;圖4-25) 單擊“Save Data”按鈕,打開“Principal Components:Save Data”對話框,在該對話框中可選擇存儲(chǔ)數(shù)據(jù)。選中“Create and save scores data”,如圖4-3所示。單擊“OK”返回;圖4-3 6) 單擊“Plots”按鈕,

15、打開“Principal Components:Plots”對話框,可以設(shè)置圖形輸出。在“Scree Plot (碎石圖)”選項(xiàng)卡中(圖4-4),選中“Create scree plot(建立碎石圖)”復(fù)選框。在“Component Plot (成分圖)”選項(xiàng)卡中(圖4-5),選中“Create component Plot(建立成分圖)”復(fù)選框。圖4-4圖4-54.2 主成分的結(jié)果分析輸出的數(shù)字分析結(jié)果包括4個(gè)部分:簡單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及相關(guān)系數(shù)矩陣的特征向量。1) 圖4-6給出變量的簡單統(tǒng)計(jì)量,圖中顯示10項(xiàng)指標(biāo)中A9(每所學(xué)校在校生數(shù))、A5(每十萬人口研究生

16、數(shù))、A4(每十萬人口在校生數(shù))是最為重要的,其標(biāo)準(zhǔn)差遠(yuǎn)遠(yuǎn)高出其他變量圖4-62) 圖4-7可得:A2(每十萬人口畢業(yè)生數(shù))與A3(每十萬人口招生數(shù))、A4(每十萬人口在校生數(shù))、A6(每十萬人口教職工數(shù));A7(每十萬人口專職教師數(shù))與A6(每十萬人口教職工數(shù)與);A4(每十萬人口在校生數(shù))與A3(每十萬人口招生數(shù))、A5(每十萬人口研究生數(shù))有較強(qiáng)的相關(guān)性。圖4-73) 圖4-8給出相關(guān)系數(shù)矩陣的特征值(Eigenvalues)、上下特征值之差(Difference)、各主成分的方差貢獻(xiàn)率(proportion)以及累積貢獻(xiàn)率(Cumulative)圖4-8相關(guān)系數(shù)矩陣的特征值即各主成分的

17、方差,可以看出,第一主成分的方差貢獻(xiàn)率為58.54%,第二主成分的方差貢獻(xiàn)率為34.40%,第三主成分的方差貢獻(xiàn)率為3.05%。說明第一、二主成分方差貢獻(xiàn)率已經(jīng)達(dá)到85%以上,可以很好地概括這組數(shù)據(jù)。在“分析家”左邊的管理窗口中雙擊“Scree plot”項(xiàng),打開的“Scree plot”對話框顯示10個(gè)特征值的“碎石圖”,很直觀地看到第一、二主成分遠(yuǎn)遠(yuǎn)大于其它特征值,說明第一、二主成分已經(jīng)代表了絕大部分信息。圖4-9根據(jù)步驟1-4,在“# of components:”右邊的框中指定主成分的個(gè)數(shù)2, 單擊“OK”返回,其他步驟均一樣。得到輸出結(jié)果如圖4-10。圖4-104) 圖4-11給出相

18、關(guān)系數(shù)矩陣的特征向量,由最大特征值所對應(yīng)的特征向量可以寫出第一、二主成分的表達(dá)式。 Prin1=0.103724A1*+0.399505A2*+0.404750A3*+0.401993A4*+0.380404A5* +0.379236A6*+0.348603A7*+0.137677A8*+0.243173A9*-0.126794A10* Prin2=-0.508787A1*-0.070746A2*+0.001527A3*-0.010396A4*+0.072045A5* -0.201026A6*-0.265655A7*+0.466344A8*+0.415852A9*+0.479168A10*圖4

19、-11可見,第一主成分中A2、A3、A4、A5、A6、A7的系數(shù)最大;第二主成分中A8、A9、A10具有較大的正系數(shù),A1則具有較大的負(fù)系數(shù)。因此,可以把第一主成分看成是由A2(每十萬人口畢業(yè)生數(shù))、A3(每十萬人口招生數(shù))、A4(每十萬人口在校生數(shù))、A5(每十萬人口研究生數(shù))、A6(每十萬人口教職工數(shù))、A7(每十萬人口專職教師數(shù))所刻畫的反映1999年我國西部地區(qū)教學(xué)水平的綜合指標(biāo);把第二主成分看成是由A1(每百萬人口學(xué)校數(shù))、A8(高級(jí)教師占專職教師的比例)、A9(每所學(xué)校在校生數(shù))、A10(生師比)所刻畫的我國西部地區(qū)教育發(fā)展水平的綜合指標(biāo)。利用特征向量各分量的值可以對主成分進(jìn)行解釋

20、,對于第一、二主成分而言,各變量所占比重如圖4-11,且(第一主成分各變量對應(yīng)的比重)均為正數(shù),說明第一,二主成份是對所有指標(biāo)的一個(gè)綜合測度,作為綜合的信用等級(jí)指標(biāo)。 5) 在“分析家”窗口中,雙擊左邊項(xiàng)目管理中的“Scores Table”項(xiàng),打開“Scores Table”對話框;選擇菜單“File” “Save as By SAS Name”,將其保存為數(shù)據(jù)表Scores;里面包含了第一、二主成分的得分。圖4-12圖4-13由圖4-13可知:陜西、四川、新疆的第一主成分取值較高,重慶,廣西,云南第二主成分取值較高。 結(jié)果分析陜西、四川、新疆的第一主成分取值較高說明這些地區(qū)教學(xué)水平較高,其

21、次是山西、甘肅等。由于在第二主成分中A1(每百萬人口學(xué)校數(shù))具有負(fù)的載荷量,因此處于右半圖中的重慶、四川、廣西等地的每百萬人口學(xué)校數(shù)較小,A10(生師比)較大, 表明這些地區(qū)的教育發(fā)展水平較高;而左半圖中青海、西藏等地的每百萬人口學(xué)校數(shù)水平較高,A10(生師比)較小,表明這些地區(qū)的教育發(fā)展水平較低。從以上統(tǒng)計(jì)分析可以看出,高等教育人力資源發(fā)展水平受地域的影晌很大中部,陜西、四川的教育水平較高??傮w上說來,教育人力資源的發(fā)展水平與地域的關(guān)系為:東高西低,北高南低,四周低于中間,沿海高于內(nèi)地,中部省區(qū)發(fā)展水平居中,其中陜西、四川的教育基礎(chǔ)好,排名稍微靠前。這些統(tǒng)計(jì)分析結(jié)果與實(shí)際情況是相吻合的。從以上分析可以看出,我國高等教育在地域布局上偏重于沿海大城市和中部重要地區(qū),邊遠(yuǎn)地區(qū)很少有高等院校分布。這有深層次的經(jīng)濟(jì)原因。我國地域遼闊,資源分布不均,生產(chǎn)力發(fā)展不平衡:東部地區(qū)得天獨(dú)厚,基礎(chǔ)好,發(fā)展快;而西部邊沿地區(qū)經(jīng)濟(jì)基礎(chǔ)卻非常薄弱。經(jīng)濟(jì)上的不平衡特征反應(yīng)在高等教育上表現(xiàn)為地域間存在很大差異,并且這種差異將隨著經(jīng)濟(jì)差異的擴(kuò)大而擴(kuò)大。高等教育水平地域差異的過分?jǐn)U大將導(dǎo)致高等教育的地區(qū)分割與對立。相關(guān)部門有必要采取措施逐步縮小這種差距。參考文獻(xiàn)【1】SAS軟件與統(tǒng)計(jì)應(yīng)用教程 汪遠(yuǎn)征,徐雅靜,北京機(jī)械工業(yè)出版,2007;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論