SAS統(tǒng)計(jì)分析從入門到精通_第1頁
SAS統(tǒng)計(jì)分析從入門到精通_第2頁
SAS統(tǒng)計(jì)分析從入門到精通_第3頁
SAS統(tǒng)計(jì)分析從入門到精通_第4頁
SAS統(tǒng)計(jì)分析從入門到精通_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章

數(shù)據(jù)預(yù)處理章澤武博士副教授聯(lián)系:統(tǒng)計(jì)學(xué)原理中數(shù)據(jù)預(yù)處理的內(nèi)容:

數(shù)據(jù)預(yù)處理是在對(duì)數(shù)據(jù)分類或分組之前所做的必要處理,內(nèi)容包括:數(shù)據(jù)的審核、數(shù)據(jù)的篩選、數(shù)據(jù)的排序、數(shù)據(jù)透視表等內(nèi)容。本課程中數(shù)據(jù)預(yù)處理的內(nèi)容:SAS的編程根底SAS的數(shù)據(jù)處理對(duì)象數(shù)據(jù)預(yù)處理的根本方法:數(shù)據(jù)整理、數(shù)據(jù)的分拆與合并、數(shù)據(jù)清洗、數(shù)據(jù)變換1.SAS編程根底1.1.SAS編程語言的根本結(jié)構(gòu)在SAS中可以利用“Editor”或“ProgramEditor”窗口書寫程序SAS語言結(jié)構(gòu)比較簡單,主要由DATAstep和PROCstep組成。程序的每一行以“;”表示結(jié)束。一些全局變量的設(shè)置語句應(yīng)放在DATA步之前。其根本命令有:title“…”;libname…;data…;run;proc…;run;根本運(yùn)算符號(hào):=<>≤≥≠EqltgtlegeneDATA步〔數(shù)據(jù)步〕是SAS進(jìn)行數(shù)據(jù)管理和操作的根本步驟,其主要功能包括:建立SAS數(shù)據(jù)集,導(dǎo)入外部數(shù)據(jù)文件,分割、修改、合并、更新現(xiàn)有的SAS數(shù)據(jù)集,分析、呈現(xiàn)和管理數(shù)據(jù),利用數(shù)據(jù)集中已有數(shù)據(jù)計(jì)算或生成新的變量主要命令有:infile語句:從外部文件獲取數(shù)據(jù)input語句:為讀入的數(shù)據(jù)指定變量名及格式cards語句:用于在SAS系統(tǒng)中直接輸入數(shù)據(jù)PROC步〔過程步〕主要進(jìn)行相應(yīng)的數(shù)據(jù)處理和分析活動(dòng)主要命令有:data語句表示該P(yáng)ROC步所處理的數(shù)據(jù)集var語句表示處理該數(shù)據(jù)集中的特定變量Where語句表示指定系統(tǒng)處理符合一定條件或表達(dá)式的眼本By語句表示指定系統(tǒng)按照所列示的變量進(jìn)行分組處理,使用該語句時(shí),必須先對(duì)該語句中指定的變量進(jìn)行排序此外,常見的PROC過程還有:PRINT顯示數(shù)據(jù)集的變量名及變量值SORT對(duì)指定變量進(jìn)行排序MEANS對(duì)數(shù)值型變量進(jìn)行描述統(tǒng)計(jì)分析UNIVARIATE對(duì)數(shù)值型變量進(jìn)行描述統(tǒng)計(jì)分析FREQ對(duì)定序變量進(jìn)行描述統(tǒng)計(jì)分析CHART對(duì)指定變量繪制文本形式的圖形GCHART在“Graph”窗口中對(duì)指定變量繪制圖形結(jié)構(gòu)化編程語言SAS結(jié)構(gòu)化編程語句主要有順序語句、條件語句和循環(huán)語句。這三種根本形式的語句均可在DATA不和PROC步中使用。條件語句例1.比較X和Y兩個(gè)變量的大小。如果X>Y,那么輸出“X>Y”;如果X<Y,那么輸出“X<Y”;如果X=Y(jié),那么輸出“X=Y(jié)”。假定X=10,Y=20。循環(huán)語句:計(jì)數(shù)循環(huán)、當(dāng)循環(huán)、直到循環(huán)計(jì)數(shù)循環(huán):data;dox=toby;end;Put“y=”y;run;例:計(jì)算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和當(dāng)循環(huán):data;dowhile(限定條件)end;put“y=”y;run;例:計(jì)算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和。直到循環(huán):dountil(限定條件〕例:計(jì)算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和。例:在1~100以內(nèi)計(jì)算50以內(nèi)的奇數(shù)自然數(shù)之和。

2.SAS的數(shù)據(jù)處理對(duì)象數(shù)據(jù)庫和SAS數(shù)據(jù)集SAS數(shù)據(jù)庫SAS數(shù)據(jù)庫具體是指存放SAS數(shù)據(jù)文件的文件夾,它與計(jì)算機(jī)中某個(gè)具體的文件夾相對(duì)應(yīng)。SAS數(shù)據(jù)庫的分類:臨時(shí)庫:只有一個(gè),名為Work。每次啟動(dòng)SAS時(shí)自動(dòng)生成,關(guān)閉SAS時(shí)自動(dòng)被去除。永久庫:可以有多個(gè)。用戶可以自己指定永久庫的庫標(biāo)記。每次啟動(dòng)SAS,有三個(gè)數(shù)據(jù)庫是不可少的:SASUSERSASHELPWORK

SAS永久數(shù)據(jù)庫的建立

通過工具欄建立:

通過菜單方式建立:

資源管理器/邏輯庫/文件選項(xiàng)中的新建

通過命令的方式建立:dmlibassign

通過編程的方式建立:Libname例:建立一個(gè)名為“test”的永久數(shù)據(jù)庫,該數(shù)據(jù)庫對(duì)應(yīng)的文件夾所在的位置為“D:\Statistics\sas\sas9.2”Libnametest“D:\Statistics\sas\sas9.2”SAS數(shù)據(jù)集與SAS數(shù)據(jù)庫類似,SAS數(shù)據(jù)集也可以分為臨時(shí)數(shù)據(jù)集和永久數(shù)據(jù)集??梢允遣怀^8個(gè)字符的字符串,但第一個(gè)字符必須是字母。每一個(gè)數(shù)據(jù)集都有一個(gè)二級(jí)名字。第一級(jí)是庫標(biāo)記,第二級(jí)是數(shù)據(jù)集名,中間用“.”格開。調(diào)用永久數(shù)據(jù)庫中數(shù)據(jù)集時(shí),應(yīng)當(dāng)指定該數(shù)據(jù)集對(duì)應(yīng)的庫標(biāo)記,而調(diào)用臨時(shí)數(shù)據(jù)庫的數(shù)據(jù)集時(shí),那么可以省略庫標(biāo)記,直接引用即可。數(shù)據(jù)集的建立SAS變量的根本類型:數(shù)值型、字符型。默認(rèn)長度為8字節(jié),對(duì)于實(shí)際數(shù)據(jù)中遇到的缺失值,SAS系統(tǒng)通常用“.”表示。通過菜單建立SAS數(shù)據(jù)集:1.解決方案\分析\交互式數(shù)據(jù)分析\insightsolutions\Analysis\interactivdataanalysis\insight2.解決方案\分析\分析家通過命令建立SAS數(shù)據(jù)集(假設(shè)是非數(shù)值變量,必須在變量名稱后空一格打上$)DATAname;INPUTvariable;CARDS;Datalines;RUN;學(xué)

號(hào)12345678910姓名張三李四王二劉五張二李三劉大劉二劉三劉四成績語文89787990958789697570數(shù)學(xué)8790897687896988789210名學(xué)生的期末考試成績?cè)囉肧AS/insight模塊、Analyst和SAS編程在SASUSER永久庫中建立名為“score”的SAS數(shù)據(jù)集,并且該數(shù)據(jù)包含“ID”〔學(xué)號(hào)〕、”“name”(姓名〕、literature”(語文)、“math”〔數(shù)學(xué)〕3個(gè)變量和10個(gè)觀測(cè)值。用編程方式輸入:DataSASUSER.score;Inputidname$literaturemath@@;Labelid=“學(xué)號(hào)”name=“姓名”literature=“語文”math=“數(shù)學(xué)”;Cards;8987278903798949076595878789789698698897578107092;Run;輸入@@表示按照input定義的變量順序依次連續(xù)讀入數(shù)據(jù),無論數(shù)據(jù)多少行,遇到“;”那么停止讀入數(shù)據(jù)。如果沒有@@符號(hào),表示系統(tǒng)按照行讀入數(shù)據(jù)。如果讀入字符型變量,需要變量名后空一格加上$符號(hào)。在已有數(shù)據(jù)集的情況下可以利用set語句對(duì)數(shù)據(jù)集進(jìn)行復(fù)制如在臨時(shí)性數(shù)據(jù)庫中建立一個(gè)臨時(shí)性文件scoreDatascore;SetSASUSER.score;Run;各地區(qū)普通高中根本情況地區(qū)學(xué)校數(shù)招生數(shù)在校學(xué)生數(shù)畢業(yè)生數(shù)教職工數(shù)專任老師數(shù)北京33893519274803665567634718672天津23072335198537526355522313105河北814464146129388731871434468667536山西56022829264726116327318667436985內(nèi)蒙古37217912647356811752512127424593遼寧46425860968519916984818022535586吉林29616990745163710110712302222302黑龍江47920331554679313944118518432648上海344106474313811910177622217832江蘇844494692137346535317733048882855請(qǐng)將上述數(shù)據(jù)用SAS/insight模塊、Analyst和SAS編程方式在永久性數(shù)據(jù)庫中建立DQGZ數(shù)據(jù)集SAS系統(tǒng)的外部數(shù)據(jù)文件

利用SAS\Importdata菜單進(jìn)行數(shù)據(jù)導(dǎo)入:利用編程來實(shí)現(xiàn)數(shù)據(jù)的導(dǎo)入:procimportdatafile=“D:\Macroeconomy.xls”out=SASUSER.PerCapitaData;sheet=“economy”;run;利用SAS/importData菜單將儲(chǔ)存在Excel.1中的數(shù)據(jù)導(dǎo)入,在SASUSER永久數(shù)據(jù)庫中建立名為“PerCapitaData”的SAS數(shù)據(jù)集。利用SAS程序?qū)?chǔ)存在Excel.1中的數(shù)據(jù)導(dǎo)入,在SASUSER永久數(shù)據(jù)庫中建立名為“PerCapitaData2”的SAS數(shù)據(jù)集。3.數(shù)據(jù)預(yù)處理原理和根本方法在數(shù)據(jù)預(yù)處理過程中,通常根據(jù)其自身特點(diǎn)把數(shù)據(jù)劃分為臟數(shù)據(jù)和凈數(shù)據(jù)。從廣義上看。臟數(shù)據(jù)是指沒有經(jīng)過數(shù)據(jù)預(yù)處理而直接接受到的、處于原始狀態(tài)的數(shù)據(jù);凈數(shù)據(jù)是指經(jīng)過一定的選取、清洗、變換等數(shù)據(jù)預(yù)處理之后可以直接作為統(tǒng)計(jì)分析對(duì)象的數(shù)據(jù)。臟數(shù)據(jù)依據(jù)不同的分析目的具有不同的定義。如在常見的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)是指不完整、含噪音、不一致的數(shù)據(jù)。在問卷調(diào)查中,臟數(shù)據(jù)通常是指不符合問卷要求的數(shù)據(jù)。12345678910某咨詢公司受某品牌汽車的委托,對(duì)該品牌汽車的滿意度狀況進(jìn)行了調(diào)查。其中對(duì)購置了該品牌汽車的消費(fèi)者有以下幾個(gè)典型問題。A1.你是否擁有某品牌的汽車1.是2.否〔停止問卷調(diào)查〕Q1.您對(duì)某品牌汽車總體滿意程度如何?請(qǐng)打分〔滿意程度越高,得分越高,反之得分越低〕。B1.您去年的平均月收入是多少?請(qǐng)選擇。1、3000元以下2、3000~50003、5000~80004、8000元以上B2.您家庭去年的平均月收入是多少?請(qǐng)選擇。1、3000元以下2、3000~50003、5000~80004、8000元以上IDQ1B1B21733282331035494451043663372487449534101124數(shù)據(jù)錄入人員對(duì)10份問卷進(jìn)行了數(shù)據(jù)錄入,錄入結(jié)果見下表

請(qǐng)利用編程方式將上述數(shù)據(jù)儲(chǔ)存在SASUSER數(shù)據(jù)庫中的Car數(shù)據(jù)集中。1、請(qǐng)利用編程方式,把例題中的數(shù)據(jù)儲(chǔ)存在SASUSER數(shù)據(jù)庫中的Car數(shù)據(jù)集中。2、請(qǐng)利用菜單和編程兩種方式將B1變量進(jìn)行降序排列3、請(qǐng)利用菜單形式將Q1調(diào)整為第一個(gè)變量,以加強(qiáng)數(shù)據(jù)分析人員對(duì)汽車滿意度打分的重視程度,并且把問卷編號(hào)變量“ID”作為最后一個(gè)變量。4、請(qǐng)?jiān)O(shè)定變量B1對(duì)應(yīng)值1、2、3、4的標(biāo)簽5、請(qǐng)用菜單和編程兩種方式刪除問卷編號(hào)“ID”的變量6、請(qǐng)將總體數(shù)據(jù)按照個(gè)人收入變量,即“B1”變量分拆至高手入和低收入兩個(gè)數(shù)據(jù)集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論