SAS統(tǒng)計分析介紹課件_第1頁
SAS統(tǒng)計分析介紹課件_第2頁
SAS統(tǒng)計分析介紹課件_第3頁
SAS統(tǒng)計分析介紹課件_第4頁
SAS統(tǒng)計分析介紹課件_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1.統(tǒng)計方法的選擇2.SAS過程步常用語句3.常用SAS過程t檢驗 MEANS過程 UNIVARIATE過程 卡方檢驗 FREQ過程方差分析 ANOVA過程 秩和檢驗 FREQ過程 NPAR1WAY過程4.小結及幫SAS幫助窗口的使用編寫程序、分析數(shù)據(jù)的一些好習慣查錯:怎樣知道自己分析的結果有沒有問題?(統(tǒng)計知識技能因素、編寫SAS程序技術因素、數(shù)據(jù)本身的因素)幫助窗口的使用:熟悉基本框架,查詢關鍵詞 “找路”閱讀和理解例子 “學習”模擬試驗 “演練和運用” 目 錄1第1頁,共35頁。1.統(tǒng)計方法的選擇“巧婦難為有米之炊”2第2頁,共35頁。1.1 統(tǒng)計方法的選擇需(依次)回答以下問題1.手頭

2、資料類型 (已有調查/研究的數(shù)據(jù))2.研究目的(本研究擬回答的問題類型)3.變量類型、對比組數(shù)、樣本含量4.選擇合適的統(tǒng)計方法(是否需要統(tǒng)計學檢驗?)5.選擇合適的SAS過程步 橫斷面研究?隊列研究?病例對照研究?干預研究?生態(tài)學研究?某指標的分布?某水平(指標)的影響因素?某幾個因素之間的相關或因果關系?定性資料?有序分類資料?定量資料?T檢驗,卡方檢驗,方差分析,秩和檢驗,多因素分析FREQ, MEANS,ANOVA3第3頁,共35頁。1.2 統(tǒng)計方法的選擇by 因變量和自變量類型因變量(吸煙率,超重率,血壓水平)自變量(性別、年齡、地區(qū)、受教育程度)數(shù)值變量分類變量有序變量數(shù)值變量相關分

3、析多因素回歸分析t檢驗方差分析協(xié)方差分析多因素回歸分析相關分析多因素回歸分析分類變量t檢驗方差分析logistic回歸分析判別分析聚類分析c2檢驗logistic回歸分析c2檢驗有序變量方差分析logistic回歸分析判別分析聚類分析c2檢驗logistic回歸分析相關分析c2檢驗生存時間生存分析4第4頁,共35頁。資料類型數(shù)據(jù)特征單組設計完全隨機設計配對或配伍設計兩組多組兩組多組定量資料正態(tài)、方差齊樣本與總體均數(shù)比較的t檢驗兩樣本t檢驗單因素方差分析配對t檢驗隨機區(qū)組設計方差分析非正態(tài)和/或方差不齊Wilcoxon符號秩和檢驗 t檢驗、Wilcoxon秩和檢驗Kruskal-Wallis H

4、秩和檢驗Wilcoxon符號秩和檢驗Friedman秩和檢驗定性資料無序二項分布直接計算概率法、正態(tài)近似法(Z檢驗)c2檢驗、Fisher確切概率法R*C表c2檢驗Fisher確切概率法配對四格表c2檢驗配對R*R列聯(lián)表c2檢驗有序_Wilcoxon秩和檢驗Kruskal-Wallis H秩和檢驗Wilcoxon符號秩和檢驗1.3 統(tǒng)計方法的選擇單變量資料 by 研究設計類型5第5頁,共35頁。數(shù)據(jù)特征分析方法相關分析 定量資料x、y服從雙變量正態(tài)分布直線相關分析x、y不服從雙變量正態(tài)分布Spearman秩相關 定性資料( R*C表)雙向無序c2檢驗雙向有序、屬性不同Spearman秩相關、線

5、性趨勢檢驗雙向有序、屬性相同一致性檢驗(kappa系數(shù)的假設檢驗)回歸分析應變量為連續(xù)型定量變量,服從正態(tài)分布一個應變量,一個自變量:直線回歸分析一個應變量,多個自變量:多重線性回歸分析應變量為定性變量Logistic回歸分析應變量為含有截尾數(shù)據(jù)的生存時間Cox比例風險回歸分析1.4 統(tǒng)計方法的選擇雙/多變量資料的關聯(lián)性分析方法(相關、回歸)6第6頁,共35頁。利用慢病監(jiān)測數(shù)據(jù)所發(fā)表文章中出現(xiàn)過的統(tǒng)計方法7第7頁,共35頁。單純描述,不做統(tǒng)計學檢驗!采用某一種或幾種統(tǒng)計方法卡方檢驗t檢驗Logistic回歸分析秩和檢驗方差分析利用慢病監(jiān)測數(shù)據(jù)所發(fā)表文章中出現(xiàn)過的統(tǒng)計方法8第8頁,共35頁。2.

6、SAS過程步常用的語句9第9頁,共35頁。VAR 指定分析變量BY, CLASS指定分層變量WHERE限定分析范圍等OUTPUT輸出 LABEL,設置變量標簽FORMAT輸出格式等2.SAS過程步常用的語句10第10頁,共35頁。VAR語句在很多過程中用來指定分析變量。在VAR后面給出變量列表:VAR 變量名1 變量名2 變量名n; 變量名列表可以使用省略的形式,如X1-X3,math-chinese等。 如果數(shù)據(jù)集中有幾個變量依次為math,english,chinese,則var math-chinese 與var math english chinese 等價。VAR語句11第11頁,共

7、35頁。BY語句和CLASS語句BY語句在過程中一般用來指定一個或幾個分組變量,根據(jù)這些分組變量值把觀測分組,然后對每一組觀測分別進行本過程指定的分析。在使用帶有BY語句的過程步之前一般先用SORT過程對數(shù)據(jù)集排序。如:(本例中數(shù)據(jù)已經(jīng)按sex排序了)(2)BY句和CLASS語句12第12頁,共35頁。Data score;input name $ sex $ math english chinese;cards;李明 男 92 83 76王思明 男 86 72 64張聰 男 74 79 92劉潁 女 95 82 95張紅藝 女 85 98 83;run;proc print data=sco

8、re; by sex;run;13第13頁,共35頁。 在一些過程(如方差分析)中,使用CLASS語句指定一個或幾個分類變量。而在另一些過程(如MEANS)中,CLASS語句作用與BY語句類似,可以指定分類變量,把觀測按分類變量分類后分別進行分析。使用CLASS時不需要先按分類變量排序。14第14頁,共35頁。 用WHERE語句可以選擇輸入數(shù)據(jù)集的一個行子集來進行分析,在WHERE關鍵字后指定一個條件。比如:where math=60 and chinese=60; 表示指定只分析數(shù)學、語文成績都及格的學生。(3) WHERE語句15第15頁,共35頁。 在過程步中經(jīng)常要將指定輸出結果存放到數(shù)

9、據(jù)集。不同過程中把輸出結果存入數(shù)據(jù)集的方法各有不同,其中OUTPUT語句是用得最多的一種,其一般格式為:OUTPUT OUT輸出數(shù)據(jù)集名 關鍵字變量名 關鍵字變量名 ;其中用“OUT”給出了要生成的結果數(shù)據(jù)集的名字,而用“關鍵字變量名”的方式指定了輸出哪些結果(關鍵字的例子比如MEANS過程中的MEAN,VAR,STD等等),等號后面的變量名指定了這些結果在輸出數(shù)據(jù)集中叫什么名字。(4) OUTPUT語句下一頁16第16頁,共35頁。例如,proc means data=score; var math; output out=result n=n mean=meanmath ;run;proc

10、 print data=result; run;17第17頁,共35頁。LABEL語句為變量指定一個標簽,很多過程可以使用這樣的標簽。其格式為 :LABEL 變量名標簽 變量名標簽 ;例如 :proc print data=score label; id name; var math english chinese; label name=姓名 math=數(shù)學 english=英語 chinese=語文;run;(5) LABEL語句和FORMAT語句18第18頁,共35頁。FORMAT語句可以為變量輸出規(guī)定一個輸出格式,比如proc print data=score; format math

11、 5.1 chinese 5.1;run; 使得列出的數(shù)學、語文成績寬度占5位,帶一位小數(shù)。 事實上,在生成數(shù)據(jù)集的DATA步中也可以用FORMAT語句規(guī)定變量的輸出格式,用LABEL 語句規(guī)定變量的標簽,用LENGTH語句規(guī)定變量的存貯長度,用ATTRIB語句同時規(guī)定變量的各屬性。在數(shù)據(jù)步中規(guī)定的變量屬性是附屬于數(shù)據(jù)集本身的,是永久的;在過程步中規(guī)定的變量屬性(標簽、輸出格式等)只用于此過程的本次運行。19第19頁,共35頁。3.常用SAS過程步介紹MEANS過程 TTEST過程UNIVARIATE過程FREQ過程ANOVA過程 NPAR1WAY過程20第20頁,共35頁。4.PROC ME

12、ANS (連續(xù)性變量的“均數(shù)”)proc means data=ncd.stat n mean max min range std fw=6;output out=ncd.out1; var h w cir; class urd; by gender;run;統(tǒng)計量變量標簽N均值最大值最小值極差標準差h身高3645160.4193104898.509w體重364562.771453311211.57cir腰圍364482.411333010310.3521第21頁,共35頁。4.PROC TTEST (t檢驗)單樣本檢驗proc ttest data=ncd.stat h0=170 sides

13、=2; var h; where gender=1; by urd;run;單側還是雙側?H0假設TTEST 過程變量: h (身高)N均值標準差標準誤差最小值最大值1573166.57.25620.183104193均值95% CL 均值標準差95% CL 標準差166.5166.1166.87.25627.01127.519自由度t 值Pr |t|1572-19.28 |t|匯總等于157110.15.0001Satterthwaite不等于1568.910.27.000123第23頁,共35頁。proc univariate data=ncd.stat ; var h;run;主要產(chǎn)出結

14、果:均數(shù)、中位數(shù)、眾數(shù)、最小值、最大值、極差、四分位數(shù)間距(四分位數(shù)極差)標準差、方差偏度系數(shù)(skewness)0正態(tài)分布;0右偏態(tài)(正偏態(tài),峰靠右)峰度系數(shù)(kurtosis)(0 峰尖峭 |t|= |M|= |S| D W-Sq A-Sq0.005026第26頁,共35頁。proc univariate data=ncd.stat noprint; histogram h; class urd ;run;proc univariate data=ncd.stat noprint; histogram h; class urd gender;run;5.PROC UNIVARIATE (畫

15、直方圖)27第27頁,共35頁。3.PROC FREQ (卡方檢驗)proc freq data=ncd.stat;tables region*obe2/expected nocol nopercent chisq;run;FREQ 過程頻數(shù)表 - region * obe2期望regionobe2行百分比01合計122575300252.7947.2137525225643299251.9447.05685.6214.38329026316266.2749.73191.778.23合計771144915頻數(shù)缺失 = 1表“obe2-region”的統(tǒng)計量統(tǒng)計量自由度值概率卡方233.2623

16、.0001似然比卡方檢驗233.2399.0001Mantel-Haenszel 卡方132.4702 F模型1624.5311624.53119.30.0024誤差91461355.8767.12896校正合計91561980.4R 方變異系數(shù)根 MSEh 均值0.0100765.1188918.193227160.0586源自由度Anova SS均方F 值Pr Furd1624.531624.5319.30.002429第29頁,共35頁。3.PROC NPAR1WAY (秩和檢驗)proc anova data =ncd.stat; class urd; model h=urd;run;

17、NPAR1WAY 過程Kolmogorov-Smirnov 檢驗- 變量 w按以下變量分類:urdurdN最大值最大值處處的 EDF均值的偏差14500.631111-0.5303824660.6802580.521197合計9160.656114第 541 個觀測發(fā)生最大偏差“w”的最大值 = 66.20Kolmogorov-Smirnov 雙樣本檢驗(漸近)KS0.024569D0.049146KSa0.743607Pr KSa0.6379Cramer-von Mises 檢驗- 變量 w按以下變量分類:urdurdN均值的偏差總和14500.07853124660.075835Cramer-von Mises 統(tǒng)計量(漸近)CM0.000169CMa0.154366Kuiper 檢驗- 變量 w按以下變量分類:urdurdN均值的偏差14500.02789724660.049146Kuiper 雙樣本檢驗(漸近)K0.077043Ka1.1657Pr Ka0.586530第30頁,共35頁。4.小結編寫程序、分析數(shù)據(jù)的一些好習慣會不會查錯怎樣知道自己分析的結果有沒有問題?幫助窗口的使用31第31頁,共35頁?!八烙浻脖场币恍┗緮?shù)字統(tǒng)計學的最基本數(shù)字、正反方向:1.96、2.58,其他例子?關于數(shù)據(jù)庫的基本“數(shù)字”:樣本量、變量數(shù)給文件、變量起名字的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論