《多元統(tǒng)計分析-基于R(第3版)》課件 第1、2章-多元統(tǒng)計分析與R簡介、多元數(shù)據(jù)描述與展示_第1頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第1、2章-多元統(tǒng)計分析與R簡介、多元數(shù)據(jù)描述與展示_第2頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第1、2章-多元統(tǒng)計分析與R簡介、多元數(shù)據(jù)描述與展示_第3頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第1、2章-多元統(tǒng)計分析與R簡介、多元數(shù)據(jù)描述與展示_第4頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第1、2章-多元統(tǒng)計分析與R簡介、多元數(shù)據(jù)描述與展示_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多元統(tǒng)計分析(multivariatestatisticalanalysis)就是把多個變量合在一起進(jìn)行研究的統(tǒng)計學(xué)方法,在自然科學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)和社會科學(xué)等領(lǐng)域有廣泛的應(yīng)用.本章對多元統(tǒng)計分析和R軟件作簡要介紹什么是多元統(tǒng)計分析?2024/7/312主編:費(fèi)宇1.1多元統(tǒng)計分析簡介1.2R簡介第1章多元統(tǒng)計分析與R簡介3主編:費(fèi)宇2024/7/311.1.1多元統(tǒng)計分析的含義(1)多元統(tǒng)計分析是研究多個(隨機(jī))變量之間相互關(guān)系和規(guī)律的統(tǒng)計學(xué)分支.(3)主要討論:多元回歸分析、聚類分析、判別分析、主成分分析、因子分析、對應(yīng)分析、典型相關(guān)分析和多維標(biāo)度分析.(2)不討論:多元正態(tài)分布的參數(shù)估計、均值的假設(shè)檢驗和協(xié)方差陣的假設(shè)檢驗問題.1.1多元統(tǒng)計分析簡介2024/7/314主編:費(fèi)宇1.1.2多元統(tǒng)計分析的用途(1)多變量的相關(guān)性分析:簡單相關(guān)分析、偏相關(guān)分析、復(fù)相關(guān)分析、典型相關(guān)分析(2)預(yù)測分析:多元回歸分析(3)分類和組合:聚類分析和判別分析(4)降維和數(shù)據(jù)簡化:主成分分析和因子分析1.1多元統(tǒng)計分析簡介2024/7/315主編:費(fèi)宇1.1.3多元統(tǒng)計分析的內(nèi)容(1)多元回歸分析:研究一個因變量隨多個自變量的變化而變化的情況,通過建立多元回歸模型(線性模型和廣義線性模型等)來分析二者之間的依賴關(guān)系

第5章,第6章(2)聚類分析:根據(jù)聚類對象的多個變量(指標(biāo))的測量值,按照某個標(biāo)準(zhǔn)把這寫個體分成若干類

第7章(3)判別分析:在已知分類的前提下,將給定的新樣品,按照某種分類規(guī)則判入某個類中

第8章1.1多元統(tǒng)計分析簡介2024/7/316主編:費(fèi)宇(4)主成分分析:一種降維分析方法,即將多個存在相關(guān)關(guān)系的變量化為少數(shù)幾個綜合變量

第9章(5)因子分析:用少數(shù)幾個隨機(jī)變量(稱為因子)去描述多個隨機(jī)變量之間的協(xié)方差關(guān)系

第10章(6)對應(yīng)分析:把R型因子分析和Q型因子分析有機(jī)的結(jié)合起來,同時把變量和樣品反映到相同的坐標(biāo)軸(因子軸)的一張圖上,來說明變量與樣品之間的對應(yīng)關(guān)系

第11章1.1.3多元統(tǒng)計分析的內(nèi)容2024/7/317主編:費(fèi)宇(7)典型相關(guān)性分析:研究兩組隨機(jī)變量之間的相互依賴關(guān)系的一種統(tǒng)計分析方法

第12章(8)多維標(biāo)度法:以空間分布的形式表現(xiàn)對象之間相似性或親疏關(guān)系的一種多元分析方法

第13章注意:在進(jìn)行多元分析時,機(jī)器學(xué)習(xí)方法和經(jīng)典多元統(tǒng)計分析方法各有優(yōu)勢,實(shí)際分析中建議采用兩種方法處理,并比較分析的結(jié)果,再做出合理的解釋.1.1.3多元統(tǒng)計分析的內(nèi)容2024/7/318主編:費(fèi)宇1.2.1為什么用R?R是一個數(shù)據(jù)處理和統(tǒng)計分析軟件系統(tǒng),是基于S語言的軟件系統(tǒng),免費(fèi)的開源軟件.免費(fèi)和開放統(tǒng)計和分析功能完善作圖功能強(qiáng)大可移植性強(qiáng)使用靈活1.2R簡介2024/7/319主編:費(fèi)宇1.2.2R的安裝與運(yùn)行

1.R的安裝(Windows用戶)(1)打開網(wǎng)址/.(2)點(diǎn)擊“CRAN”獲得一系列按照國家名稱排序的鏡像網(wǎng)站.(3)選擇與你所在地相近的網(wǎng)站.(4)點(diǎn)擊“DownloadandInstallR”下的“DownloadRforWindows”.(5)點(diǎn)擊“base”.(6)點(diǎn)擊鏈接下載最新版本的R軟件(比如點(diǎn)擊“DownloadR3.3.2forWindows”).1.2R簡介2024/7/3110主編:費(fèi)宇1.2.2R的安裝與運(yùn)行

2.R的運(yùn)行安裝完成后點(diǎn)擊桌面上的R-x.x.x圖標(biāo)就可以啟動R軟件了,在RGui的命令窗口(RConsole)的命令提示符“>”后輸入命令就可以完成相應(yīng)的操作.如果要退出R系統(tǒng),可以在命令行輸入q(),也可以點(diǎn)擊RGui右上角的“×”.退出時可以保存工作空間,比如將工作空間保存在“C:\Work\”目錄下,名稱為“W.RData”,保存后可以通過命令load("C:\\Work\\W.RData")來加載這個空間,或者通過菜單“文件”下的“載入工作空間”加載.1.2R簡介2024/7/3111主編:費(fèi)宇1.2.2R的安裝與運(yùn)行

3.R軟件的程序包的安裝:

(1)菜單方式:程序包

安裝程序包

選擇CRANMirror服務(wù)器

選擇要安裝的程序包

(2)命令方式:>install.package(MASS)

(3)本地安裝:程序包

從本地zip文件安裝程序包4.R的新裝程序包載入方式:

(1)菜單方式:程序包

加載程序包

選擇要加載的程序包

(2)命令方式:>library(MASS)1.2R簡介2024/7/3112主編:費(fèi)宇2008年12月,“第一屆中國R語言會議”統(tǒng)計之都:/統(tǒng)計之都的微信二維碼R在中國2024/7/3113主編:費(fèi)宇1.2.3如何獲取R的幫助?R的基本知識:在RGui的窗口中選擇“幫助”菜單中的“RFAQ”(R的常見問題)獲得R的特點(diǎn)、安裝、使用、界面和編程規(guī)則等基本知識.“幫助”菜單中的“手冊”提供的8本幫助手冊:AnIntroductiontoR,RReferenceManual,RDataImport/Export,RLanguageDefinition,WritingRExtensions,RInternals,RInstallationandAdministration,SweaveUser,其中第一本“AnIntroductiontoR”是最基本的手冊.通過命令“>help.start()”也可以獲得類似的幫助.1.1R簡介2024/7/3114主編:費(fèi)宇有關(guān)函數(shù)的含義和使用方法1.help函數(shù)>help(lm)#獲得名為lm()函數(shù)的幫助頁面>?lm#此命令與上面的命令效果一樣>?"<"#獲得“<”運(yùn)算符的幫助信息>?"for"#獲得for循環(huán)的幫助信息>help(package="MASS")#MASS可以不加引號1.2.3如何獲取R的幫助?2024/7/3115主編:費(fèi)宇有關(guān)函數(shù)的含義和使用方法2.example函數(shù)>example(mean)#運(yùn)行mean()函數(shù)的例子代碼以下是運(yùn)行結(jié)果mean>x<-c(0:10,50)mean>xm<-mean(x)mean>c(xm,mean(x,trim=0.10))[1]8.755.501.2.3如何獲取R的幫助?2024/7/3116主編:費(fèi)宇有關(guān)函數(shù)的含義和使用方法3.help.search函數(shù)如果不太清楚要查找什么,可以使用help.search()函數(shù)進(jìn)行搜索.>help.search("multivariatenormal")>??"multivariatenormal"#??是help.search的快捷方式可以得到一個包含下面摘要的信息:MASS::mvrnormSimulatefromaMultivariateNormalDistribution1.2.3如何獲取R的幫助?2024/7/3117主編:費(fèi)宇(1)R的主頁()上提供了R項目手冊,點(diǎn)擊Manuals即可瀏覽.(2)R的主頁上的選項Search可以按類別來搜索R的相關(guān)資源.(3)R的主頁上的選項GettingHelp可以幫助獲得R的相關(guān)幫助信息.互聯(lián)網(wǎng)上R的資源2024/7/3118主編:費(fèi)宇1.2.4R的基本原理1.數(shù)值型向量的建立1.2R簡介2024/7/3119主編:費(fèi)宇>x1<-seq(2,6,by=1)#生成序列x1=(2,3,4,5,6),"<-"是賦值符號>x2<-c(1,3,5,8,10)#生成一個5維向量x2=(1,3,5,8,10)>x3<-rep(2:4,2)#生成序列x3=(2,3,4,2,3,4)>x4<-c(x1,x2)#生成10維向量x4=(2,3,4,5,6,1,3,5,8,10)>cbind(x1,x2)#將x1和x2按列合并得到如下數(shù)據(jù):x1x2[1,]21[2,]33[3,]45[4,]58[5,]610>rbind(x1,x2)#將x1和x2按行合并得到如下數(shù)據(jù):[,1][,2][,3][,4][,5]x123456x21358101.2R簡介2024/7/3120主編:費(fèi)宇1.2.4R的基本原理1.數(shù)值型向量的建立2.矩陣的建立1.2R簡介2024/7/3121主編:費(fèi)宇>A<-matrix(1,nr=2,nc=2)#建立一個所有元素都為1的2階方陣

>B<-diag(3)#生成一個3階單位陣>D<-diag(c(2,3,4))#生成一個對角元素是(2,3,4)的3階方陣>X<-matrix(0,nr=2,nc=3)#建立一個所有元素都為0的2×3階矩陣>x1<-c(2,3,4)>x2<-c(1,2,5)>X<-rbind(x1,x2)#生成一個第1行為x1,第2行為x2的矩陣X>X#顯示矩陣X[,1][,2][,3]x1234x21253.數(shù)據(jù)框的建立(1)直接方式1.2R簡介2024/7/3122主編:費(fèi)宇>x1<-seq(2,6,by=1)#生成序列x1=(2,3,4,5,6)>x2<-c(1,3,5,8,10)#生成5維向量x2=(1,3,5,8,10)>z.df<-data.frame(x1,x2)#生成數(shù)據(jù)框>z.df#顯示數(shù)據(jù)框z.dfx1x212123334545856103.數(shù)據(jù)框的建立(2)間接方式可以通過讀取數(shù)據(jù)文件(文本文件、Excel文件或其他格式的文件)建立數(shù)據(jù)框,比如讀取數(shù)據(jù)文件“c:\data\eg1.1.txt”中的觀測值(即表1-1中的x和y的值)1.2R簡介2024/7/3123主編:費(fèi)宇>setwd("c:/data")#設(shè)定工作路徑,R中路徑的斜線符號為”/”,與Windows中的相應(yīng)符號”\”不一樣>dat<-read.table("exam1.1.txt",header=T)#從exam1.1.txt中讀入數(shù)據(jù),header=T表示將eg1.1.txt文件的第1行作為表頭行,也可以寫為header=TRUE,header=F或FALSE則表示文件的第1行不作為表頭行表1-1城鎮(zhèn)居民年人均可支配收入和年人均消費(fèi)性支出數(shù)據(jù)例1.1(數(shù)據(jù)文件為eg1.1)2024/7/3124主編:費(fèi)宇地區(qū)可支配收入消費(fèi)性支出地區(qū)可支配收入消費(fèi)性支出北

京52859.1736642.00湖

北27051.4718192.28天

津34101.3526229.52湖

南28838.0719501.37河

北26152.1617586.62廣

東34757.1625673.08山

西25827.7215818.61廣

西26415.8716321.16內(nèi)蒙古30594.1021876.47海

南26356.4218448.35遼

寧31125.7321556.72重

慶27238.8419742.29吉

林24900.8617972.62四

川26205.2519276.85黑龍江24202.6217152.07貴

州24579.6416914.20上

海52961.8636946.12云

南26373.2317674.99江

蘇37173.4824966.04西

藏25456.6317022.01浙

江43714.4828661.27陜

西26420.2118463.87安

徽26935.7617233.53甘

肅23767.0817450.86福

建33275.3423520.19青

海24542.3519200.65江

西26500.1216731.81寧

夏25186.0118983.88山

東31545.2719853.77新

疆26274.6619414.74河

南25575.6117154.30

假定數(shù)據(jù)文件為exam1.1.txt保存在“C:\data”子目錄下,我們先讀入數(shù)據(jù),計算x與y的相關(guān)系數(shù)并繪制散點(diǎn)圖。>setwd("c:/data")#設(shè)定工作路徑>dat<-read.table("exam1.1.txt",header=T)#讀入數(shù)據(jù)

>cor(dat)#計算x和y的相關(guān)系數(shù)xyx1.00000000.9736406y0.97364061.0000000>plot(y~x,data=dat)#繪制x和y的散點(diǎn)圖例1.1(數(shù)據(jù)文件為eg1.1)2024/7/3125主編:費(fèi)宇圖1-1年人均可支配收入x和年人均消費(fèi)性支出y的散點(diǎn)圖2024/7/3126主編:費(fèi)宇>lm.reg<-lm(y~x,data=dat)#建立y關(guān)于x的線性回歸>summary(lm.reg)#輸出回歸分析的結(jié)果Call:lm(formula=y~x,data=dat)Residuals:Min1QMedian3QMax-2099.8-629.8138.5772.72628.6

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)179.43046920.594930.1950.847x0.686820.0298822.988<2e-16***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1238on29degreesoffreedomMultipleR-squared:0.948,AdjustedR-squared:0.9462F-statistic:528.4on1and29DF,p-value:<2.2e-16建立y關(guān)于x的線性回歸模型2024/7/3127主編:費(fèi)宇1.多元回歸分析(1)函數(shù)lm():求解線性回歸方程lm.reg<-lm(y~x,data=dat)#用dat中數(shù)據(jù)建立y關(guān)于x的線性回歸(2)函數(shù)summary():給出模型的計算結(jié)果summary(lm.reg)#顯示lm.reg的內(nèi)容,即輸出回歸分析的結(jié)果(3)函數(shù)confint():求參數(shù)的置信區(qū)間confint(lm.reg,level=0.95)#求lm.reg回歸參數(shù)的95%置信區(qū)間1.2.5本書相關(guān)的R程序包和函數(shù)2024/7/3128主編:費(fèi)宇1.多元回歸分析(4)函數(shù)predict():求預(yù)測值和預(yù)測區(qū)間x0<-data.frame(x=30000)#給定x0=x=30000predict(lm.reg,x0,interval="prediction",level=0.95)#求x=30000時y的置信度為95%的預(yù)測區(qū)間(5)函數(shù)step():完成逐步回歸lm.sal<-lm(y~x1+x2+x3+x4,data=d2.1)#建立全變量回歸方程lm.step<-step(lm.sal,direction="both")#用“一切子集回歸法”來進(jìn)行逐步回歸1.2.5本書相關(guān)的R程序包和函數(shù)2024/7/3129主編:費(fèi)宇1.多元回歸分析注意:多元回歸分析中用到的lm(),glm(),step(),confint()和predict()等函數(shù)都是程序包stats中的函數(shù);而函數(shù)summary()是程序包base中的函數(shù),因為程序包stats和base是安裝時的基本程序包,所以可以直接使用,不必進(jìn)行加載.第6章廣義線性回歸模型主要用到函數(shù)glm():g.logit<-glm(y~x,family=binomial,data=d6.1)#建立y關(guān)于x的logistic回歸模型,數(shù)據(jù)為d6.1g.ln<-glm(y~x1+x2+x3,family=poisson(link=log),data=d6.2)#建立y關(guān)于x1,x2,x3的泊松對數(shù)線性模型,數(shù)據(jù)為d6.21.2.5本書相關(guān)的R程序包和函數(shù)2024/7/3130主編:費(fèi)宇2.聚類分析第7章聚類分析介紹兩種常用的聚類方法----系統(tǒng)聚類法和k均值聚類法.系統(tǒng)聚類法可以用函數(shù)dist()計算距離,然后用函數(shù)hclust()實(shí)現(xiàn).d<-dist(d7.1,method="euclidean",diag=T,upper=F,p=2)#采用歐氏距離計算相似矩陣dHC<-hclust(d,method="single")#采用最小距離法(single)聚類plot(HC)#繪制聚類樹狀圖1.2.5本書相關(guān)的R程序包和函數(shù)2024/7/3131主編:費(fèi)宇2.聚類分析k均值聚類法可以用函數(shù)kmeans()實(shí)現(xiàn).KM<-kmeans(d7.2,4,nstart=20,algorithm="Hartigan-Wong")#聚類的個數(shù)為4,隨機(jī)集合的個數(shù)為20,算法為"Hartigan-Wong“注意:聚類分析中用到的dist()和hclust()函數(shù)都是程序包stats中的函數(shù),可以直接使用,但判別分析中用到的lda()函數(shù)是程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論