第六講概率統(tǒng)計(jì)建模

上傳人：a*** IP屬地：湖北上傳時(shí)間：2023-02-05 格式：PPT 頁(yè)數(shù)：88 大?。?.61MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩83頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

概率統(tǒng)計(jì)建模方法及其在Matlab中的實(shí)現(xiàn)

第六講2002B彩票中的問(wèn)題（古典概型）2004B電力市場(chǎng)的輸電阻塞管理（多元線性回歸）2005A長(zhǎng)江水質(zhì)的評(píng)價(jià)和預(yù)測(cè)（多元統(tǒng)計(jì)綜合評(píng)價(jià)）2005BDVD在線租賃（概率分布-正態(tài)分布等）2006A出版設(shè)資源管理配置（主成分分析、方差分析）2006B艾滋病的評(píng)價(jià)體系及療效的預(yù)測(cè)（統(tǒng)計(jì)回歸分析）歷年的建模競(jìng)賽題統(tǒng)計(jì)概率分布（古典概型、二項(xiàng)分布、正態(tài)分布等）隨機(jī)服務(wù)模型（排隊(duì)服務(wù)模型）時(shí)間序列模型（馬氏模型）回歸模型（一元、多元、逐步回歸）聚類分析（主成分分析、方差分析）常用的概率模型SPSS、Matlab一、樣本總體1、總體：人們研究對(duì)象的全體。2、個(gè)體：總體中的每一個(gè)基本單位。3、樣本：從總體中隨機(jī)產(chǎn)生的若干個(gè)個(gè)體的集合。統(tǒng)計(jì)的主要任務(wù)從樣本推斷總體二、頻數(shù)表和直方圖1、頻數(shù)：將數(shù)據(jù)的取值范圍劃分為若干個(gè)區(qū)間，統(tǒng)計(jì)這組數(shù)據(jù)在每個(gè)區(qū)間出現(xiàn)的次數(shù)。2、直方圖：以數(shù)據(jù)的取值為橫坐標(biāo)，頻數(shù)為縱坐標(biāo)畫(huà)出的階梯形圖。區(qū)間的劃分有等距劃分和非等距劃分。3、直方圖的matlab實(shí)現(xiàn)（1）數(shù)據(jù)輸入：直接輸入——針對(duì)數(shù)據(jù)較少間接輸入——針對(duì)數(shù)據(jù)較多（先寫(xiě)一個(gè)純文本數(shù)據(jù)）例學(xué)生的身高和體重學(xué)校隨機(jī)抽取100名學(xué)生，測(cè)量他們的身高和體重，所得數(shù)據(jù)如下表身高體重身高體重身高體重身高體重身高體重1727517162……17764

5516867……184701696416552……166491716516962……171711674716865……1705920行100名學(xué)生的身高和體重表先把上面表格里的數(shù)據(jù)保存在txt文本里，再在matlab里面導(dǎo)入該數(shù)據(jù)；最后整理數(shù)據(jù)。high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);（2）直方圖命令：[N,X]=hist(Y,M)樣本數(shù)組將[min(Y),max(Y)]等分為M份，缺省時(shí)默認(rèn)為10返回M個(gè)小區(qū)間的中點(diǎn)返回M個(gè)小區(qū)間的頻數(shù)Matlab程序loaddata.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);[n1,x1]=hist(high)[n2,x2]=hist(weight)hist(high)hist(weight)三、統(tǒng)計(jì)量統(tǒng)計(jì)量：反映樣本數(shù)量特征的函數(shù)，它不含任何未知量。1、算術(shù)平均值和中位數(shù)——表示位置的統(tǒng)計(jì)量平均值：命令形式：mean(x)功能：返回x的均值命令形式：nanmean(x)功能：返回除了NaN外x的均值中位數(shù)：將數(shù)據(jù)從小到大排列后位于中間位置的數(shù)。命令形式：median(x)功能：返回x的中位數(shù)命令形式：nanmedian(x)功能：返回除了NaN外x的中位數(shù)三、統(tǒng)計(jì)量統(tǒng)計(jì)量：反映樣本數(shù)量特征的函數(shù)，它不含任何未知量。2、標(biāo)準(zhǔn)差、方差和極差——表示變異程度的統(tǒng)計(jì)量標(biāo)準(zhǔn)差：命令形式：std(x)功能：返回x的標(biāo)準(zhǔn)差命令形式：std(x,1)功能：返回命令形式：var(x)功能：返回x的方差命令形式：var(x,1)功能：返回std(x,1)的平方方差：標(biāo)準(zhǔn)差的平方。極差：最大值與最小值之差。命令形式：range(x)功能：返回x的極差三、統(tǒng)計(jì)量統(tǒng)計(jì)量：反映樣本數(shù)量特征的函數(shù)，它不含任何未知量。3、中心矩、偏度和峰度——表示分布形狀的統(tǒng)計(jì)量中心矩：命令形式：moment(x,n)功能：返回x的n階矩。注：偏度反映分布的對(duì)稱性。V>0時(shí)，稱為右偏度，此時(shí)數(shù)據(jù)位于均值右邊比位于左邊的多。V<0，稱為左偏度。V接近于0，則認(rèn)為分布時(shí)對(duì)稱的。如正態(tài)分布，V=0。偏度：隨機(jī)變量的標(biāo)準(zhǔn)化的3階中心矩命令形式：skewness(x)功能：返回x的偏度。注：峰度時(shí)分布形狀的另一種度量。正態(tài)分布的峰度是3。若V比3大的多，表示分布有沉重的尾巴，說(shuō)明樣本中有較多遠(yuǎn)離均值的數(shù)據(jù)。因而峰度可以作為衡量偏離正態(tài)分布的尺度之一。峰度：隨機(jī)變量的標(biāo)準(zhǔn)化的4階中心矩命令形式：kurtosis(x)功能：返回x的峰度。四、常見(jiàn)的概率分布1、正態(tài)分布：命令形式1：normpdf(x,u,v)功能：計(jì)算參數(shù)為u,v的正態(tài)分布密度函數(shù)在x處的值命令形式2：normcdf(x,u,v)功能：計(jì)算參數(shù)為u,v的正態(tài)分布的累積分布函數(shù)的值命令形式3：norminv(a,u,v)功能：計(jì)算臨界值x命令形式4：normrnd(u,v,m,n)功能：產(chǎn)生服從參數(shù)為u,v的正態(tài)分布的mn的矩陣注：再matlab工具箱中，對(duì)每一種分布都提供了如下的幾類函數(shù)。pdf—概率密度cdf—分布函數(shù)inv—逆累積分布函數(shù)rnd—隨機(jī)數(shù)生成注：求某個(gè)分布的概率密度、分布函數(shù)等的格式：

namepdf(),namecdf()……或者pdf(‘name’,…),cdf(‘name’,…)…….常見(jiàn)的分布函數(shù)表name函數(shù)說(shuō)明name函數(shù)說(shuō)明betaBeta分布bino二項(xiàng)分布exp指數(shù)分布geo幾何分布hyge超幾何分布poiss泊松分布unif均勻分布unid離散均勻分布chiz卡方分布fＦ分布gamGamma分布norm正態(tài)分布tT分布logn對(duì)數(shù)正態(tài)分布nbin負(fù)二項(xiàng)分布ncf非中心Ｆ分布nct非中心t分布ncx2非中心卡方分布rayl瑞利分布weibWeibull分布五、參數(shù)估計(jì)1、點(diǎn)估計(jì)：用樣本統(tǒng)計(jì)量確定總體參數(shù)的值。它是用一個(gè)值去估計(jì)另一個(gè)值，所以稱為點(diǎn)估計(jì)。2、區(qū)間估計(jì)：稱為的置信區(qū)間為置信水平為顯著水平命令形式：[]=namefit(x,alpha)樣本數(shù)據(jù)顯著水平，缺省時(shí)默認(rèn)為0.05例如[mu,sigma,muci,sigmaci]=normfit(x,alpha)返回均值u的點(diǎn)估計(jì)返回標(biāo)準(zhǔn)差v的點(diǎn)估計(jì)這兩者的區(qū)間估計(jì)例：分別用金球、鉑球測(cè)定引力常數(shù)(2)用金球測(cè)定觀測(cè)值為：6.683,6.681,6.676,6.678,6.679,6.672;(2)用鉑球測(cè)定觀測(cè)值為：6.661,6.661,6.667,6.667,6.664;設(shè)測(cè)定總體服從正態(tài)分布，其參數(shù)未知，分別求該參數(shù)的置信度為0.9的置信區(qū)間。X=[6.683,6.681,6.676,6.678,6.679,6.672];Y=[6.661,6.661,6.667,6.667,6.664];[a1,b1,c1,d1]=normfit(X,0.1)[a2,b2,c2,d2]=normfit(Y,0.1)六、假設(shè)檢驗(yàn)1、單個(gè)總體均值u的檢驗(yàn)

原假設(shè)為：備選假設(shè)：（1）已知，關(guān)于u的檢驗(yàn)命令形式：

[h,p,c]=ztest(x,mu,sigma,alpha,taic)接受與否的參數(shù)在原假設(shè)條件下樣本均值出現(xiàn)的概率均值的置信區(qū)間樣本均值標(biāo)準(zhǔn)差顯著水平備選假設(shè)的選擇注：（2）未知，關(guān)于u的檢驗(yàn)命令形式：

[h,p,c]=ttest(x,mu,alpha,taic)例某種電子元件的壽命x（以小時(shí)計(jì)）服從正態(tài)分布，其均值和方差均未知?，F(xiàn)得16只元件的壽命如下：280101212224379179264222362168250149260485170問(wèn)：是否有理由認(rèn)為該元件的平均壽命大于225小時(shí)？x=[159280101212224379179264222362168250149260485170];[h,p,c]=ttest(x,225,0.05,1)結(jié)論：拒絕原假設(shè)，認(rèn)為壽命不大于225小時(shí)。2、雙正態(tài)總體均值的假設(shè)檢驗(yàn)比較兩個(gè)方差相等的正態(tài)總體的均值是否相等(T檢驗(yàn))命令格式：[H,P,ci,stats]=ttest2(X,Y,alpha,tail)功能：對(duì)兩個(gè)正態(tài)分布總體的采樣X(jué)、Y進(jìn)行T檢驗(yàn)，對(duì)H,P,alpha的解釋同上；tail是假設(shè)的備選項(xiàng)(即備擇假設(shè))，有三個(gè)值：tail=0是默認(rèn)值，可省略,說(shuō)明備選項(xiàng)為“均值不相等”；tail=1,說(shuō)明備選項(xiàng)為“X的均值大于Y的均值”；tail=-1,說(shuō)明備選項(xiàng)為“X的均值小于Y的均值”。ci給出均值差的置信區(qū)間；stats是個(gè)結(jié)構(gòu)，包含以下元素：tstat(統(tǒng)計(jì)值)、df(自由度)。例

某燈泡廠在采用一項(xiàng)新工藝前后，分別抽取了10只進(jìn)行壽命試驗(yàn)，壽命分別為：舊燈泡：2461,2404,2407,2439,2394,2401,2543,2463,2392,2458新燈泡：2496,2485,2538,2596,2556,2582,2494,2528,2537,2492假設(shè)燈泡的壽命服從正態(tài)分布，能否認(rèn)為采用新工藝后，燈泡的壽命提高了？(a=0.01)x=[2461,2404,2407,2439,2394,2401,2543,2463,2392,2458];y=[2496,2485,2538,2596,2556,2582,2494,2528,2537,2492];alpha=0.01;[h,p,ci,st]=ttest2(x,y,alpha,-1)結(jié)果：h=1%拒絕原假設(shè)即認(rèn)為壽命未提高p=6.3361e-005%p很小，對(duì)假設(shè)置疑ci=-Inf-44.6944st=tstat:-4.8567df:183、兩個(gè)總體一致性的假設(shè)檢驗(yàn)比較兩個(gè)不知道確切分布的總體均值是否相等命令格式：[P,H,stats]=ranksum(X,Y,alpha)功能：對(duì)兩個(gè)總體的采樣X(jué)、Y進(jìn)行檢驗(yàn)，對(duì)H,P,alpha的解釋同上；stats是個(gè)結(jié)構(gòu)，包含二個(gè)元素：zval(均值差的正態(tài)統(tǒng)計(jì)值)和ranksum(統(tǒng)計(jì)的秩和值)。例

兩臺(tái)機(jī)床加工同一種軸，抽樣測(cè)量產(chǎn)品的直徑(mm):機(jī)床甲：33.592,33.862,33.751,33.673,33.847,33.778,33.631,33.911,33.785,33.928機(jī)床乙：34.221,33.947,33.856,34.039,34.000,33.924,34.125,34.273,33.968,33.923在a=0.05下能否認(rèn)為兩臺(tái)機(jī)床加工的直徑?jīng)]有顯著不同？clear;x=[33.592,33.862,33.751,33.673,33.847,33.778,33.631,33.911,33.785,33.928];y=[34.221,33.947,33.856,34.039,34.000,33.924,34.125,34.273,33.968,33.923];alpha=0.05;[p,h,st]=ranksum(x,y,alpha)結(jié)果：p=7.6854e-004%p很小，對(duì)假設(shè)置疑h=1%拒絕原假設(shè)即認(rèn)為直徑?jīng)]有顯著不同st=zval:-3.3639ranksum:604、兩個(gè)樣本具有相同連續(xù)分布的假設(shè)檢驗(yàn)檢驗(yàn)兩個(gè)樣本是否具有相同的連續(xù)分布命令格式：

[H,P,ksstat]=kstest2(X,Y,alpha,tail)功能：對(duì)兩個(gè)總體的采樣X(jué)、Y進(jìn)行檢驗(yàn)，對(duì)H,P,alpha的解釋同上；tail是假設(shè)的備選項(xiàng)(即備擇假設(shè))，有三個(gè)值：tail=0是默認(rèn)值，可省略,說(shuō)明備選項(xiàng)為“不相等”；tail=1,說(shuō)明備選項(xiàng)為“大于”；tail=-1,說(shuō)明備選項(xiàng)為“小于”。ksstat表示測(cè)試統(tǒng)計(jì)量的值。clear;x=randn(1,10);y=randn(1,10)+x;[h,p,kst]=kstest2(x,y)例

兩個(gè)正態(tài)分布的檢驗(yàn)結(jié)果：h=0%接受原假設(shè)即認(rèn)為兩樣本具有相同類型的連續(xù)分布p=0.6751

%表示假設(shè)成立的概率為0.6751kst=0.3000

5、正態(tài)分布的假設(shè)檢驗(yàn)檢驗(yàn)樣本是否具有某種連續(xù)分布命令格式1：

[H,P,jbstat,cv]=jbtest(X,alpha)功能：對(duì)采樣X(jué)進(jìn)行檢驗(yàn)是否服從正態(tài)分布，對(duì)H,P,alpha的解釋同上；jbstat表示測(cè)試統(tǒng)計(jì)量的值;cv為是否拒絕假設(shè)的臨界值。適合大樣本命令格式2：

[H,P,lstat,cv]=lillietest(X,alpha)功能：對(duì)采樣X(jué)進(jìn)行檢驗(yàn)是否服從正態(tài)分布，對(duì)H,P,alpha的解釋同上；jbstat表示測(cè)試統(tǒng)計(jì)量的值;cv為是否拒絕假設(shè)的臨界值。適合小樣本。clear;m1=ones(1,11)*2.55;m2=ones(1,12)*2.65;m3=ones(1,17)*2.75;m4=ones(1,19)*2.85;m5=ones(1,26)*2.95;m6=ones(1,24)*3.05;m7=ones(1,22)*3.15;m8=ones(1,19)*3.25;m9=ones(1,13)*3.35;M=[m1,m2,m3,m4,m5,m6,m7,m8,m9];[h,p,lst,cv]=lillietest(M)hist(M)例從一批零件中隨機(jī)抽取一組樣品，下面是零件樣品直徑的統(tǒng)計(jì)表。在顯著水平a=0.05下能否認(rèn)為這批零件的直徑服從正態(tài)分布？繪出統(tǒng)計(jì)數(shù)據(jù)的直方圖。直徑2.552.652.752.852.953.053.153.253.35頻數(shù)111217192624221913結(jié)果：h=1%拒絕原假設(shè)即認(rèn)為直徑不服從正態(tài)分布p=Nan

%表示假設(shè)成立的概率很小lst=0.1062cv=0.0694%測(cè)試統(tǒng)計(jì)值大于臨界值也表明應(yīng)拒絕hist(M,n)---繪制向量M的直方圖,n定義條方的數(shù)目,默認(rèn)為106、概率分布的假設(shè)檢驗(yàn)命令格式：

[H,P,ksstat,cv]=kstest(X,cdf,alpha,tail)功能：對(duì)采樣X(jué)進(jìn)行檢驗(yàn)是否服從名為cdf類型的連續(xù)累積概率分布，cdf缺省為[],默認(rèn)為標(biāo)準(zhǔn)正態(tài)分布,聲明格式為兩個(gè)相同長(zhǎng)度的列向量：采樣和采樣對(duì)應(yīng)的分布函數(shù)；對(duì)H,P,alpha，ksstat,cv的解釋同上。例

clear;mu=1;sigma=2;x=normrnd(mu,sigma,20,1);alpha=0.01;lbd=3;[h,p,ksst,cv]=kstest(x,[x,expcdf(x,lbd)],alpha,0)%檢驗(yàn)是否符合參數(shù)為3的指數(shù)分布q-q圖：用qqplot函數(shù)生成兩個(gè)樣本的q-q（quan-tile分位數(shù)）圖。若兩樣本來(lái)自同一分布，圖中數(shù)據(jù)點(diǎn)呈直線關(guān)系，否則為曲線關(guān)系。qqplot(X,Y)：顯示X和Y兩個(gè)樣本的q-q圖。qqplot(X)：顯示X的樣本值與服從正態(tài)分布的理論數(shù)據(jù)之間的q-q圖。例x=normrnd(0,1,100,1);y=normrnd(0.5,2,50,1);z=weibrnd(2,0.5,100,1);subplot(2,2,1),qqplot(x)holdon,subplot(2,2,2)qqplot(x,y),holdonsubplot(2,2,3),qqplot(z)holdon,subplot(2,2,4)qqplot(x,z)holdoff由第一個(gè)子圖看出X服從正態(tài)分布。由第二個(gè)子圖看出X和Y可看作同分布的。由第三個(gè)子圖看出Z不服從正態(tài)分布。由第四個(gè)子圖看出X和Z不是同分布的。1、單因素方差分析模型：

六、方差分析用來(lái)對(duì)比因變量在不同組中的平均值的統(tǒng)計(jì)方法單因素方差分析命令形式命令格式：[P,anovatab,stats]=anova1(X,group,displayopt)功能：比較多組數(shù)據(jù)的均值，返回這些均值相等的概率，從而判斷因素對(duì)結(jié)果是否有顯著影響。X為輸入數(shù)據(jù)，列向量表示相互獨(dú)立的樣本觀測(cè)值，具有相同長(zhǎng)度；P為X的各列均值相等的概率，P越小，則質(zhì)疑原假設(shè)（即均值不相等），表示因素的影響顯著；group是與X對(duì)應(yīng)的字符或字符串?dāng)?shù)組，用來(lái)聲明X每一列中數(shù)據(jù)的名字或意義，可以省略；displayopt表示參數(shù)：on表示顯示圖，off表示隱藏圖；anovatab返回方差分析表；stats返回一個(gè)附加的統(tǒng)計(jì)數(shù)據(jù)結(jié)構(gòu)。例

將同一批同種牌號(hào)絲襪在不同溫度下作彈力試驗(yàn)，得到數(shù)據(jù)表：溫度試驗(yàn)30o40o50o60o70o80o14.36.110.06.59.39.527.87.34.88.38.78.833.24.25.48.67.211.446.54.19.68.210.17.8試檢驗(yàn)溫度對(duì)彈力有無(wú)顯著影響。(α=0.05)clear;X=[4.3,6.1,10.0,6.5,9.3,9.5;7.8,7.3,4.8,8.3,8.7,8.8;3.2,4.2,5.4,8.6,7.2,11.4;6.5,4.1,9.6,8.2,10.1,7.8];[p,tab,stats]=anova1(X,[],'on')結(jié)果：p=0.0214%p很小，拒絕原假設(shè)tab='Source''SS''df''MS''F''Prob>F''Columns'55.5471511.10943.5254[0.0214]'Error'56.7225183.1512[][]'Total'112.269623[][][]stats=gnames:[6x1char]n:[444444]source:'anova1'means:[5.45005.42507.45007.90008.82509.3750]

df:18s:1.7752%總體標(biāo)準(zhǔn)差的無(wú)偏估計(jì)例將四種工藝下生產(chǎn)的燈泡進(jìn)行壽命測(cè)試，得到數(shù)據(jù)表：工藝試驗(yàn)A1A2A3A4116201580146015002167016001540155031700164016201610417501720168051800試檢驗(yàn)工藝對(duì)壽命有無(wú)顯著影響。(α=0.05)clear;X=[1620,1670,1700,1750,1800,1580,1600,1640,1720,1460,1540,1620,1500,1550,1610,1680];group=[1,1,1,1,1,2,2,2,2,3,3,3,4,4,4,4];[p,tab,stats]=anova1(X,group,'on')結(jié)果：p=0.0331tab='Source''SS''df''MS''F''Prob>F''Groups'[62820][3][20940][4.0608][0.0331]'Error'[61880][12][5.1567e+003][][]'Total'[124700][15][][][]stats=gnames:{4x1cell}n:[5434]source:'anova1'means:[1708163515401585]df:12s:71.80992、雙因素方差分析模型：雙因素方差分析命令格式命令格式：

[P,anovatab]=anova2(X,reps,displayopt)功能：判斷因素對(duì)結(jié)果是否有顯著影響。X為輸入數(shù)據(jù)，列向量表示因素1的差異，行向量表示2的差異；P是概率向量，P越小，則質(zhì)疑原假設(shè)，表示因素的影響顯著；reps聲明每一狀態(tài)下的試驗(yàn)次數(shù)；displayopt表示參數(shù)：on表示顯示圖，off表示隱藏圖；anovatab返回方差分析表。例有3個(gè)工人分別在4臺(tái)機(jī)器上加工某種零件，工作的3天中日產(chǎn)量列表如下：

工人B機(jī)器AB1B2B3A1151517191916161821A21717

171515

15192222A31517161817161818

18A41820221516171717

17試檢驗(yàn)操作工人的技術(shù)水平有無(wú)顯著差異？機(jī)器性能有無(wú)顯著差異？交互作用的影響是否顯著？(α=0.05)clear;A1=[15,15,17,19,19,16,16,18,21];A2=[17,17,17,15,15,15,19,22,22];A3=[15,17,16,18,17,16,18,18,18];A4=[18,20,22,15,16,17,17,17,17];X=[A1',A2',A3',A4'];reps=3;[p,tab]=anova2(X,reps,'on')解釋：操作工人的技術(shù)水平無(wú)顯著差異p=0.6645機(jī)器性能有顯著差異p=0.0023交互作用的影響顯著p=0.0002直線擬合：a=polyfit(x,y,1),b=polyfit(x,z,1),同一條直線y=0.33x+0.96(z=0.33x+0.96)從擬合到回歸x=[01234],y=[1.01.31.52.02.3](+號(hào))x=[01234],z=[0.61.950.92.851.8]（*號(hào)）問(wèn)題：你相信哪個(gè)擬合結(jié)果？怎樣給以定量評(píng)價(jià)?得到a=0.330.96b=0.330.96七、回歸分析一元線性回歸分析的主要任務(wù)是：模型參數(shù)估計(jì)1、回歸系數(shù)的最小二乘估計(jì)

其中??====niiniiynyxnx111,1，??====niiiniiyxnxyxnx11221,1.

檢驗(yàn)、預(yù)測(cè)與控制1、回歸方程的顯著性檢驗(yàn)（Ⅰ）F檢驗(yàn)法

（Ⅱ）t檢驗(yàn)法（Ⅲ）r檢驗(yàn)法2、回歸系數(shù)的置信區(qū)間3、預(yù)測(cè)與控制（1）預(yù)測(cè)（2）控制收集一組包含因變量和自變量的數(shù)據(jù)；選定因變量與自變量之間的模型，利用數(shù)據(jù)按照最小二乘準(zhǔn)則計(jì)算模型中的系數(shù)；利用統(tǒng)計(jì)分析方法對(duì)不同的模型進(jìn)行比較，找出與數(shù)據(jù)擬合得最好的模型；判斷得到的模型是否適合于這組數(shù)據(jù),診斷有無(wú)不適合回歸模型的異常數(shù)據(jù)；利用模型對(duì)因變量作出預(yù)測(cè)或解釋?；貧w分析的主要步驟

為了研究鋼材消費(fèi)量與國(guó)民收入之間的關(guān)系，在統(tǒng)計(jì)年鑒上查得一組歷史數(shù)據(jù)。例：鋼材消費(fèi)量與國(guó)民收入的關(guān)系

年份196419651966……197819791980消費(fèi)(噸)698872988……144627362825收入(億)109712841502……294831553372

試分析預(yù)測(cè)若1981年到1985年我國(guó)國(guó)民收入以4.5%的速度遞增，鋼材消費(fèi)量將達(dá)到什么樣的水平？

鋼材消費(fèi)量--------試驗(yàn)指標(biāo)(因變量)Y；國(guó)民收入-----------自變量x；建立數(shù)據(jù)擬合函數(shù)y=E（Y|x）=f(x)；作擬合曲線圖形分析。

問(wèn)題分析：多元線性回歸

b=regress(Y,X)1、確定回歸系數(shù)的點(diǎn)估計(jì)值：MATLAB統(tǒng)計(jì)工具箱常用命令3、畫(huà)出殘差及其置信區(qū)間：

rcoplot（r，rint）2、求回歸系數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)、并檢驗(yàn)回歸模型：

[b,bint,r,rint,stats]=regress(Y,X,alpha)回歸系數(shù)的區(qū)間估計(jì)殘差用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量，有三個(gè)數(shù)值：相關(guān)系數(shù)r2、F值、與F對(duì)應(yīng)的概率p置信區(qū)間顯著性水平（缺省時(shí)為0.05）rcoplot(r,rint)殘差及其置信區(qū)間作圖MATLAB7.0版本s增加一個(gè)統(tǒng)計(jì)量:剩余方差s2.使用命令regress實(shí)現(xiàn)一元線性回歸模型的計(jì)算

b=regress(Y,X)或

[b,bint,r,rint,stats]=regress(Y,X,alpha)回歸系數(shù)beta以及它們的置信區(qū)間殘差向量r=Y-Y及它們的置信區(qū)間相關(guān)系數(shù)R2，F(xiàn)-統(tǒng)計(jì)量和與F(1,n-2)分布大于F值的概率p，p<時(shí)回歸模型有效.默認(rèn)值是0.05模型求解輸入：(hg1.m)x=[10971284150213941303155519172051211122862311200324352625294831553372];y=[698872988807738102513161539156117651762196019022013244627362825];X=[ones(size(x')),x'],pause[c,cint,r,rint,stats]=regress(y',X,0.05),pausercoplot(r,rint)輸出：c=-460.5282(參數(shù)a)0.9840(參數(shù)b)cint=-691.8478-229.2085(a的置信區(qū)間)0.87791.0900(b的置信區(qū)間)r=[79.124869.1244-29.3788-104.1112-83.5709-44.5286-109.7219-18.5724-55.6100-23.8029-51.4019449.6576-33.4128-109.36515.816092.1364-32.3827]’(殘差向量)rint=（略）（參見(jiàn)殘差分析圖）stats=0.9631(R2)391.2713(F)0.0000(P{χ0})第12個(gè)數(shù)據(jù)點(diǎn)異常，可刪出預(yù)測(cè)x1(1)=3372;(hgy1.m)fori=1:5x1(i+1)=1.045*x1(i);%未來(lái)五年國(guó)民收入以4.5%的速度遞增

y1(i+1)=-460.5282+0.9840*x1(i+1);%鋼材的預(yù)測(cè)值endx1,y1結(jié)果x1=3372.03523.73682.33848.04021.24202.1y1=3006.83162.93325.93496.33674.4變量選擇影響因變量的因素：自變量x1,x2,xm及其簡(jiǎn)單函數(shù),如

將所有影響顯著的因素都納入回歸模型；最終的模型盡量簡(jiǎn)單,即包含盡量少的因素。變量選擇的標(biāo)準(zhǔn)

從候選集合S={x1,…xk}中選出一子集S1(含pk個(gè)自變量)與因變量y構(gòu)造回歸模型,其優(yōu)劣由s2度量.影響顯著的自變量進(jìn)入模型時(shí)，Q明顯下降，s減?。挥绊懞苄〉淖宰兞窟M(jìn)入模型時(shí)，Q下降不大，p的增加會(huì)使s變大.變量選擇與逐步回歸

逐步回歸從候選集合中確定一初始子集；從子集外（候選集合內(nèi)）中引入一個(gè)對(duì)y影響顯著的；對(duì)集合中的變量進(jìn)行檢驗(yàn)，剔除影響變得不顯著的；迭代式地進(jìn)行引入和剔除，直到不能進(jìn)行為止。選擇衡量影響顯著程度的統(tǒng)計(jì)量，通常用偏F統(tǒng)計(jì)量；適當(dāng)選取引入變量的顯著性水平in和剔除變量的out。引入新的變量后原來(lái)模型內(nèi)影響顯著的變量變得不顯著，從而被剔除~自變量之間存在較強(qiáng)相關(guān)性的結(jié)果.MATLAB統(tǒng)計(jì)工具箱常用命令逐步回歸

stepwise(x,y,inmodel,penter,premove)x~候選變量集合的n×k

數(shù)據(jù)矩陣（n是數(shù)據(jù)容量,k是變量數(shù)目）;y~因變量數(shù)據(jù)向量（n維）;Inmodel~初始模型中包括的候選變量集合的指標(biāo)（矩陣x的列序數(shù)，缺省時(shí)設(shè)定為全部候選變量）;penter~引入變量的顯著性水平（缺省時(shí)設(shè)定為0.05）;premove~剔除變量的顯著性水平（缺省時(shí)設(shè)定為0.10）。輸出交互式畫(huà)面例教學(xué)評(píng)估為了考評(píng)教師的教學(xué)質(zhì)量，教學(xué)研究部門(mén)設(shè)計(jì)了一個(gè)教學(xué)評(píng)估表。對(duì)學(xué)生對(duì)老師的課程進(jìn)行打分。分值為1—5分（5分最好，1分最差）。x1—課程內(nèi)容組織的合理性；x2—主要問(wèn)題展開(kāi)的合理性；x3—回答學(xué)生問(wèn)題的有效性；x4—課下交流的有助性；x5—教科書(shū)的幫助性；x6—考試評(píng)分的公正性；y—對(duì)教師的總體評(píng)價(jià)。教師編號(hào)課程編號(hào)x1x2x3x4x5x6y12014.464.424.234.104.564.374.1122244.113.823.293.603.993.823.383301

3.583.313.243.764.393.753.17………………154244.244.384.354.484.154.504.33>>clearloaddata.txty=data(:,7);x=data(:,1:6);stepwise(x,y)例兒童的體重與身高和年齡序號(hào)體重(kg)身高(m)年齡序號(hào)體重(kg)身高(m)年齡127.11.348730.91.3910230.21.4910827.81.219324.01.146929.41.2610433.41.57111024.81.066524.91.1981136.51.6412624.31.1771229.11.449可能存在二次函數(shù)關(guān)系體重y身高x1體重y年齡x2例兒童的體重與身高和年齡初始結(jié)果最終結(jié)果例兒童的體重與身高和年齡初始結(jié)果最終結(jié)果[0，1]區(qū)間上的均勻隨機(jī)數(shù)命令形式1：rand(N)功能：產(chǎn)生一個(gè)N*N的隨機(jī)矩陣。引例拋一枚硬幣10000次，如何模擬其正面的出現(xiàn)情況。命令形式2：rand(m,n)功能：產(chǎn)生一個(gè)m*n的隨機(jī)矩陣。八、隨機(jī)數(shù)正面x>=0.5反面x<0.5引例拋一枚硬幣10000次，如何模擬其正面的出現(xiàn)情況。

fori=1:100

a(i)=sum(sum(round(rand(100))))/10000;enda

mx=max(a)

mn=min(a)ma=mean(a)白球x>0.7黑球x<=0.7例在箱子中有10個(gè)球，白球3個(gè)，黑球7個(gè)。P(白球)=0.3，P(黑球)=0.7。如何模擬該過(guò)程？

fori=1:100

a(i)=sum(sum(round(rand(100))))/10000;enda

mx=max(a)

mn=min(a)ma=mean(a)主成分分析思想九、主成分分析降維思想：高維到低維包含更多的、不重復(fù)的信息類型：總體主成分分析樣本主成分分析1、總體主成分

定義設(shè)X1，X2，…，Xp

為某實(shí)際問(wèn)題所涉及的p個(gè)隨機(jī)變量。記X=(X1，X2，…,Xp)T，其協(xié)方差矩陣為

它是一個(gè)p階非負(fù)定矩陣。設(shè)則有主成分析的目的第i個(gè)主成分：一般地，在約束條件

及下，求li使Var(Yi)達(dá)到最大，由此li所確定的稱為X

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第六講概率統(tǒng)計(jì)建模

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第六講概率統(tǒng)計(jì)建模

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔