第六講概率統(tǒng)計(jì)建模_第1頁
第六講概率統(tǒng)計(jì)建模_第2頁
第六講概率統(tǒng)計(jì)建模_第3頁
第六講概率統(tǒng)計(jì)建模_第4頁
第六講概率統(tǒng)計(jì)建模_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

概率統(tǒng)計(jì)建模方法及其在Matlab中的實(shí)現(xiàn)

第六講2002B彩票中的問題(古典概型)2004B電力市場(chǎng)的輸電阻塞管理(多元線性回歸)2005A長(zhǎng)江水質(zhì)的評(píng)價(jià)和預(yù)測(cè)(多元統(tǒng)計(jì)綜合評(píng)價(jià))2005BDVD在線租賃(概率分布-正態(tài)分布等)2006A出版設(shè)資源管理配置(主成分分析、方差分析)2006B艾滋病的評(píng)價(jià)體系及療效的預(yù)測(cè)(統(tǒng)計(jì)回歸分析)歷年的建模競(jìng)賽題統(tǒng)計(jì)概率分布(古典概型、二項(xiàng)分布、正態(tài)分布等)隨機(jī)服務(wù)模型(排隊(duì)服務(wù)模型)時(shí)間序列模型(馬氏模型)回歸模型(一元、多元、逐步回歸)聚類分析(主成分分析、方差分析)常用的概率模型SPSS、Matlab一、樣本總體1、總體:人們研究對(duì)象的全體。2、個(gè)體:總體中的每一個(gè)基本單位。3、樣本:從總體中隨機(jī)產(chǎn)生的若干個(gè)個(gè)體的集合。統(tǒng)計(jì)的主要任務(wù)從樣本推斷總體二、頻數(shù)表和直方圖1、頻數(shù):將數(shù)據(jù)的取值范圍劃分為若干個(gè)區(qū)間,統(tǒng)計(jì)這組數(shù)據(jù)在每個(gè)區(qū)間出現(xiàn)的次數(shù)。2、直方圖:以數(shù)據(jù)的取值為橫坐標(biāo),頻數(shù)為縱坐標(biāo)畫出的階梯形圖。區(qū)間的劃分有等距劃分和非等距劃分。3、直方圖的matlab實(shí)現(xiàn)(1)數(shù)據(jù)輸入:直接輸入——針對(duì)數(shù)據(jù)較少間接輸入——針對(duì)數(shù)據(jù)較多(先寫一個(gè)純文本數(shù)據(jù))例學(xué)生的身高和體重學(xué)校隨機(jī)抽取100名學(xué)生,測(cè)量他們的身高和體重,所得數(shù)據(jù)如下表身高體重身高體重身高體重身高體重身高體重1727517162……17764

5516867……184701696416552……166491716516962……171711674716865……1705920行100名學(xué)生的身高和體重表先把上面表格里的數(shù)據(jù)保存在txt文本里,再在matlab里面導(dǎo)入該數(shù)據(jù);最后整理數(shù)據(jù)。high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);(2)直方圖命令:[N,X]=hist(Y,M)樣本數(shù)組將[min(Y),max(Y)]等分為M份,缺省時(shí)默認(rèn)為10返回M個(gè)小區(qū)間的中點(diǎn)返回M個(gè)小區(qū)間的頻數(shù)Matlab程序loaddata.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);[n1,x1]=hist(high)[n2,x2]=hist(weight)hist(high)hist(weight)三、統(tǒng)計(jì)量統(tǒng)計(jì)量:反映樣本數(shù)量特征的函數(shù),它不含任何未知量。1、算術(shù)平均值和中位數(shù)——表示位置的統(tǒng)計(jì)量平均值:命令形式:mean(x)功能:返回x的均值命令形式:nanmean(x)功能:返回除了NaN外x的均值中位數(shù):將數(shù)據(jù)從小到大排列后位于中間位置的數(shù)。命令形式:median(x)功能:返回x的中位數(shù)命令形式:nanmedian(x)功能:返回除了NaN外x的中位數(shù)三、統(tǒng)計(jì)量統(tǒng)計(jì)量:反映樣本數(shù)量特征的函數(shù),它不含任何未知量。2、標(biāo)準(zhǔn)差、方差和極差——表示變異程度的統(tǒng)計(jì)量標(biāo)準(zhǔn)差:命令形式:std(x)功能:返回x的標(biāo)準(zhǔn)差命令形式:std(x,1)功能:返回命令形式:var(x)功能:返回x的方差命令形式:var(x,1)功能:返回std(x,1)的平方方差:標(biāo)準(zhǔn)差的平方。極差:最大值與最小值之差。命令形式:range(x)功能:返回x的極差三、統(tǒng)計(jì)量統(tǒng)計(jì)量:反映樣本數(shù)量特征的函數(shù),它不含任何未知量。3、中心矩、偏度和峰度——表示分布形狀的統(tǒng)計(jì)量中心矩:命令形式:moment(x,n)功能:返回x的n階矩。注:偏度反映分布的對(duì)稱性。V>0時(shí),稱為右偏度,此時(shí)數(shù)據(jù)位于均值右邊比位于左邊的多。V<0,稱為左偏度。V接近于0,則認(rèn)為分布時(shí)對(duì)稱的。如正態(tài)分布,V=0。偏度:隨機(jī)變量的標(biāo)準(zhǔn)化的3階中心矩命令形式:skewness(x)功能:返回x的偏度。注:峰度時(shí)分布形狀的另一種度量。正態(tài)分布的峰度是3。若V比3大的多,表示分布有沉重的尾巴,說明樣本中有較多遠(yuǎn)離均值的數(shù)據(jù)。因而峰度可以作為衡量偏離正態(tài)分布的尺度之一。峰度:隨機(jī)變量的標(biāo)準(zhǔn)化的4階中心矩命令形式:kurtosis(x)功能:返回x的峰度。四、常見的概率分布1、正態(tài)分布:命令形式1:normpdf(x,u,v)功能:計(jì)算參數(shù)為u,v的正態(tài)分布密度函數(shù)在x處的值命令形式2:normcdf(x,u,v)功能:計(jì)算參數(shù)為u,v的正態(tài)分布的累積分布函數(shù)的值命令形式3:norminv(a,u,v)功能:計(jì)算臨界值x命令形式4:normrnd(u,v,m,n)功能:產(chǎn)生服從參數(shù)為u,v的正態(tài)分布的mn的矩陣注:再matlab工具箱中,對(duì)每一種分布都提供了如下的幾類函數(shù)。pdf—概率密度cdf—分布函數(shù)inv—逆累積分布函數(shù)rnd—隨機(jī)數(shù)生成注:求某個(gè)分布的概率密度、分布函數(shù)等的格式:

namepdf(),namecdf()……或者pdf(‘name’,…),cdf(‘name’,…)…….常見的分布函數(shù)表name函數(shù)說明name函數(shù)說明betaBeta分布bino二項(xiàng)分布exp指數(shù)分布geo幾何分布hyge超幾何分布poiss泊松分布unif均勻分布unid離散均勻分布chiz卡方分布fF分布gamGamma分布norm正態(tài)分布tT分布logn對(duì)數(shù)正態(tài)分布nbin負(fù)二項(xiàng)分布ncf非中心F分布nct非中心t分布ncx2非中心卡方分布rayl瑞利分布weibWeibull分布五、參數(shù)估計(jì)1、點(diǎn)估計(jì):用樣本統(tǒng)計(jì)量確定總體參數(shù)的值。它是用一個(gè)值去估計(jì)另一個(gè)值,所以稱為點(diǎn)估計(jì)。2、區(qū)間估計(jì):稱為的置信區(qū)間為置信水平為顯著水平命令形式:[]=namefit(x,alpha)樣本數(shù)據(jù)顯著水平,缺省時(shí)默認(rèn)為0.05例如[mu,sigma,muci,sigmaci]=normfit(x,alpha)返回均值u的點(diǎn)估計(jì)返回標(biāo)準(zhǔn)差v的點(diǎn)估計(jì)這兩者的區(qū)間估計(jì)例:分別用金球、鉑球測(cè)定引力常數(shù)(2)用金球測(cè)定觀測(cè)值為:6.683,6.681,6.676,6.678,6.679,6.672;(2)用鉑球測(cè)定觀測(cè)值為:6.661,6.661,6.667,6.667,6.664;設(shè)測(cè)定總體服從正態(tài)分布,其參數(shù)未知,分別求該參數(shù)的置信度為0.9的置信區(qū)間。X=[6.683,6.681,6.676,6.678,6.679,6.672];Y=[6.661,6.661,6.667,6.667,6.664];[a1,b1,c1,d1]=normfit(X,0.1)[a2,b2,c2,d2]=normfit(Y,0.1)六、假設(shè)檢驗(yàn)1、單個(gè)總體均值u的檢驗(yàn)

原假設(shè)為:備選假設(shè):(1)已知,關(guān)于u的檢驗(yàn)命令形式:

[h,p,c]=ztest(x,mu,sigma,alpha,taic)接受與否的參數(shù)在原假設(shè)條件下樣本均值出現(xiàn)的概率均值的置信區(qū)間樣本均值標(biāo)準(zhǔn)差顯著水平備選假設(shè)的選擇注:(2)未知,關(guān)于u的檢驗(yàn)命令形式:

[h,p,c]=ttest(x,mu,alpha,taic)例某種電子元件的壽命x(以小時(shí)計(jì))服從正態(tài)分布,其均值和方差均未知?,F(xiàn)得16只元件的壽命如下:280101212224379179264222362168250149260485170問:是否有理由認(rèn)為該元件的平均壽命大于225小時(shí)?x=[159280101212224379179264222362168250149260485170];[h,p,c]=ttest(x,225,0.05,1)結(jié)論:拒絕原假設(shè),認(rèn)為壽命不大于225小時(shí)。2、雙正態(tài)總體均值的假設(shè)檢驗(yàn)比較兩個(gè)方差相等的正態(tài)總體的均值是否相等(T檢驗(yàn))命令格式:[H,P,ci,stats]=ttest2(X,Y,alpha,tail)功能:對(duì)兩個(gè)正態(tài)分布總體的采樣X、Y進(jìn)行T檢驗(yàn),對(duì)H,P,alpha的解釋同上;tail是假設(shè)的備選項(xiàng)(即備擇假設(shè)),有三個(gè)值:tail=0是默認(rèn)值,可省略,說明備選項(xiàng)為“均值不相等”;tail=1,說明備選項(xiàng)為“X的均值大于Y的均值”;tail=-1,說明備選項(xiàng)為“X的均值小于Y的均值”。ci給出均值差的置信區(qū)間;stats是個(gè)結(jié)構(gòu),包含以下元素:tstat(統(tǒng)計(jì)值)、df(自由度)。例

某燈泡廠在采用一項(xiàng)新工藝前后,分別抽取了10只進(jìn)行壽命試驗(yàn),壽命分別為:舊燈泡:2461,2404,2407,2439,2394,2401,2543,2463,2392,2458新燈泡:2496,2485,2538,2596,2556,2582,2494,2528,2537,2492假設(shè)燈泡的壽命服從正態(tài)分布,能否認(rèn)為采用新工藝后,燈泡的壽命提高了?(a=0.01)x=[2461,2404,2407,2439,2394,2401,2543,2463,2392,2458];y=[2496,2485,2538,2596,2556,2582,2494,2528,2537,2492];alpha=0.01;[h,p,ci,st]=ttest2(x,y,alpha,-1)結(jié)果:h=1%拒絕原假設(shè)即認(rèn)為壽命未提高p=6.3361e-005%p很小,對(duì)假設(shè)置疑ci=-Inf-44.6944st=tstat:-4.8567df:183、兩個(gè)總體一致性的假設(shè)檢驗(yàn)比較兩個(gè)不知道確切分布的總體均值是否相等命令格式:[P,H,stats]=ranksum(X,Y,alpha)功能:對(duì)兩個(gè)總體的采樣X、Y進(jìn)行檢驗(yàn),對(duì)H,P,alpha的解釋同上;stats是個(gè)結(jié)構(gòu),包含二個(gè)元素:zval(均值差的正態(tài)統(tǒng)計(jì)值)和ranksum(統(tǒng)計(jì)的秩和值)。例

兩臺(tái)機(jī)床加工同一種軸,抽樣測(cè)量產(chǎn)品的直徑(mm):機(jī)床甲:33.592,33.862,33.751,33.673,33.847,33.778,33.631,33.911,33.785,33.928機(jī)床乙:34.221,33.947,33.856,34.039,34.000,33.924,34.125,34.273,33.968,33.923在a=0.05下能否認(rèn)為兩臺(tái)機(jī)床加工的直徑?jīng)]有顯著不同?clear;x=[33.592,33.862,33.751,33.673,33.847,33.778,33.631,33.911,33.785,33.928];y=[34.221,33.947,33.856,34.039,34.000,33.924,34.125,34.273,33.968,33.923];alpha=0.05;[p,h,st]=ranksum(x,y,alpha)結(jié)果:p=7.6854e-004%p很小,對(duì)假設(shè)置疑h=1%拒絕原假設(shè)即認(rèn)為直徑?jīng)]有顯著不同st=zval:-3.3639ranksum:604、兩個(gè)樣本具有相同連續(xù)分布的假設(shè)檢驗(yàn)檢驗(yàn)兩個(gè)樣本是否具有相同的連續(xù)分布命令格式:

[H,P,ksstat]=kstest2(X,Y,alpha,tail)功能:對(duì)兩個(gè)總體的采樣X、Y進(jìn)行檢驗(yàn),對(duì)H,P,alpha的解釋同上;tail是假設(shè)的備選項(xiàng)(即備擇假設(shè)),有三個(gè)值:tail=0是默認(rèn)值,可省略,說明備選項(xiàng)為“不相等”;tail=1,說明備選項(xiàng)為“大于”;tail=-1,說明備選項(xiàng)為“小于”。ksstat表示測(cè)試統(tǒng)計(jì)量的值。clear;x=randn(1,10);y=randn(1,10)+x;[h,p,kst]=kstest2(x,y)例

兩個(gè)正態(tài)分布的檢驗(yàn)結(jié)果:h=0%接受原假設(shè)即認(rèn)為兩樣本具有相同類型的連續(xù)分布p=0.6751

%表示假設(shè)成立的概率為0.6751kst=0.3000

5、正態(tài)分布的假設(shè)檢驗(yàn)檢驗(yàn)樣本是否具有某種連續(xù)分布命令格式1:

[H,P,jbstat,cv]=jbtest(X,alpha)功能:對(duì)采樣X進(jìn)行檢驗(yàn)是否服從正態(tài)分布,對(duì)H,P,alpha的解釋同上;jbstat表示測(cè)試統(tǒng)計(jì)量的值;cv為是否拒絕假設(shè)的臨界值。適合大樣本命令格式2:

[H,P,lstat,cv]=lillietest(X,alpha)功能:對(duì)采樣X進(jìn)行檢驗(yàn)是否服從正態(tài)分布,對(duì)H,P,alpha的解釋同上;jbstat表示測(cè)試統(tǒng)計(jì)量的值;cv為是否拒絕假設(shè)的臨界值。適合小樣本。clear;m1=ones(1,11)*2.55;m2=ones(1,12)*2.65;m3=ones(1,17)*2.75;m4=ones(1,19)*2.85;m5=ones(1,26)*2.95;m6=ones(1,24)*3.05;m7=ones(1,22)*3.15;m8=ones(1,19)*3.25;m9=ones(1,13)*3.35;M=[m1,m2,m3,m4,m5,m6,m7,m8,m9];[h,p,lst,cv]=lillietest(M)hist(M)例從一批零件中隨機(jī)抽取一組樣品,下面是零件樣品直徑的統(tǒng)計(jì)表。在顯著水平a=0.05下能否認(rèn)為這批零件的直徑服從正態(tài)分布?繪出統(tǒng)計(jì)數(shù)據(jù)的直方圖。直徑2.552.652.752.852.953.053.153.253.35頻數(shù)111217192624221913結(jié)果:h=1%拒絕原假設(shè)即認(rèn)為直徑不服從正態(tài)分布p=Nan

%表示假設(shè)成立的概率很小lst=0.1062cv=0.0694%測(cè)試統(tǒng)計(jì)值大于臨界值也表明應(yīng)拒絕hist(M,n)---繪制向量M的直方圖,n定義條方的數(shù)目,默認(rèn)為106、概率分布的假設(shè)檢驗(yàn)命令格式:

[H,P,ksstat,cv]=kstest(X,cdf,alpha,tail)功能:對(duì)采樣X進(jìn)行檢驗(yàn)是否服從名為cdf類型的連續(xù)累積概率分布,cdf缺省為[],默認(rèn)為標(biāo)準(zhǔn)正態(tài)分布,聲明格式為兩個(gè)相同長(zhǎng)度的列向量:采樣和采樣對(duì)應(yīng)的分布函數(shù);對(duì)H,P,alpha,ksstat,cv的解釋同上。例

clear;mu=1;sigma=2;x=normrnd(mu,sigma,20,1);alpha=0.01;lbd=3;[h,p,ksst,cv]=kstest(x,[x,expcdf(x,lbd)],alpha,0)%檢驗(yàn)是否符合參數(shù)為3的指數(shù)分布q-q圖:用qqplot函數(shù)生成兩個(gè)樣本的q-q(quan-tile分位數(shù))圖。若兩樣本來自同一分布,圖中數(shù)據(jù)點(diǎn)呈直線關(guān)系,否則為曲線關(guān)系。qqplot(X,Y):顯示X和Y兩個(gè)樣本的q-q圖。qqplot(X):顯示X的樣本值與服從正態(tài)分布的理論數(shù)據(jù)之間的q-q圖。例x=normrnd(0,1,100,1);y=normrnd(0.5,2,50,1);z=weibrnd(2,0.5,100,1);subplot(2,2,1),qqplot(x)holdon,subplot(2,2,2)qqplot(x,y),holdonsubplot(2,2,3),qqplot(z)holdon,subplot(2,2,4)qqplot(x,z)holdoff由第一個(gè)子圖看出X服從正態(tài)分布。由第二個(gè)子圖看出X和Y可看作同分布的。由第三個(gè)子圖看出Z不服從正態(tài)分布。由第四個(gè)子圖看出X和Z不是同分布的。1、單因素方差分析模型:

六、方差分析用來對(duì)比因變量在不同組中的平均值的統(tǒng)計(jì)方法單因素方差分析命令形式命令格式:[P,anovatab,stats]=anova1(X,group,displayopt)功能:比較多組數(shù)據(jù)的均值,返回這些均值相等的概率,從而判斷因素對(duì)結(jié)果是否有顯著影響。X為輸入數(shù)據(jù),列向量表示相互獨(dú)立的樣本觀測(cè)值,具有相同長(zhǎng)度;P為X的各列均值相等的概率,P越小,則質(zhì)疑原假設(shè)(即均值不相等),表示因素的影響顯著;group是與X對(duì)應(yīng)的字符或字符串?dāng)?shù)組,用來聲明X每一列中數(shù)據(jù)的名字或意義,可以省略;displayopt表示參數(shù):on表示顯示圖,off表示隱藏圖;anovatab返回方差分析表;stats返回一個(gè)附加的統(tǒng)計(jì)數(shù)據(jù)結(jié)構(gòu)。例

將同一批同種牌號(hào)絲襪在不同溫度下作彈力試驗(yàn),得到數(shù)據(jù)表:溫度試驗(yàn)30o40o50o60o70o80o14.36.110.06.59.39.527.87.34.88.38.78.833.24.25.48.67.211.446.54.19.68.210.17.8試檢驗(yàn)溫度對(duì)彈力有無顯著影響。(α=0.05)clear;X=[4.3,6.1,10.0,6.5,9.3,9.5;7.8,7.3,4.8,8.3,8.7,8.8;3.2,4.2,5.4,8.6,7.2,11.4;6.5,4.1,9.6,8.2,10.1,7.8];[p,tab,stats]=anova1(X,[],'on')結(jié)果:p=0.0214%p很小,拒絕原假設(shè)tab='Source''SS''df''MS''F''Prob>F''Columns'55.5471511.10943.5254[0.0214]'Error'56.7225183.1512[][]'Total'112.269623[][][]stats=gnames:[6x1char]n:[444444]source:'anova1'means:[5.45005.42507.45007.90008.82509.3750]

df:18s:1.7752%總體標(biāo)準(zhǔn)差的無偏估計(jì)例將四種工藝下生產(chǎn)的燈泡進(jìn)行壽命測(cè)試,得到數(shù)據(jù)表:工藝試驗(yàn)A1A2A3A4116201580146015002167016001540155031700164016201610417501720168051800試檢驗(yàn)工藝對(duì)壽命有無顯著影響。(α=0.05)clear;X=[1620,1670,1700,1750,1800,1580,1600,1640,1720,1460,1540,1620,1500,1550,1610,1680];group=[1,1,1,1,1,2,2,2,2,3,3,3,4,4,4,4];[p,tab,stats]=anova1(X,group,'on')結(jié)果:p=0.0331tab='Source''SS''df''MS''F''Prob>F''Groups'[62820][3][20940][4.0608][0.0331]'Error'[61880][12][5.1567e+003][][]'Total'[124700][15][][][]stats=gnames:{4x1cell}n:[5434]source:'anova1'means:[1708163515401585]df:12s:71.80992、雙因素方差分析模型:雙因素方差分析命令格式命令格式:

[P,anovatab]=anova2(X,reps,displayopt)功能:判斷因素對(duì)結(jié)果是否有顯著影響。X為輸入數(shù)據(jù),列向量表示因素1的差異,行向量表示2的差異;P是概率向量,P越小,則質(zhì)疑原假設(shè),表示因素的影響顯著;reps聲明每一狀態(tài)下的試驗(yàn)次數(shù);displayopt表示參數(shù):on表示顯示圖,off表示隱藏圖;anovatab返回方差分析表。例有3個(gè)工人分別在4臺(tái)機(jī)器上加工某種零件,工作的3天中日產(chǎn)量列表如下:

工人B機(jī)器AB1B2B3A1151517191916161821A21717

171515

15192222A31517161817161818

18A41820221516171717

17試檢驗(yàn)操作工人的技術(shù)水平有無顯著差異?機(jī)器性能有無顯著差異?交互作用的影響是否顯著?(α=0.05)clear;A1=[15,15,17,19,19,16,16,18,21];A2=[17,17,17,15,15,15,19,22,22];A3=[15,17,16,18,17,16,18,18,18];A4=[18,20,22,15,16,17,17,17,17];X=[A1',A2',A3',A4'];reps=3;[p,tab]=anova2(X,reps,'on')解釋:操作工人的技術(shù)水平無顯著差異p=0.6645機(jī)器性能有顯著差異p=0.0023交互作用的影響顯著p=0.0002直線擬合:a=polyfit(x,y,1),b=polyfit(x,z,1),同一條直線y=0.33x+0.96(z=0.33x+0.96)從擬合到回歸x=[01234],y=[1.01.31.52.02.3](+號(hào))x=[01234],z=[0.61.950.92.851.8](*號(hào))問題:你相信哪個(gè)擬合結(jié)果?怎樣給以定量評(píng)價(jià)?得到a=0.330.96b=0.330.96七、回歸分析一元線性回歸分析的主要任務(wù)是:模型參數(shù)估計(jì)1、回歸系數(shù)的最小二乘估計(jì)

其中??====niiniiynyxnx111,1,??====niiiniiyxnxyxnx11221,1.

檢驗(yàn)、預(yù)測(cè)與控制1、回歸方程的顯著性檢驗(yàn)(Ⅰ)F檢驗(yàn)法

(Ⅱ)t檢驗(yàn)法(Ⅲ)r檢驗(yàn)法2、回歸系數(shù)的置信區(qū)間3、預(yù)測(cè)與控制(1)預(yù)測(cè)(2)控制收集一組包含因變量和自變量的數(shù)據(jù);選定因變量與自變量之間的模型,利用數(shù)據(jù)按照最小二乘準(zhǔn)則計(jì)算模型中的系數(shù);利用統(tǒng)計(jì)分析方法對(duì)不同的模型進(jìn)行比較,找出與數(shù)據(jù)擬合得最好的模型;判斷得到的模型是否適合于這組數(shù)據(jù),診斷有無不適合回歸模型的異常數(shù)據(jù);利用模型對(duì)因變量作出預(yù)測(cè)或解釋?;貧w分析的主要步驟

為了研究鋼材消費(fèi)量與國(guó)民收入之間的關(guān)系,在統(tǒng)計(jì)年鑒上查得一組歷史數(shù)據(jù)。例:鋼材消費(fèi)量與國(guó)民收入的關(guān)系

年份196419651966……197819791980消費(fèi)(噸)698872988……144627362825收入(億)109712841502……294831553372

試分析預(yù)測(cè)若1981年到1985年我國(guó)國(guó)民收入以4.5%的速度遞增,鋼材消費(fèi)量將達(dá)到什么樣的水平?

鋼材消費(fèi)量--------試驗(yàn)指標(biāo)(因變量)Y;國(guó)民收入-----------自變量x;建立數(shù)據(jù)擬合函數(shù)y=E(Y|x)=f(x);作擬合曲線圖形分析。

問題分析:多元線性回歸

b=regress(Y,X)1、確定回歸系數(shù)的點(diǎn)估計(jì)值:MATLAB統(tǒng)計(jì)工具箱常用命令3、畫出殘差及其置信區(qū)間:

rcoplot(r,rint)2、求回歸系數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)、并檢驗(yàn)回歸模型:

[b,bint,r,rint,stats]=regress(Y,X,alpha)回歸系數(shù)的區(qū)間估計(jì)殘差用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量,有三個(gè)數(shù)值:相關(guān)系數(shù)r2、F值、與F對(duì)應(yīng)的概率p置信區(qū)間顯著性水平(缺省時(shí)為0.05)rcoplot(r,rint)殘差及其置信區(qū)間作圖MATLAB7.0版本s增加一個(gè)統(tǒng)計(jì)量:剩余方差s2.使用命令regress實(shí)現(xiàn)一元線性回歸模型的計(jì)算

b=regress(Y,X)或

[b,bint,r,rint,stats]=regress(Y,X,alpha)回歸系數(shù)beta以及它們的置信區(qū)間殘差向量r=Y-Y及它們的置信區(qū)間相關(guān)系數(shù)R2,F(xiàn)-統(tǒng)計(jì)量和與F(1,n-2)分布大于F值的概率p,p<時(shí)回歸模型有效.默認(rèn)值是0.05模型求解輸入:(hg1.m)x=[10971284150213941303155519172051211122862311200324352625294831553372];y=[698872988807738102513161539156117651762196019022013244627362825];X=[ones(size(x')),x'],pause[c,cint,r,rint,stats]=regress(y',X,0.05),pausercoplot(r,rint)輸出:c=-460.5282(參數(shù)a)0.9840(參數(shù)b)cint=-691.8478-229.2085(a的置信區(qū)間)0.87791.0900(b的置信區(qū)間)r=[79.124869.1244-29.3788-104.1112-83.5709-44.5286-109.7219-18.5724-55.6100-23.8029-51.4019449.6576-33.4128-109.36515.816092.1364-32.3827]’(殘差向量)rint=(略)(參見殘差分析圖)stats=0.9631(R2)391.2713(F)0.0000(P{χ0})第12個(gè)數(shù)據(jù)點(diǎn)異常,可刪出預(yù)測(cè)x1(1)=3372;(hgy1.m)fori=1:5x1(i+1)=1.045*x1(i);%未來五年國(guó)民收入以4.5%的速度遞增

y1(i+1)=-460.5282+0.9840*x1(i+1);%鋼材的預(yù)測(cè)值endx1,y1結(jié)果x1=3372.03523.73682.33848.04021.24202.1y1=3006.83162.93325.93496.33674.4變量選擇影響因變量的因素:自變量x1,x2,xm及其簡(jiǎn)單函數(shù),如

將所有影響顯著的因素都納入回歸模型;最終的模型盡量簡(jiǎn)單,即包含盡量少的因素。變量選擇的標(biāo)準(zhǔn)

從候選集合S={x1,…xk}中選出一子集S1(含pk個(gè)自變量)與因變量y構(gòu)造回歸模型,其優(yōu)劣由s2度量.影響顯著的自變量進(jìn)入模型時(shí),Q明顯下降,s減?。挥绊懞苄〉淖宰兞窟M(jìn)入模型時(shí),Q下降不大,p的增加會(huì)使s變大.變量選擇與逐步回歸

逐步回歸從候選集合中確定一初始子集;從子集外(候選集合內(nèi))中引入一個(gè)對(duì)y影響顯著的;對(duì)集合中的變量進(jìn)行檢驗(yàn),剔除影響變得不顯著的;迭代式地進(jìn)行引入和剔除,直到不能進(jìn)行為止。選擇衡量影響顯著程度的統(tǒng)計(jì)量,通常用偏F統(tǒng)計(jì)量;適當(dāng)選取引入變量的顯著性水平in和剔除變量的out。引入新的變量后原來模型內(nèi)影響顯著的變量變得不顯著,從而被剔除~自變量之間存在較強(qiáng)相關(guān)性的結(jié)果.MATLAB統(tǒng)計(jì)工具箱常用命令逐步回歸

stepwise(x,y,inmodel,penter,premove)x~候選變量集合的n×k

數(shù)據(jù)矩陣(n是數(shù)據(jù)容量,k是變量數(shù)目);y~因變量數(shù)據(jù)向量(n維);Inmodel~初始模型中包括的候選變量集合的指標(biāo)(矩陣x的列序數(shù),缺省時(shí)設(shè)定為全部候選變量);penter~引入變量的顯著性水平(缺省時(shí)設(shè)定為0.05);premove~剔除變量的顯著性水平(缺省時(shí)設(shè)定為0.10)。輸出交互式畫面例教學(xué)評(píng)估為了考評(píng)教師的教學(xué)質(zhì)量,教學(xué)研究部門設(shè)計(jì)了一個(gè)教學(xué)評(píng)估表。對(duì)學(xué)生對(duì)老師的課程進(jìn)行打分。分值為1—5分(5分最好,1分最差)。x1—課程內(nèi)容組織的合理性;x2—主要問題展開的合理性;x3—回答學(xué)生問題的有效性;x4—課下交流的有助性;x5—教科書的幫助性;x6—考試評(píng)分的公正性;y—對(duì)教師的總體評(píng)價(jià)。教師編號(hào)課程編號(hào)x1x2x3x4x5x6y12014.464.424.234.104.564.374.1122244.113.823.293.603.993.823.383301

3.583.313.243.764.393.753.17………………154244.244.384.354.484.154.504.33>>clearloaddata.txty=data(:,7);x=data(:,1:6);stepwise(x,y)例兒童的體重與身高和年齡序號(hào)體重(kg)身高(m)年齡序號(hào)體重(kg)身高(m)年齡127.11.348730.91.3910230.21.4910827.81.219324.01.146929.41.2610433.41.57111024.81.066524.91.1981136.51.6412624.31.1771229.11.449可能存在二次函數(shù)關(guān)系體重y身高x1體重y年齡x2例兒童的體重與身高和年齡初始結(jié)果最終結(jié)果例兒童的體重與身高和年齡初始結(jié)果最終結(jié)果[0,1]區(qū)間上的均勻隨機(jī)數(shù)命令形式1:rand(N)功能:產(chǎn)生一個(gè)N*N的隨機(jī)矩陣。引例拋一枚硬幣10000次,如何模擬其正面的出現(xiàn)情況。命令形式2:rand(m,n)功能:產(chǎn)生一個(gè)m*n的隨機(jī)矩陣。八、隨機(jī)數(shù)正面x>=0.5反面x<0.5引例拋一枚硬幣10000次,如何模擬其正面的出現(xiàn)情況。

fori=1:100

a(i)=sum(sum(round(rand(100))))/10000;enda

mx=max(a)

mn=min(a)ma=mean(a)白球x>0.7黑球x<=0.7例在箱子中有10個(gè)球,白球3個(gè),黑球7個(gè)。P(白球)=0.3,P(黑球)=0.7。如何模擬該過程?

fori=1:100

a(i)=sum(sum(round(rand(100))))/10000;enda

mx=max(a)

mn=min(a)ma=mean(a)主成分分析思想九、主成分分析降維思想:高維到低維包含更多的、不重復(fù)的信息類型:總體主成分分析樣本主成分分析1、總體主成分

定義設(shè)X1,X2,…,Xp

為某實(shí)際問題所涉及的p個(gè)隨機(jī)變量。記X=(X1,X2,…,Xp)T,其協(xié)方差矩陣為

它是一個(gè)p階非負(fù)定矩陣。設(shè)則有主成分析的目的第i個(gè)主成分:一般地,在約束條件

及下,求li使Var(Yi)達(dá)到最大,由此li所確定的稱為X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論