版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上目錄專(zhuān)心-專(zhuān)注-專(zhuān)業(yè)序言在科學(xué)實(shí)驗(yàn)與工農(nóng)業(yè)生產(chǎn)中,經(jīng)常要做實(shí)驗(yàn)。如何安排實(shí)驗(yàn),使實(shí)驗(yàn)次數(shù)盡量少,而又能達(dá)到好的試驗(yàn)效果呢?這是經(jīng)常會(huì)碰到的問(wèn)題。解決這個(gè)問(wèn)題有一門(mén)專(zhuān)門(mén)的學(xué)問(wèn),叫做“試驗(yàn)設(shè)計(jì)”。試驗(yàn)設(shè)計(jì)得好,會(huì)事半功倍,反之就會(huì)事倍功半了。60年代,華羅庚教授在我國(guó)倡導(dǎo)與普及的“優(yōu)選法”,即國(guó)外的斐波那契方法,與我國(guó)的數(shù)理統(tǒng)計(jì)學(xué)者在工業(yè)部門(mén)中普及的“正交設(shè)計(jì)”法都是試驗(yàn)設(shè)計(jì)方法。這些方法經(jīng)普及后,已為廣大技術(shù)人員與科學(xué)工作者掌握,取得一系列成就,產(chǎn)生了巨大的社會(huì)效益和經(jīng)濟(jì)效益。隨著科學(xué)技術(shù)工作的深入發(fā)展,上述兩種方法就顯得不夠了?!皟?yōu)選法”是單變量的最優(yōu)調(diào)試法,即假定我
2、們處理的實(shí)際問(wèn)題中只有一個(gè)因素起作用,這種情況幾乎是沒(méi)有的。所以在使用時(shí),只能抓“主要矛盾”,即突出一個(gè)因素,而將其他因素固定,這樣來(lái)安排實(shí)驗(yàn)。因此“優(yōu)選法”還不是一個(gè)很精確的近似方法?!罢辉O(shè)計(jì)”的基礎(chǔ)是拉丁方理論與群論,可以用來(lái)安排多因素的試驗(yàn),而且試驗(yàn)次數(shù)對(duì)各因素的各水平的所有組合數(shù)來(lái)說(shuō)是大大地減少了,但對(duì)于某些工業(yè)試驗(yàn)與昂貴的科學(xué)實(shí)驗(yàn)來(lái)說(shuō),試驗(yàn)仍嫌太多,而無(wú)法安排。1978年,七機(jī)部由于導(dǎo)彈設(shè)計(jì)的要求,提出了一個(gè)五因素的試驗(yàn),希望每個(gè)因素的水平數(shù)要多于10,而試驗(yàn)總數(shù)又不超過(guò)50,顯然優(yōu)選法和正交設(shè)計(jì)都不能用,方開(kāi)泰教授在幾年前,曾為近似計(jì)算一個(gè)多重積分問(wèn)題找過(guò)我,我向他介紹了多重?cái)?shù)值
3、積分的方法并取得了好結(jié)果,這就使他想到是否可能用數(shù)論方法于試驗(yàn)設(shè)計(jì)的問(wèn)題,于是我們經(jīng)過(guò)幾個(gè)月的共同研究,提出了一個(gè)新的試驗(yàn)設(shè)計(jì),即所謂“均勻設(shè)計(jì)”,將這一方法用于導(dǎo)彈設(shè)計(jì),取得了成效,我們的文章在80年代初發(fā)表后,15年來(lái),均勻設(shè)計(jì)已在我國(guó)有較廣泛的普及與使用,取得了一系列可喜的成績(jī)。均勻設(shè)計(jì)屬于近30年發(fā)展起來(lái)的“偽蒙特卡羅方法”的范籌。將經(jīng)典的確定的單變量問(wèn)題的計(jì)算方法推廣后用于多變量問(wèn)題的計(jì)算時(shí),計(jì)算量往往跟變量個(gè)數(shù)有關(guān),即使電腦再進(jìn)步很多,這種方法仍無(wú)法實(shí)際應(yīng)用,烏拉母(S.Ulam)與馮諾依曼(J.von Neumann)在40年代提出蒙特卡羅方法,即統(tǒng)計(jì)模擬方法,這個(gè)方法的大意是將
4、一個(gè)分析問(wèn)題化為一個(gè)有同樣解答的概率問(wèn)題,然后用統(tǒng)計(jì)模擬的方法來(lái)處理后面這個(gè)問(wèn)題,這樣使一些困難的分析問(wèn)題反而得到了解決,例如多重定積分的近似計(jì)算。蒙特卡羅方法的關(guān)鍵是找一組隨機(jī)數(shù)作為統(tǒng)計(jì)模擬之用,所以這一方法的精度在于隨機(jī)數(shù)的均勻性與獨(dú)立性。50年代末,有些數(shù)學(xué)家試圖用確定性方法尋找空間中均勻散布的點(diǎn)集來(lái)代替蒙特卡羅方法中的隨機(jī)數(shù),已經(jīng)找到的點(diǎn)集都是用數(shù)論方法找到的。按照外爾(H. Weyl)定義的測(cè)度來(lái)度量,它們的均勻性很好,但獨(dú)立性差些,用這些點(diǎn)集來(lái)代替蒙特卡羅方法中的隨機(jī)數(shù),往往會(huì)得到更精確的結(jié)果。這一方法稱(chēng)為偽蒙特卡羅方法或數(shù)論方法,數(shù)學(xué)家首先將這一方法成功地用于多重積分近似計(jì)算。從
5、統(tǒng)計(jì)學(xué)的觀點(diǎn)看,偽隨機(jī)數(shù)就是一個(gè)均勻分布的樣本。數(shù)值積分需要大樣本,均勻設(shè)計(jì)則要找一些小樣本。由于這個(gè)樣本比正交設(shè)計(jì)所對(duì)應(yīng)的樣本要均勻,所以用它來(lái)安排實(shí)驗(yàn)會(huì)得到好的效果。當(dāng)然在尋求小樣本時(shí),尋求大樣本的方法是起了借鑒作用的。均勻設(shè)計(jì)只是數(shù)論方法的一個(gè)應(yīng)用,數(shù)論方法還有廣泛應(yīng)用的園地。例如多重插值公式的建立,某些積分與微分的近似求解,求函數(shù)整體極值,求某些多元分布的近似代表點(diǎn),及用于統(tǒng)計(jì)推斷的一些問(wèn)題,如多元正態(tài)性檢驗(yàn)及多元球性檢驗(yàn)。早在50年代末,外國(guó)剛開(kāi)始研究為蒙特卡羅方法時(shí),華羅庚就倡議并領(lǐng)導(dǎo)了這一方法在我國(guó)的研究,他的開(kāi)拓性成果總結(jié)在我們的專(zhuān)著“數(shù)論在近似分析中的應(yīng)用”(科學(xué)出版社,19
6、78年;英文版:Springer-Verlag and Science Press,1981)中,這些工作是方開(kāi)泰教授與我合作的工作重要的背景與參考材料之一。我與方開(kāi)泰教授合作了近20年,由于他既是一個(gè)數(shù)學(xué)家,又有長(zhǎng)期在中國(guó)各工業(yè)部門(mén)普及應(yīng)用數(shù)理統(tǒng)計(jì)的寶貴經(jīng)驗(yàn),所以他有很好的應(yīng)用數(shù)學(xué)背景與洞察力。他能及時(shí)地提出有價(jià)值的研究問(wèn)題及解決問(wèn)題的可能途徑,我們的合作既是愉快的,又是富于成效的,我們的成果總結(jié)在我們的專(zhuān)著”Number-Theroretic Methods in Statistics”(Chapman and Hall,1993,中文版在出版過(guò)程中)之中。方開(kāi)泰教授的這本書(shū)著重于應(yīng)用及普
7、及,但也包括了他的最新成果,書(shū)后的均勻設(shè)計(jì)表就是最近他用準(zhǔn)確的偏差方法算出來(lái)的,比過(guò)去的結(jié)果有較大的改進(jìn),我相信本書(shū)的出版,對(duì)于在我國(guó)進(jìn)一步普及與應(yīng)用均勻設(shè)計(jì)將是很重要的,我愿借此機(jī)會(huì)預(yù)祝本書(shū)成功。 王元 1994年2月前言 均勻設(shè)計(jì)是1978年王元教授和我共同提出的,10多年來(lái),均勻設(shè)計(jì)在理論上有了不少新的發(fā)展,如各種均勻性度量的探討,拉丁方均勻設(shè)計(jì)的提出將均勻設(shè)計(jì)用于配方設(shè)計(jì)而產(chǎn)生的配方均勻設(shè)計(jì),特別地,最近我們又發(fā)現(xiàn)了一批奇數(shù)的均勻設(shè)計(jì)表,它們比原來(lái)的表均勻性有顯著地改善,這些表和它們的均勻表都已收集在本書(shū)的附錄中,由于實(shí)際的需要,利用擬水平的技術(shù)可以產(chǎn)生有混合水平的均勻設(shè)計(jì)表,本書(shū)也給
8、出了不少這一類(lèi)的設(shè)計(jì)表,并列出它們的均勻度,此外,本書(shū)給出了均勻設(shè)計(jì)和正交設(shè)計(jì)的比較。 本書(shū)是一本普及教材,目的是向廣大科技工作者介紹均勻設(shè)計(jì)的原理,方法和應(yīng)用,讀者并不需要具備高深的數(shù)學(xué)和統(tǒng)計(jì)知識(shí),中國(guó)數(shù)學(xué)會(huì)均勻設(shè)計(jì)學(xué)會(huì)已經(jīng)研制了有關(guān)軟件和教學(xué)錄象帶,方便使用者有效地使用均勻設(shè)計(jì),特別是數(shù)據(jù)分析方面,該軟件包含了豐富的內(nèi)容,比本書(shū)的材料更為豐富,本書(shū)也可作為大學(xué)和研究生的教材和參考書(shū)。 本書(shū)共分四章,第一章介紹試驗(yàn)設(shè)計(jì)的重要性,正交設(shè)計(jì)和如何使用均勻設(shè)計(jì)來(lái)設(shè)計(jì)試驗(yàn)。第二章首先對(duì)回歸分析作了簡(jiǎn)單的介紹,隨后介紹均勻設(shè)計(jì)的數(shù)據(jù)分析,工藝條件的優(yōu)化。第三章介紹均勻設(shè)計(jì)表的構(gòu)造,使用表的構(gòu)造,均勻度
9、準(zhǔn)則,以及正交設(shè)計(jì)和均勻設(shè)計(jì)的比較。第四章討論配方設(shè)計(jì),首先介紹文獻(xiàn)中推薦的三種配方設(shè)計(jì)方法,然后給出配方均勻設(shè)計(jì),有約束配方均勻設(shè)計(jì),最后給出均勻設(shè)計(jì)在系統(tǒng)工程等方面的應(yīng)用。 在編寫(xiě)這本講義中,中國(guó)科學(xué)院院士王元教授給出了許多指導(dǎo)性意見(jiàn),并為本書(shū)寫(xiě)了精彩的序言,沒(méi)有華一王(華羅庚王元)當(dāng)年開(kāi)創(chuàng)性的工作,就不可能有均勻設(shè)計(jì)。 中國(guó)航天工業(yè)總公司三院張建舟高級(jí)工程師,東北制藥總廠張承恩高級(jí)工程師,北京軍事醫(yī)學(xué)科學(xué)院張學(xué)中研究員給了我很多支持和幫助,中國(guó)科學(xué)院應(yīng)用數(shù)學(xué)所我的學(xué)生李潤(rùn)澤和張金廷同志協(xié)助我整理和打印,在此表示衷心地感謝。 由于作者水平有限,加之本書(shū)是利用春節(jié)假期匆匆趕出來(lái)的,難免有錯(cuò)誤
10、或不恰當(dāng)之處,歡迎讀者批評(píng)指正。 方開(kāi)泰 中國(guó)科學(xué)院應(yīng)用數(shù)學(xué)研究所 香港浸會(huì)大學(xué) 1994年2月第一章 試驗(yàn)設(shè)計(jì)和均勻設(shè)計(jì)1.1試驗(yàn)設(shè)計(jì)在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究中,經(jīng)常需要做試驗(yàn),以求達(dá)到預(yù)期的目的。例如在工農(nóng)業(yè)生產(chǎn)中希望通過(guò)試驗(yàn)達(dá)到高質(zhì)、優(yōu)產(chǎn)、低消耗,特別是新產(chǎn)品試驗(yàn),未知的東西很多,要通過(guò)試驗(yàn)來(lái)摸索工藝條件或配方。如何做試驗(yàn),其中大有學(xué)問(wèn)。試驗(yàn)設(shè)計(jì)得好,會(huì)事半功倍,反之會(huì)事倍功半,甚至勞而無(wú)功。本世紀(jì)30年代,由于農(nóng)業(yè)試驗(yàn)的需要,費(fèi)歇爾(R.A.Fisher)在試驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)分析方面做出了一系列先驅(qū)工作,從此試驗(yàn)設(shè)計(jì)成為統(tǒng)計(jì)科學(xué)的一個(gè)分支。隨后,F(xiàn).Yates,R.C.Bose,O.Kemp
11、thome,W.G.Cochran,D.R.Cox和G.E.P.Box對(duì)試驗(yàn)設(shè)計(jì)都作出了杰出的貢獻(xiàn),使該分支在理論上日趨完善,在應(yīng)用上日趨廣泛。60年代,日本統(tǒng)計(jì)學(xué)家田口玄一將試驗(yàn)設(shè)計(jì)中應(yīng)用最廣的正交設(shè)計(jì)表格化,在方法解說(shuō)方面深入淺出為試驗(yàn)設(shè)計(jì)的更廣泛使用作出了眾所周知的貢獻(xiàn)。田口玄一的方法對(duì)我國(guó)試驗(yàn)設(shè)計(jì)的普及和廣泛應(yīng)用有巨大的影響,70年代我國(guó)許多統(tǒng)計(jì)學(xué)家深入工廠、科研單位,用通俗的方法介紹正交試驗(yàn)設(shè)計(jì),幫助工程技術(shù)人員進(jìn)行試驗(yàn)的安排和數(shù)據(jù)分析,獲得了一大批優(yōu)秀成果,出版了許多成果匯編,舉辦了不少成果展覽會(huì)。在廣泛使用試驗(yàn)設(shè)計(jì)方法的洪流中,必然會(huì)出現(xiàn)一些新的問(wèn)題,這些總是用原有的各種試驗(yàn)設(shè)計(jì)
12、方法不能圓滿地解決,特別是當(dāng)試驗(yàn)的范圍較大,試驗(yàn)因素需要考察較多等級(jí)(在試驗(yàn)設(shè)計(jì)中這些等級(jí)稱(chēng)之為水平)時(shí),用正交試驗(yàn)及其它流行的試驗(yàn)方法要求做較多的試驗(yàn),常使得試驗(yàn)者望而生畏。許多實(shí)際問(wèn)題要求一種新的試驗(yàn)方法,它能有效地處理多水平的試驗(yàn),于是王元和方開(kāi)泰于1978年提出了均勻設(shè)計(jì)(見(jiàn)文獻(xiàn)13),該設(shè)計(jì)考慮如何將設(shè)計(jì)點(diǎn)均勻地散布在試驗(yàn)范圍內(nèi),使得能用較少的試驗(yàn)點(diǎn)獲得最多的信息。10多年來(lái),均勻設(shè)計(jì)在國(guó)內(nèi)得到了廣泛應(yīng)用,并獲得不少好的成果。試驗(yàn)設(shè)計(jì)在工業(yè)生產(chǎn)和工程設(shè)計(jì)中能發(fā)揮重要的作用,例如:1) 提高產(chǎn)量;2) 減少質(zhì)量的波動(dòng),提高產(chǎn)品質(zhì)量水準(zhǔn);3) 大大縮短新產(chǎn)品試驗(yàn)周期;4) 降低成本;5)
13、 延長(zhǎng)產(chǎn)品壽命。在自然科學(xué)中,有些規(guī)律開(kāi)始尚未由人們所認(rèn)識(shí),通過(guò)試驗(yàn)設(shè)計(jì)可以獲得其統(tǒng)計(jì)規(guī)律,在此基礎(chǔ)上提出科學(xué)猜想,這些猜想促進(jìn)了學(xué)科的發(fā)展,例如遺傳學(xué)的許多發(fā)現(xiàn)都藉助于上述過(guò)程。材料工業(yè)是工業(yè)中的棟梁,汽車(chē)拖拉機(jī)的制造離不開(kāi)各種合金鋼,鈦合金的發(fā)明和發(fā)現(xiàn)使飛機(jī)制造工業(yè)產(chǎn)生飛躍。超導(dǎo)的研究和超導(dǎo)材料的配方息息相關(guān)。配方試驗(yàn)又稱(chēng)混料試驗(yàn)(Experiments with Mixtures),不僅出現(xiàn)于材料工業(yè),而且在人們生活和其它工業(yè)中處處可見(jiàn),例如在中藥、飲料、混凝土的配方中。由于在配方中各種材料的總和必須為100,其試驗(yàn)設(shè)計(jì)必須考慮到這個(gè)約束條件,由于這個(gè)原因正交試驗(yàn)設(shè)計(jì)等方法不能直接用于配
14、方設(shè)計(jì)。針對(duì)配方設(shè)計(jì)的要求,Scheffé于1958年提出了單純形格子點(diǎn)設(shè)計(jì),隨后于1963年他又提出了單純形重心設(shè)計(jì)。Cornell27對(duì)配方試驗(yàn)設(shè)計(jì)的各種方法作了詳盡的介紹和討論。顯然,均勻設(shè)計(jì)的思想也能用于配方試驗(yàn),王元和方開(kāi)泰9給出了配方均勻設(shè)計(jì)的設(shè)計(jì)方法和有關(guān)的討論。本書(shū)第五章將系統(tǒng)介紹配方試驗(yàn)設(shè)計(jì)和配方均勻設(shè)計(jì)。不論是均勻設(shè)計(jì)或配方均勻設(shè)計(jì),其數(shù)據(jù)分析都要藉助于回歸分析,要用到線性回歸模型、二次回歸模型、非線性模型,以及各種選擇回歸變量的方法(如前進(jìn)法、后退法、逐步回歸、最優(yōu)回歸子集等)。有關(guān)回歸分析的書(shū)籍成百上千,本書(shū)僅作梗概介紹。讀者很容易找到各種參考書(shū)籍獲得更詳細(xì)的
15、介紹。試驗(yàn)設(shè)計(jì)的方法很多,本書(shū)重點(diǎn)介紹均勻設(shè)計(jì),這并不意味其它方法不重要,每種方法都有其優(yōu)點(diǎn),也有其局限性,根據(jù)實(shí)際情況選取合適的方法是應(yīng)用統(tǒng)計(jì)的重要內(nèi)容。1.2試驗(yàn)的因素和水平 在工業(yè)、農(nóng)業(yè)、科學(xué)研究和軍事科學(xué)的研究中,經(jīng)常需要作各種試驗(yàn),以研究各種因素之間的關(guān)系,找到最優(yōu)的工藝條件或最好的配方。讓我們先看一個(gè)例子:例1 在一個(gè)化工生產(chǎn)過(guò)程中,考慮影響得率(產(chǎn)量)的三個(gè)因素:溫度(A),時(shí)間(B)和加堿量(C)。為了便于試驗(yàn)的安排,每個(gè)因素要根據(jù)以往的經(jīng)驗(yàn)來(lái)選擇一個(gè)試驗(yàn)范圍,然后在試驗(yàn)范圍內(nèi)挑出幾個(gè)有代表性的值來(lái)進(jìn)行試驗(yàn),這些值稱(chēng)做該因素的水平。在該例中,我們選擇的試驗(yàn)范圍如下: 溫度: 7
16、7.592.5 時(shí)間: 75分165分 加堿量: 4.5%7.5%然后在上述范圍內(nèi),每個(gè)因素各選三個(gè)水平,組成如下的因素水平表:表1 因素水平表因素123溫度()808590時(shí)間(分)90120150加堿量()567選擇因素和水平關(guān)系到一個(gè)試驗(yàn)?zāi)芊癯晒Φ年P(guān)鍵,下列的注意事項(xiàng)和建議對(duì)使用試驗(yàn)設(shè)計(jì)的人員可能是有益的。1在一個(gè)生產(chǎn)過(guò)程中,有關(guān)的因素通常是很多的,例如在例1的化工生產(chǎn)工藝中,有催化劑的品種,催化劑用量,加堿時(shí)的速度,容器中的壓力等。但根據(jù)這次試驗(yàn)?zāi)康?,除了溫度(A),時(shí)間(B),和加堿量(C)各取三個(gè)水平外,其余因素是固定的,或者講,他們只取一個(gè)水平。為了方便,通常這些固定的因素在試驗(yàn)
17、方案中并不稱(chēng)為因素,只有變化的因素才稱(chēng)為因素。2在一項(xiàng)試驗(yàn)中,如何從眾多的有關(guān)因子中挑選出試驗(yàn)方案中的因素?我們建議課題的領(lǐng)導(dǎo)者應(yīng)當(dāng)要請(qǐng)有經(jīng)驗(yàn)的工程師、技術(shù)員、工人共同討論決定。在一次試驗(yàn)中,因素不宜選得太多(如超過(guò)10個(gè)),那樣可能會(huì)造成主次不分,丟了西瓜,揀了芝麻。相反地,因素也不宜選得太少,(如只選定一、二個(gè)因素),這樣可能會(huì)遺漏重要的因素,或遺漏因素間的交互作用,使試驗(yàn)的結(jié)果達(dá)不到預(yù)期的目的。例如,有這樣的故事,原計(jì)劃試驗(yàn)方案中只有三個(gè)因素,而利用試驗(yàn)設(shè)計(jì)的方法,可以在不增加試驗(yàn)數(shù)目的前提下,再增加一個(gè)因素,既然不費(fèi)事何樂(lè)而不為呢?試驗(yàn)的結(jié)果發(fā)現(xiàn),最后添加的這個(gè)因素是最重要的,從而發(fā)現(xiàn)
18、了歷史上最好的工藝條件,正是“有心栽花花不成,無(wú)意插柳柳成蔭。”3試驗(yàn)的范圍應(yīng)當(dāng)盡可能大一點(diǎn)。如果試驗(yàn)在試驗(yàn)室進(jìn)行,試驗(yàn)范圍大比較容易實(shí)現(xiàn);如果試驗(yàn)直接在生產(chǎn)中進(jìn)行,則試驗(yàn)范圍不宜太大,以防產(chǎn)生過(guò)多次品,或產(chǎn)生危險(xiǎn)。試驗(yàn)范圍太小的缺點(diǎn)是不易獲得比已有條件有顯著改善的結(jié)果。歷史上有些重大的發(fā)明和發(fā)現(xiàn),是由于“事故”而獲得的,也就是說(shuō)試驗(yàn)的范圍大大不同于有經(jīng)驗(yàn)的范圍。4若試驗(yàn)范圍允許大一些,則每一因素的水平個(gè)數(shù)最好適當(dāng)多一些。5水平的間隔大小和生產(chǎn)控制精度是密切相關(guān)的。若在例1中溫度的控制只能作到±3,且我們?cè)O(shè)定控制在85,于是在生產(chǎn)過(guò)程中溫度將會(huì)在85°±3,即82
19、88波動(dòng)。不難看到,這時(shí)設(shè)定的三個(gè)水平80,85,90之間是太近了,應(yīng)當(dāng)加大,例如80,90,100。如果溫度控制的精度可達(dá)±1,則例1如設(shè)定的三個(gè)水平是合理的。6因素和水平的含意可以是廣義的。例如五種棉花用于織同一種布,要比較不同棉花影響布的質(zhì)量的效應(yīng),這時(shí)“棉花品種”可設(shè)定為一個(gè)因素,五種棉花就是該因素下的五個(gè)水平 。 1.3因素的主效應(yīng)和因素間的交互效應(yīng)根據(jù)試驗(yàn)的目的,要預(yù)先確定一項(xiàng)或多項(xiàng)試驗(yàn)指標(biāo),為簡(jiǎn)單計(jì),本書(shū)僅討論只有一項(xiàng)試驗(yàn)指標(biāo)(記作Y)的情形。如例如1的試驗(yàn)Y是得率。在數(shù)理統(tǒng)計(jì)中,稱(chēng)試驗(yàn)指標(biāo)為響應(yīng)(response)為通俗起見(jiàn),本書(shū)中就叫試驗(yàn)指標(biāo)??疾煲粋€(gè)因素對(duì)試驗(yàn)指標(biāo)
20、的影響是試驗(yàn)的目的之一。若在一項(xiàng)試驗(yàn)中,考察溫度和得率Y之間的關(guān)系,并取溫度五個(gè)水平,其相應(yīng)Y值如下:溫度5060708090Y30%35%40%45%50%我們看到,溫度每增加10得率增加5%這5%就是溫度的效應(yīng)。上述試驗(yàn)可以表成一個(gè)線性數(shù)學(xué)模型 (1.1)其中為第次試驗(yàn)結(jié)果,為溫度從50到90范圍內(nèi)Y的平均值。通??梢杂梦宕卧囼?yàn)的平均值來(lái)估計(jì),記作,即表示溫度取第個(gè)水平時(shí)的值與之差。不難發(fā)現(xiàn),它們的估計(jì)值為這里稱(chēng)為溫度在五個(gè)水平下的主效應(yīng),為它們的估計(jì)值。由于試驗(yàn)中總存在一些偶然因素的干擾,如室溫的變化,電壓的波動(dòng),材料的不均勻性,這些偶然因素總稱(chēng)為隨機(jī)誤差。由于試驗(yàn)誤差的存在,不可能產(chǎn)生
21、上例那么理想的情況。其實(shí)際數(shù)據(jù)可能為溫度5060708090Y32%34%39%46%49%這時(shí)數(shù)學(xué)模型為 (1.2)這里為第次試驗(yàn)的試驗(yàn)誤差。這時(shí)試驗(yàn)必須有重復(fù)才能估計(jì)出和.實(shí)際上,當(dāng)試驗(yàn)的水平和相應(yīng)的Y為連續(xù)變量時(shí),其數(shù)學(xué)模型也可以用回歸方程來(lái)表達(dá),例如,用線性回歸方程 (1.3) 其中X表示溫度,和是回歸系數(shù),為隨機(jī)誤差。在第二章將介紹,和可以用最小二乘法由試驗(yàn)數(shù)據(jù)估出,由上述溫度和得率的數(shù)據(jù)可得回歸方程 (1.4)這里為試驗(yàn)結(jié)果Y的估計(jì)值。利用方程(1.4)可以估出五次試驗(yàn)的結(jié)果如下:30.835.440.044.649.21.2-1.4-1.01.4-0.2其中稱(chēng)為殘差,它的大小反映
22、了回歸方程(1.4)的精確程度,并可用它作回歸診斷,更詳細(xì)討論請(qǐng)看第二章。方程(1.4)中,X的回歸系數(shù)0.46有明確的實(shí)際含意,它表示溫度每增加一度,其得率Y平均增加0.46%,于是0.46反映了X對(duì)Y的效應(yīng),這里可以稱(chēng)為線性回歸效應(yīng)。有一點(diǎn)是必須注意的,無(wú)論是模型(1.2)中的主效應(yīng),還是模型(1.3)中的線性回歸效應(yīng),都強(qiáng)烈地依賴(lài)于試驗(yàn)條件,尤其是X的試驗(yàn)范圍,也就是說(shuō),這兩個(gè)模型只適用于X的試驗(yàn)范圍內(nèi)。否則,當(dāng)X為210°時(shí),的估值為104.4%,這是不可能的,因?yàn)榈寐士偸切∮?00%的。顯然,模型(1.2)和(1.3)是最簡(jiǎn)單的情形,實(shí)際情況是多種多樣的,例如X和Y之間可能
23、有非線性回歸關(guān)系,或其它相關(guān)關(guān)系。這些將在以后討論。現(xiàn)在我們來(lái)介紹因素間交互作用的概念。首先,設(shè)有兩個(gè)因素A和B它們各取兩個(gè)水平和。這時(shí)共有四種不同的水平組合,其試驗(yàn)結(jié)果列于圖1。當(dāng)時(shí),變到使Y增加30-10=20;類(lèi)似地,當(dāng)時(shí),變到使Y也增加40-20=20。這就是說(shuō)A對(duì)Y的影響與B取什么水平無(wú)關(guān)。類(lèi)似地,當(dāng)B從變到時(shí),Y增加20-10(或40-30=10),與A取的水平無(wú)關(guān)。這時(shí),我們稱(chēng)A和B之間沒(méi)有交互作用。判斷和之間有沒(méi)有交互作用,選用圖2的作圖方法更為直觀。當(dāng)圖中的兩條線平行時(shí)(或接近平行時(shí)),判斷A和B之間沒(méi)有交互作用.圖3和圖4給出了一個(gè)有交互作用的例子,它們的含意和作圖方法與圖
24、和圖2是一樣的。1 交互作用在實(shí)際中是大量存在的,例如化學(xué)反應(yīng)中催化劑的多少與其它成分的投入量通常是有交互作用的。水中各種金屬含量太多,對(duì)人體健康會(huì)造成危害,金屬之間對(duì)人體的危害也存在交互作用(參見(jiàn)例5)。當(dāng)因素A,B 及其它們的試驗(yàn)指標(biāo)Y都為連續(xù)變量時(shí),可以建立Y和A;B之間的回歸方程。若回歸方程為 (1.5)時(shí),A對(duì)Y的影響由回歸系數(shù)完全決定,不受B取哪個(gè)水平的影響;類(lèi)似地,B對(duì)Y的影響由回歸系數(shù)完全決定,不受A取哪個(gè)水平的影響;類(lèi)似地,對(duì)的影響由回歸系數(shù) 完全 決定,不受取哪個(gè)水平的影響。這時(shí)A和B沒(méi)有交互作用。當(dāng)A和B之間有交互作用時(shí),回歸模型不可能為線性的,其中一定有非線性的。最常見(jiàn)
25、的模型之一為 (1.6)其中為回歸系數(shù),為隨機(jī)誤差。這時(shí)若>0,稱(chēng)A和B之間有正交互作用;若<0,稱(chēng)A和B之間有負(fù)交互作用.請(qǐng)看如下兩個(gè)例子當(dāng)A=3.5,B=4.10時(shí),相應(yīng)兩個(gè)回歸方程的試驗(yàn)指標(biāo)列于圖5和圖6。我們看到兩種情形均有交互作用,且一個(gè)為正交互作用,另一個(gè)為負(fù)交互作用。 兩個(gè)因素之間有交互作用時(shí),其回歸模型不一定呈(1.6)形式,更詳細(xì)討論可參見(jiàn)第二章第三節(jié)。多個(gè)因素之間(超過(guò)二個(gè)因素)也可能有交互作用,該問(wèn)題也將在第二章討論。1.4全面試驗(yàn)和多次單因素試驗(yàn)在一項(xiàng)試驗(yàn)中,當(dāng)因素和水平確定后,如何設(shè)計(jì)該項(xiàng)試驗(yàn)?zāi)兀肯旅鎯煞N方法是最容易想到的:1、全面試驗(yàn)該方法將每一個(gè)因素的
26、不同水平組合做同樣數(shù)目的試驗(yàn),例如將每個(gè)因素的不同水平組合均作一次試驗(yàn)。在一項(xiàng)試驗(yàn)中若有m個(gè)因素, 它們各有個(gè)水平, 則全面試驗(yàn)至少需做次試驗(yàn)。例如,在例1中,則全面試驗(yàn)至少做次試驗(yàn)。當(dāng)因素的個(gè)數(shù)不多,每個(gè)因數(shù)的水平數(shù)也不多時(shí),人們常用全面試驗(yàn)的方法,并且通過(guò)數(shù)據(jù)分析可以獲得較為豐富的結(jié)果,結(jié)論也比較精確。當(dāng)因數(shù)較多,水平數(shù)較大時(shí),全面試驗(yàn)要求較多的試驗(yàn)。例如,有六個(gè)因素,每個(gè)因素都是五水平,則至少需次試驗(yàn),這個(gè)數(shù)目太大了,對(duì)絕大多數(shù)場(chǎng)合,做這么多次試驗(yàn)是不可能的。因此,我們需要一種試驗(yàn)次數(shù)較少,效果又與全面試驗(yàn)相近的試驗(yàn)設(shè)計(jì)方法。2、多次單因素試驗(yàn)這個(gè)方法在工程和科學(xué)試驗(yàn)中常被人們所采用,現(xiàn)
27、以例1來(lái)說(shuō)明這個(gè)方法。例1試驗(yàn)的目的是要尋找好的工藝使得化學(xué)反應(yīng)后的得率最高。為介紹簡(jiǎn)單計(jì),設(shè)試驗(yàn)誤差較小,故不作重復(fù)試驗(yàn)(即在同一試驗(yàn)條件下將試驗(yàn)重復(fù)多次)。設(shè)先將時(shí)間和加堿量固定,變化溫度,試驗(yàn)結(jié)果如下: B90分 80 85 90 C5% 33% 70% 64% 其中33%,70%和 64%為得率,三次試驗(yàn)中,以70%為最高,故溫度85°為最佳。第二步固定溫度和加堿量,變化時(shí)間,其試驗(yàn)結(jié)果如下: A=85 90分 120分 150分 C=5% 70% 73% 59%以反應(yīng)時(shí)間為120分最佳。下一步是固定時(shí)間和溫度,變化加堿量,獲得如下結(jié)果: A85 5% 6% 7% B120分
28、 73% 75% 68%以加堿量 75%為最佳,于是有人就得出結(jié)論:最佳工藝為A80,B120分,C6%。當(dāng)因素之間沒(méi)交互作用時(shí),這個(gè)結(jié)論是正確的;當(dāng)因素之間有交互作用時(shí),該結(jié)論一般不真,今設(shè)例 1的因素間有交互作用,在上述試驗(yàn)的基礎(chǔ)上,若我們固定B120分,C6%,變化因素 A并獲得如下結(jié)果:B120分 80 85 90 C6% 46% 75% 78%發(fā)現(xiàn)有更好的工藝條件。這時(shí)我們發(fā)現(xiàn)溫度的效應(yīng)是依賴(lài)于因素B和C的,當(dāng)B90分,C5%時(shí),溫度以85為佳,而當(dāng)B120分,C6%時(shí),溫度以90為佳,這種現(xiàn)象表明溫度和其他兩因素間有交互作用。當(dāng)因素間有交互作用時(shí),用上述方法不一定能選到最好的工藝條
29、件。例如,例1的試驗(yàn)應(yīng)當(dāng)繼續(xù)按原來(lái)的方法做下去:A90 90分 120分 150分C6% 73% 78% 84%發(fā)現(xiàn)工藝條件A90, B120分,C6%為最優(yōu)工藝條件且似乎已不能改進(jìn)。如果我們將27個(gè)工藝組合進(jìn)行全面試驗(yàn),發(fā)現(xiàn)當(dāng)工藝條件為A90,B150分,C7%時(shí)得率可達(dá)82%,而這個(gè)工藝條件沒(méi)有為上面的試驗(yàn)方法所發(fā)現(xiàn)。因此,多次單因素試驗(yàn)法有局限性。特別是,當(dāng)因素的數(shù)目和水平數(shù)更多時(shí),常常會(huì)得到錯(cuò)誤的結(jié)論,不能達(dá)到預(yù)期的目的。1.5正交試驗(yàn)法(正交設(shè)計(jì))這是目前最流行,效果相當(dāng)好的方法。統(tǒng)計(jì)學(xué)家將正交設(shè)計(jì)通過(guò)一系列表格來(lái)實(shí)現(xiàn),這些表叫做正交表。例如表2就是一個(gè)正交表,并記為,這里“L”表示
30、正交表“9”表示總共要作9次試驗(yàn),“3”表示每個(gè)因素都有3個(gè)水平,“4”表示這個(gè)表有4列,最多可以安排4個(gè)因素。常用的二水平表有三水平表有四水平表有;五水平表有等。還有一批混合水平的表在實(shí)際中也十分有用,如 等。例如表示要求做16次試驗(yàn),允許最多安排三個(gè)“4”水平因素,六個(gè)“2”水平因素。表2正交表 L9 (34 )No.1234111112122231333421235223162312731228321393321若用正交表來(lái)安排例1的試驗(yàn),其步驟十分簡(jiǎn)單,具體如下: (1)選擇合適的正交表。適合于該項(xiàng)試驗(yàn)的正交表有等,我們?nèi)?,因?yàn)樗柙囼?yàn)數(shù)較少。 (2)將A,B,C三個(gè)因素放到的任意三列
31、的表頭上,例如放在前三列。 (3)將A,B,C三例的“1”,“2”,“3”變?yōu)橄鄳?yīng)因素的三個(gè)水平。 (4)9 次試驗(yàn)方案為:第一號(hào)試驗(yàn)的工藝條件為A1 (80),B1 (90分),C1 (5%);第二號(hào)試驗(yàn)的工藝條件為A1 (80),B2 (120分),C2 (6%)。這樣試驗(yàn)方案就排好了。該例的進(jìn)一步討論請(qǐng)參考文獻(xiàn)25。表 3正交試驗(yàn)方案No.ABC18090分5%280120分6%380150分7%48590分6%585120分7%685150分5%79090分7%890120分5%990150分6%在表3的正交試驗(yàn)設(shè)計(jì)中,可以看到有如下的特點(diǎn): 1)每個(gè)因素的水平都重復(fù)了3次試驗(yàn);2)每
32、兩個(gè)因素的水平組成一個(gè)全面試驗(yàn)方案。這兩個(gè)特點(diǎn)使試驗(yàn)點(diǎn)在試驗(yàn)范圍內(nèi)排列規(guī)律整齊,有人稱(chēng)為“整齊可比”。另一方面,如果將正交設(shè)計(jì)的9個(gè)試驗(yàn)點(diǎn)點(diǎn)成圖(圖7),我們發(fā)現(xiàn)9個(gè)試驗(yàn)點(diǎn)在試驗(yàn)范圍內(nèi)散布均勻,這個(gè)特點(diǎn)被稱(chēng)為“均勻分散”。正交設(shè)計(jì)的優(yōu)點(diǎn)本質(zhì)上來(lái)自“均勻分散,整齊可比”這兩個(gè)特點(diǎn)。有關(guān)正交設(shè)計(jì)的詳細(xì)討論可參看文獻(xiàn)2426,30。1.6均勻設(shè)計(jì)每一個(gè)方法都有其局限性,正交試驗(yàn)也不例外,它只宜于用于水平數(shù)不多的試驗(yàn)中。若在一項(xiàng)試驗(yàn)中有s 個(gè)因素,每個(gè)因素各有q 水平,用正交試驗(yàn)安排試驗(yàn),則至少要作個(gè)試驗(yàn),當(dāng)q 較大時(shí),將更大,使實(shí)驗(yàn)工作者望而生畏。例如,當(dāng) q=12 時(shí),=144,對(duì)大多數(shù)實(shí)際問(wèn)題,
33、要求做144 次試驗(yàn)是太多了!對(duì)這一類(lèi)試驗(yàn),均勻設(shè)計(jì)是非常有用的。所有的試驗(yàn)設(shè)計(jì)方法本質(zhì)上就是在試驗(yàn)的范圍內(nèi)給出挑選代表點(diǎn)的方法。正交設(shè)計(jì)是根據(jù)正交性準(zhǔn)則來(lái)挑選代表點(diǎn),使得這些點(diǎn)能反映試驗(yàn)范圍內(nèi)各因素和試驗(yàn)指標(biāo)的關(guān)系。上節(jié)我們提及正交設(shè)計(jì)在挑選代表點(diǎn)時(shí)有兩個(gè)特點(diǎn):均勻分散,整齊可比?!熬鶆蚍稚ⅰ笔乖囼?yàn)點(diǎn)有代表性;“整齊可比”便于試驗(yàn)數(shù)據(jù)的分析。為了保證“整齊可比”的特點(diǎn),正交設(shè)計(jì)必須至少要求做q2次試驗(yàn)。若要減少試驗(yàn)的數(shù)目,只有去掉整齊可比的要求。均勻設(shè)計(jì)就是只考慮試驗(yàn)點(diǎn)在試驗(yàn)范圍內(nèi)均勻散布的一種試驗(yàn)設(shè)計(jì)方法,其原理將在第三章給出。 均勻設(shè)計(jì)和正交設(shè)計(jì)相似 ,也是通過(guò)一套精心設(shè)計(jì)的表來(lái)進(jìn)行試驗(yàn)
34、設(shè)計(jì)的。附錄給出了41個(gè)均勻設(shè)計(jì)表和相應(yīng)的使用表。表4、表5和表6就是其中的三個(gè)。每一個(gè)均勻設(shè)計(jì)表有一個(gè)代號(hào)或,其中“U”表示均勻設(shè)計(jì),“n” 表示要做n 次試驗(yàn),“q”表示每個(gè)因素有q個(gè)水平,“s”表示該表有s列。的右上角加“*”和不加“*”代表兩種不同類(lèi)型的均勻設(shè)計(jì)表。通常加“*”的均勻設(shè)計(jì)表有更好的均勻性,應(yīng)優(yōu)先選用。例如表示要做次6試驗(yàn),每個(gè)因素有6個(gè)水平,該表有4列。每個(gè)均勻設(shè)計(jì)表都附有一個(gè)使用表,它指示我們?nèi)绾螐脑O(shè)計(jì)表中選用適當(dāng)?shù)牧校约坝蛇@些列所組成的試驗(yàn)方案的均勻度。表7是的使用表。它告訴我們,若有兩個(gè)因素,應(yīng)選用1,3兩列來(lái)安排試驗(yàn);若有三個(gè)因素,應(yīng)選用1,2,3三列,最后1
35、列D表示刻劃均勻度的偏差(discrepancy),偏差值越小,表示均勻度越好。例如由附錄A1.3和A1.4的兩個(gè)均勻設(shè)計(jì)表和及它們的使用表來(lái)安排試驗(yàn),今有兩個(gè)因素,若選用的1,3列,其偏差D=0.2398,選用的1,3列,相應(yīng)偏差D=0.1582,后者較小,應(yīng)優(yōu)先擇用。有關(guān)D的定義和計(jì)算將在第三章介紹。當(dāng)試驗(yàn)數(shù)n給定時(shí),通常表比表能安排更多的因素。故當(dāng)因素s較大,且超過(guò)的使用范圍時(shí)可使用表。表4 1234112362246533624441535531266541表5 123411236224653362444153553126654177777如上所述,表最多可以安排四個(gè)因素的試驗(yàn)。若用正
36、交表安排三個(gè)6水平因素,至少要采用,該表最多能安排三個(gè)因素,可要做36次試驗(yàn),而兩個(gè)表的偏差一個(gè)為0.1875,另一個(gè)為0.1597(參見(jiàn)表23),相差并不十分大。由此例可見(jiàn)均勻設(shè)計(jì)的優(yōu)點(diǎn)。表6 123411357226263317544444557136626277531表7 的使用表S列號(hào)D2130.187531230.2656412340.2990 均勻設(shè)計(jì)有其獨(dú)特的布(試驗(yàn))點(diǎn)方式,其特點(diǎn)表現(xiàn)在:1)每個(gè)因素的每個(gè)水平做一次且僅做一次試驗(yàn)。2)任兩個(gè)因素的試驗(yàn)點(diǎn)點(diǎn)在平面的格子點(diǎn)上,每行每列有且僅有一個(gè)試驗(yàn)點(diǎn)。如表的第一列和第三列點(diǎn)成圖8(a). 性質(zhì)1)和2)反映了試驗(yàn)安排的“均衡性”
37、,即對(duì)各因素,每個(gè)因素的每個(gè)水平一視同仁。 3)均勻設(shè)計(jì)表任兩列組成的試驗(yàn)方案一般并不等價(jià)。例如用的1,3 和1,4列分別畫(huà)圖,得圖8(a)和圖8(b)。我們看到,(a)的點(diǎn)散布比較均勻,而(b)的點(diǎn)散布并不均勻。均勻設(shè)計(jì)表的這一性質(zhì)和正交表有很大的不同,因此,每個(gè)均勻設(shè)計(jì)表必須有一個(gè)附加的使用表。4)當(dāng)因素的水平數(shù)增加時(shí),試驗(yàn)數(shù)按水平數(shù)的增加量在增加。如當(dāng)水平數(shù)從9水平增加到10水平時(shí),試驗(yàn)數(shù)n 也從9增加到10。而正交設(shè)計(jì)當(dāng)水平增加時(shí),試驗(yàn)數(shù)按水平數(shù)的平方的比例在增加。當(dāng)水平數(shù)從9到10時(shí),試驗(yàn)數(shù)將從81增加到100。由于這個(gè)特點(diǎn),使均勻設(shè)計(jì)更便于使用。均勻設(shè)計(jì)表還有一些其它的特點(diǎn),在第三
38、章將進(jìn)一步介紹。1.7均勻設(shè)計(jì)表的使用本節(jié)介紹如何利用均勻設(shè)計(jì)表來(lái)安排試驗(yàn)。其步驟和正交設(shè)計(jì)很相似,但也有一些不同之處。通常有如下步驟:1)根據(jù)試驗(yàn)的目的,選擇合適的因素和相應(yīng)的水平。2)選擇適合該試驗(yàn)的均勻設(shè)計(jì)表,然后根據(jù)該表的使用表從中選出列號(hào),將因素分別安排到這些列號(hào)上,并將這些因素的水平按所在列的指示分別對(duì)號(hào),則試驗(yàn)就安排好了。例2 (本例來(lái)自文獻(xiàn)1)在阿魏酸的合成工藝考察中,為了提高產(chǎn)量,選取了原料配比(A)、吡啶量(B)和反應(yīng)時(shí)間(C)三個(gè)因素,它們各取了7個(gè)水平如下:原料配比(A):1.0,1.4,1.8,2.2,2.6,3.0,3.4吡啶量(B)(ml):10,13,16,19
39、,22,25,28反應(yīng)時(shí)間(C)(h):0.5,1.0,1.5,2.0,2.5,3.0,3.5根據(jù)因素和水平,我們選取均勻設(shè)計(jì)表或。由它們的使用表中可以查到,當(dāng)s=3時(shí),兩個(gè)表的偏差分別為0.2132和0.3721,故應(yīng)當(dāng)選用來(lái)安排該試驗(yàn),其試驗(yàn)方案列于表8。該方案是將A,B,C分別放在表的后3列而獲得的。表8 制備阿魏酸的試驗(yàn)方案和結(jié)果No.配比(A)吡啶量(B)反應(yīng)時(shí)間(C)收率(Y)11.0(1)13(2)1.5(3)0.33021.4(2)19(4)3.0(6)0.33631.8(6)25(6)1.0(2)0.29442.2(1)10(1)2.5(5)0.47652.6(5)16(3)
40、0.5(1)0.20963.0(6)22(5)2.0(4)0.45173.4(7)28(7)3.5(7)0.482表9 制備阿魏酸的試驗(yàn)方案和結(jié)果No.配比(A)吡啶量(B)反應(yīng)時(shí)間(C)收率(Y)11.0(1)13(2)1.5(3)0.33021.4(2)19(4)3.0(6)0.33631.8(3)25(6)1.0(2)0.29442.2(4)10(1)2.5(5)0.47652.6(5)16(3)0.5(1)0.20963.0(6)22(5)2.0(4)0.45173.4(7)28(7)3.5(7)0.482由于表是最近由方開(kāi)泰和李久坤14獲得的,故文獻(xiàn)1使用的是均勻設(shè)計(jì)表,他們的試驗(yàn)方
41、案列于表9。根據(jù)試驗(yàn)方案進(jìn)行試驗(yàn),其收率(Y)列于表9的最后一列,其中以第7號(hào)試驗(yàn)為最好,其工藝條件為配比3.4,吡啶量28ml,反應(yīng)時(shí)間3.5h。下章將通過(guò)統(tǒng)計(jì)分析(其中最主要是回歸分析),可以發(fā)現(xiàn)更好的工藝條件。第二章 回歸分析簡(jiǎn)介及其在均勻設(shè)計(jì)中的應(yīng)用回歸分析是數(shù)據(jù)分析的有力工具,它能揭示變量之間的相互關(guān)系,因此在均勻設(shè)計(jì)的數(shù)據(jù)分析中成為主要的手段,回歸分析方法和理論十分豐富,有關(guān)書(shū)籍?dāng)?shù)以百計(jì),這里僅作一梗概介紹,細(xì)節(jié)可以參看有關(guān)書(shū)籍,如26,29,30數(shù)據(jù)處理可使用統(tǒng)計(jì)軟件包SAS,SPSS,MINITAB,BMDP,S等,國(guó)內(nèi)許多部門(mén)如中國(guó)均勻設(shè)計(jì)學(xué)會(huì)為均勻設(shè)計(jì)及其數(shù)據(jù)分析制作了專(zhuān)用
42、統(tǒng)計(jì)軟件包,使用更為方便。2.1一元線性回歸模型由于均勻設(shè)計(jì)的數(shù)據(jù)分析要利用回歸分析,因此需要對(duì)回歸分析作一扼要介紹。一元線性回歸是處理兩個(gè)變量之間關(guān)系的最簡(jiǎn)單的模型。本章將詳細(xì)討論這個(gè)模型。一元線性回歸雖簡(jiǎn)單,但從中可以了解回歸分析方法的基本思想/方法和應(yīng)用。我們首先通過(guò)一個(gè)例子說(shuō)明如何建立一元線性回歸方程。例3 為了估計(jì)山上積雪融化后對(duì)下游灌溉的影響,在山上建立了一個(gè)觀測(cè)站,測(cè)量了最大積雪深度(X)與當(dāng)年灌溉面積(Y),得到連續(xù)10年的數(shù)據(jù)于下頁(yè)表中。為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們把各年最大積雪深度作橫坐標(biāo),相應(yīng)的灌溉面積作縱坐標(biāo),將這些數(shù)據(jù)點(diǎn)標(biāo)在平面直角坐標(biāo)圖上,如圖9,這個(gè)圖稱(chēng)
43、為散點(diǎn)圖。從圖9看到,數(shù)據(jù)點(diǎn)大致落在一條直線附近,這告訴我們變量X與Y之間的關(guān)系大致可看作是線性關(guān)系,從圖9還看到,這些點(diǎn)又不都在一條直線上,這表明X與Y的關(guān)系并沒(méi)有確切到給定X就可以唯一地確定Y的程度。事實(shí)上,還有許多其他因素對(duì)Y產(chǎn)生影響,如當(dāng)年的平均氣溫,當(dāng)年的降雨量等等,這些都是影響Y取什么值的隨機(jī)因素。如果我們只研究X與Y的關(guān)系,可以假定 年序最大積雪深度X(尺)灌溉面積Y(千畝)115.228.6210.419.3321.240.5418.635.6526.448.9623.445.0713.529.2816.734.1924.046.71019.137.4有如下結(jié)構(gòu)式:Y=+X+
44、(2.1)式中, 稱(chēng)為回歸系數(shù),X為自變量,Y為因變量,表示隨機(jī)誤差,常常假定遵從正態(tài)分布N(0,2),這表示誤差為正和負(fù)的機(jī)會(huì)一樣多,2 表示誤差的大小。式中,2 通常是未知的,它們要通過(guò)數(shù)據(jù)的信息來(lái)估計(jì)。 設(shè)(),i=1,n為一組數(shù)據(jù),若用回歸方程(2.1)來(lái)擬合,則當(dāng)X=時(shí)的估計(jì)值為 (2.2) 自然,我們希望求和使與很接近.也就是說(shuō),我們要決定一條直線,使其與所有的點(diǎn)都比較接近,最流行求, 估計(jì)值的辦法是用最小二乘法,令 (2.3)最小二乘法是求和使Q達(dá)極小,使Q達(dá)極小的和值記為a和b.利用微積分中求極值的辦法求得 (2.4)式中 (2.5) 利用這些公式到例3,得于是 b=415.6
45、06/230.656=1.802 a=36.53-1.802×18.88=2.511從而回歸方程為讀者試將該直線畫(huà)在圖9上,可以看到擬合的效果是不錯(cuò)的,衡量擬合效果的好壞,如下的方法是十分有用的。 (a) 相關(guān)系數(shù) 相關(guān)系數(shù) 用于描敘變量X和Y的線性相關(guān)的程度,并常用r來(lái)表示,r的值介于-1,1之間,它的意義由圖10可以知道。r的絕對(duì)值越接近于1表示X和Y之間的線性關(guān)系越密切;r0,兩者呈正比關(guān)系,叫正相關(guān);r 0兩者呈負(fù)相關(guān)。r的值接近于0,兩者沒(méi)有線性相關(guān)關(guān)系。圖10中(c)表示X和Y沒(méi)有任何關(guān)系,(d)表示X和Y有非線性相關(guān)關(guān)系,r的計(jì)算公式為 (2.6)式中 (2.7)對(duì)例3
46、 =764.861 r=415.605/ =0.9894 后者很接近于1,故最大積雪深度與灌溉面積有很密切的線性相關(guān)關(guān)系,且是正相關(guān).但是,相關(guān)系數(shù)有一個(gè)缺點(diǎn),就是它接近1的程度與樣本的組數(shù)n是有關(guān)的,當(dāng)n較小時(shí),相關(guān)系數(shù)的絕對(duì)值容易接近于1,當(dāng)n較大時(shí),相關(guān)系數(shù)的絕對(duì)值容易偏小。特別當(dāng)n=2時(shí),因?yàn)閮牲c(diǎn)決定一條直線,所以相關(guān)系數(shù)的絕對(duì)值總為1,在許多統(tǒng)計(jì)書(shū)中29給出相關(guān)系數(shù)的起碼值,當(dāng)相關(guān)系數(shù)的絕對(duì)值大于表中之值時(shí)才可以認(rèn)為X和Y有線性關(guān)系。此例當(dāng)顯著性水平=1%時(shí),表中的起碼值為0.765,今計(jì)算r=0.9894 0.765,故最大積雪深度與灌溉面積有高度的線性關(guān)系。在有些統(tǒng)計(jì)軟件中,常給
47、出,這時(shí)便于區(qū)別記為。 (b)方差分析和F檢驗(yàn) 因變量的波動(dòng)可用來(lái)表達(dá),這個(gè)波動(dòng)是由兩個(gè)因素造成的;一個(gè)是X的變化引起Y相應(yīng)的變化,另一個(gè)是隨機(jī)誤差。前者造成Y的波動(dòng)可用回歸平方和來(lái)表達(dá),后者用殘差平方和來(lái)度量。它們分別用 和來(lái)表示,從數(shù)學(xué)上可以導(dǎo)出 (2.8)當(dāng)X和Y為線性回歸模型(2.1)時(shí),它們有如下更方便的計(jì)算公式 - (2.9) 利用統(tǒng)計(jì)量 F (2.10)可以來(lái)檢驗(yàn)回歸方程(2.1)是否可信.當(dāng)方程可信時(shí)F ,這里為F表中的臨界值,1和n-2為自由度,為顯著水平.對(duì)例3可以算得 =1.802×415.606=748.922 =764.961-748.922=16.039
48、F=8×748.922/16.039=373.55當(dāng)=1%時(shí)。用F值和F表上的臨界值相比,若F ,表明Y的變化主要是由X的變化造成的,回歸方程(2.1)可信;若F值小于,回歸方程不可信??尚诺某潭纫部煞殖刹煌燃?jí),在本書(shū)中,=5%時(shí)可信用“*” 表示,=1%時(shí)可信用“*” 表示。上述計(jì)算結(jié)果常列成方差分析表,如表10所示。表10方差分析表方差來(lái)源平方和自由度均方F顯著性回歸748.9221748.922373.550*誤差16.03982.005總和764.9619 (c) 殘差分析稱(chēng)為殘差,它能提供許多有用的信息,表11給出了例3的10個(gè)殘差,利用殘差可以提供如下信息:表11預(yù)報(bào)和
49、殘差表 No.No.129.90-1.30645.21-0.21221.00-1.70726.812.39340.71-0.21832.601.50435.99-0.39945.760.94550.08-1.181036.920.48 (i)之估計(jì) (2.11)給出了回歸方程的精度,它稱(chēng)為殘差標(biāo)準(zhǔn)差,若隨機(jī)誤差遵從正態(tài)分布N(0,),則Y的預(yù)報(bào)落在之內(nèi)的概率大約為95%,對(duì)例3可以算得=1.416,且10個(gè)均落于2×1.416之內(nèi)。 (ii)數(shù)據(jù)和模型之診斷由殘差之大小,可以發(fā)現(xiàn)異常(或叫離群)數(shù)據(jù),可以發(fā)現(xiàn)模型(2.1)是否合適,是否要用非線性回歸模型等,這些已形成一整套理論,稱(chēng)為回歸診斷,有興趣的讀者可參見(jiàn)文獻(xiàn)31。2.2多元線性回歸模型 當(dāng)影響因變量Y的自變量不止一個(gè)時(shí),比如有m個(gè),,這時(shí)Y和X之間的線性回歸方程為 (2.12)其中為回歸系數(shù),為隨機(jī)誤差,常假定 。 設(shè)為觀測(cè)值,回歸分析的首要任務(wù)是利用它們來(lái)估計(jì)和,它們的最小二乘估計(jì)記作求估計(jì)值 需要解下面的線性方程組 (2.13)其中當(dāng) 求得后,計(jì)算 (2.14)回歸方程(2.12)建立后,檢驗(yàn)其是否
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《高中生學(xué)業(yè)自我效能感、自尊與同伴關(guān)系的相關(guān)研究》
- 2024年戰(zhàn)略合作合同:企業(yè)間戰(zhàn)略合作協(xié)議
- 2024-2030年自行車(chē)換檔器行業(yè)市場(chǎng)現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 2024年新品聯(lián)合研發(fā)合同
- 2024-2030年版中國(guó)林業(yè)碳匯行業(yè)發(fā)展規(guī)模及融資前景分析報(bào)告
- 2024-2030年新版中國(guó)熱炎寧合劑項(xiàng)目可行性研究報(bào)告
- 2024-2030年新版中國(guó)天然氣水合物開(kāi)采項(xiàng)目可行性研究報(bào)告
- 2024-2030年新版中國(guó)不銹鋼餐具器皿項(xiàng)目可行性研究報(bào)告
- 2024-2030年地鐵通信產(chǎn)業(yè)市場(chǎng)深度分析及前景趨勢(shì)與投資研究報(bào)告
- 2024-2030年全球及中國(guó)防篡改膠帶行業(yè)需求態(tài)勢(shì)及盈利前景預(yù)測(cè)報(bào)告
- 液化石油氣充裝操作規(guī)程(YSP118液化石油氣鋼瓶)
- 工程樣板過(guò)程驗(yàn)收單
- 顱內(nèi)動(dòng)脈動(dòng)脈瘤介入治療臨床路徑
- 糧食倉(cāng)儲(chǔ)場(chǎng)建設(shè)項(xiàng)目可行性研究報(bào)告
- 珠寶銷(xiāo)貨登記表Excel模板
- 深基坑開(kāi)挖施工風(fēng)險(xiǎn)源辨識(shí)與評(píng)價(jià)及應(yīng)對(duì)措施
- 唯美手繪風(fēng)花藝插花基礎(chǔ)培訓(xùn)PPT模板課件
- 《現(xiàn)代漢語(yǔ)語(yǔ)法》PPT課件(完整版)
- 5G智慧農(nóng)業(yè)建設(shè)方案
- 航海學(xué)天文定位第四篇天文航海第1、2章
- 浙江大學(xué)學(xué)生社團(tuán)手冊(cè)(08)
評(píng)論
0/150
提交評(píng)論