版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGEPAGE166《多元統(tǒng)計(jì)分析》目錄前言第一章基本知識(shí)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍5§1·1總體,個(gè)體與樣本﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍5§1·2樣本數(shù)字特征與統(tǒng)計(jì)量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍6§1·3一些統(tǒng)計(jì)量的分布﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍9第二章統(tǒng)計(jì)推斷﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍15§2·1參數(shù)估計(jì)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍15§2·2假設(shè)檢驗(yàn)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍19第三章方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍32§3·1一個(gè)因素的方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍32§3·2二個(gè)因素的方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍37§3·3用方差分析進(jìn)行地層對(duì)比﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍44第四章回歸分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49§4·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49§4·2回歸方程的確定﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49§4·3相關(guān)系數(shù)及其顯著性檢驗(yàn)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍52§4·4回歸直線的精度﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍55§4·5多元回歸分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍56§4·6應(yīng)用實(shí)例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍60第五章逐步回歸分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍65§5·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍65§5·2“引入”和“剔除”變量的標(biāo)準(zhǔn)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍66§5·3矩陣變換法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍67§5·4回歸系數(shù),復(fù)相關(guān)系數(shù)和剩余標(biāo)準(zhǔn)差的計(jì)算﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍69§5·5逐步回歸計(jì)算方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍70§5·6實(shí)例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍74第六章趨勢(shì)面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍80§6·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍80§6·2圖解漢趨勢(shì)面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍81§6·3計(jì)算法趨勢(shì)面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍83第七章判別分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍90§7·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍90§7·2判別變量的選擇﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍91§7·3判別函數(shù)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍92§7·4判別方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍96§7·5多類判別分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍104第八章逐步判別分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110§8·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110§8·2變量的判別能力與“引入”變量的統(tǒng)計(jì)量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110§8·3矩陣變換與“剔除”變量的統(tǒng)計(jì)量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍113§8·4計(jì)算步聚與實(shí)例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍115第九章聚類分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125§9·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125§9·2數(shù)據(jù)的規(guī)格化(標(biāo)準(zhǔn)化)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125§9·3相似性統(tǒng)計(jì)量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍126§9·4聚類分析方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍131§9·5實(shí)例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍134§9·6最優(yōu)分割法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍134第十章因子分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍142§10·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍142§10·2因子的幾何意義﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍143§10·3因子模型﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍145§10·4初始因子載荷矩陣的求法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍147§10·5方差極大旋圍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍152§10·6計(jì)算步聚﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍156§10·7實(shí)例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍157附錄﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍162附錄1標(biāo)準(zhǔn)正態(tài)分布函數(shù)量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍162附錄2正態(tài)分布臨界值ua表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍164附錄3t分布臨界值ta表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍165附錄4(a)F分布臨界值Fa表(a=0·1)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附錄4(b)F分布臨界值Fa表(a=0·05)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附表4(c)F分布臨界值Fa表(a=0·01)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附表5x2分布臨界值xa2表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍第一章基本知識(shí)§1·1總體、個(gè)體與樣本總體(母體)、個(gè)體一(樣本點(diǎn))和樣本(子樣)是統(tǒng)計(jì)分析中常用的名詞。在統(tǒng)計(jì)學(xué)中通常把研究的全部元素的集合稱為總體。組成總體的每個(gè)元素稱為個(gè)體。而把從總體中取出的一部分個(gè)體的集合叫做樣本。例如研究某花崗巖體中鉀的含量(通常研究某一指標(biāo),即某一變量),若從該巖體中合理選取n個(gè)樣品(n=3000),分析其中鉀的鉀的含量為K(i=1,2,…,n),則(1)k1,K2,…或Kn等稱為個(gè)體;(2)n個(gè)元素(個(gè)體)組成的集合(K1,K2,…,K)稱為樣本(子樣);(3)樣本中包含的個(gè)體數(shù)目(n)稱為樣本的容量。一般樣本容量n≥30稱為大樣本,n<30稱為小樣本;(4)所有可能的個(gè)體的集合稱為總體,通常地質(zhì)體皆可無限取樣,這時(shí)總體包含無限多個(gè)體。這樣的總體稱為無限總體。若每個(gè)樣品。同時(shí)又分析了另一個(gè)指標(biāo)(變量),則可獲得相應(yīng)于別一個(gè)變量的個(gè)體。子樣和總體。若同時(shí)分析多個(gè)指標(biāo),則得多個(gè)子樣,代表多個(gè)變變量的總體,這種總體稱為多元總體??傮w是樣本的全體,樣本是總體的一部分??傮w通常是未知的。樣本是已知的。為了對(duì)總體的分布進(jìn)行研究,就必須對(duì)總體進(jìn)行隨機(jī)抽樣觀測(cè)。由于樣本是隨機(jī)抽取的,它取一組什么值事先是無法知道的,因此樣本可以看作是一個(gè)隨機(jī)向量X=(x1,x2,…,xn),而樣本的每個(gè)分量xi可以看作是一個(gè)隨機(jī)變量。當(dāng)然對(duì)某次抽樣來說。樣本就有一組確定的觀測(cè)值。通常根據(jù)樣本以總體進(jìn)行分析研究時(shí),要求樣本能很好反映總體的特點(diǎn)。為此在抽樣時(shí)必須注意如下二點(diǎn):(1)代表性。要求使總體的每一個(gè)個(gè)體都有相同的抽取機(jī)會(huì)。使樣本的每一個(gè)分量xi和總體XX具有相同的分布;(2)獨(dú)立性,要求每個(gè)觀測(cè)結(jié)果既不影響其它觀察結(jié)果。也不受其它觀察結(jié)果的影響,也就是說抽樣是獨(dú)立的隨機(jī)抽樣。滿足上述二點(diǎn)的子樣(樣本)通常稱為簡(jiǎn)單子樣。在研究地質(zhì)問題時(shí)。為了滿足土述要求,必須根據(jù)研究對(duì)象,按照具體地質(zhì)條件合理布置取樣點(diǎn)?!?·2樣本數(shù)字特征與統(tǒng)計(jì)量樣本的數(shù)字特征是反映樣本分布的主要特性的參數(shù)。利用樣本的數(shù)字特征可以估計(jì)總體的數(shù)字特征。常用的數(shù)字特征(特征數(shù))有二類。一類是反映數(shù)據(jù)分布的集中位置,從而可以代表數(shù)據(jù)整體的特征數(shù)(表征數(shù)),稱為整個(gè)代表性特征數(shù)(又叫集中性參數(shù));另一類是反映數(shù)據(jù)分布離散程度的參數(shù),稱為離散性特征數(shù)。1·整體代表性特征數(shù)常用的整體特征數(shù)有:(1)樣本算術(shù)平均數(shù)設(shè)是取自某一總體的容量為n的樣本,則樣本的算術(shù)平均數(shù)為:……(1)當(dāng)數(shù)據(jù)很多時(shí),為了簡(jiǎn)化計(jì)算,常常將數(shù)據(jù)分組(設(shè)分為m組),統(tǒng)計(jì)各組的頻數(shù)為并用組中值Cj(組中值即為組的上限與下限的平均數(shù))代替這組所有的觀測(cè)值。進(jìn)行近似計(jì)算。這時(shí)平均數(shù)計(jì)算方式:=………………(2)用上式求平均數(shù)的方法叫做加權(quán)平均法,求得的平均數(shù)叫加權(quán)平均數(shù)。上式中的權(quán)即為各組出現(xiàn)的頻數(shù)。(2)樣本幾何平均數(shù)樣本幾何平均數(shù)為……(3)計(jì)算時(shí),一般是把等式兩邊取對(duì)數(shù)即得………………(4)于是,只要先算出原始數(shù)據(jù)的對(duì)數(shù)值的平均數(shù)。然后再查反對(duì)數(shù)。即可求出幾何平均數(shù)。由于地質(zhì)體中某些微量元素的含量,有時(shí)服從對(duì)數(shù)正態(tài)分布,在求其背景值時(shí)就會(huì)用到幾何平均數(shù)。除了平均數(shù)(樣本均值)和幾何平均數(shù)以外。尚有樣本中位數(shù)和樣本眾數(shù),也屬整體代表性特征數(shù)。所謂樣本中位數(shù)就是將樣本觀測(cè)值按大小順序排列起來,居中的一個(gè)數(shù)值就是樣本中位數(shù)。例如樣本(1,2,2,3,5,7,8)的中位數(shù)是3。如果樣本數(shù)據(jù)的個(gè)數(shù)是偶數(shù),則十位數(shù)可取中部一個(gè)數(shù)的平均值。所謂樣本眾數(shù)就是最容易出現(xiàn)的數(shù)值。也就是說把樣本規(guī)測(cè)按大小順序排列起來。若某個(gè)數(shù)出現(xiàn)的次數(shù)比與它相鄰的數(shù)出現(xiàn)的次數(shù)都大。則這個(gè)數(shù)就是樣本的眾數(shù)。通常中位數(shù)和眾數(shù)得不多。2·離散性特征數(shù)(1)均方差(標(biāo)準(zhǔn)差)均方差S是最常用的離散性特征數(shù)。均方差的平方叫方差。用S2表示。設(shè)樣本觀測(cè)值。其平均數(shù)(均值)為。若都分布在附近則離散程度較小,否則離散程度大。每個(gè)觀測(cè)值與之差,稱為離差(偏差)。離差有正有負(fù),其平均數(shù)接近零(時(shí),偏差平均趨于零),因此無法用以表示離散程度的大小。而離差平方的平均數(shù)能很好地反映出觀測(cè)數(shù)據(jù)的離散程度的大小。離差平方的平均數(shù)叫方差,即………………(5)均方差的計(jì)算公式為……(6)均方差又可寫為…………(7)對(duì)分成m組的數(shù)據(jù)來說,設(shè)組中值為Cj,各組的頻數(shù)為fj,則計(jì)算公式為…………(8)(2)極差極差就是樣本觀測(cè)值中最大值減去最小值的差,用R表示。設(shè)觀測(cè)值中最大值為,最小值為則。極差計(jì)算簡(jiǎn)便。但由于只依賴于二個(gè)極端值。沒有充分利用數(shù)據(jù)所提供的許多重要信息。因而反映實(shí)際情況的精確度較差。3·樣本矩樣本的某些數(shù)字特征例如平均數(shù)和均方差等??捎脴颖揪剡@一術(shù)語來表示。設(shè)為取自某一總體的一個(gè)容量。為n的隨機(jī)樣本。則定義為樣本對(duì)于A的K階矩(其中A為常數(shù))。(1)原點(diǎn)矩當(dāng)A=0時(shí),稱為樣本的原點(diǎn)矩,用aK表示。則第K階樣本原點(diǎn)矩為K=1,2……(9)可見K=1時(shí),有(2)中心矩當(dāng)A=時(shí),稱為樣本的中心矩,用uk表示。則第k階樣本中心矩為k=1,2,……(10)可見k=2時(shí),有(3)樣本的偏度和峰度三階中心矩可以反映分布的偏斜程度,四階中心矩可以反映分布的陡峭程度。因此樣本的偏度g1和峰度g2可以定義為…………(11)如g1=0則分布對(duì)稱,g1>0則分布為正偏的,g1<0分布為負(fù)偏的。g2<=0分布與正態(tài)分布陡峭程度一樣,g2>0則分布比正態(tài)分布更陡峭。g2<=0m則分布沒有正態(tài)分布那么陡峭。4·統(tǒng)計(jì)量以上所述。樣本的數(shù)字特征是根據(jù)樣本導(dǎo)出的量。這些量通稱為統(tǒng)計(jì)量??梢娨粋€(gè)子樣可以導(dǎo)出許多統(tǒng)計(jì)量。一般地說凡是子樣(樣本)的函數(shù)(不含任何未知參數(shù))均為統(tǒng)計(jì)量。根據(jù)研究問題的不同,可以利用子樣構(gòu)造出某種統(tǒng)計(jì)量。以便進(jìn)行推斷。由于予樣可以看作是一個(gè)隨機(jī)向量(或n繼隨機(jī)變量),所以統(tǒng)統(tǒng)計(jì)量也是一個(gè)隨機(jī)變量。例如樣本的平均數(shù)和均方差等都是隨機(jī)變量。§1·3一些統(tǒng)計(jì)量的分布在敘述統(tǒng)計(jì)量分布之前,先介紹幾種常用的分布,這些分布在概率論中已有論述,這里以表格形式將這些分布的一些主要結(jié)果列出來以備查用。1·樣本(子樣)線性函數(shù)的分布從正態(tài)總體N(u9σ2)中抽取一個(gè)容量為n的簡(jiǎn)單子樣()。(1)設(shè)子樣的線性函數(shù)(統(tǒng)計(jì)量)為……(12)式中ai為已知常數(shù)。由于xi相互獨(dú)立。且有相同的分布N(u9σ2)。根據(jù)正態(tài)分布的性質(zhì)可知,y服從正態(tài)分布。N(uy。σy2),其均值(數(shù)學(xué)期望)E(y)和方差D(y)分別為…………(13)當(dāng)名稱密度函數(shù)K階原點(diǎn)矩K階中心矩附注正態(tài)分布N(μ,σ2)N(0,1)各階矩存在a1=μμ2=σ2μ2k+1=0μ2k=加法定理成立,設(shè)ξi獨(dú)立分別有N(μi,σi2),則ξ有分布N(,)若ξi獨(dú)立,有同分布N(μi,σ2)則有分布N(μ,)x2分布(自由度為n的x2分布簡(jiǎn)記為x2(n))當(dāng)x>00當(dāng)x<0ak=n(n+2)……(n+2k-2)特別有=n2n設(shè)ξi獨(dú)立且有相同分布N(0,1)則有分布x2(n)加法定理成立,設(shè)ξ1,ξ2分別有x2(n1),x2(n2)則ξ=ξ1+ξ2有分布X2(n1+n2)表1.1幾種常用的分布
t分布(自由度為n的t分布簡(jiǎn)記為t(n))k(<n)階矩有限a1=0(1<n)(2k<n)設(shè)ξ1,ξ2獨(dú)立,分別有N(0,1)及x2(n),則有分布t(n)F分布(自由度為m,n的F分布簡(jiǎn)記為F(m,n)),當(dāng)x>00,當(dāng)x<=0對(duì)m<2k<n存在(n>4)設(shè)ξ1,ξ2獨(dú)立,分別有x2(m)及x2(n),則有分布F(m,n)可見那時(shí)子樣均值服從正態(tài)分布N(),其均值E()和方差D()分別為…………(14)所以子樣平均數(shù)(均值)和隨機(jī)觀測(cè)值x有相同的均值,但方差小n倍,故的分布更為集中。(3)設(shè)子樣線性方程組為…………(15)其中A為系數(shù)方法。則y1,…,yn也是正態(tài)隨機(jī)變量,其均E(yi),方差D(y1),協(xié)方差COV(yi,yj)分別為…………(16)i,j=1,2,…,p當(dāng)p=n,A為正交方陣時(shí),則有……(17)那時(shí)若xi(i=1,2,…,n)服從N(0,1)分布,則依據(jù)上式可得COV(yi,yj)=0……(18)E(yi)=0,D(yi)=1……(19)因?yàn)樾伦兞浚▂i)的協(xié)方差為零。即兩兩互不相關(guān)。由于新變量也都服從正態(tài)分布。故y19y29…yn相互獨(dú)立(正態(tài)變量?jī)蓛苫ゲ幌嚓P(guān)。亦即相互獨(dú)立)。以上討論可以得出結(jié)論。相互獨(dú)立的服從N(0,1)分布的簡(jiǎn)單子樣xi(i=1,2,…,n)通過正交變換后,得到的也是相互獨(dú)立的服從N(0,1)分布的新變量yi(i=1,2,…,n)。2·幾個(gè)有關(guān)子樣方差與均值的統(tǒng)計(jì)量的分布(1)設(shè)x19x29…xn是從正態(tài)總體N(μ9σ2)中抽取的一個(gè)簡(jiǎn)單子樣。其均值與方差為,…………(20)則統(tǒng)計(jì)量和S2相互獨(dú)立,且有ns2/σ2服從自由度為n-1的x2分布。服從自由度為n-1的t分布,即有a,ns2/σ2~x2(n-1)…………(21)b,…………(22)因?yàn)閷?duì)子樣作正交變換并令正并方陣A中的第一行為a1i=1/(滿足正交條件a·y1=…………(23)b·(正交變換持長度不變)則故…………(24)c·…………(25)因此由于相互獨(dú)立,則y1與nS2獨(dú)立。又因因?yàn)榉腘(0,1)分布,故服從自由度為n-1的x2分布。因?yàn)榉姆植糔(0,1),nS2/σ2服從分布x2(n-1)且相互獨(dú)立,故……(26)服從t分布。(2)設(shè)x1,y2,…,xm是從正態(tài)總體N(u1,σ12)中抽取的一個(gè)子樣,y1,y2,…,yn是從另一個(gè)正態(tài)總體N(u2,σ22)中抽取的一個(gè)子樣。并假定x1,x2,…,xm和y1,y2,…,yn相互獨(dú)立,則a·…………(27)b·當(dāng)時(shí),有其中:……(29)因?yàn)镕=當(dāng)二個(gè)正態(tài)總體分布的方差相同是,即因?yàn)楫?dāng)另外由分布加法定理知,統(tǒng)計(jì)量則統(tǒng)計(jì)量服從自由度為m+n-的t分布。若(32)或式中以上幾個(gè)統(tǒng)計(jì)量的分布,在統(tǒng)計(jì)分析中常會(huì)用到。今后根據(jù)統(tǒng)計(jì)推斷的需要。還將陸續(xù)引進(jìn)一些其它的統(tǒng)計(jì)量。第二章統(tǒng)計(jì)推斷統(tǒng)計(jì)推斷就是根據(jù)子樣的數(shù)據(jù)來推斷母體的種種統(tǒng)計(jì)特性。它大體可以分為參數(shù)估計(jì)與假設(shè)檢驗(yàn)二個(gè)方面?!?·1參數(shù)估計(jì)在地地工作中,常常需要根據(jù)一批礦樣的平均品位來估計(jì)整個(gè)礦體的平均品位;或根據(jù)每一巖體上測(cè)得的放射性強(qiáng)度(或其它物理性質(zhì))的平均數(shù),來估計(jì)該巖體的放射性底數(shù)(背景值)等等,這些就是參數(shù)估計(jì)問題。參數(shù)估計(jì)又可分為點(diǎn)估計(jì)與區(qū)間估計(jì)。1·點(diǎn)估計(jì)點(diǎn)估計(jì)就是選擇一個(gè)統(tǒng)計(jì)量作為母體未知參數(shù)的估計(jì)。這個(gè)統(tǒng)計(jì)量(是子樣的函數(shù))稱為的估計(jì)量。當(dāng)x1,x2,…,xn是子樣的一組確定的觀測(cè)值時(shí),就是一個(gè)具體數(shù)值(或一個(gè)點(diǎn)),所以也叫的點(diǎn)估計(jì)。常用的求估計(jì)量的方法有矩法和最大似然法。(1)矩法矩法就是用子樣矩(樣本矩)代替母體矩(總本矩),從而求出估計(jì)量的方法。例如,正態(tài)母體一階矩為二階矩為;若用一階和二階子樣矩來估計(jì),則有:}…………(1)解上式可得因此母體均值和差2的估計(jì)量分別是子樣均值和子樣方差S2因?yàn)椤?)……(3)==…………(4)由此可見。作為的估計(jì)時(shí),它在值周圍波動(dòng),其均值恰好是真值。這一性質(zhì)稱為無偏性。無偏性就是要求的估計(jì)值的均值正好等于,即E。這種估計(jì)稱為無偏估計(jì)。因此是的無偏估計(jì)量,而不是的無偏估計(jì)量。由于…………(5)故的無偏估計(jì)因此……(6)具總體方差2和均方差的無偏估計(jì)量。(2)最大似然法設(shè)總體X有分布函數(shù)F(X;…,是未知參數(shù),X1,X2,…,Xn是容量為n的子樣。采用大似然定未知參數(shù)時(shí),首先確定似然函數(shù)。a·若總體為離散型分布設(shè)Pi()…………(7)b·若總體為連續(xù)型分布設(shè)X的密度函數(shù)是f(X;θ1,…,),則似然函數(shù)為L…………(8)顯然,當(dāng)X1,X2,…固定時(shí),L是θ1,θ2,…的函數(shù),它表示樣本值X1,X2,…,的可能性大小。最大似然法就是使樣本值X1,X2,…,出現(xiàn)的可能性為最大的參數(shù)值。來作為未知參數(shù)的估計(jì)值。因此求估計(jì)值的問題。就是求似然函數(shù)的最大值問題。它可以通過解下述方程組求得…………(9)由于L最大時(shí),也最大,故可將上述方程組換成如下比較容易解的方程組來求解(i=1,2,…,K)……(10)由上式求出的即為θ1,θ2,…θ的最大似然估計(jì)值。例如,設(shè)正態(tài)母體,其未知參數(shù)為和,用最大似然法求估計(jì)量是,因其似然函數(shù)為=則故解上述聯(lián)立方程組,得所以大似然估計(jì)。乙區(qū)間估計(jì)點(diǎn)估計(jì)總不免有偏差,在許多實(shí)際問題中常常采用一個(gè)區(qū)間而不用一個(gè)定值來估計(jì)母體的參數(shù)。并指出母體參數(shù)落在此區(qū)間的概率大小。這種估計(jì)方法叫區(qū)間估計(jì),這種區(qū)間叫置信區(qū)間。設(shè)總體未知數(shù)為θ,通過子樣找出二個(gè)量1(X19…,Xn)和包含θ的概率為給定值1—。即……(11)區(qū)間即為置信區(qū)間,(1—)叫區(qū)間的置信概率,叫信度(或顯著性水平)。(1)當(dāng)正態(tài)總體的2已知時(shí),的區(qū)間估計(jì)因?yàn)榉﨨(,2/n)分布。故標(biāo)準(zhǔn)化變量服從N(0,1)分布,則從標(biāo)準(zhǔn)正態(tài)分布表可得即…(12)即即若求具有置信概率為1-=0·95的置信區(qū)間。可取則這就是所要求的置信區(qū)間。必須指出。若母體不服從正態(tài)分布,但當(dāng)子樣容量很大時(shí),即n>30(稱為大樣本)。則子樣均值就近似服從N(,2/n)分布。故仍可用上述方法進(jìn)行區(qū)間估計(jì)。(2)當(dāng)正態(tài)母體的2來知時(shí)。的區(qū)間估計(jì)這時(shí)可用統(tǒng)計(jì)量因?yàn)閠服從t(n-1)分布。則從t分布表可查得即P==1—………………(13)令則即得的置信區(qū)間。(3)正態(tài)總體2的氏間估計(jì)這時(shí)利用統(tǒng)計(jì)量,因它服從分布,故從分布表中可以找出可這樣選取λ1和λ2的值。使由上式可知……(14)令即得2的區(qū)間估計(jì)。(4)總體均值差的區(qū)間估計(jì)若有兩個(gè)總體,分別服從N(1,2)和N(2,2)分布,從中分別抽取子樣X1,X2,…,和Y1,Y2,…,Y。求1—2的置信區(qū)間(直置信概率為1—)。因?yàn)檫@時(shí)統(tǒng)計(jì)量故由t分布表可查出即u1-u2<=1-ɑ…………(15)§2·2假設(shè)檢驗(yàn)地質(zhì)工作中常會(huì)遇到各種需要進(jìn)行統(tǒng)計(jì)推斷的問題。例如兩相鄰地段巖體中某些主要元素的平均含量有無顯著區(qū)別?是否從正態(tài)分布(或?qū)?shù)正態(tài)分布)?等等。這些問題都要用到統(tǒng)計(jì)假設(shè)檢驗(yàn)。1·基本原理概要地說,統(tǒng)計(jì)假設(shè)檢驗(yàn)就是先將需要推斷的問題(總體),作出一種假設(shè),然后利用一個(gè)實(shí)測(cè)子樣數(shù)據(jù)算出某個(gè)已知分布的統(tǒng)計(jì)量,根據(jù)統(tǒng)主量出現(xiàn)的概率來檢驗(yàn)假設(shè)是否合理。檢驗(yàn)的依據(jù)是“小概率實(shí)際不可能性”原理。如果在一次實(shí)際取樣中就竟然出現(xiàn)小概率事件。則認(rèn)為假設(shè)不合理,從而否定假設(shè)。若發(fā)生的是大概率事件。則認(rèn)為是合理的。人而肯定假設(shè)。所以推斷時(shí)的步驟為(a)先作出假設(shè)H,即寫明所要檢驗(yàn)的假設(shè)的具體內(nèi)容;(b)在H條件下,選擇一個(gè)合適的已知分布的統(tǒng)計(jì)量;(c)根據(jù)子樣算出統(tǒng)計(jì)量的值;(d)確定顯著性水平。即確定作為小概率事件的臨界概率(概率上限)值a,通常根據(jù)問題的要求可取a=0·10,0·05,0·01等;(e)接受或拒絕假設(shè)。根據(jù)給定的a值確定否定哉A(P(A)=a),如果統(tǒng)計(jì)量值落在否定域中,則否定假設(shè)。通??梢愿鶕?jù)a值選確定統(tǒng)計(jì)量的臨界值(相應(yīng)于臨界概率)。并把統(tǒng)計(jì)量的絕對(duì)值大于臨界的區(qū)域稱為否定域。小于臨界值的區(qū)域稱為肯定域。當(dāng)統(tǒng)計(jì)量的值落在否定域中時(shí),則否定(拒絕)假設(shè)。必須指出,統(tǒng)計(jì)假設(shè)檢驗(yàn)是一種統(tǒng)計(jì)推斷,是在一定概率基礎(chǔ)上作出的判斷,不可能總是正確的,它可能發(fā)生的錯(cuò)誤有兩類。第一類錯(cuò)誤是,原假設(shè)本來為真(是肯定的),但取樣檢驗(yàn)后卻否定了這個(gè)假設(shè)。當(dāng)然這一錯(cuò)誤判斷的概率等于a。一般統(tǒng)計(jì)假設(shè)檢驗(yàn)都希望能否完原假設(shè),因?yàn)檫@樣犯錯(cuò)誤的概率可以預(yù)先控制。第二類錯(cuò)誤就是原先假設(shè)不真。而取樣檢驗(yàn)的結(jié)果卻肯定了原假設(shè),從而作出了錯(cuò)誤的判斷。在子樣容量n一定時(shí),第一類錯(cuò)誤減小,第二類錯(cuò)誤碼就會(huì)增加。所以選擇a時(shí)要考慮兩類錯(cuò)誤的危害性大小。如第一類錯(cuò)誤危害性大則a可選擇小些。如果要同時(shí)減小這兩類錯(cuò)誤。則只有增加子樣的容量(大?。=y(tǒng)計(jì)檢驗(yàn)內(nèi)容較多,現(xiàn)將一些常用方法介紹如下。2·u檢驗(yàn)法若總體xx服從N(u,σ02)分布,其中總體標(biāo)準(zhǔn)差σ0為已知,今欲檢驗(yàn)假設(shè)H:u=u。。設(shè)從總體中抽取子樣x1,x2,…xn。若H為真,即u=u。,則子樣均值服從N(u0,oO2/n)分布,將變量標(biāo)準(zhǔn)化得統(tǒng)計(jì)量?!?6)由于統(tǒng)計(jì)量u服從N(0,1)分布,在給定顯著性水平a上,查正態(tài)分布表可得μ,使P{│u│>ua}=a,如圖2—1所示.則│u│>ua為否定域。若根據(jù)子樣算出的u絕對(duì)值大于此臨界值即│u│>ua,則在顯著水平a下,統(tǒng)計(jì)量u值落在否定域中,故否定假設(shè)H.反之若u<ua,則肯定假設(shè)圖2—1N(0,1)分布的H.這種根據(jù)統(tǒng)計(jì)量u密度函數(shù)圖(服從正態(tài)分布)來檢驗(yàn)假設(shè)的方法叫做u檢驗(yàn)法。顯著若取a=0·05,則ua=1·96。故當(dāng)根據(jù)具體子樣算出u值后,若│u│>1·96,則在顯著性水平a下否定假設(shè)。在方差已知的條件下,u檢驗(yàn)法也可用以檢驗(yàn)兩個(gè)正態(tài)總體的均值是否相等。設(shè)兩個(gè)總體X和Y分切服從N(u1,o12)和N(u2,o22)分布。若σ1=σ2=σ0為已知,今欲檢驗(yàn)假設(shè)H:u1=u2。從兩個(gè)總體中分別抽取子樣x1,x2,…xn和y1,y2,…ym求得相應(yīng)的平均值為。若H為真,即u1=u2=u0,則……(17)由于通常方差比較穩(wěn)定。故假設(shè)則…………(18)將標(biāo)準(zhǔn)化。得統(tǒng)計(jì)量……(19)因此若取顯著性水平a=0·05,則可以從正態(tài)分布表查得統(tǒng)計(jì)量的臨界值為ua=1·96。若│u│>ua,則否定假設(shè)H,反之若│u│<ua則肯定假設(shè)H。必須指出。當(dāng)未知時(shí),若子樣容量n和m都很大,則總體方差可用子樣方差的加權(quán)平均值來代替,則有故…………(20)例如在某個(gè)黑云母花崗巖地段進(jìn)行放射性伽瑪測(cè)量,取得169個(gè)數(shù)據(jù)。算得平均放射性強(qiáng)度為31·7Y,標(biāo)準(zhǔn)差為2·5Y。后在相鄰的另一個(gè)地段又測(cè)得放射性Y強(qiáng)度數(shù)據(jù)99個(gè),算得平均值為28·8Y,標(biāo)準(zhǔn)差為2·6Y。要判斷這相鄰兩地段是否可看作同一母體(即從Y強(qiáng)度來看兩巖體的性質(zhì)相同)?因已知放射性Y強(qiáng)度服從正態(tài)分布,又因二個(gè)子樣的標(biāo)準(zhǔn)差非常接近,故可認(rèn)為這兩個(gè)母體的均方差是一樣的。因此只要檢驗(yàn)兩母體的均值是否相同即可。用子樣算出的值n=169,m=99代入上式。得設(shè)a=0·05,則否定域?yàn)椹│>ua,臨界值ua=1·96。今│u│>ua,故可斷定這兩個(gè)地段不屬一個(gè)母體,或者說從放射性Y強(qiáng)度來看,這兩個(gè)地段的巖性不同。3·t檢驗(yàn)法若母體服從N(u,)分布,u和都求知,今欲檢驗(yàn)假設(shè)H:u=u0。這時(shí)可用子樣方差代替總體方差進(jìn)行判斷。設(shè)從總體中抽取一個(gè)子樣求得子樣均值和標(biāo)準(zhǔn)差為和S,這時(shí)可利用統(tǒng)計(jì)量t…………(21)式中當(dāng)H成立時(shí),統(tǒng)計(jì)量t服從t(n-1)分布。因此在選定顯著性水平a后,就可以從t分布表上查出臨力界值ta,否定域?yàn)椹│>ta。故當(dāng)│t│>ta時(shí),則否定假設(shè)H,反之│t│<ta則肯定假設(shè)H。這種方法(根據(jù)服從t分布的統(tǒng)計(jì)量來檢驗(yàn)總體均值的方法)叫做t檢驗(yàn)法。應(yīng)當(dāng)指出,當(dāng)樣本的容量無限增大時(shí)t分布趨于正態(tài)分布。事實(shí)上當(dāng)樣本容量n≥30時(shí)。T檢驗(yàn)法可用u檢驗(yàn)法代替(結(jié)果相差不大),所以t檢驗(yàn)法特別適用于小樣本推斷。t檢驗(yàn)法還可用于檢驗(yàn)二個(gè)帶有未知方差的正態(tài)母體的均值是否相等。設(shè)正態(tài)母體X和Y分別服從N(u1,)和N(),其中為未知,要求檢驗(yàn)假設(shè)H:u1=u2。分別從X和Y中抽取容量為m和n的子樣,求得子樣均值和方差為,當(dāng)子樣容量較小時(shí)(即對(duì)小子樣而言),可以利用統(tǒng)計(jì)量t來推斷?!?2)若H()成立。則上式?jīng)Q定的統(tǒng)計(jì)量t服從t(m+n-2)分布。因此根據(jù)選定的顯著性水平a,從t分布表上可查出臨界值ta,當(dāng)│t│>ta時(shí)。則否定假設(shè)H。例:從某鋅礦的東、西兩支脈中各取10個(gè)樣品,化驗(yàn)出東支脈中鋅含量為z1i。西支脈中鋅含量為z2i(i=1,2,…,10),數(shù)據(jù)見表2—1。問能否把東西兩支礦脈認(rèn)為是一條礦脈?表2—1東西礦脈鋅含量表z1i(10-4)Z2i(10-4)23273025232135281724262330182429372427311·361·431·481·401·361·321·541·451·231·381·421·361·481·261·381·461·571·381·431·49由于鋅礦脈含量一般服從對(duì)數(shù)正態(tài)分布。故稱取對(duì)數(shù)。令xi=。則xi和yi為服從正態(tài)分布的數(shù)據(jù)。又因方差一般比較穩(wěn)定。設(shè)二者方差相同,所以只需檢驗(yàn)二支脈中鋅含量的總體均值(u1和u2)有無顯著差異即可。由于n=m=10,為小子樣(小樣本),可用t檢驗(yàn)法來推斷。為此先假設(shè)H:u1=u2,則當(dāng)n=m時(shí),則………………(23)根據(jù)表中數(shù)據(jù)可以算得t=-0·73。若取a=0·05時(shí),可從t分布表中查得當(dāng)自由度為m+n-2=18時(shí)的臨界值ta=2·101,可見│t│<ta。則可肯定假設(shè)H。由此可以認(rèn)為東西兩支鋅礦脈是一條礦脈。4·F檢驗(yàn)法如上所述,在用t檢驗(yàn)法檢驗(yàn)兩個(gè)母體均值是否相同時(shí),通常假定方差相等。若不能肯定。則須對(duì)方差進(jìn)行檢驗(yàn)。這時(shí)常用F檢驗(yàn)法作兩個(gè)母體的方差比(S1/S2)檢驗(yàn)。設(shè)兩個(gè)正態(tài)母體。分別服從N(u1,)和N分布。從中分別抽取容量為nn1和n2的兩個(gè)小樣本。若子樣方差采用無偏估計(jì)量表示,并仍記為S,即………………(24)顯然,這時(shí)當(dāng)假設(shè)H:時(shí),則“方差比”統(tǒng)計(jì)量服從自由度為n1-1和n2-1的F分布,即}…………(25)當(dāng)給定顯著性水平α,并已知γ1和γ2時(shí),即可以F分布中查出臨界值Fα/2。使?jié)M足P{F≥Fα/2}=α/2,如圖2·2所示。由于F分布左右兩邊并1不對(duì)稱,所以否定域各取面積為積為α/2的兩部分(如圖中陰影部分)。通常為了制表方便起見,F(xiàn)分布表中只給出F>1的右邊臨界值。因圖2—2F分布的密度函數(shù)圖此,一般在實(shí)際計(jì)算F時(shí),就要把數(shù)值較大的一個(gè)方差放在分子上,使F>1。這時(shí)否定域?yàn)镕>Fα/2。這種根據(jù)服從F分布的統(tǒng)計(jì)量來進(jìn)行檢驗(yàn)的方法叫做F檢驗(yàn)法。例:從一號(hào)和二號(hào)巖體中各取40個(gè)樣品?;?yàn)其中的銅含量。求得一號(hào)和二號(hào)巖體銅含量的方差分別為問兩母體(巖體銅含量)的方差有無顯著差異。首先計(jì)算統(tǒng)計(jì)量值。因?yàn)镾2>S1,則因?yàn)榧僭O(shè)H:時(shí),F(xiàn)統(tǒng)計(jì)量服從F()分布。故查F分布表可得當(dāng)時(shí)的臨界值FO.O5=1·7。所以F<Fα/2,落在肯定域中,則肯定假設(shè)H:即兩母體標(biāo)標(biāo)準(zhǔn)差(或方差)無顯著差異??烧J(rèn)為相等。5·皮爾遜x2檢驗(yàn)法(K.pearson)前面敘述的幾種檢驗(yàn)方法。都是對(duì)母體分布的未知參數(shù)進(jìn)行檢驗(yàn),那時(shí)假定母體分布是已知的。因此只要對(duì)參數(shù)進(jìn)行檢驗(yàn)即可。這些方法統(tǒng)稱參數(shù)性檢驗(yàn)法。但有時(shí)母體分布的類型事先并不知道,需要對(duì)母體的分布和出種種假設(shè)。然后進(jìn)行檢驗(yàn)。這樣的方法稱為非參數(shù)性檢驗(yàn)。皮爾遜x2檢驗(yàn)法是一種常用的非參數(shù)性檢驗(yàn)法。皮爾遜x2檢驗(yàn)法常用以檢驗(yàn)?zāi)阁w是否服從某個(gè)給定分布。假設(shè)H:母體XX的分布函數(shù)為F(x)。從母體中抽取一空量為n的子樣計(jì)算時(shí)將x軸分成r個(gè)區(qū)間(—·∞,a1),(a1,a2),(a2,a3)…(a2,a3)…(ar—1,+∞),即i=1,2,…,r其中aO=-∞,ar=∞。若H為真,則總體XX取Si內(nèi)的值的概率為通常Pi稱為理論頻率。將子樣觀測(cè)值x1,x2,…,xn分組。把在同一個(gè)Si內(nèi)的xi作為一組,即把子樣也分成r組,用fi表示落在Si中的子樣值的個(gè)數(shù)。則有fi稱為實(shí)測(cè)頻數(shù),顯然理論頻數(shù)為n·pi。一般說來。若H為具,則fi和n·Pi之間的差異不顯著。若H為假則差異顯著。K.pearson提出用下面統(tǒng)計(jì)量來衡量理論與實(shí)際的差異程度。在假設(shè)H下,只要n足夠大(n≥50),不管母體服從什么分布,上式定義的x2統(tǒng)計(jì)量服從自由度為r—k—1的x2分布。其中k為理論分布中用估計(jì)量代替的未知參數(shù)的個(gè)數(shù),即…………(26)所以對(duì)給定的水平α,查x2分布表,求出臨界xα2。若x2>xα2,則否定假設(shè)H。通常用這種方法進(jìn)行檢驗(yàn)時(shí)要求:(1)子樣容量較大(n>50),(2)每組的實(shí)測(cè)頻數(shù)不能太?。ㄖ辽俨恍∮?)。例:設(shè)在某礦體上均勻取樣,共得120個(gè)樣品。分析其中某金屬的品位。該金屬品位數(shù)據(jù)見表2·2。問礦體的該金屬品位是否服從正態(tài)分布?表2—2礦體某金屬品位表組號(hào)金屬品位(%)間隔組中值(%)頻數(shù)fi123456789102·5~7·57·5~12·512·5~17·517·5~22·522·5~27·527·5~32·532·5~37·537·5~42·542·5~47·547·5~52·5510152025303540455012514283524731根據(jù)表中數(shù)據(jù)可以算得,標(biāo)準(zhǔn)差S=7·5,將它們分別代替總體(理論)分布中的μ和現(xiàn)檢驗(yàn)如下:假設(shè)H:巖體某金屬品位符合N(28·6,7·52)分布,則統(tǒng)計(jì)量在此例中由于和S代替兩個(gè)未知參數(shù)μ和,故k=2。此外原分組中,有些組的頻數(shù)f<5,則需要適當(dāng)合并??砂?,2,3組并為一組,8,9,10組并為一組,合并后的各組頻組和理論頻數(shù)及部分計(jì)算結(jié)果見表2—3。表2—3品位分組的實(shí)測(cè)與理論頻數(shù)表組號(hào)品位(%)間隔實(shí)測(cè)頻數(shù)fi理論頻數(shù)n·Pifi-n·Pi1234562·5~17·517·5~22·522·5~27·527·5~32·532·5~37·537·5~52·5814283524118·2916·7527·7730·9722·1413·96-0·29-2·750·234·031·86-2·960·0100·4520·0020·5240·1560·628表中理論頻率Pi是根據(jù)標(biāo)準(zhǔn)正態(tài)分布表查得的。求法如下:例如。要求第三組間隔為(2·25~2·75)的概率P3,則P3=則這時(shí)統(tǒng)計(jì)量x2值為若取顯著性水平α=0·05,查γ=r-k-1=3-欄。得臨界值xα2=x02·05=7·82。因?yàn)閤2<xα2,即統(tǒng)計(jì)量值落在肯定域中,則肯定假設(shè),即認(rèn)為巖體的該金屬品位符合正態(tài)分布。6·符號(hào)與秩和檢驗(yàn)法符號(hào)檢驗(yàn)法和秩和檢驗(yàn)法是兩種常用的非參數(shù)性檢驗(yàn)法。(1)符號(hào)檢驗(yàn)法在地質(zhì)工作中常會(huì)遇到。對(duì)同一批樣品,不同人用不同儀器或不同分析方法,得出成對(duì)數(shù)據(jù)(xi,yi)。要檢驗(yàn)這兩批成對(duì)數(shù)據(jù)間有無顯著性差異時(shí)??梢圆捎煤?jiǎn)便的符號(hào)檢驗(yàn)法。例,甲、乙兩人分析同一氣體co2含量。得兩組數(shù)據(jù)xi和yi(見表2·4)。問兩人分析結(jié)果有無顯著差異?表2—4xi14·715·015·214·815·514·614·914·815·115·0yi14·615·115·411·715·214·714·814·615·215·0符號(hào)+--++-++-0xi14·714·814·715·014·914·915·214·715·415·3yi14·614·614·815·314·714·614·814·915·215·0符號(hào)++--+++-++顯然若沒二批分析結(jié)果具有相同的分布[其母體具有相同的分布F(xi)=F(yi)],則xi>yi的可能性和yi>xi的可能性相同,即正負(fù)符號(hào)數(shù)相差不大。設(shè)xi>yi記為“+”號(hào)。yi>xi記為“-”號(hào),xi=yi記為“0”令n+和n-分別表示“+”和“-”號(hào)的個(gè)數(shù)。它們的和記為n=n++n—,它們中較小的一個(gè)記為S,即在檢驗(yàn)時(shí),對(duì)于已知n和給定的顯著性水平α,可從符號(hào)檢驗(yàn)表中查得臨界值Sα。然后把S和Sα相比較,若S≤Sα則否完原假設(shè),若S>Sα則肯定原假設(shè)。本例中n+=12,n—=7,nO=1,故n=12+7=19,S=min(n+,n—)=7。對(duì)n=19,α=0·05,查得Sα=4。由于S>Sα,故肯定原假設(shè)。故可說二人分析結(jié)果無顯著差異。符號(hào)檢驗(yàn)法雖然簡(jiǎn)單,但要求數(shù)據(jù)成對(duì)出現(xiàn),而且在比較數(shù)據(jù)大小時(shí)不管其具體數(shù)值。因此方法的精度較差。秩和檢驗(yàn)法在一定程度上彌被了上述缺點(diǎn)。(2)秩和檢驗(yàn)法假設(shè)H:兩個(gè)母體A和B有相同的分布。從中分別抽取容量為n1和n2的兩個(gè)子樣。假定n1<n2。秩和檢驗(yàn)步驟如下。a·將兩個(gè)子樣混合起來,按大小遞增的次序排列編號(hào),每個(gè)數(shù)據(jù)所對(duì)應(yīng)的序號(hào)(或叫序數(shù))稱為數(shù)據(jù)的秩。b·計(jì)算較小容量為子樣所對(duì)應(yīng)的秩之和,用T表示。c·對(duì)于n,和nr及給定的顯著性水平α,從秩和檢驗(yàn)表中查出秩和下限(T1)和上限(T2)。d·若T1<T<T2,則肯定假設(shè)H,否則否定假設(shè)。例:甲、乙二人作某氣體中Co2,含量分析,測(cè)得數(shù)據(jù)為xi和yi,見表2·5。問二人分析結(jié)果是否有顯著差異?表2·5xi14·714·815·215·6yi14·615·015·1(見·28·頁。)(b)因yi容量較小(n=3),則計(jì)算yi的秩和。這時(shí)T=1+4+5=10。(c)對(duì)n1=3,n2=4,α=0·05查秩和檢驗(yàn)表得T1=7,T2=17。(d)由地T=10,故T1<T<T2則肯這假設(shè),認(rèn)為兩母體分布相同,即甲、乙二人分析結(jié)晶果無顯著差異。通常秩和表只給出n1≤n2≤10條件下的T1和T2值。當(dāng)n1和n2較大時(shí),在假設(shè)A、B二母體分布相同條件下,統(tǒng)計(jì)量T近似服從正態(tài)分布。這時(shí)有或式中,例如將符號(hào)檢驗(yàn)法中的例子,進(jìn)行秩和檢驗(yàn)時(shí)(a)將數(shù)據(jù)按大小排列,得表2·7表2·7秩3·53·53·53·53·53·510101010xiyi14·614·614·614·614·614·614·714·714·714·7秩10101016·516·516·516·516·516·521·5xiyi14·714·714·714·814·814·814·814·814·814·9秩21·521·521·5262626262629·529·5xiyi14·914·914·915·015·015·015·015·015·115·1秩333333333336·536·538·538·540x15·215·215·315·415·5yi15·215·215·215·315·4注:當(dāng)數(shù)據(jù)相同時(shí),其秩取秩數(shù)的平均數(shù)。如前六個(gè)數(shù)相等,則其秩均為(1+2+3+4+5+6)/6=3·5。(b)由于n1=n2,故可任取xi或yi的秩和(T)。設(shè)取yi的T值為T=374。(c)均值u=標(biāo)準(zhǔn)差=37(d)u=(T-u)/因a=0.05時(shí),ua=1.96,即│u│<ua,則肯定假設(shè),亦即二人分析結(jié)果無顯著差別。這與符號(hào)檢驗(yàn)法結(jié)果相同。接·27·頁開始。作秩和檢驗(yàn)時(shí):(a)將數(shù)據(jù)按大小排列編號(hào),如表2—6。表2—6秩1234567xi14·714·815·215·6yi14·615·015·1第三章方差分析地質(zhì)現(xiàn)象通常由若干地質(zhì)因素決定。例如礦體中某元素的品位,就可能受礦體理藏深度(也可用層位表示)和不同類型的圍巖等等因素的影響。如何通過試驗(yàn)數(shù)據(jù)分析出各個(gè)因素,以及各因素之間的交互作用。這就是方差分析的主要任務(wù)。所謂方差分析,就是從方差的角度來分析觀測(cè)數(shù)據(jù)以確定各因素作用的大小,從而把由于控制因素的改變(或稱試驗(yàn)條件的改變)而引起的觀測(cè)數(shù)據(jù)的系統(tǒng)誤差和觀測(cè)過程(或稱試驗(yàn)過程)中不可避免的偶然誤差(或叫試驗(yàn)誤差或隨機(jī)誤差)區(qū)別開來。方差分析是一種有效的統(tǒng)計(jì)分析方法。這種方法于本世紀(jì)二十年代首先由英國統(tǒng)計(jì)學(xué)家費(fèi)會(huì)爾(R·A·Fisher)把它應(yīng)用到農(nóng)業(yè)實(shí)驗(yàn)上,其后在許多工業(yè)和科學(xué)研究方面都得到應(yīng)用。在地質(zhì)工作中,例如在研究礦物變異和對(duì)比及劃分地層等工作中使用方差分析都取得良好結(jié)果?!?·1一個(gè)因素的方差分析1·概述一個(gè)因素的方差分析的基本內(nèi)容,往往是檢驗(yàn)多個(gè)總體的均值是否相同的問題。例如在地球化學(xué)找礦時(shí)鉛是伴生指示元素,往往需要知道鉛在礦體垂直分帶上有無顯著變化。也就是研究深度(礦體理藏深度)這個(gè)因素對(duì)鉛含量有無顯著變化。這時(shí)我們可以在不同深度的層位上(即在不同總體上)各采取一組樣品進(jìn)行研究。由于通常方差比較穩(wěn)定。所以要檢驗(yàn)不同層位上鉛含量是否有顯著變化。就是要檢驗(yàn)不同總體的均值是否相等。一般地說,就是從G個(gè)總體(例如G個(gè)層位)中,分別獨(dú)立抽取子樣進(jìn)行觀測(cè),共得G組測(cè)值(xg1,xg2,…,xgng).根據(jù)這些觀測(cè)值來檢驗(yàn)G個(gè)總體的均值是否相等,即檢驗(yàn)假設(shè)H:u1=u2=…=uG。推斷時(shí)根據(jù)子樣組間方差和組內(nèi)方差的比值來進(jìn)行。所以這種方法可以說是假設(shè)檢驗(yàn)的推廣?,F(xiàn)將方法原理敘述如下。2·方法原理設(shè)所有觀測(cè)值(xgk,g=1,2,…G;k=1,2,…,ng)的總平均值為,第g組觀測(cè)值的平均值為,則…………(1)…………(2)………………(3)式中n為總的觀測(cè)數(shù),ng為第g組中的觀測(cè)數(shù)(即g子樣的容量)。這時(shí)觀測(cè)數(shù)據(jù)的總的離差平方和Q為…………(4)總離差平方和Q可以分解成組間平方和Q1和組內(nèi)平方和Q2兩部分,即………………(5)………………(6)由于因則………………(7)總平方和的自由度v,也可分解成組間自由度和組內(nèi)自由度兩部分。因?yàn)榭偟淖杂啥葀為…………(8)組間自由度v1為v1=G-1…………(9)組內(nèi)自由度v2為v2=…………(10)則v=v1+v2組間平方和Q1是每個(gè)組平均值與總平均值的加權(quán)離差平方和。它的大小反映了各總體均值之間的差異程度。組內(nèi)平方和Q2,則反映了試驗(yàn)誤差(觀測(cè)過程中各種偶然因素造成的誤差)的影響。若H為真。即u1=u2=…=uG,那么所有全體子樣可看作取自同一正態(tài)母體N(u,)。由于它們相互獨(dú)立,則服從自由度為n—1的x2分布,即……(12)同樣有根據(jù)x2分布加法定理可知Q1/服從自由度為v2=n—G的x2分布,即………………(13)下面證明Q1和Q2獨(dú)立(則Q1/),且Q1服從分布。因?yàn)槭街衭gk=xgk–u為相互獨(dú)立的隨變量。V1是ugk的一個(gè)正交線性變換。因此根據(jù)第一章子樣線性函數(shù)分布以及有關(guān)正交變換的性質(zhì)可知,這時(shí)可以再找到n—1獨(dú)立的變量Vi(i=2,…,n),可使式中Vi(i=2,3,…,n)相互獨(dú)立并服從N(0,)分布。同樣有:式中Wi是ugk的一個(gè)正交線性變換。因此可以再找到n—G獨(dú)立變量Wi(i=G+1,…,n),使得所以式中由于zkyk相互獨(dú)立,則Q1與Q2獨(dú)立。此外由上式可知,zk/服從N(0,1)分布,則服從自由度為V1的x2分布。即…………(14)從(13)、(14)式可知,統(tǒng)計(jì)量F=服從自由度為V1和V2的F分布,即…………(15)式中S21和S22分別稱為組間方差與組內(nèi)方差。于是當(dāng)給定顯著性水平a時(shí),從F分布表可查得臨界值Fa/2。若實(shí)測(cè)統(tǒng)計(jì)值F>Fa/2是,則在顯著性水平a下否定假設(shè)H。3·方差分析步驟與實(shí)例如上所述一個(gè)因素的方差分析可以歸納為如下幾步。(1)計(jì)算組間離差平方和S21,組內(nèi)離差平方和S22,及總偏差平方和S2,并用S2=S12+S22進(jìn)行驗(yàn)算;(2)計(jì)算組間自由度V1=G—1和組內(nèi)自由度總自由度v=n—1,并且用v=v1+v2進(jìn)行驗(yàn)算;(3)計(jì)算組間和組內(nèi)方差(4)求出統(tǒng)計(jì)量F值(F=);(5)查F分布表,求出臨界Fa/2,與實(shí)測(cè)F相比較。作出判斷。實(shí)例:某礦區(qū),要求查明鉛在礦體垂直分帶上有無顯著變化?為了查明這一問題,在礦體的四個(gè)不同層位上,分別于五個(gè)剖面處取了鉛的組合樣,鉛含量(組合樣中鉛含量為單個(gè)樣中含量的幾何平均數(shù))如表3—1所示。表3—1鉛含量(Pb×10-6)數(shù)據(jù)表層位號(hào)(g)樣品號(hào)(K)1234123452·452·322·122·441·894·653·843·394·732·403·765·577·856·945·054·803·305·185·755·6311·2219·0129·1724·662·2443·8025·8344·9324·20根據(jù)表中數(shù)據(jù)作方差分析,結(jié)果如表3—2(方差分析表)所示。表3—2方差分析表方差來源平方和自由度方差FF0.05F0.01顯著性組間35·9505311·983510·583·245·29**組內(nèi)18·1164161·1323總54·066919從這張方差分析表中,計(jì)算和推斷結(jié)果都可一自了然。必須指出,為了直觀地表示顯著性的不同程度,通常當(dāng)實(shí)測(cè)F<F0.05時(shí),即無顯著差異,則在顯著性一欄上無*號(hào)表示:當(dāng)F0,05<F<F0,01時(shí),即有顯著差異。則用*號(hào)表示:若F>F0,01時(shí),即差異特別顯著,則用**表示。從表中可以年出,層閏這一因素對(duì)鉛含量有特別顯著的影響?!?—2二個(gè)因素的方差分析以上討論了一個(gè)因素的方差分析,即只考慮一個(gè)因素對(duì)觀測(cè)結(jié)果的影響。在實(shí)際地質(zhì)工作中,影響一個(gè)量的因素常常不止一個(gè)。諸因素之間又有互相作用,情況較為復(fù)雜。下面敘述兩個(gè)影響因素在無交互作用和有交互和用時(shí)的方差分析,說明解決這些總是題的思想和方法。按比原則,可以解決更為復(fù)雜的問題。1·不考慮交互作用時(shí),兩個(gè)因素的方差分析例如在研究礦脈厚度和它的埋藏深度對(duì)鉛的平均品位的影響時(shí),用A表示礦脈厚度因素,用B表示礦脈埋藏深度因素。將因素A按厚度不同分為若干個(gè)等級(jí)(通常稱為若干水平),如A1=5~15cm,A2=15~25cm,…等等。同樣將因素B按照深度(即不同層位)分為若干等級(jí)(水平),如第一層為B1,第二層為B2等等。一般說來,例如將因素A分為a個(gè)水平,即A1,A2,…Aa;將因素B分為b個(gè)水平,即B1,B2,…Bb,,則因素A和B總共有a×b種不同的水平配合。在每一種水平配合(如一定的厚度和一定的深度上)進(jìn)行一次觀測(cè),其結(jié)果用xij表示。含量結(jié)果如表3—3所示。表3—3BAB1…Bj…BbA1···Ai··接下頁·接下頁x11…x1j…x1b·········xi1xij…xib···············AaxaI…xaj…xab……設(shè)……(16)為a×b個(gè)觀測(cè)值的總平均值。為j列的平均值,即為B因素j水平的平均值。為i列的平均值,即為A因素i水平的平均值。若變量總體分別服從N(uij)分布,分析的目的是檢驗(yàn)假設(shè)H:所有的uij都相等。解決這類問題的基本方法與一上因素的方差分析一樣。這時(shí)把總離差平方和分解為三部分。即A因素,B因素與觀測(cè)誤差三部分?!?7)由(16)式可知(17)式中三個(gè)交錯(cuò)乘積皆為0。比如:因此(17)式可寫為……(18)式中為A因素的離差平方和。為B因素的離差平方和,為誤差平方和?!?9)
在應(yīng)用中通常用下式計(jì)算(20)比如=當(dāng)假設(shè)H為真時(shí),則a×b個(gè)觀測(cè)值xij可看作來自同一總體N(u,),即u=uij。自由度分別為v=ab—1,vA=a—1,vB=b—1,vE=(a—1)(b—1)?!?1)和一個(gè)因素的方差分析一樣,有相互獨(dú)立,且…………(22)故…………(23)對(duì)于給定的a可從F分布表中分別求出A和B的臨界值F和F。若由觀測(cè)數(shù)據(jù)算出的FA和FB均分別小于F和F時(shí),則肯定假設(shè),否則否定假設(shè)。實(shí)例:已知鉛含量隨層位不同而變化。而某礦的品級(jí)也隨層位而變化,那么就需研究鉛含量的變化究竟是由于層位間地球化學(xué)條件不同引起的,還是由于礦的品級(jí)變化所引起的呢?設(shè)礦的品級(jí)因素為A,分為四個(gè)品級(jí)A1,A2,A3,A4。層位因素為B,分為四個(gè)水平B1,B2,B3,B4。在不同的Ai,Bi條件下各取一個(gè)樣品分析出鉛含量xij(×10-6)。其數(shù)據(jù)列于表3—4中。問A、B二因素對(duì)鉛含量是否有顯著影響?二者中哪個(gè)更大些?表3—4鉛含量(Pb×10-6)數(shù)據(jù)表BAB1B2B3B4A12·203·763·724·17A22·184·724·855·50A33·004·954·205·50A45·107·108·306·31根據(jù)原始數(shù)據(jù)用以上公式計(jì)算結(jié)果見表3·5。表3·5不考慮交互作用時(shí)二個(gè)因素方差分析表方差來源平方和自由度方差FF0.05F0.01顯著性ABE總23·0913·813·840·70339157·704·600·4218·3310·953·863·866·996·9****表中可以看出,某礦的品位和層位二個(gè)因素對(duì)鉛含量均有特別顯著的影響,但比較起來,品位因素影響更大些。因?yàn)樗云肺灰蛩赜绊懘笮?、考慮交互作用時(shí),二個(gè)因素的方差分析所謂交互作用是指二個(gè)因素A和B相配合時(shí)對(duì)結(jié)果的影響。例如有時(shí)當(dāng)?shù)V脈的厚度這一因素和埋藏深度因素結(jié)合(搭配)起來時(shí)對(duì)某元素的含量影響特別大。這種因素間聯(lián)合起來所起的作用稱為交互作用。為了考慮交互作用,在不同因素Ai,Bi條件下只取一個(gè)樣品就不夠了。必須取一組樣品進(jìn)行觀測(cè)才行。這是因?yàn)槊恳蝗佑^測(cè)都有承機(jī)誤誤,所以即使搭配作用較大,在一次取樣觀測(cè)中未必能得到同樣好的結(jié)果。所以面要多交取樣觀測(cè)才能平均出交互作用來。設(shè)在A、B二因素的每一種水平搭配時(shí),都進(jìn)行m次取樣觀測(cè),其結(jié)果如表3—6所示。表3—6BAB1…Bj…BbA1┆Ai┆Aax111…x11m…x1j1…x1jm…x1b1…x1bm┆┆┆┆┆xill…xilm…xij1…xijm…xib1…x1bm┆┆┆┆┆Xall…xa1m…xaj1…xajm…xab1…xabm表中xijk表示第I行,第j列內(nèi)的第k次取樣觀測(cè)值。I=1,2,…,a:j=1,2,…,b:k=1,2,…,m。設(shè)為表中全部數(shù)所的平均值。為表中第i行數(shù)的平均值。列數(shù)據(jù)的平均值。則……(24)與前類似,將總離差平方和分解為四項(xiàng)之和?!?5)上式簡(jiǎn)記為……(26)為總平方和,其自由度v=abm—1A為A因素平方和,其自由度為vA=a—1。B為B因素平方和,其自由度為vB=b—1A×B為A和B交互作用引起的平方和。其自由度為VA×B=(a—1)(b—1),E為誤差平方和,其自由度為vE=abm—ab=ab(m—1)v=vA+vB+vA×B+vE…………(27)和以前討論的相似,可以證明(28)因此……(29)以上統(tǒng)計(jì)量FA9FB和FA×B可以分別用以判斷A,B和A×B對(duì)觀測(cè)結(jié)果的影響。方法與前面相同。實(shí)例:在某多金屬礦床上,用方差分析法研究脈厚和埋藏深度對(duì)鉛含量有無顯著影響。設(shè),厚度因素用A表示。分為四個(gè)水平,即A1=5~15cm,A2=15~25cm,A,=25~35cm,A4=35~45cm。埋藏深度因素用B表示,分為三個(gè)水平,即第一層為B1,第二層為B2,第三層為B3。在每一Ai,Bi條件下各取三個(gè)樣品。測(cè)量結(jié)果鉛含量的原始數(shù)據(jù)列于表3—6中。表3—5鉛含量(%)的原始數(shù)據(jù)表BAB1B2B3A1A2A3A41,5,61,3,52,3,72,2,52,5,83,8,101,4,102,2,116,7,85,10,122,10,154,7,10根據(jù)上述公式,計(jì)算結(jié)果列于表3—7。表3—7考慮交互作用時(shí)方差分析差方差業(yè)源平方和自由度方差FFoooFOo顯著性ABA×BE總1046·535·5314460326243534·673·255·9213·082·650·250·453·013·402·514·725·613·67表中可以看出,由地實(shí)測(cè)各F值皆小于FO。05,故均無顯著影響。結(jié)論為:礦脈厚度和埋藏深度以及它們的交互作用,對(duì)鉛含量皆無顯著影響?!?—3用方差分析進(jìn)行地層對(duì)比通常不同巖層,由于形成的地質(zhì)條件不同。因而它們的某些定量標(biāo)志(比如含砂量、滲透率、電阻率、放射性強(qiáng)度等等)往往有著顯著的差異。而同一巖層內(nèi)這些標(biāo)志(隨機(jī)變量)間的差異則相對(duì)來講就要小些。因此可以利用層間方差(組間方差)和層內(nèi)方差(納內(nèi)方差)之比作為統(tǒng)計(jì)量來對(duì)比和劃分地層。比如(a)在對(duì)比A、B、C三個(gè)不同地層時(shí)??梢栽贏、B、C地層中分別采取一組樣品。分析劃分巖層的標(biāo)志變量(如含砂量)。我后計(jì)算組間方差和組內(nèi)方差,并進(jìn)行方差比顯著性檢驗(yàn)。若差異顯著則A、B、C三個(gè)地層就不能歸屬于同一巖層。(b)在根據(jù)物業(yè)資料進(jìn)行地層劃分時(shí)。為了取得最佳效果,可以根據(jù)對(duì)不同地層有明顯差異的物性參數(shù)變化曲線(比如電阻率變化曲線等),按一定間隔(比如10cm到100cm)取值。然后根據(jù)要求劃分出的層數(shù)用方差分析法確定層位界線。比如分成二層時(shí),即將所有的n個(gè)數(shù)據(jù)分成二組。顯然任意劃分時(shí)可有n-1種劃分方法。我們可以對(duì)這n-1種劃分法,都計(jì)算出n-1個(gè)組間方差S1和組內(nèi)方差S2。很明顯,能獲得最大方差比(S1/S2)的劃分法,就是最佳劃分法。在確定二層的基礎(chǔ)上,根據(jù)需要??梢园凑胀瑯釉瓌t分成三層、四層或更多層。下面舉例說明二個(gè)已知分層的對(duì)比方法。設(shè):有相鄰二井(A和B)各分四層。每層平均電阻率數(shù)據(jù)如表3—8所示。表3—8各巖層電阻率數(shù)據(jù)表井號(hào)層號(hào)AB12346.0211.698.875.744.078.296.223.38若A和B井的各層分別用Ai和Bi(i=1,2,3,4)表示,則地層的以比可能有以下五種方案(A4對(duì)B1和A1對(duì)B4二種方案原因數(shù)據(jù)太小,故略去),參見圖3—1。采用方差來對(duì)比方案時(shí),將對(duì)比的地層看作是同一個(gè)地層。這樣A、B二井中可看作同一地層的對(duì)比數(shù)是:第一方案為2層,第二方案有3層,第三方案有4層等等。于是就可以求出租間方差S1121234121234121234123A1A2A3B1A4B2B3B4A1A2B1A3B2A4B3B4A1B1A2B2A3B3A4B4B1A1B2A2B3A3B4A4B1B2A1B3A2B4A312112121233-1地層對(duì)示意圖(層間方差)和組內(nèi)方差S2(層內(nèi)方差)。因?yàn)閰⒓訉?duì)比的層數(shù)不同,對(duì)層間方差有很大影響,必須乘一個(gè)校正系數(shù)。才能保持對(duì)五種方案在相似條件下進(jìn)行對(duì)比。設(shè)五種方案中參加對(duì)比的最多層數(shù)為m。第i方案參加對(duì)比的層數(shù)為p,則校正數(shù)Ki=m/P。于是可規(guī)定地層對(duì)比指標(biāo)顯然能夠取得H(i)值最大的方案,就是最佳對(duì)比方案?,F(xiàn)將各方案的計(jì)算敘述如下(通常規(guī)定當(dāng)H(i)為負(fù)時(shí)一律記為0)。(一)第一方案。原始數(shù)據(jù)見表3—9。這時(shí)n1=n2=2,G=2.表3—9一方案數(shù)據(jù)表層號(hào)g井號(hào)K121(A)8.875.742(B)4.078.2912.9414.036.477.0156.74m=4,p=2(二)第二方案原始數(shù)據(jù)見表3·10。這時(shí)n1=n2=2,G=3。表3—10二方案數(shù)據(jù)表層號(hào)g井號(hào)k1231(A)11.698.875.742(B)4.078.296.2215.7617.1611.967.888.585.987.48方差計(jì)算結(jié)果為:因m=4,p=3則H(2)=0(三)第三方案原始數(shù)據(jù)見表3--11。表3--11三方案數(shù)據(jù)表地層號(hào)g井號(hào)k12341(A)6.0211.698.875.742(B)4.078.296.223.3810.0919.9815.099.125.0459.9907.5454.5606.785這時(shí)m=4,p=4H(3)=0.721(四)第四方案原始數(shù)據(jù)見表3—12。表3—12四方案原始數(shù)據(jù)表地層號(hào)g井號(hào)k1231(A)6.0211.698.872(B)8.296.223.3814.3117.9112.257.1558.9556.1257.412這時(shí)n1=n2=2,G=3S1=4.1033S2=10.869M=4,P=3H(4)=0(五)第五方案原始數(shù)據(jù)見表3—13表3—13五方案原始數(shù)據(jù)表地層號(hào)g井號(hào)k121(A)6.0211.692(B)6.223.3812.2415.076.127.5356.83這時(shí)n1=n2=2,G=2S1=2.0S2=17.27m=4,P=2H(5)=0比較上述五個(gè)方案計(jì)算結(jié)果,只有H(3)=0.721不為零,故H(3)最大。因此第三方案是所求的地層對(duì)比的最佳方案。第四章回歸分析§4—1概述回歸分析是地質(zhì)學(xué)中常用的一種統(tǒng)計(jì)分析方法。用以研究某一變量(指標(biāo))與另一變量(或其它若干變量)之間的相關(guān)關(guān)系。一切事物都是相互聯(lián)系的。事物之間的聯(lián)系反映在數(shù)學(xué)上就是變量之間的關(guān)系。通常變量之間的關(guān)系可以分為二類。(1)確定性關(guān)系。這就是通常所說的函數(shù)關(guān)系。例如歐姆定律所確定的電阻、電流和電壓之間的關(guān)系,即V=IR。知道子其中兩個(gè)變量的值。第三個(gè)變量的值就完全確定了。(2)相關(guān)關(guān)系。比如巖石中鈾鉀含量之間的關(guān)系,原生暈強(qiáng)度與到礦體的距離之間的關(guān)系,金屬礦床中各種金屬含量之間的關(guān)系,放射性元素含量與伴生元素含量的關(guān)系等等。這些變量之間存在著密切的關(guān)系,但這些關(guān)系受許多隨機(jī)因素的影響,不能由一個(gè)(或幾個(gè))變量的效值。精確的求出另一個(gè)變量的值。這些變量都是隨機(jī)變量。這種變量之間的關(guān)系叫做相關(guān)關(guān)系。通常利用回歸分析(相關(guān)分析)在一定地質(zhì)條件下確定變量間的相關(guān)關(guān)系后,就可以根據(jù)一個(gè)或幾個(gè)比較容易測(cè)定和控制的變量,對(duì)另一個(gè)變量(如某種礦石的品位)進(jìn)行予測(cè)。回歸分析內(nèi)容較多,應(yīng)用范圍也較廣。本章重點(diǎn)敘述最常用和最基本的線性回歸方法?!?—2回歸方程的確定在研究二個(gè)隨機(jī)變量的關(guān)系時(shí),若觀測(cè)n對(duì)數(shù)據(jù)(xi,yi,i=1,2,…,n)。設(shè)xi為自變量,yi為因變量。為了表明它們之間的關(guān)系,將x作橫坐標(biāo),y作縱坐標(biāo),在直角坐標(biāo)系中把n對(duì)數(shù)據(jù)表示成n個(gè)點(diǎn)。如圖4—1所示。這樣的圖稱為散點(diǎn)圖。圖中可以看出這些點(diǎn)大致分布在一條直線隊(duì)近。即大體呈線性關(guān)系。在理論上若二個(gè)變量之間存在線性關(guān)系時(shí),則理論相關(guān)表達(dá)式為ε…………(1)圖4—1散點(diǎn)圖式中a,β為理論待定參數(shù)(待估計(jì)參數(shù))ε是誤差項(xiàng),它是服從N(o,)分布的隨機(jī)變量。通常在解決實(shí)際問題時(shí)??偸歉鶕?jù)樣本對(duì)未知參數(shù)進(jìn)行估計(jì)。設(shè)a為a的估計(jì),b為β的估計(jì),為y的估計(jì)。則y對(duì)x的回歸議程為…………(2)系數(shù)a,b通常根據(jù)最小乘法原則來確定(即根據(jù)樣本用最小二乘法原則來確定a和β的估計(jì)值a,b)。這時(shí)要求選擇系數(shù)a,b使得各觀測(cè)值y和估計(jì)值之間的偏差(y)的平方和為最小。即…………(3)因此求系數(shù)a,b的正規(guī)方程組為}…………(4)即}…………(5)以下為了簡(jiǎn)便,用表示表示等等。解(5)式可得:=}…………(6)由(5)式可知,加歸直線必然通過平均值點(diǎn)()。A和b稱為回歸直線的截距和斜率。b又稱回歸系數(shù)?;貧w系數(shù)b通常又可寫成如下形式}…………(7)式中稱為x,y的交叉積:為x,y的交叉積為x的方差(也可記為Sxx或SSx)。實(shí)際工作中常采用如下公式計(jì)算}…(8)顯然。當(dāng)=0時(shí)(或=0時(shí)),b=0,表示y不隨x發(fā)生變化,即x和y不相關(guān)。例:在某礦取了18個(gè)煤樣,分析其比重()和灰分()的數(shù)據(jù)如表4—1。試求回歸方程。表4—1煤樣比重()和灰分()數(shù)據(jù)表樣品號(hào)(%)樣品號(hào)(%)11·525101·3421·24111·51731·730121·52441·420131·62551·836141·4661·37151·62671·35161·52481·524171·42091·733181·40根據(jù)上述公式可以求得,則回歸直線為§4—3相關(guān)系數(shù)及其顯著性檢驗(yàn)1·相關(guān)系數(shù)在求回歸直線時(shí),我們可以發(fā)現(xiàn)不管觀測(cè)點(diǎn)(xi,yi)分布狀態(tài)如何,即不管是非常分散還是集中地落在一條直線附近,也就是說不管變量x和y之間關(guān)系的密切程度如何,都可用最小二乘法求出一條回歸直線來。倘若x和y關(guān)系并不密切,甚至并不相關(guān),那未所配的回歸直線就毫無意義。只有當(dāng)x和y間關(guān)系密切時(shí)所配的回歸直線才有意義。因此需要找出一個(gè)參數(shù)(r)來定量地描寫變量x和y之間關(guān)系的密切程度。這個(gè)參數(shù)要求滿足(a)當(dāng)x和y不相關(guān)時(shí)r=0。(b)當(dāng)x和y完全相關(guān)時(shí)r=1。(c)在其它情況下,0<r<1。由于因變量y的離散程度可用總離差平方和(簡(jiǎn)稱總平方和Lyy)來表示,如圖4—2所示??偲椒胶陀挚勺魅缦路纸猓?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工勞動(dòng)合同協(xié)議書格式
- 廠房租賃合同范本版(18篇)
- 農(nóng)業(yè)機(jī)械購買補(bǔ)貼合同
- 技術(shù)開發(fā)服務(wù)合同案例
- 企業(yè)培訓(xùn)就業(yè)協(xié)議書編寫技巧
- 2第二章-血液一般檢驗(yàn)-02-血栓與止血、血型
- 室內(nèi)清潔合作合同格式
- 員工個(gè)人合同書范本
- 投資合作協(xié)議范本:2024投資合作協(xié)議范本
- 場(chǎng)地游戲安全協(xié)議書
- 軟件項(xiàng)目提成方案
- 裝配式建筑設(shè)計(jì)研究與總結(jié)課件
- 一年級(jí)上冊(cè)全冊(cè)道德與法治教案全
- 中班健康《身體上的洞洞》課件
- GB/T 9452-2023熱處理爐有效加熱區(qū)測(cè)定方法
- 停車場(chǎng)施工方案及技術(shù)措施范本
- 高考地理一輪復(fù)習(xí)課件【知識(shí)精講+高效課堂】美食與地理環(huán)境關(guān)系
- 分居聲明告知書范本
- 2023年04月山東濟(jì)南市槐蔭區(qū)殘聯(lián)公開招聘殘疾人工作“一專兩員”公開招聘筆試參考題庫+答案解析
- 消失的13級(jí)臺(tái)階
- 營銷管理知識(shí)點(diǎn)
評(píng)論
0/150
提交評(píng)論