




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1.主成分分析2.因子分析3.聚類分析4.相關(guān)性分析5.回歸分析
第六章多元統(tǒng)計(jì)分析模型背景模型思想模型建立步驟主成分優(yōu)缺點(diǎn)案例分析主成分分析第一節(jié)一、模型背景在研究實(shí)際問(wèn)題時(shí),往往需要涉及多個(gè)變量,而通常多個(gè)變量間存在較強(qiáng)的相關(guān)關(guān)系,即這些變量間存在較多的信息重復(fù)。假如直接利用它們進(jìn)行分析,不但模型復(fù)雜,還會(huì)因?yàn)樽兞块g存在多重共線性而引起較大的誤差。為能夠充分利用數(shù)據(jù),通常希望用較少的新變量代替原來(lái)較多的舊變量,但同時(shí)這種代替仍可以反映原來(lái)多個(gè)變量的大部分信息。這實(shí)際上是一種降維的方法。二、模型思想主成分分析(PCA)是一種數(shù)學(xué)降維的方法。該方法通過(guò)構(gòu)造原變量的一系列線性組合形成一組新的互不相關(guān)的變量,使這些新變量盡可能多地反映原變量的信息。這里的“信息”主要由數(shù)據(jù)變量的方差反映,即方差越大,包含的信息越多。主成分分析通常運(yùn)用累計(jì)方差貢獻(xiàn)率來(lái)分析方差。簡(jiǎn)要步驟:利用輸入變量構(gòu)造數(shù)據(jù)矩陣,并求相關(guān)矩陣;由相關(guān)系數(shù)矩陣的特征值求得累計(jì)方差貢獻(xiàn)率;再依據(jù)累計(jì)方差貢獻(xiàn)率及相關(guān)系數(shù)矩陣的特征向量,選擇主成分并得出表達(dá)式。三、模型建立步驟原始數(shù)據(jù)標(biāo)準(zhǔn)化處理計(jì)算相關(guān)系數(shù)矩陣R計(jì)算特征值和特征向量選擇主成分,并對(duì)各主成分所包含信息給于適當(dāng)解釋計(jì)算綜合得分原始數(shù)據(jù)標(biāo)準(zhǔn)化處理目的:消除變量在量綱上的的影響。假設(shè)指標(biāo)變量有m個(gè)指標(biāo)向量,共有n個(gè)待評(píng)價(jià)對(duì)象,記第i個(gè)評(píng)價(jià)對(duì)象的第j個(gè)指標(biāo)的取值為,將各指標(biāo)值轉(zhuǎn)換成標(biāo)準(zhǔn)化指標(biāo),公式如下:其中提示:中心極限定理,當(dāng)n較大時(shí)近似服從正態(tài)分布2.計(jì)算相關(guān)系數(shù)矩陣R相應(yīng)嗯嗯相關(guān)系數(shù)矩陣記為其中是第i個(gè)指標(biāo)與第j個(gè)指標(biāo)的相關(guān)系數(shù)當(dāng)數(shù)據(jù)標(biāo)準(zhǔn)化后,第i個(gè)指標(biāo)與第j個(gè)指標(biāo)的相關(guān)系數(shù)3.計(jì)算特征值和特征向量解特征方程
,求得特征值
及對(duì)應(yīng)的特征向量
,其中
由特征向量和原變量組成m個(gè)新的指標(biāo)變量yj。4.選擇主成分,計(jì)算綜合評(píng)級(jí)值主成分貢獻(xiàn)率的定義為:某個(gè)主成分的方差占全部方差的比重,也就是某個(gè)特征值占全部特征值合計(jì)的比重。第個(gè)成分的貢獻(xiàn)率為:其中隨機(jī)變量觀察數(shù)據(jù)的取值為前個(gè)成分的累計(jì)貢獻(xiàn)率為:
各主成分的方差是遞減的,包含的信息也是遞減的。當(dāng)接近于1時(shí),則選擇前個(gè)綜合指標(biāo)作為個(gè)主成分,代替原來(lái)的個(gè)指標(biāo)變量。在實(shí)踐中,一般要求選取主成分的累計(jì)貢獻(xiàn)率達(dá)到85%以上。積累貢獻(xiàn)率表示前
個(gè)主成分的貢獻(xiàn)率之和。5.計(jì)算綜合得分綜合得分計(jì)算公式如下:根據(jù)每個(gè)待評(píng)價(jià)對(duì)象的綜合得分值,對(duì)其進(jìn)行評(píng)價(jià)。其中
為第j個(gè)主成分的貢獻(xiàn)率例1:某河流2001年-2007年的污染物濃度如表2.1所示.要求運(yùn)用主成分分析,將各年份監(jiān)測(cè)值與五個(gè)類別的水質(zhì)標(biāo)準(zhǔn)值進(jìn)行比較以確定水質(zhì)級(jí)別.
高錳酸鉀指數(shù)BOD石油類揮發(fā)酚砷六價(jià)鉻氨氮DO20015.13.90.030.0020.0040.00216.620025.35.60.040.0030.0040.0051.35.820035.55.90.340.0040.0040.0071.45.420045.98.70.460.0060.0060.0091.6320057.112.60.680.020.0050.0081.73.720068.611.10.750.030.0050.0081.94.620077.39.70.050.0080.0060.0061.83.6
表2.1該河流各指標(biāo)監(jiān)測(cè)值與水質(zhì)級(jí)別以及綜合污染指數(shù)1、數(shù)據(jù)預(yù)處理首先將DO(溶解氧)取倒數(shù),使其與其他指標(biāo)成為同向指標(biāo),即數(shù)值越大,表示污染越嚴(yán)重.接著將數(shù)據(jù)標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化后的矩陣;2、計(jì)算相關(guān)系數(shù)矩陣?yán)霉?/p>
得到相關(guān)系數(shù)矩陣R.3、計(jì)算特征值和特征向量接下來(lái)計(jì)算相關(guān)系數(shù)矩陣的特征值,特征向量及主成分累積貢獻(xiàn)率.得到8個(gè)特征值依次為5.81,2.35,0.64,0.10,,,提取主成分對(duì)應(yīng)的特征值大于1的前3個(gè)主成分.4.選擇主成分,計(jì)算綜合評(píng)級(jí)值由此,依據(jù)公式
計(jì)算主成分綜合得分,結(jié)果如表2.2所示.年份2001200220032004200520062007主成分得分-2.8883-1.8464-1.13071.378321.606041.870271.01081
表2.2主成分分析評(píng)價(jià)結(jié)果?優(yōu)點(diǎn):首先它利用降維技術(shù)用少數(shù)幾個(gè)綜合變量來(lái)代替原始多個(gè)變量,這些綜合變量集中了原始變量的大部分信息。其次它通過(guò)計(jì)算綜合主成分函數(shù)得分,對(duì)客觀經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)評(píng)價(jià)。再次它在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力綜合評(píng)價(jià)。?缺點(diǎn):如果數(shù)據(jù)集中有極端值或變量間呈現(xiàn)非線性關(guān)系,主成分分析效果大打折扣。當(dāng)主成分的因子負(fù)荷的符號(hào)有正有負(fù)時(shí),綜合評(píng)價(jià)函數(shù)意義就不明確。命名清晰性低。?缺點(diǎn)解決方法:穩(wěn)健主成分分析、非線性主成分分析(相關(guān)延伸自行查找資料)。/T_steve7/article/details/54376455四、主成分優(yōu)缺點(diǎn)主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。這是一種刪除多余變量的方法。主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制,預(yù)測(cè)和評(píng)價(jià),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇量,獲得選擇最佳變量子集合的效果。主成分分析的應(yīng)用:五、案例下表是我國(guó)1984—2000年宏觀投資的一些數(shù)據(jù),試?yán)弥鞒煞址治鰧?duì)投資效益進(jìn)行分析和排序年份投資效果系數(shù)(無(wú)時(shí)滯)投資效果系數(shù)(時(shí)滯一年)全社會(huì)固定資產(chǎn)交付使用率建設(shè)項(xiàng)目投產(chǎn)率基建房屋竣工率19840.710.490.410.510.4619850.40.490.440.570.519860.550.560.480.530.4919870.620.930.380.530.4719880.450.420.410.540.4719890.360.370.460.540.4819900.550.680.420.540.4619910.620.90.380.560.4619920.610.990.330.570.4319930.710.930.350.660.4419940.590.690.360.570.4819950.410.470.40.540.4819960.260.290.430.570.4819970.140.160.430.550.4719980.120.130.450.590.5419990.220.250.440.580.5220000.710.490.410.510.46利用Matlab求得相關(guān)系數(shù)矩陣的前五個(gè)特征根及其貢獻(xiàn)率如下表所示主成分分析結(jié)果序號(hào)特征根貢獻(xiàn)率累計(jì)貢獻(xiàn)率13.134362.686662.686621.168323.367086.053630.35027.003693.057240.22584.516297.573450.12132.4266100.0000可以看出,前三個(gè)特征根的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到93%以上,主成分分析效果很好。下面選取前三個(gè)主成分進(jìn)行綜合評(píng)價(jià),前三個(gè)特征根對(duì)應(yīng)的特征向量,如表所示由此可得三個(gè)主成分分別為分別以三個(gè)主成分的貢獻(xiàn)率為權(quán)重,構(gòu)建主成分綜合評(píng)價(jià)模型為標(biāo)準(zhǔn)變化量的前三個(gè)主成分對(duì)應(yīng)的特征向量分量1分量2分量3分量4分量5第1特征向量0.4905420.525351-0.487060.067054-0.49158第2特征向量-0.293440.048988-0.28120.8981170.160648第3特征向量0.5108970.433660.3713510.1476580.625475年代19881985199619861989199719991998名次1011121314151617綜合評(píng)價(jià)值-0.2662-0.5292-0.7405-0.7789-0.9715-1.1476-1.2015-1.6848年代199319921991199419871990198420001995名次123456789綜合評(píng)價(jià)值2.44641.97681.11230.86040.84560.22580.05310.0531-0.2534各年度的三個(gè)主成分值代入上式,可以得到各年度的綜合評(píng)價(jià)值以及排序結(jié)果如表2.3所示.表2.3排序結(jié)果計(jì)算的Matlab程序如下data=importdata('data.csv'); X=zscore(data); R=corrcoef(X); [vec,lamba,rate]=pcacov(R);
vec=vec.*sign(sum(vec)) contr=cumsum(rate)/sum(rate)num=input(‘請(qǐng)選擇主成分個(gè)數(shù):’);df=X*vec(:,1:num); tf=df*rate(1:num); [stf,ind]=sort(tf,'descend');[ind,stf]%導(dǎo)入數(shù)據(jù)%標(biāo)準(zhǔn)化數(shù)據(jù)%求相關(guān)系數(shù)矩陣%主成分分析,vec為R特征向量,lamba為R特征值,rate為各個(gè)主成分貢獻(xiàn)率%使特征向量和為正%求貢獻(xiàn)率,對(duì)所有主成分操作%交互式選取主成分%計(jì)算各主成的得分%計(jì)算綜合得分%得分降序排列%顯示排名得分情況程序執(zhí)行的結(jié)果如下VEC為特征向量所得結(jié)果左邊為綜合得分排名右端為綜合得分累積貢獻(xiàn)率使用SPSS軟件分析的過(guò)程如下
第一步,導(dǎo)入
第二步,選擇分析方法第三步,點(diǎn)擊提取按鈕并選擇提取主成分個(gè)數(shù)第三步,單擊確定進(jìn)行主成成分分析最終獲得結(jié)果如下,與Matlab程序計(jì)算的結(jié)果一致第二節(jié)模型背景因子分析模型模型建立步驟案例分析因子分析
第六章因子分析(FactorAnalysis)是指從變量群中提取公共因子的統(tǒng)計(jì)技術(shù).一般認(rèn)為,公共因子是不能直接觀測(cè)的,但它們與可觀測(cè)變量有著密切的關(guān)系.在因子分析過(guò)程中,將變量的方差分為個(gè)別變量方差和公共方差兩部分.依據(jù)公共方差的大小可評(píng)估各變量對(duì)公共因子的依賴程度.從而通過(guò)分析各公共因子對(duì)變量的貢獻(xiàn)選取合適的公共因子替代原變量,并解釋公共因子的含義.與主成分分析類似,因子分析將相同本質(zhì)的變量歸入一個(gè)因子,可減少變量的數(shù)目,達(dá)到降維的目的.在數(shù)學(xué)建模中,因子分析用于分析多指標(biāo)的問(wèn)題,通過(guò)因子得分還可以得出不同公共因子的重要性指標(biāo).一、模型背景“因子”是什么?例如,在企業(yè)形象或品牌形象的研究中,消費(fèi)者可以通過(guò)一個(gè)有24個(gè)指標(biāo)構(gòu)成的評(píng)價(jià)體系,評(píng)價(jià)百貨商場(chǎng)的24個(gè)方面的優(yōu)劣。但消費(fèi)者主要關(guān)心的是三個(gè)方面,即商店的環(huán)境、商店的服務(wù)和商品的價(jià)格。因子分析方法可以通過(guò)24個(gè)變量,找出反映商店環(huán)境、商店服務(wù)水平和商品價(jià)格的三個(gè)潛在的因子,對(duì)商店進(jìn)行綜合評(píng)價(jià)。而這三個(gè)公共因子可以表示為:稱、、是不可觀測(cè)的潛在因子,24個(gè)變量共享這三個(gè)因子,但是每個(gè)變量又有自己的個(gè)性,不被包含的部分,稱為特殊因子。數(shù)學(xué)模型:設(shè)Xi(i=1,2,…,p)共p個(gè)變量,如果表示為:其中,載荷矩陣A中aij為第個(gè)i變量與第j個(gè)公共因子之間的線性相關(guān)系數(shù),反映變量與公共因子之間的相關(guān)程度。
為特殊因子,代表公共因子以外的因素影響。該模型還需滿足以下條件:1)各特殊因子之間以及特殊因子與公共因子之間均互相獨(dú)立2)各公共因子都是均值為0,方差為1的獨(dú)立正態(tài)隨機(jī)變量二、因子分析模型矩陣形式為:對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理計(jì)算相關(guān)系數(shù)矩陣R計(jì)算初等載荷矩陣提取公因子進(jìn)行因子旋轉(zhuǎn)計(jì)算因子得分,并進(jìn)行綜合評(píng)價(jià)三、模型建立步驟原始數(shù)據(jù)標(biāo)準(zhǔn)化處理目的:消除變量在量綱上的的影響。假設(shè)指標(biāo)變量有m個(gè)指標(biāo)向量,共有n個(gè)待評(píng)價(jià)對(duì)象,記第i個(gè)評(píng)價(jià)對(duì)象的第j個(gè)指標(biāo)的取值為,將各指標(biāo)值轉(zhuǎn)換成標(biāo)準(zhǔn)化指標(biāo),公式如下:其中提示:中心極限定理,當(dāng)n較大時(shí)近似服從正態(tài)分布2.計(jì)算相關(guān)系數(shù)矩陣R其中是第i個(gè)指標(biāo)與第j個(gè)指標(biāo)的相關(guān)系數(shù)相應(yīng)的相關(guān)系數(shù)矩陣記為當(dāng)數(shù)據(jù)標(biāo)準(zhǔn)化后,第i個(gè)指標(biāo)與第j個(gè)指標(biāo)的相關(guān)系數(shù)3.計(jì)算初等載荷矩陣計(jì)算相關(guān)系數(shù)矩陣R的特征值
及對(duì)應(yīng)的特征向量,其中
,初等載荷矩陣為:4.提取p個(gè)公因子①根據(jù)因子方差(特征值)大小來(lái)確定因子個(gè)數(shù):只取方差大于1(特征值大于1)的那些因子。②或者按照因子的累計(jì)方差貢獻(xiàn)率確定因子個(gè)數(shù):一般認(rèn)為達(dá)到60%才符合要求。記載荷矩陣5.進(jìn)行因子旋轉(zhuǎn)直接構(gòu)造出的公共因子往往含義很模糊,這時(shí)不便于進(jìn)行實(shí)際背景的解釋。而由于因子載荷陣是不唯一的,所以可以對(duì)因子載荷陣進(jìn)行旋轉(zhuǎn),使因子載荷陣的結(jié)構(gòu)簡(jiǎn)化,矩陣中每列或行元素的平方值向0和1兩極分化。因子旋轉(zhuǎn)主要有以下三種方法:①方差最大旋轉(zhuǎn)法:使各因子保持正交狀態(tài),但盡量使各因子的方差達(dá)到最大,即相對(duì)的載荷平方和達(dá)到最大,從而方便對(duì)因子的解釋②四次最大正交旋轉(zhuǎn)法:該方法傾向于減少和每個(gè)變量有關(guān)的因子數(shù),從而簡(jiǎn)化對(duì)原變量的解釋③平均正交旋轉(zhuǎn):該方法介于方差最大正交旋轉(zhuǎn)和四次方最大正交旋轉(zhuǎn)之間。例1依據(jù)學(xué)員業(yè)務(wù)指標(biāo)數(shù)據(jù),利用因子分析,提取公共因子.解:設(shè)應(yīng)檢驗(yàn)觀測(cè)矩陣的四個(gè)變量為:業(yè)務(wù)理論知識(shí),實(shí)際業(yè)務(wù)技能,思想集中能力,邏輯思維能力.若已知六位學(xué)員的四個(gè)變量觀測(cè)數(shù)據(jù),并計(jì)算得出相關(guān)矩陣為1、計(jì)算特征值和特征向量,并提取公因子上述矩陣的兩個(gè)最大特征值為因即它們說(shuō)明了總方差的96.3%,兩個(gè)相應(yīng)的特征向量構(gòu)成的矩陣為用兩個(gè)特征向量的平方根為元素構(gòu)建對(duì)角矩陣2.計(jì)算載荷矩陣計(jì)算得載荷矩陣3.進(jìn)行因子旋轉(zhuǎn)接下來(lái),正交旋轉(zhuǎn)載荷矩陣,以下采用方差最大旋轉(zhuǎn)法.方差最大的正交旋轉(zhuǎn)矩陣為f1的載荷矩矩陣f2的載荷矩陣旋轉(zhuǎn)了的載荷矩陣為由
,,,說(shuō)明原變量
,,與公共因子
密切相關(guān)且各占據(jù)了公共方差的一半以上,而,說(shuō)明原變量
與公共因子
密切相關(guān)且各占據(jù)了公共方差的一半以上.因此,用變量“業(yè)務(wù)理論知識(shí)”、“實(shí)際業(yè)務(wù)技能”、“思想集中力”最高地裝載第1公共因子,作為知識(shí)指標(biāo)因子.而用“邏輯思維能力”裝載第2公共因子,作為天賦指標(biāo)因子.并得到因子分析模型為6.計(jì)算因子得分利用回歸方法求單個(gè)因子得分函數(shù)記第個(gè)樣本點(diǎn)對(duì)第個(gè)因子得分的估計(jì)值為為原始數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)化后的數(shù)據(jù),且有因此有因子分析模型注意要點(diǎn):1)載荷矩陣可以不唯一,也就是說(shuō)提取的公因子不是唯一的。
2)共同度量統(tǒng)計(jì)意義:變量xi的信息能夠被k個(gè)公因子解釋的程度,用k個(gè)公因子對(duì)第i
個(gè)變量xi的方差貢獻(xiàn)率表示3)公共因子Fj的方差貢獻(xiàn)率(方差等于特征值)統(tǒng)計(jì)意義:第j個(gè)公因子對(duì)變量xi的提供的方差總和,反映第j個(gè)公因子的相對(duì)重要程度。與主成分分析不同之處:1.目的不同:因子分析要從數(shù)據(jù)中控查出對(duì)變量起解釋作用的公共因子和特殊因子以及其組合系數(shù);主成分分析只是從空間生成的角度尋找能解釋諸多變量變異的絕大部分的幾組彼此不相關(guān)的新變量(主成分)。2.假設(shè)條件不同:主成分分析中不需要有假設(shè);因子分析的假設(shè)包括:各個(gè)公共因子之間不相關(guān),特殊因子之間不相關(guān),公共因子和特殊因子之間不相關(guān)。3.提取主因子的方法不同:因子分析抽取主因子不僅有主成分法,還有極大似然法,主軸因子法,基于這些方法得到的結(jié)果也不同;主成分只能用主成分法抽取。4.主成分與因子的變化:當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時(shí),主成分一般是固定的;而因子分析中因子不是固定的,可以旋轉(zhuǎn)得到不同的因子。主成分分析與因子分析的用法:因子分析和主成分分析都是通過(guò)少數(shù)幾個(gè)新的變量來(lái)代替原有變量,但主成分分析變量個(gè)數(shù)與原始變量個(gè)數(shù)相同,有多少個(gè)變量就有多少個(gè)主成分,我們需要做的,就是根據(jù)貢獻(xiàn)率來(lái)確定少數(shù)幾個(gè)主成分。因子分析要事先確定幾個(gè)主成分,也就是因子,然后將原始變量綜合成少數(shù)幾個(gè)因子。例:我國(guó)上市公司贏利能力與資本結(jié)構(gòu)的實(shí)證分析已知上市公司的數(shù)據(jù)見表1。試用因子分析法對(duì)該企業(yè)進(jìn)行綜合評(píng)價(jià)。表1上市公司數(shù)據(jù)公司銷售凈利率x1資產(chǎn)凈利率x2凈資產(chǎn)收益率x3銷售毛利率x4資產(chǎn)負(fù)利率x歌華有線43.317.398.7354.8915.35五糧液17.1112.1317.2944.2529.69用友軟件21.116.03789.3713.82太太藥業(yè)29.558.6210.137314.88浙江陽(yáng)光118.4111.8325.2225.49煙臺(tái)萬(wàn)華17.6313.8615.4136.4410.03方正科技2.734.2217.169.9674.12紅河光明29.115.446.0956.269.85貴州茅臺(tái)20.299.4812.9782.2326.73中鐵二局3.994.649.3513.0450.19紅星發(fā)展22.6511.1314.350.5121.59伊利股份4.437.314.3629.0444.74青島海爾5.48.912.5365.523.27湖北宜化7.062.795.2419.7940.68雅戈?duì)?9.8210.5318.5542.0437.19福建南紙7.262.996.9922.7256.58此處不具體展示原始數(shù)據(jù)標(biāo)準(zhǔn)化處理過(guò)程。利用MATLAB軟件求得相關(guān)系數(shù)矩陣,見下表2。表2相關(guān)系數(shù)矩陣x1x2x3x4x110.31941-0.17090.60636x20.3194110.673910.34363x3-0.17090.673911-0.13851x40.606360.34363-0.138511由相關(guān)系數(shù)矩陣求得特征值及特征向量,見下表3。進(jìn)而求得初等載荷矩陣A1。表3特征根和特征向量特征根特征向量λiu1ju2ju3ju4j1.89720.53064-0.41216-0.70184-0.236581.54960.593770.40445-0.0229370.695220.393020.260660.72074-0.0096969-0.642250.160210.54582-0.383490.7119-0.21958本例中,我們選取2個(gè)主因子。利用MATLAB程序?qū)μ崛〉囊蜃虞d荷矩陣進(jìn)行旋轉(zhuǎn),得到旋轉(zhuǎn)后的因子貢獻(xiàn)和貢獻(xiàn)率見表4、載荷矩陣B見表5。表4貢獻(xiàn)率數(shù)據(jù)因子貢獻(xiàn)貢獻(xiàn)率累計(jì)貢獻(xiàn)率11.779444.4944.4921.667341.6886.17表5載荷矩陣指標(biāo)主因子1主因子2銷售凈利率0.8930.0082資產(chǎn)凈利率0.3720.8854凈資產(chǎn)收益率-0.23020.9386銷售毛利率0.88920.0494利用回歸方法計(jì)算各因子得分函數(shù)如下:利用綜合因子得分公式:表6上市公司綜合排名表排名12345678F10.03150.00250.97890.4558-0.05631.27911.51591.2477F21.46911.44770.39600.85481.3577-0.1564-0.5814-0.9729F0.72690.70160.69690.64880.62770.58470.50140.1735公司煙臺(tái)萬(wàn)華五糧液貴州茅臺(tái)紅星發(fā)展雅戈?duì)柼帢I(yè)歌華有線用友軟件排名910111213141516F1-0.03510.9313-0.6094-0.9859-1.7266-1.2509-0.8872-0.8910F20.3166-1.19490.15440.34680.2639-0.7424-1.3459-1.6131F0.1350-0.0972-0.2399-0.3412-0.7637-1.0049-1.1091-1.2403公司青島海爾紅河光明浙江陽(yáng)光伊利股份方正科技中鐵二局福建南紙湖北宜化計(jì)算的Matlab程序如下data=importdata('data.csv');X=zscore(data(:,1:4)); R=corrcoef(X) [vec,val,con]=pcacov(R); vec=vec.*sign(sum(vec1)); a=vec.*sqrt(val)'; num=2; am=a(:,1:num); [b,t]=rotatefactors(am,'Method','varimax');bt=[b,a(:,num+1:end)] degree=sum(b.^2,2) %讀取數(shù)據(jù)%數(shù)據(jù)標(biāo)準(zhǔn)化%計(jì)算相關(guān)系數(shù)矩陣%主成分分析計(jì)算%特征向量正負(fù)轉(zhuǎn)換%計(jì)算初等載荷矩陣%提取兩個(gè)因子%提取主因子載荷矩陣%旋轉(zhuǎn)變換,返回值b是旋轉(zhuǎn)后的載荷矩陣,t是正交矩陣%全部因子的載荷矩陣%計(jì)算共同度,對(duì)行求和contr=sum(bt.^2) %計(jì)算因子貢獻(xiàn),對(duì)列求和rate=contr(1:num)/sum(contr) %計(jì)算因子貢獻(xiàn)率coef=R\b %計(jì)算得分函數(shù)的系數(shù)weight=rate/sum(rate); %計(jì)算得分權(quán)重F1_F2=X*coef %計(jì)算綜合得分score=F1_F2*weight'; %加權(quán)求和[score,ind]=sort(score,'descend');%排序[ind,score] %顯示排名程序執(zhí)行的結(jié)果如下使用SPSS軟件分析的過(guò)程如下導(dǎo)入數(shù)據(jù)的過(guò)程與之前相同,不再贅述,與主成成分分析不同的就是選區(qū)旋轉(zhuǎn)方法為最大方差法,如下圖所示最終獲得結(jié)果如下,與Matlab程序計(jì)算的結(jié)果一致第三節(jié)聚類分析的背景及原理Q型聚類分析R型聚類分析聚類方法步驟案例分析聚類分析
第六章人們往往會(huì)碰到通過(guò)劃分同種屬性的對(duì)象很好的解決問(wèn)題的情形。例如對(duì)市場(chǎng)進(jìn)行細(xì)分、對(duì)員工進(jìn)行分類等等。需要采取一種方法,將對(duì)象進(jìn)行分類,使得同一類中的對(duì)象之間相似性比其他類的對(duì)象的相似性更強(qiáng)。即類中對(duì)象的同性質(zhì)最大化,類與類間對(duì)象的異性質(zhì)最大化。一、聚類分析背景與原理1、聚類分析背景一般情況下,所研究的樣品或指標(biāo)(變量)之間是存在程度不同的相似性(親疏關(guān)系)。于是根據(jù)所給樣品的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間的相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù),把一些相似程度較大的樣品(或指標(biāo))聚合為一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類,直到把所有的樣品(或指標(biāo))都聚合完畢,把不同的類型一一劃分出來(lái),最后將整個(gè)分類系統(tǒng)畫成一張分群圖,用來(lái)表示所有樣品間的親疏關(guān)系。2、模型思想二、Q型聚類分析——對(duì)樣本進(jìn)行分類1、樣本點(diǎn)間相似性度量--常用Minkowski距離1)絕對(duì)值距離2)歐氏距離3)Chebyshev距離
在閔式距離中,最常用的是歐幾里得距離,它的主要優(yōu)點(diǎn)是當(dāng)坐標(biāo)軸進(jìn)行正交旋轉(zhuǎn)時(shí),歐氏距離保持不變。因此,如果對(duì)原坐標(biāo)系進(jìn)行平移和旋轉(zhuǎn)變換后,樣本點(diǎn)間的距離和變換前相同。注:①在使用Minkowski距離時(shí),一定要采用相同量綱的變量。當(dāng)變量的量綱不同,測(cè)量值變異范圍相差懸殊時(shí),首先進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理,然后再計(jì)算距離。②在使用Minkowski距離時(shí),應(yīng)盡可能的避免變量的多重相關(guān)性。多重相關(guān)性所造成的信息重疊,會(huì)片面強(qiáng)調(diào)某些變量的重要性。馬氏距離——對(duì)閔式距離的改進(jìn)式中:x,y為來(lái)自P維總體Z的樣本觀測(cè)值;∑為Z的協(xié)方差矩陣,實(shí)際中∑往往是未知的,常常需要用樣本協(xié)方差來(lái)估計(jì)。馬氏距離對(duì)一切線性變換是不變的,故不受量綱的影響。2、類與類之間相似性度量
1)最短距離法2)最長(zhǎng)距離法3)類平均法4)重心法三、R型聚類分析——對(duì)變量進(jìn)行分類1、變量相似性度量1)相關(guān)系數(shù)。2)夾角余弦
四、模型建立步驟:1、最短距離法、類平均法、重心法的計(jì)算步驟(區(qū)別在于:類與類之間的距離定義不同):2、動(dòng)態(tài)聚類方法1)隨機(jī)將n個(gè)樣品分為a個(gè)初始類,計(jì)算初始類的均值:2)計(jì)算某樣品到初始類(均值)的歐氏距離若樣品在距離最小的初始類中,則不重新分配,繼續(xù)計(jì)算其他樣品距離;若某樣品不在距離最小的初始類中,需重新分配,此時(shí)更新分類,繼續(xù)計(jì)算其他樣品的歐氏距離,直到所有樣品都?xì)w類為止。3)更新均值,重復(fù)2)步驟,直到所有樣品不用分配為止。
小結(jié)若需要進(jìn)行分類的數(shù)據(jù)量不是特別大時(shí),使用最短距離法、類平均法、重心法得到的結(jié)果差異不是很大,不同在于計(jì)算距離矩陣時(shí)使用的計(jì)算公式不同。當(dāng)遇見實(shí)際問(wèn)題,可以根據(jù)計(jì)算量的大小以及可行性選取適當(dāng)?shù)姆椒ㄟM(jìn)行計(jì)算。而動(dòng)態(tài)聚類法則需要事先給出所要分成的幾種類型才能使用。1、我國(guó)各地區(qū)普通高等教育發(fā)展水平綜合評(píng)價(jià)
由于我國(guó)各地區(qū)經(jīng)濟(jì)發(fā)展水平不均衡,加之高等院校原有布局使各地區(qū)高等教育發(fā)展的起點(diǎn)不一致,因而各地區(qū)普通高等教育的發(fā)展水平存在一定的差異,不同的地區(qū)具有不同的特點(diǎn)。請(qǐng)對(duì)我國(guó)各地區(qū)普通高等教育的發(fā)展?fàn)顩r進(jìn)行綜合評(píng)價(jià)。
參與評(píng)價(jià)的十個(gè)指標(biāo)各自含義見表1,指標(biāo)的原始數(shù)據(jù)取自《中國(guó)統(tǒng)計(jì)年鑒,1995》和《中國(guó)教育統(tǒng)計(jì)年鑒,1995》除以各地區(qū)相應(yīng)的人口數(shù)得到十項(xiàng)指標(biāo)值見表2。例題表1指標(biāo)含義x1每百萬(wàn)人口高等院校數(shù)x2每十萬(wàn)人口高等院校畢業(yè)生數(shù)x3每十萬(wàn)人口高等院校招生數(shù)x4每十萬(wàn)人口高等院校在校生數(shù)x5每十萬(wàn)人口高等院校教職工數(shù)x6每十萬(wàn)人口高等院校專職教師數(shù)x7高級(jí)職稱占專職教師的比例x8平均每所高等院校的在校生數(shù)x9國(guó)家財(cái)政預(yù)算內(nèi)普通高教經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比重x10生均教育經(jīng)費(fèi)表2我國(guó)各地區(qū)普通高等教育發(fā)展?fàn)顩r數(shù)據(jù)地區(qū)x1x2x3x4x5x6x7x8x9x10北京5.96310461155793131944.3626152.213631上海3.39234308103549816135.0230520.912665天津2.3515722971329510938.430310.869385陜西1.35811113641505830.4526991.227881遼寧1.5881284211445834.328080.547733吉林1.67861203701535833.5322150.767480黑龍江1.1763932961174435.2225280.588570湖北1.0567922971154332.8928350.667262江蘇0.9564942871023931.5430080.397786廣東0.693971205612434.529880.3711355四川0.564057177612332.6231490.557693山東0.575864181572232.9532020.286805甘肅0.714262190662628.1326570.737282湖南0.744261194612433.0626180.476477浙江0.864271204662629.9423630.257704新疆1.2947732651144625.9320600.375719福建1.045371218632629.0120990.297106山西0.855365218763025.6325550.435580河北0.814366188612329.8223130.315704安徽0.593547146462032.8324880.335628云南0.663640130441928.5519740.489106江西0.774363194672328.8125150.344085海南0.73351165471827.3423440.287928內(nèi)蒙古0.844348171652927.6520320.325581西藏1.692645137753312.1810114199河南0.553246130441728.4123410.35714廣西0.62843129391731.9321460.245139寧夏1.394862208773422.715000.425377貴州0.64233293371628.1214690.345415青海1.483846151633017.8710240.3873681)R型聚類分析定性考察反映高等教育發(fā)展?fàn)顩r的5個(gè)方面10項(xiàng)評(píng)價(jià)指標(biāo),可以看出,某些指標(biāo)可能存在較強(qiáng)的相關(guān)性。比如每10萬(wàn)人口高等院校畢業(yè)生數(shù)、每10萬(wàn)人口高等院校招生數(shù)與每10萬(wàn)人口高等院校在校生數(shù)之間可能存在較強(qiáng)的相關(guān)性,為驗(yàn)證這種想法,運(yùn)用Matlab軟件計(jì)算10個(gè)指標(biāo)之間的相關(guān)系數(shù),相關(guān)系數(shù)表如表3所示。表3相關(guān)系數(shù)矩陣x1x2x3x4x5x6x7x8x9x10x11.000.940.950.960.970.980.410.070.870.66x20.941.000.990.990.970.970.610.350.800.60x30.950.991.001.000.980.980.630.340.820.62x40.960.991.001.000.990.990.610.330.830.61x50.970.970.980.991.001.000.560.240.860.62x60.980.970.980.991.001.000.550.220.870.62x70.410.610.630.610.560.551.000.780.370.15x80.070.350.340.330.240.220.781.000.110.05x90.870.800.820.830.860.870.370.111.000.68x100.660.600.620.610.620.620.150.050.681.00可以看出某些指標(biāo)之前確實(shí)存在很強(qiáng)的相關(guān)性,因此可以考慮從這些指標(biāo)中選取幾個(gè)有代表性的指標(biāo)進(jìn)行聚類分析。為此,把10個(gè)指標(biāo)根據(jù)其相關(guān)性進(jìn)行R型聚類,再?gòu)拿總€(gè)類中選取代表性的指標(biāo)。首先對(duì)每個(gè)變量(指標(biāo))的數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化處理。變量間相近性度量采用相關(guān)系數(shù),類間相似性度量的計(jì)算選用類平均法。聚類樹型圖如下圖所示。Matlab程序:data=load('C:\Users\lenovo\Desktop\205.txt');d=pdist(data,'correlation');
%計(jì)算相關(guān)系數(shù)導(dǎo)出的距離z=linkage(d,'average');%產(chǎn)生聚類等級(jí)樹[h,t]=dendrogram(z);
%畫聚類圖num=input(‘輸入分類數(shù)目num:');T=cluster(z,‘maxclust’,num);%把對(duì)象劃分為num類%%%%%%%%%%輸出分類%%%%%%%%%%fori=1:numt=find(T==i);t=reshape(t,1,length(t));fprintf('μú%dàà:%s\n',i,int2str(t));end
從聚類圖中可以看出,每10萬(wàn)人口高等院校招生數(shù)、每10萬(wàn)人口高等院校在校生數(shù)、每10萬(wàn)人口高等院校教職工數(shù)、每10萬(wàn)人口高等院校專職教師數(shù)、每10萬(wàn)人口高等院校畢業(yè)生數(shù)5個(gè)指標(biāo)之間有較大的相關(guān)性,最先被聚到一起。如果將10個(gè)指標(biāo)分為6類,其他5個(gè)指標(biāo)各自為一類。這樣就從10個(gè)指標(biāo)中選定了6個(gè)分析指標(biāo)。
x1
為每百萬(wàn)人口高等院校數(shù);
x2為每10萬(wàn)人口高等院校畢業(yè)生數(shù);
x3為高級(jí)職稱占專職教師比例;
x4為平均每所高等院校的在校生數(shù);x5為國(guó)家財(cái)政預(yù)算內(nèi)普通高等教育經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比例;
x6為生均教育經(jīng)費(fèi)??梢愿鶕?jù)這6個(gè)指標(biāo)對(duì)30個(gè)地區(qū)進(jìn)行聚類分析。2)Q型聚類分析根據(jù)這6個(gè)指標(biāo)對(duì)30個(gè)地區(qū)進(jìn)行聚類分析。首先對(duì)每個(gè)變量的數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化處理,樣本間相似性采用歐氏距離度量,類間距離的計(jì)算選用類平均法。聚類樹型圖如圖5所示。Matlab程序:clc,cleara=load(‘C:\Users\lenovo\Desktop\julei.txt’);%導(dǎo)入數(shù)據(jù)b=zscore(a);%標(biāo)準(zhǔn)化數(shù)據(jù)d=pdist(b);%計(jì)算兩兩之間的歐氏距離z=linkage(d);%生成具有層次結(jié)構(gòu)的聚類圖dendrogram(z);%畫聚類圖k=input(‘輸入分類數(shù)目:');T=cluster(z,'maxclust',k);%把對(duì)象劃分為k類%%%%%%%%%%輸出分類%%%%%%%%%%fori=1:kt=find(T==i);t=reshape(t,1,length(t));fprintf('μú%dàà:%s\n',i,int2str(t));end案例研究結(jié)果
各地區(qū)高等教育發(fā)展?fàn)顩r存在較大的差異,高等資源的地區(qū)分布很不均衡。如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為三類,結(jié)果為:第一類——北京;第二類——西藏;第三類——其他地區(qū)。如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為四類,結(jié)果為:第一類——北京;第二類——西藏;第三類——上海、天津;
第四類——其他地區(qū)。如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為五類,結(jié)果為:第一類——北京;第二類——西藏;第三類——上海、天津;第四類——寧夏、貴州、青海;第五類——其他地區(qū)。從以上結(jié)果結(jié)合聚類圖中的合并距離可以看出,北京的高等教育狀況與其他地區(qū)相比有非常大的不同,主要表現(xiàn)在每百萬(wàn)人口的學(xué)校數(shù)量和每10萬(wàn)人口的學(xué)生數(shù)量以及國(guó)家財(cái)政預(yù)算內(nèi)普通高教經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比例等方面遠(yuǎn)遠(yuǎn)高于其他地區(qū),這與北京作為全國(guó)的政治、經(jīng)濟(jì)與文化中心的地位是吻合的。上海和天津作為另外兩個(gè)較早的直轄市,高等教育狀況和北京是類似的狀況。寧夏、貴州和青海的高等教育狀況極為類似,高等教育資源相對(duì)匱乏。西藏作為一個(gè)非常特殊的民族地區(qū),其高等教育狀況具有和其他地區(qū)不同的情形,被單獨(dú)聚為一類,主要表現(xiàn)在每百萬(wàn)人口高等院校數(shù)比較高,國(guó)家財(cái)政預(yù)算內(nèi)普通高教經(jīng)費(fèi)占國(guó)內(nèi)總值的比重和生均教育經(jīng)費(fèi)也相對(duì)較高,而高級(jí)職稱占專職教師的比例與平均每所高等院校的在校生數(shù)又都是全國(guó)最低的。這正是西藏高等教育狀況的特殊之處:人口相對(duì)較少,經(jīng)費(fèi)比較充足,高等院校規(guī)模較小,師資力量薄弱。其他地區(qū)的高等教育狀況較為類似,共同被聚為一類。針對(duì)這種情況,有關(guān)部門可以采取相應(yīng)措施對(duì)寧夏、貴州、青海和西藏地區(qū)進(jìn)行扶持,促進(jìn)當(dāng)?shù)馗叩冉逃聵I(yè)的發(fā)展。2、已知有20個(gè)樣本,每個(gè)樣本有兩個(gè)特征,數(shù)據(jù)分布如下表所示,試采用k_均值聚類分析方法對(duì)這些數(shù)據(jù)進(jìn)行分類。特征樣本x10101212367x2001112226626777788899Matlab程序如下:X=[01012123678678978989
00111222666777788899]';figure;%繪制數(shù)據(jù)點(diǎn)分布圖plot(X(:,1),X(:,2),'.');xlabel('X1');ylabel('X2');opts=statset('Display','final');K=input(‘請(qǐng)輸入聚類數(shù)目K:’)%根據(jù)數(shù)據(jù)點(diǎn)分布圖判斷分類數(shù)目[idx,C]=kmeans(X,K,'Distance','cityblock','Replicates',10,'Options',opts);[idx,C]=kmeans(X,K,'Distance','cityblock',…'Replicates',10,'Options',opts);%X為樣本,K為聚類數(shù)目,'Distance','cityblock'表示使用絕對(duì)誤差和作為測(cè)量距離,%'Replicates',10表示迭代重復(fù)次數(shù)為10,'Options',opts表示迭代算法最小化擬合準(zhǔn)則figure;plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)%繪制第一類樣本坐標(biāo)點(diǎn)
holdonplot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)%繪制第二類樣本坐標(biāo)點(diǎn)xlabel('X1');ylabel('X2');plot(C(:,1),C(:,2),‘kx’,…'MarkerSize',15,'LineWidth',3)%繪制聚類中心legend('Cluster1','Cluster2','Centroids',…'Location','NW')title‘ClusterAssignmentsandCentroids‘%添加標(biāo)題holdoff%%%%%%%%%%輸出分類%%%%%%%%%%fori=1:Kt=find(idx==i);t=reshape(t,1,length(t));fprintf(‘第%d類:%s\n',i,int2str(t));end最終分類圖:程序輸出結(jié)果:第1類:91011121314151617181920第2類:12345678第四節(jié)基本概念相關(guān)性分析相關(guān)性分析方法案例分析相關(guān)性分析
第六章
xy一、基本概念客觀事物之間大多是普遍聯(lián)系、相互依存、相互制約。用變量反映這些現(xiàn)象的特征時(shí),這就表現(xiàn)為變量之間的依存關(guān)系。變量之間的關(guān)系各種定義的相似性對(duì)量均應(yīng)具有以下兩種性質(zhì)1.,對(duì)于一切、成立;2.,對(duì)于一切、成立。越接近1,與越相關(guān)或越相似。越接近0,與的相似性越弱。相關(guān)系數(shù)二、相關(guān)性分析1、相關(guān)性分析相關(guān)性分析是用來(lái)研究變量之間是否存在相關(guān)關(guān)系,并評(píng)估相關(guān)關(guān)系的相關(guān)方向以及相關(guān)程度的一種統(tǒng)計(jì)的方法。2、相關(guān)系數(shù)相關(guān)系數(shù)是反映變量之間相關(guān)關(guān)系密切程度,常用r表示,取值范圍[-1,1]。相關(guān)系數(shù)取值解釋見下表1。表1相關(guān)強(qiáng)度r等級(jí)表數(shù)值范圍相關(guān)程度0.8-1.0極強(qiáng)相關(guān)0.6-0.8強(qiáng)相關(guān)0.4-0.6中等程度相關(guān)0.2-0.4弱相關(guān)0.0-0.2極弱相關(guān)或無(wú)相關(guān)三、相關(guān)性分析方法相關(guān)性分析種類繁多,在數(shù)學(xué)建模中常用的為以下三種:灰色關(guān)聯(lián)度、斯皮爾曼等級(jí)相關(guān)和皮爾遜相關(guān)系數(shù)。1、灰色關(guān)聯(lián)度(1)背景灰色系統(tǒng)理論提出了對(duì)各子系統(tǒng)進(jìn)行灰色關(guān)聯(lián)度分析的概念,意圖透過(guò)一定的方法,去尋求系統(tǒng)中各子系統(tǒng)(或因素)之間的數(shù)值關(guān)系?;疑P(guān)聯(lián)度分析的意義是指在系統(tǒng)發(fā)展過(guò)程中,如果兩個(gè)因素變化的態(tài)勢(shì)是一致的,即同步變化程度較高,則可以認(rèn)為兩者關(guān)聯(lián)較大;反之,則兩者關(guān)聯(lián)度較小。因此,灰色關(guān)聯(lián)度分析對(duì)于一個(gè)系統(tǒng)發(fā)展變化態(tài)勢(shì)提供了量化的度量,非常適合動(dòng)態(tài)的歷程分析。(2)計(jì)算方法表2部分式子含義表達(dá)式含義
第i個(gè)比較數(shù)列與第j個(gè)比較數(shù)列
第k個(gè)樣本之間的關(guān)聯(lián)系數(shù)
兩級(jí)最小差兩級(jí)最大差
分辨率,取值[0,1]假設(shè)有以下兩組數(shù)列現(xiàn)在比較一下兩組數(shù)列的相關(guān)度,灰色關(guān)聯(lián)度計(jì)算公式如下:該式子中解釋見表2
灰色關(guān)聯(lián)度計(jì)算公式為:(3)使用情況①在實(shí)際獲取數(shù)據(jù)過(guò)程中,常常會(huì)受到客觀因素和人為因素的影響,使獲得的數(shù)據(jù)不完全準(zhǔn)確,具有一定灰度。因此,在統(tǒng)計(jì)過(guò)程中運(yùn)用灰色理論更加合理。②在對(duì)多組待測(cè)數(shù)列與一個(gè)參考數(shù)列之間相關(guān)度大小的排序時(shí),可選擇使用灰色關(guān)聯(lián)度。2、斯皮爾曼等級(jí)相關(guān)(等級(jí)差數(shù)法)(1)方法思想斯皮爾曼等級(jí)是根據(jù)等級(jí)資料研究?jī)蓚€(gè)變量間相關(guān)關(guān)系的方法。它是依據(jù)兩列成對(duì)等級(jí)的各等級(jí)數(shù)之差來(lái)進(jìn)行計(jì)算的。(2)適用對(duì)象主要用于解決稱名數(shù)據(jù)和順序數(shù)據(jù)相關(guān)的問(wèn)題。稱名數(shù)據(jù):只說(shuō)明某一事物與其他事物在屬性上的不同或類型上的差異,其數(shù)值一般都取整數(shù)形式,只計(jì)算個(gè)數(shù),并不說(shuō)明事物之間差異的大小,比如性別、顏色類別,它們只能用具有相同屬性的個(gè)體數(shù)目來(lái)統(tǒng)計(jì)。一般不能對(duì)這類數(shù)據(jù)進(jìn)行加減乘除運(yùn)算。順序數(shù)據(jù),例如在各種的比賽中,我們常常會(huì)設(shè)置名次,“第一名、第二名、第三名……”來(lái)表示。順序變量數(shù)據(jù)之間雖有次序與等級(jí)關(guān)系,但這種數(shù)據(jù)之間不具有相等的單位,也不具有絕對(duì)的數(shù)量大小和零點(diǎn).因此,只能進(jìn)行順序遞推運(yùn)算。(3)計(jì)算步驟①將數(shù)量標(biāo)志和品質(zhì)標(biāo)志的具體表現(xiàn)按等級(jí)次序編號(hào)②得出兩個(gè)標(biāo)志對(duì)應(yīng)等級(jí)編號(hào)的差di③計(jì)算皮爾斯曼等級(jí)相關(guān)系數(shù)ρ,以評(píng)價(jià)變量之間的相關(guān)性,計(jì)算公式為(4)使用情況
在確定兩組數(shù)據(jù)間的相關(guān)度時(shí),使用斯皮爾曼等級(jí)相關(guān)較好。3、皮爾遜相關(guān)系數(shù)(1)方法思想皮爾遜積矩相關(guān)系數(shù)用于度量?jī)蓚€(gè)變量和之間的相關(guān)(線性相關(guān)),值介于-1與1之間。(2)計(jì)算公式(3)使用情況①皮爾遜相關(guān)系數(shù)可以用來(lái)用來(lái)衡量國(guó)民收入和居民儲(chǔ)蓄存款、身高與體重、高中成績(jī)和高考成績(jī)等變量之間的線性相關(guān)關(guān)系。②在確定兩組數(shù)據(jù)是否在一條線上時(shí),比較適合使用皮爾遜相關(guān)系數(shù)。四、相關(guān)性分析案例例梭梭生長(zhǎng)量與氣候因子的關(guān)聯(lián)分析表3為1995年梭梭逐月生長(zhǎng)量、月平均氣溫、月降水量、月日照和月平均相對(duì)濕度的原始數(shù)據(jù),試排出影響梭梭生長(zhǎng)的關(guān)聯(lián)序,并找出主要的影響因子。表3梭梭生長(zhǎng)與氣候數(shù)據(jù)X0/cm0.010.51.510.81316.31819.314.810.381X1/℃4.27.41016.121.123.924.724.5221813.16.8X2/mm171017192487296.9269194584.912X3/h54738413714910910116481847966X4/%817975757779838683828182法一:灰色關(guān)聯(lián)度數(shù)據(jù)處理:X0-X1X0-X2X0-X3X0-X44.1916.9953.9980.996.99.572.578.58.515.582.573.55.38.2126.264.28.1235136647.655.792.762.76.778.983655.2249.7144.766.77.2179.266.268.27.747.773.771.75.13.171735.8116581則兩級(jí)最小差與兩級(jí)最大差分別為: minmin|x0(k)-xi(k)|=|4.19,3.1,53.99,62.7|=3.1 maxmax|x0(k)-xi(k)|=|8.5,249.7,144.7,81|=249.7
ε(1)0.9915530.9711570.9595050.9830960.9623920.9660250.9726340.9838520.9689510.9652960.9846090.979334ε(2)0.9020730.9523630.9116490.9616690.3555650.7086680.6279750.341610.4208190.74152410.941848ε(3)0.7154440.6483410.6170730.5096590.4905120.5881410.6155880.474680.669720.6444220.6533060.673953ε(4)0.6215990.6292110.6450720.6768050.6775220.6822180.6739530.6679720.6627820.6509790.6467020.621569
法一:灰色關(guān)聯(lián)度
法二:斯皮爾曼等級(jí)相關(guān)將數(shù)據(jù)按大小順序進(jìn)行排序,再對(duì)其進(jìn)行等級(jí)化,得到數(shù)據(jù)表格如下:
123456789101112X0124781011129653X1134681012119752X2425611891210713X3137101198125642X4652134101211978進(jìn)一步有:d1d2d3d4d5d6d7d8d9d10d11d120-10100-110-101-30-11-3220-1-1400-1-3-3-31304011-5-3265610-2-3-2-5法二:斯皮爾曼等級(jí)相關(guān)Matlab程序?qū)崿F(xiàn):clear,clca=[124781011129653;134681012119752;425611891210713;137101198125642;652134101211978];d1=a(1,:)-a(2,:);%數(shù)據(jù)處理:第一行逐次減第二、三、四、五行d2=a(1,:)-a(3,:);d3=a(1,:)-a(4,:);d4=a(1,:)-a(5,:);d=[d1;d2;d3;d4];m=size(d,2);%m表列數(shù)rou=1-6*sum(d.^2,2)/(m^3-m);%求斯皮爾曼等級(jí)相關(guān)系數(shù)矩陣結(jié)果:相關(guān)系數(shù)矩陣rou=[0.9790;0.8392;0.8042;0.3776]第五節(jié)回歸分析回歸基本概念一元線性回歸多元線性回歸非線性回歸案例分析一、回歸基礎(chǔ)概念1、回歸分析例1
一種農(nóng)作物的畝產(chǎn)量Y與播種量X1、施肥量X2有聯(lián)系,但X1、X2不能嚴(yán)格決定Y。除了播種量和施肥量外,其它因素如灌溉情況、氣溫變化、自然災(zāi)害等等,都會(huì)影響到畝產(chǎn)量Y,我們把除X1,X2以外影響Y的因素歸于隨機(jī)誤差。
例2
人的身高X和體重Y存在關(guān)聯(lián),一般表現(xiàn)為身高越大體重也傾向于越大,但身高不能嚴(yán)格地決定體重。?根據(jù)樣本信息來(lái)描述兩種或兩種以上變量間的相互依賴的定量關(guān)系的統(tǒng)計(jì)分析方法稱為回歸分析。?實(shí)際問(wèn)題中往往涉及多個(gè)變量。在這些變量中,有一個(gè)是特別關(guān)注的稱為因變量,而其他變量看作是影響這一變量的因素,稱為為自變量。
?例1中畝產(chǎn)量Y為因變量,播種量X1、施肥量X2為自變量。一個(gè)自變量?jī)蓚€(gè)及兩個(gè)以上自變量多元回歸線性回歸非線性回歸回歸模型一元回歸線性回歸非線性回歸2、回歸分類3、回歸分析與相關(guān)性分析區(qū)別
?回歸分析著重尋求變量間的近似函數(shù)關(guān)系
?相關(guān)性分析著重尋求數(shù)量性指標(biāo),以刻畫有關(guān)變量之間關(guān)系深淺程度
4、回歸模型
現(xiàn)在設(shè)一個(gè)問(wèn)題中有因變量以及自變量有模型:其中為觀察值圍繞它的期望值的離差,是一個(gè)不可觀測(cè)的隨機(jī)變量,又稱為隨即干擾項(xiàng)或隨機(jī)誤差項(xiàng)。于是可以得到就是在給定了自變量值的條件下,因變量的條件期望即:則函數(shù)稱為對(duì)的回歸函數(shù),方程:稱為對(duì)的回歸方程
例一個(gè)假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費(fèi)支出Y與每月家庭可支配收入X的關(guān)系,即如果知道了家庭的月收入,能否預(yù)測(cè)該社區(qū)家庭的平均月消費(fèi)支出水平。為達(dá)到此目的,將該100戶家庭劃分為組內(nèi)收入差不多的10組,以分析每一收入組的家庭消費(fèi)支出。描出散點(diǎn)圖發(fā)現(xiàn):隨著收入的增加,消費(fèi)“平均地說(shuō)”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為總體回歸線。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消費(fèi)支出Y(元)
將居民消費(fèi)支出看成是其可支配收入的線性函數(shù)時(shí):為一線性函數(shù)。其中,
0,
1是未知參數(shù),稱為回歸系數(shù)。
二、一元線性回歸一元線性回歸模型基本假定擬合效果分析回歸方程的顯著性檢驗(yàn)1、一元線性回歸模型對(duì)誤差項(xiàng)做出以下假定?正態(tài)性。是一個(gè)服從正態(tài)分布的隨機(jī)變量,且數(shù)學(xué)期望為0?方差齊性。即對(duì)所有的,的方差均相同?獨(dú)立性。對(duì)于一個(gè)特定的值,它所對(duì)應(yīng)與其他值所對(duì)應(yīng)的不相關(guān)2、基本假定xy(xn,yn)(x1,y1)
(x2,y2)(xi,yi)}ei=yi-yi^利用最小二乘法得到的估計(jì)值為利用最小二乘法得到的估計(jì)值為3、擬合效果分析
對(duì)于n個(gè)樣本點(diǎn)(xi,yi),i=1,2,…,n,其回歸方程為記殘差為:
總偏差平方和(ST){回歸平方和(SR){殘差平方和(SL){2)判定系數(shù)R2
判定系數(shù)定義為:回歸平方和占總偏差平方和的比例判定系數(shù)意義:反映回歸直線的擬合程度取值范圍在[0,1]之間R2
1,說(shuō)明回歸方程擬合的越好;
R2
0,說(shuō)明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2
=r24、回歸方程的顯著性檢驗(yàn)檢驗(yàn)該模型是否比較真實(shí)地反映了因變量與自變量之間的相關(guān)關(guān)系。思路及步驟:1)提出假設(shè)當(dāng)H0為真時(shí),則表示y不受x的影響,說(shuō)明模型不成立;當(dāng)H1真時(shí),則x與y之間卻有一定的關(guān)系,說(shuō)明模型可以成立。
三、多元線性回歸多元線性回歸模型回歸系數(shù)估計(jì)回歸方程的顯著性檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn)最優(yōu)回歸方程與逐步回歸法1、多元線性回歸模型記,多元線性回歸分析的模型為現(xiàn)得到n個(gè)獨(dú)立觀測(cè)數(shù)據(jù)由上式模型得:2、回歸系數(shù)估計(jì)——最小二乘法
其中,矩陣多元線性回歸方程的矩陣形式為3、回歸方程顯著性檢驗(yàn)檢驗(yàn)因變量與所有的自變量和之間的是否存在一個(gè)顯著的線性關(guān)系,也被稱為總體的顯著性檢驗(yàn)。思路及步驟:1)提出假設(shè)當(dāng)H0為真時(shí),則表示y不受x的影響,說(shuō)明模型不成立;當(dāng)H1真時(shí),則x與y之間有一定的關(guān)系,說(shuō)明模型可以成立。2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量F
4、回歸系數(shù)顯著性檢驗(yàn)注意要點(diǎn):回歸系數(shù)的檢驗(yàn)就是用來(lái)確定每一個(gè)單個(gè)的自變量xi
對(duì)因變量y
的影響是否顯著。需要對(duì)每一個(gè)自變量都要單獨(dú)進(jìn)行檢驗(yàn)。采用t
檢驗(yàn)。這里在多元線性回歸中,回歸方程的顯著性檢驗(yàn)不再等價(jià)于回歸系數(shù)的顯著性檢驗(yàn)
5、最優(yōu)回歸方程與逐步回歸法(1)最優(yōu)回歸方程是指:對(duì)因變量y有顯著作用的自變量,全部選入回歸方程;對(duì)因變量y無(wú)顯著作用的自變量,均不引入回歸方程。(2)變量篩選方法①向前選擇變量法②向后刪除變量法③逐步回歸法逐步回歸法逐步回歸法是向前選擇變量法和向后刪除變量法的一種結(jié)合,能夠避免多重共線性。首先,求y與每一個(gè)xi的一元線性回歸方程,選擇F值最大的變量進(jìn)入模型。然后,對(duì)剩下的(m-1)
個(gè)模型外的變量進(jìn)行偏F檢驗(yàn)(設(shè)定xi1
已在模型中),在若干通過(guò)偏F檢驗(yàn)的變量中,選擇Fj值最大者進(jìn)入模型。再對(duì)模型外的(m-2)
個(gè)自變量做偏F檢驗(yàn)。在通過(guò)偏F檢驗(yàn)的變量中選擇Fj值最大者進(jìn)入模型。接著對(duì)模型中的三個(gè)自變量分別進(jìn)行偏F檢驗(yàn),如果三個(gè)自變量都通過(guò)了偏F檢驗(yàn),則接著選擇第四個(gè)變量。但如果有某一個(gè)變量沒(méi)有通過(guò)偏F檢驗(yàn),則將其從模型中刪除。重復(fù)上述步驟,直到所有模型外的變量都不能通過(guò)偏F檢驗(yàn),則算法終止。逐步回歸法可用spss實(shí)現(xiàn):用spss進(jìn)行逐步回歸第1步:選擇【分析】【回歸-線性】,進(jìn)入主對(duì)話框第2步:在主對(duì)話框中將因變量選入【因變量】,將所有自變量選入【自變量】,并在【方法】下原則【逐步】第3步:點(diǎn)擊【選項(xiàng)】,在【步進(jìn)方法標(biāo)準(zhǔn)】下選中【使用F值】,在【進(jìn)入】和【除去】中輸入要求的F值上下限(默認(rèn)3.84和2.71,一般不用改變)。點(diǎn)擊【繼續(xù)】第4步:點(diǎn)擊【確定】得到逐步回歸方程。四、非線性回歸特點(diǎn):
因變量y
與x
之間不是線性關(guān)系思想方法:可通過(guò)變量代換轉(zhuǎn)換成線性關(guān)系注意要點(diǎn):并非所有的非線性模型都可以化為線性模型幾種常見的非線性模型及其變換:雙曲線方程;冪函數(shù)方程;指數(shù)曲線方程對(duì)數(shù)曲線方程;S型曲線方程幾種常見的非線性模型(1)雙曲線方程線性化變換:圖像:基本形式:(2)冪函數(shù)方程線性化變換:基本形式:圖像:(3)指數(shù)曲線方程線性化變換:基本形式:圖像:(4)指數(shù)曲線方程線性化變換:基本形式:圖像:線性化變換:基本形式:圖像:(5)對(duì)數(shù)曲線方程基本形式:圖像:(6)S型曲線方程線性化變換:五、一元線性回歸舉例在家庭消費(fèi)的例子的總體中有如下一個(gè)樣本:用matlab可觀察到Y(jié)-X圖像趨近直線,固可用一元線性方程。
Matlab程序?qū)崿F(xiàn):clc,clearFormatlongx=[59463811221155140815951969207825852530];y=[800110014001700200023002600290032003500];plot(x,y,'*')%畫出y-x散點(diǎn)圖x=x';Y=y';X=[ones(10,1),x];%構(gòu)造回歸分析的數(shù)據(jù)矩陣[beta,betaint,r,rint,st]=regress(Y,X);%計(jì)算回歸系數(shù)和統(tǒng)計(jì)量beta:回歸系數(shù),betaint:回歸系數(shù)置信區(qū)間,r:殘差,rint:殘差0.95的置信區(qū)間運(yùn)行結(jié)果:beta=179.8996betaint=-90.7163450.51551.25691.0984 1.4154st=0.9766334.4876021679.6144對(duì)應(yīng)于R2、F、P、s2六、多元線性回歸舉例
利用Matlab程序,求得
(2)回歸方程的檢驗(yàn)
令原假設(shè)為
(6.1)
(3)回歸系數(shù)檢驗(yàn):
Matlab程序?qū)崿F(xiàn):clc,clearab=textread('ex7_19.txt');y=ab(:,[2,7]);Y=nonzeros(y); %去掉y后面的0,并變成列向量x123=[ab(1:13,3:5);ab(1:12,8:10)]; %提取x1,x2,x3X=[ones(25,1),x123];[beta,betaint,r,rint,st]=regress(Y,X);%線性回歸回歸系數(shù)及統(tǒng)計(jì)量st第二個(gè)分量為Ffw1=finv(0.025,3,21);%計(jì)算fw2=finv(0.975,3,21);%計(jì)算st(2),fw1,fw2c=diag(inv(X'*X));q=sum(r.^2);%計(jì)算殘差平方和ybar=mean(Y);%觀測(cè)值的平均值yhat=X*beta;%計(jì)算y的估計(jì)值u=sum((yhat-ybar).^2);%回歸平方和t=beta./sqrt(c)/sqrt(q/21);%t統(tǒng)計(jì)量tfw=tinv(0.975,21);%t分布上alpha/2分位數(shù)t,tfw
七、spss逐步回歸舉例
據(jù)下表數(shù)據(jù),用逐步回歸法建立不良貸款與貸款余額、累計(jì)應(yīng)收貸款、貸款項(xiàng)目個(gè)數(shù)和固定資產(chǎn)投資額的回歸方程編號(hào)不良貸款各項(xiàng)貸款余額累計(jì)應(yīng)收貸款貸款項(xiàng)目個(gè)數(shù)固定資產(chǎn)投資額10.967.36.85
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國(guó)人參莖葉總皂苷行業(yè)投資前景及策略咨詢報(bào)告
- 2025年中國(guó)鋁錠加熱爐市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)紗線外觀分析儀市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)電子計(jì)算機(jī)用信號(hào)電纜市場(chǎng)調(diào)查研究報(bào)告
- 2025交通運(yùn)輸工程勞務(wù)分包擴(kuò)展合同
- 稅法大學(xué)考試題庫(kù)及答案
- 2025商業(yè)辦公樓租賃合同書
- 2025年防爆電磁閥項(xiàng)目提案報(bào)告
- 三十條紅線試題及答案
- 超市尋寶活動(dòng)題目及答案
- 離婚協(xié)議書電子版模板可打印
- 國(guó)開(河北)2024年秋《農(nóng)產(chǎn)品檢驗(yàn)技術(shù)》形成性考核1-4答案
- Siemens WinCC:WinCC遠(yuǎn)程訪問(wèn)與Web發(fā)布技術(shù)教程.Tex.header
- 廣東省廣州市黃埔區(qū)2023-2024學(xué)年七年級(jí)下學(xué)期期末生物學(xué)試題(解析版)
- 2024年江西省中考生物·地理合卷試卷真題(含答案逐題解析)
- 企業(yè)管理-《資產(chǎn)減值損失的稅務(wù)情況說(shuō)明》
- 2025屆廣東省華附、省實(shí)、深中、廣雅四校高考?xì)v史押題試卷含解析
- 高速公路養(yǎng)護(hù)施工安全管理經(jīng)驗(yàn)
- NB-T47003.1-2009鋼制焊接常壓容器(同JB-T4735.1-2009)
- 合同委托協(xié)議書范文
- 【萬(wàn)科股權(quán)結(jié)構(gòu)和公司治理的關(guān)系探究11000字(論文)】
評(píng)論
0/150
提交評(píng)論