




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、1 緒 論1.1課題背景隨著社會經(jīng)濟不斷發(fā)展,科學技術的不斷進步,人們已經(jīng)進入了信息時代,要在大量的信息中獲得有科學價值的結(jié)果,從而統(tǒng)計方法越來越成為人們必不可少的工具和手段。多元統(tǒng)計分析是近年來發(fā)展迅速的統(tǒng)計分析方法之一,應用于自然科學和社會各個領域,成為探索多元世界強有力的工具。判別分析是統(tǒng)計分析中的典型代表,判別分析的主要目的是識別一個個體所屬類別的情況下有著廣泛的應用。潛在的應用包括預測一個公司是否成功;決定一個學生是否錄?。辉卺t(yī)療診斷中,根據(jù)病人的多種檢查指標判斷此病人是否有某種疾病等等。它是在已知觀測對象的分類結(jié)果和若干表明觀測對象特征的變量值的情況下,建立一定的判別準則,使得利用
2、判別準則對新的觀測對象的類別進行判斷時,出錯的概率很小。而Fisher判別方法是多元統(tǒng)計分析中判別分析方法的常用方法之一,能在各領域得到應用。通常用來判別某觀測量是屬于哪種類型。在方法的具體實現(xiàn)上,采用國內(nèi)廣泛使用的統(tǒng)計軟件SPSS(StatisticalProductandServiceSolutions),它也是美國SPSS公司在20世紀80年代初開發(fā)的國際上最流行的視窗統(tǒng)計軟件包之一1.2 Fisher判別法的概述根據(jù)判別標準不同,可以分為距離判別、Fisher判別、Bayes判別法等。Fisher判別法是判別分析中的一種,其思想是投影,F(xiàn)isher判別的基本思路就是投影,針對P維空間中
3、的某點x=(x1,x2,x3,xp)尋找一個能使它降為一維數(shù)值的線性函數(shù)y(x): 然后應用這個線性函數(shù)把P維空間中的已知類別總體以及求知類別歸屬的樣本都變換為一維數(shù)據(jù),再根據(jù)其間的親疏程度把未知歸屬的樣本點判定其歸屬。這個線性函數(shù)應該能夠在把P維空間中的所有點轉(zhuǎn)化為一維數(shù)值之后,既能最大限度地縮小同類中各個樣本點之間的差異,又能最大限度地擴大不同類別中各個樣本點之間的差異,這樣才可能獲得較高的判別效率。在這里借用了一元方差分析的思想,即依據(jù)組間均方差與組內(nèi)均方差之比最大的原則來進行判別。1.3 算法優(yōu)缺點分析優(yōu)點:(1)一般對于線性可分的樣本,總能找到一個投影方向,使得降維后樣本仍然線性可分
4、,而且可分性更好即不同類別的樣本之間的距離盡可能遠,同一類別的樣本盡可能集中分布。(2)Fisher方法可直接求解權(quán)向量;(3)Fisher的線性判別式不僅適用于確定性模式分類器的訓練,而且對于隨機模式也是適用的,F(xiàn)isher還可以進一步推廣到多類問題中去缺點:(1)如果,則樣本線性不可分; ,未必線性可分; 不可逆,未必不可分。(2)對線性不可分的情況,F(xiàn)isher方法無法確定分類2實驗原理2.1 線性投影與Fisher準則函數(shù)各類在維特征空間里的樣本均值向量:, (2.5-2)通過變換映射到一維特征空間后,各類的平均值為:, (2.5-3)映射后,各類樣本“類內(nèi)離散度”定義為:, (2.5
5、-4)顯然,我們希望在映射之后,兩類的平均值之間的距離越大越好,而各類的樣本類內(nèi)離散度越小越好。因此,定義Fisher準則函數(shù): (2.5-5)使最大的解就是最佳解向量,也就是Fisher的線性判別式。2.2 求解從的表達式可知,它并非的顯函數(shù),必須進一步變換。已知:,, 依次代入(2.5-1)和(2.5-2),有:, (2.5-6)所以: (2.5-7)其中: (2.5-8)是原維特征空間里的樣本類內(nèi)離散度矩陣,表示兩類均值向量之間的離散度大小,因此,越大越容易區(qū)分。將(2.5-6)和(2.5-2)代入(2.5-4)式中: (2.5-9)其中:, (2.5-10)因此: (2.5-11)顯然
6、: (2.5-12)稱為原維特征空間里,樣本“類內(nèi)離散度”矩陣。是樣本“類內(nèi)總離散度”矩陣。為了便于分類,顯然越小越好,也就是越小越好。將上述的所有推導結(jié)果代入表達式:可以得到:其中,是一個比例因子,不影響的方向,可以刪除,從而得到最后解: (2.5-18)就使取得最大值,可使樣本由維空間向一維空間映射,其投影方向最好。是一個Fisher線性判斷式。這個向量指出了相對于Fisher準則函數(shù)最好的投影線方向。2.3 Fisher算法步驟由Fisher線性判別式求解向量的步驟: = 1 * GB3 把來自兩類的訓練樣本集分成和兩個子集和。 = 2 * GB3 由,計算。 = 3 * GB3 由計算
7、各類的類內(nèi)離散度矩陣,。 = 4 * GB3 計算類內(nèi)總離散度矩陣。 = 5 * GB3 計算的逆矩陣。 = 6 * GB3 由求解。3 實驗目的應用統(tǒng)計方法解決模式識別問題的困難之一是維數(shù)問題,在低維空間行得通的方法,在高維空間往往行不通。因此,降低維數(shù)就成為解決實際問題的關鍵。Fisher的方法,實際上涉及維數(shù)壓縮。如果要把模式樣本在高維的特征向量空間里投影到一條直線上,實際上就是把特征空間壓縮到一維,這在數(shù)學上容易辦到。問題的關鍵是投影之后原來線性可分的樣本可能變得混雜在一起而無法區(qū)分。在一般情況下,總可以找到某個最好的方向,使樣本投影到這個方向的直線上是最容易分得開的。如何找到最好的直
8、線方向,如何實現(xiàn)向最好方向投影的變換,是Fisher法要解決的基本問題。這個投影變換就是我們尋求的解向量本實驗通過編制程序體會Fisher線性判別的基本思路,理解線性判別的基本思想,掌握Fisher線性判別問題的實質(zhì)。4 實驗實例 例題:根據(jù)我國東部沿海11個省市城鎮(zhèn)居民家庭平均每人全年家庭收入的5個指標(工薪收入、經(jīng)營凈收入、財產(chǎn)性收入和轉(zhuǎn)移性收入)數(shù)據(jù)將各省市城鎮(zhèn)居民家庭分為高收入組和次高收入組,建立判別函數(shù)進而判定未分組省市的類別。4.1數(shù)據(jù)錄入 通過國家統(tǒng)計局網(wǎng)站得到我國東部沿海11省市的城鎮(zhèn)居民家庭平均每人全年家庭收入的5個指標(工薪收入、經(jīng)營凈收入、財產(chǎn)性收入和轉(zhuǎn)移性收入)數(shù)據(jù)得到
9、excel表格,并將11個省份劃分為高收入組(代號為1)和次高收入組(代號為2),分類如圖2-1組別,將其導入spss得到如圖4-1所示:4-14.2進行Fisher判別分析在SPSS中進行如下操作:步驟一 在analyze菜單中的classify子菜單中選擇discriminant命令如4-2圖所示。4-2步驟二 在如圖4-3所示的discriminant analyze對話框中,從左側(cè)變量的變量列表中選擇“工薪收入”、“經(jīng)營凈收入”、“財產(chǎn)性收入”和“轉(zhuǎn)移性收入”變量,使之添加到independents框中4-3步驟三 選擇“組別”變量使之添加到group ariable框中。這時grou
10、p ariable框下的define range按鈕變?yōu)榭捎?,單擊,彈出discriminant analyze:difine對話框如圖4-4所示,并在minium中輸入1,在maximum中輸入2.4-4步驟四 在discriminant analyze對話框中單擊statistics按鈕,彈出discriminant analyze:statistics對話框,如圖4-5所示。4-5步驟五 在discriminant analyze對話框中單擊classify按鈕彈出discriminant analyze:classification對話框,如圖4-6所示4-6步驟六 單擊圖4-3所示的
11、discriminant analysis對話框中的ok鍵,完成操作。4.3得到分析結(jié)果如表4-1所示可知只有一個判別函數(shù):D1=2.94*城鎮(zhèn)居民家庭總收入-1.892*工資性收入+0.943*經(jīng)營性收入-1.322*財產(chǎn)性收入-1.112*轉(zhuǎn)移性收入標準化的典型判別式函數(shù)系數(shù) 函數(shù)1城鎮(zhèn)居民家庭總收入2.940工資性收入-1.892經(jīng)營性收入.943財產(chǎn)性收入-1.322轉(zhuǎn)移性收入-.112表4-1由分析結(jié)果表4-2可知高收入組的Fisher線性判別函數(shù)為:F1=0.025*城鎮(zhèn)居民家庭總收入-0.018*工資性收入+0.014*經(jīng)營性收入-0.064*財產(chǎn)性收入-0.009*轉(zhuǎn)移性收入-
12、105.381次高收入組的Fisher判別函數(shù)為:F2=0.021*城鎮(zhèn)居民家庭總收入-0.015*工資性收入+0.009*經(jīng)營性收入-0.05*財產(chǎn)性收入-0.009*轉(zhuǎn)移性收入-55.554。分類函數(shù)系數(shù)組別高收入次高收入城鎮(zhèn)居民家庭總收入.025.021工資性收入-.018-.015經(jīng)營性收入.014.009財產(chǎn)性收入-.064-.050轉(zhuǎn)移性收入-.009-.009(常量)-105.381-55.554Fisher 的線性判別式函數(shù)表4-2將初始數(shù)據(jù)代入判別函數(shù)可得到表4-3,可知判別函數(shù)對初始分組案例100%的進行了正確分類。4.4應用Fisher判別方程對未分組省份進行分組由分析可
13、知判別函數(shù)(其中分別代表城鎮(zhèn)居民家庭總收入、工資性收入、經(jīng)營性收入、財產(chǎn)性收入、轉(zhuǎn)移性收入)又有高收入組各項指標的均值= (24632.8,18453.4,1826.2,703.4,6592.4) 次高收入組各項指標的均值= (16178.16667,11553.66667,1480.333333,489.5,4210.666667) 代入判別函數(shù)可得=30968.06 , =21770.85進而可得=25951.4將剩余的省份代入判別函數(shù)如表4-4所示地區(qū)城鎮(zhèn)居民家庭人均可支配收入工資性收入經(jīng)營性收入財產(chǎn)性收入轉(zhuǎn)移性收入判別函數(shù)值河北省147189831977194467420138.023
14、山西省139979741944252404518780.216內(nèi)蒙古自治區(qū)15849112671737364358322451.383吉林省1400694821307146422019584.545黑龍江省125668357122489402017698.93安徽省14086103621023273403317927.023江西省1402297901153240386419175.231河南省1437299101203165413019827.699湖北省14367103321232297383819192.122湖南省1508498541744419406022279.146重慶市15749
15、118241019254389420226.053四川省13839101321132305375418006.734貴州省1286390061135134351817759.009云南省14424964210921044390219474.46西藏自治區(qū)1354413326378218105613500.554陜西省1412910775544152383917196.04甘肅省11930918269059298614954.096青海省12692934183546392815999.965寧夏回族自治區(qū)1402595972036281363620581.21新疆維吾爾自治區(qū)1225810233975116227914909.509表4-4 根據(jù)表4-4判別函數(shù)值列與臨界值25951.4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國五香豆行業(yè)深度研究分析報告
- 中國靈芝提取液行業(yè)市場前景預測及投資價值評估分析報告
- 營林及木竹采伐機械項目風險識別與評估綜合報告
- 美白護膚品項目風險識別與評估綜合報告
- 脂肪醇聚氧乙烯醚項目風險識別與評估綜合報告
- 2025-2030年中國造紙印刷機械配件項目投資可行性研究分析報告
- 2025年圓管雨傘架項目投資可行性研究分析報告
- 織錦緞練功服行業(yè)深度研究分析報告(2024-2030版)
- 2025年酒店行業(yè)人力資源風險管理方案
- 企業(yè)裝修工程合同招標方案
- 信息技術ppt課件完整版
- 代付農(nóng)民工工資委托付款書(模板)
- 《為夢想插上翅膀》課件
- 哪吒鬧海閱讀訓練題及答案
- 《防止電力建設工程施工安全事故三十項重點要求》
- 外研版九年級英語下冊Module-4-Unit-2教學課件(PPT 16頁)
- 精品隨班就讀個別化教學計劃
- 軟件開發(fā)管理辦法(完整版)
- 第一章 - 免疫規(guī)劃信息管理系統(tǒng)
- 初中語文四大名著選擇題精選48道(修訂版帶答案)
- 下肢血管超聲規(guī)范檢查與診斷(精品)
評論
0/150
提交評論