《應(yīng)用統(tǒng)計(jì)分析》課件-第10章判別分析

上傳人：1*** IP屬地：廣東上傳時(shí)間：2025-03-23 格式：PPTX 頁數(shù)：50 大?。?.96MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩45頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第10章判別分析1、判別分析概述2、判別分析方法3、SPSS操作實(shí)例12產(chǎn)品評(píng)估隨著近年來各個(gè)行業(yè)的各類產(chǎn)品競(jìng)爭(zhēng)加大，產(chǎn)品競(jìng)爭(zhēng)戰(zhàn)略也成為各企業(yè)的重要營銷策略。產(chǎn)品都具有多方面因素，如樣式新穎程度、包裝質(zhì)量、產(chǎn)品耐久性等，在未知分類判別標(biāo)準(zhǔn)的前提下，根據(jù)已有產(chǎn)品的先驗(yàn)數(shù)據(jù)集，綜合考慮這些因素找出分類標(biāo)準(zhǔn)（即判別函數(shù)），再判斷某產(chǎn)品是“受歡迎”產(chǎn)品還是“不受歡迎”產(chǎn)品，這種根據(jù)對(duì)象各個(gè)特征值判斷其屬于哪一類的問題，就是判別分析。某類型產(chǎn)品有12家不同的生產(chǎn)企業(yè)，將這12家的產(chǎn)品的樣式、包裝和耐久性進(jìn)行評(píng)估后，可以得到各個(gè)產(chǎn)品的得分資料，如表10-1所示（滿分為10分）。引入案例3已知根據(jù)產(chǎn)品的銷量與利潤(rùn)可以界定其中7家的產(chǎn)品受消費(fèi)者歡迎，屬于暢銷品，定義為1類；5家的產(chǎn)品不大受消費(fèi)者歡迎，屬于滯銷品，定義為2類?，F(xiàn)有一新廠家，其產(chǎn)品的銷量與利潤(rùn)未知，無法直接界定受歡迎程度。已知該產(chǎn)品的樣式、包裝、耐久得分分別為6、4、5，如何通過該產(chǎn)品的得分?jǐn)?shù)據(jù)判斷該廠的產(chǎn)品是否受歡迎呢?引入案例第1節(jié)判別分析概述1、判別分析的基本思想2、判別分析的類型3、適用的數(shù)據(jù)范圍410.1.1判別分析的基本思想定義10.1判別分析(discriminantanalysis)∶根據(jù)觀測(cè)到的樣品的若干數(shù)量特征（稱為因子或判別變量）對(duì)樣品進(jìn)行歸類、識(shí)別，判斷其屬性的預(yù)報(bào)（預(yù)測(cè)）的一種多元統(tǒng)計(jì)分析方法。判別分析只知道一部分樣本的信息，但不知道分類判別的標(biāo)準(zhǔn)。判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類，求出判別函數(shù)，再根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法。510.1.1判別分析的基本思想定義10.2判別函數(shù)(discriminantfunction)：是指各個(gè)類別的判別區(qū)域確定后，可以用一些函數(shù)來表示和鑒別某個(gè)特征矢量屬于哪個(gè)類別，這些函數(shù)就稱為判別函數(shù)，又稱為判決函數(shù)。在判別分析中，已經(jīng)明確了應(yīng)該分成幾類，需要根據(jù)已有數(shù)據(jù)過論每類的特點(diǎn)，判斷新樣本屬于哪一類，即研究“怎么分”。在實(shí)際生活中，判別分析常被廣泛應(yīng)用于預(yù)測(cè)事物的類別歸屬。判別分析近年來在機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析等方面有廣泛應(yīng)用。610.1.2判別分析的類型按判別的組數(shù)來分，分為兩組判別分析、多組判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分，分為線性判別、非線性判別;按判別對(duì)所處理的變量方法不同，分為逐步判別、序貫判別等;按判別準(zhǔn)則來分，有距離判別準(zhǔn)則、費(fèi)歇爾判別準(zhǔn)則、貝葉斯判別準(zhǔn)則等。710.1.2判別分析的類型線性判別分析(lineardiscriminantanalysis，LDA)是對(duì)費(fèi)歇爾的線性判別方法的歸納，這種方法使用統(tǒng)計(jì)學(xué)、模式識(shí)別和機(jī)器學(xué)習(xí)方法，試圖找到兩類物體或事件的特征的一個(gè)線性組合，以達(dá)到能夠特征化或區(qū)分它們。所得的組合可用來作為一個(gè)線性分類器，或者為后續(xù)的分類做降維處理。810.1.2判別分析的類型

910.1.3適用的數(shù)據(jù)范圍判別分析的目的是將未知屬性的數(shù)據(jù)分類。這部分未知屬性的數(shù)據(jù)可以是定性數(shù)據(jù)也可以是定量數(shù)據(jù)。在進(jìn)行分類的過程中，主要分析未知屬性的某些特征值，而這些特征值大都是定量數(shù)據(jù)，分析出它們的數(shù)學(xué)特點(diǎn)后再進(jìn)行分類。10第2節(jié)判別分析方法1、距離判別2、貝葉斯判別3、費(fèi)歇爾判別4、逐步判別5、支持向量機(jī)判別6、隨機(jī)森林判別7、判別分析效果評(píng)價(jià)1110.2.1距離判別定義10.3距離判別(disecriminantbydistance)：是以待判樣本到各測(cè)試樣本的距離遠(yuǎn)近為判據(jù)的一種直觀判別方法，也稱為直觀判別法。距離判別法的基本思想∶分別計(jì)算出已知數(shù)據(jù)各類的中心，然后計(jì)算出待測(cè)樣本與各類中心的距離，待測(cè)樣本與哪一類最近，就判斷待測(cè)樣本屬于哪一類。通常我們定義的距離是指歐式距離，但是它在距離判別中是不適用的。1210.2.1距離判別

1310.2.1距離判別

1410.2.2貝葉斯判別

1510.2.2貝葉斯判別

16似然比判決閾值10.2.3費(fèi)歇爾判別定義10.5費(fèi)歇爾判別(Fisherdiscriminant)∶費(fèi)歇爾判別是一種先進(jìn)行高維向低維投影，再根據(jù)距離判別的一種方法，也稱為線性判別法或費(fèi)歇爾判別法。費(fèi)歇爾判別法的基本思想∶通過將多維數(shù)據(jù)投影到某個(gè)方向上，投影的原則是將類與類之間盡可能地分開，然后再選擇合適的判別準(zhǔn)則，將待判的樣本進(jìn)行分類判別。17按照原來的變量（橫坐標(biāo)和縱坐標(biāo)），很難將這兩種點(diǎn)分開。沿著這個(gè)方向朝與這條虛線垂直的一條直線進(jìn)行投影會(huì)使得這兩類分得最清楚。10.2.3費(fèi)歇爾判別費(fèi)歇爾判別的幾何意義：把p維空間的點(diǎn)投影到一維空間（直線）上去，使各已知類在該直線上的投影盡可能分離。有了投影之后，再用前述的距離判別的方法來得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是費(fèi)歇爾判別法。從數(shù)學(xué)角度理解費(fèi)歇爾判別法：按照各類（總體）中的方差盡可能小、不同類中的均值之間差距盡可能大的原則，即類間距離最大而類內(nèi)離散度最小的原則求判別函數(shù)，并利用判別函數(shù)進(jìn)行最小距離分類。1810.2.3費(fèi)歇爾判別

1910.2.3費(fèi)歇爾判別

2010.2.3費(fèi)歇爾判別

21得到10.2.3費(fèi)歇爾判別

2210.2.4逐步判別定義10.6逐步判別法(stepwisediscriminant)∶是利用一些檢驗(yàn)規(guī)則，對(duì)變量進(jìn)行逐步篩選，同時(shí)進(jìn)行判別的一種方法。在判別問題中，當(dāng)判別的變量個(gè)數(shù)多時(shí)，如果全部選擇會(huì)使得計(jì)算量大、計(jì)算精度差，因此需要適當(dāng)?shù)睾Y選變量。這種可以篩選變量的分析方法統(tǒng)稱為逐步判別法。逐步判別法的基本思想∶從模型沒有變量開始，每一步都對(duì)模型進(jìn)行檢驗(yàn)，把模型外對(duì)模型的判別力貢獻(xiàn)最大的變量加到模型中，將在模型中不符合留在模型中條件的變量剔除，直到判別式中變量都很顯著，且剩下來的變量也沒有重要的變量可引入判別式時(shí)，逐步篩選結(jié)束。2310.2.4逐步判別

2410.2.4逐步判別

2510.2.4逐步判別

2610.2.4逐步判別

2710.2.4逐步判別非線性判別分類問題，一般有以下三種不同的處理方法。（1）傳統(tǒng)的模式識(shí)別技術(shù)，側(cè)重于使用分段線性判別函數(shù)。（2）人工神經(jīng)元網(wǎng)絡(luò)（多層感知器等網(wǎng)絡(luò)）對(duì)基于錯(cuò)誤修正法的感知準(zhǔn)則函數(shù)進(jìn)行拓展，并能夠?qū)崿F(xiàn)復(fù)雜的非線性分類，以及非線性函數(shù)擬合、非線性映射等。（3）支持向量機(jī)則提出了一種基于特征映射的方法，也就是使用某種映射，使得本來在原特征空間必須使用非線性分類技術(shù)才能解決的問題映射到一個(gè)新的空間后，使線性分類技術(shù)能夠繼續(xù)使用。2810.2.5支持向量機(jī)判別定義10.7支持向量機(jī)(supportvectormachine，SVM)：在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法，又稱為支持向量網(wǎng)絡(luò)。支持向量機(jī)（SVM）算法比較適合圖像和文本等樣本特征較多的應(yīng)用場(chǎng)合?；诮Y(jié)構(gòu)風(fēng)險(xiǎn)最小化原理，對(duì)樣本集進(jìn)行壓縮，解決了以往需要大樣本數(shù)量進(jìn)行訓(xùn)練的問題。它將文本通過計(jì)算抽象成向量化的訓(xùn)練數(shù)據(jù)，提高了分類的精確率。2910.2.5支持向量機(jī)判別支持向量機(jī)的基本模型是在特征空間中尋找間隔最大化的分離超平面，使距離最近的樣本點(diǎn)到該超平面的距離盡可能地遠(yuǎn)。主要的應(yīng)用場(chǎng)景有字符識(shí)別，面部識(shí)別，行人檢測(cè)，文本分類等領(lǐng)域。在機(jī)器學(xué)習(xí)領(lǐng)域，支持向量機(jī)SVM是一個(gè)有監(jiān)督的學(xué)習(xí)模型，通常用來進(jìn)行模式識(shí)別、分類（異常值檢測(cè)）以及回歸分析。3010.2.5支持向量機(jī)判別支持向量機(jī)分類的基本思想是利用最大間隔進(jìn)行分類，處理非線性問題是通過核函數(shù)將特征向量映射到高維空間，從而將其變成線性可分的，但是運(yùn)算卻是在低維空間運(yùn)行?？紤]到數(shù)據(jù)中可能存在噪聲，分類過程中還引入了松弛變量。一個(gè)普通的SVM即一條直線，用來完美劃分線性可分的兩類，使其距離兩個(gè)類的點(diǎn)都一樣遠(yuǎn)。而支持向量就是這些離分界線最近的“點(diǎn)”。直線表示的是訓(xùn)練出的一個(gè)分類平面，將數(shù)據(jù)有效地分隔開。3110.2.5支持向量機(jī)判別針對(duì)訓(xùn)練數(shù)據(jù)的三種不同情況，將對(duì)應(yīng)不同的學(xué)習(xí)方法。1、線性可分SVM在二維空間上，兩類點(diǎn)被一條直線完全分開稱為線性可分。通過硬間隔最大化可以學(xué)習(xí)得到一個(gè)線性分類器，即硬間隔SVM。2、線性SVM當(dāng)訓(xùn)練數(shù)據(jù)不能線性可分但是可以近似線性可分時(shí)，通過軟間隔最大化也可以學(xué)習(xí)到一個(gè)線性分類器，即軟間隔SVM。我們?cè)试S個(gè)別樣本點(diǎn)出現(xiàn)在間隔帶里面。3210.2.5支持向量機(jī)判別3、非線性SVM樣本點(diǎn)不是線性可分的，這種情況的解決方法就是∶將二維線性不可分樣本映射到高維空間，讓樣本點(diǎn)在高維空間線性可分對(duì)于在有限維度向量空間中線性不可分的樣本，將其映射到更高維度的向量空間，再通過間隔最大化的方式，學(xué)習(xí)得到支持向量機(jī)，就是非線性SVM。當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí)，通過使用核技巧和軟間隔最大化，可以學(xué)習(xí)到一個(gè)非線性SVM。當(dāng)SVM模型訓(xùn)練成功后，運(yùn)用機(jī)器學(xué)習(xí)相關(guān)算法根據(jù)一組向量對(duì)后續(xù)向量進(jìn)行分類3310.2.6隨機(jī)森林判別定義10.8隨機(jī)森林(randomforest)∶利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器，其輸出的類別由個(gè)別樹輸出的類別的眾數(shù)而定。隨機(jī)森林是通過集成學(xué)習(xí)的思想，將多棵決策樹進(jìn)行集成的算法，是最常用也是最強(qiáng)大的監(jiān)督學(xué)習(xí)算法之一，兼顧了解決回歸問題和分類問題的能力。對(duì)于分類問題，其輸出的類別是由個(gè)別樹輸出的眾數(shù)所決定的。在回歸問題中，把每一棵決策樹的輸出進(jìn)行平均得到最終的回歸結(jié)果。決策樹的數(shù)量越大，隨機(jī)森林算法的魯棒性越強(qiáng)，精確度越高。3410.2.6隨機(jī)森林判別

35生成原理10.2.6隨機(jī)森林判別

36生成原理10.2.7判別分析效果評(píng)價(jià)

3710.2.7判別分析效果評(píng)價(jià)誤判概率主要可通過回顧性、前瞻性和刀切法三種方法獲得。（1）回顧性。用建立判別函數(shù)的樣本回代判別。如某例22個(gè)樣本中，有4例誤判，則4/22≈18.2%為該判別函數(shù)的誤判概率。回顧性誤判概率估計(jì)往往夸大判別效果。（2）前瞻性。是指在建立判別函數(shù)前，將樣本隨機(jī)分成兩個(gè)部分，分別占總樣本量的85%和15%。前者用于建立判別函數(shù)（即訓(xùn)練樣本），后者用于考核判別函數(shù)的判別效果（即驗(yàn)證樣本），用驗(yàn)證樣本計(jì)算的誤判概率作為前瞻性誤判概率估計(jì)。前瞻性誤判概率估計(jì)則比較客觀。3810.2.7判別分析效果評(píng)價(jià)

3940第一步在【數(shù)據(jù)區(qū)】輸入需要進(jìn)行分析的數(shù)據(jù)，并在【變量視圖】修改變量名字、類型、確定計(jì)算精度，注意樣式、包裝、耐久性三項(xiàng)數(shù)值型評(píng)分可以有計(jì)算精度，而類別數(shù)據(jù)是定性數(shù)據(jù)，不需要計(jì)算精度。第3節(jié)SPSS操作實(shí)例引入案例分析：產(chǎn)品評(píng)估41第二步選擇【分析】→【分類】→【判別式】，如圖10-6所示。第3節(jié)SPSS操作實(shí)例引入案例分析：產(chǎn)品評(píng)估42第三步把在左側(cè)的參數(shù)分組變量與因變量移至右側(cè)，點(diǎn)擊【定義范圍】按鍵，定義類別的范圍，注意這個(gè)類別需要是自然數(shù)1，2，3，…在本案例中，分組的變量分別是組1與組2，因此定義分組變量的范圍時(shí)義成1～2即可，如圖10-7所示。第3節(jié)SPSS操作實(shí)例引入案例分析：產(chǎn)品評(píng)估43第四步點(diǎn)擊【統(tǒng)計(jì)】，對(duì)描述、矩陣、函數(shù)系數(shù)進(jìn)行選擇，如圖10-8所示。第3節(jié)SPSS操作實(shí)例引入案例分析：產(chǎn)品評(píng)估44第五步點(diǎn)擊【分類】進(jìn)行先驗(yàn)概率、使用協(xié)方差矩陣、顯示、圖的選擇，同時(shí)還可以對(duì)缺失值平均值的替代進(jìn)行填充，如圖10-9所示。第3節(jié)SPSS操作實(shí)例引入案例分析：產(chǎn)品評(píng)估45第六步點(diǎn)擊【保存】，進(jìn)行預(yù)測(cè)操作，如圖10-10所示。第3節(jié)SPSS操作實(shí)例引入案例分析：產(chǎn)品評(píng)估46第七步點(diǎn)擊【確定】后得到最終分析結(jié)果∶首先是預(yù)測(cè)結(jié)果，回到數(shù)據(jù)界面，發(fā)現(xiàn)數(shù)據(jù)界而新增了4列（見圖10-11），分別是【Dis_1】—預(yù)測(cè)組別結(jié)果;【Dis1_1】—判別得分∶【Dis1_2】、【Dis2_2】—每個(gè)個(gè)案的分組概率，結(jié)果證明待測(cè)產(chǎn)品屬于"受歡迎"的類別，解決了引入案例提出的問題。同時(shí)，預(yù)測(cè)結(jié)果對(duì)已知產(chǎn)品的估計(jì)也是十分準(zhǔn)確的，說明預(yù)測(cè)，過程是正確的。第3節(jié)SPSS操作實(shí)例47第七步點(diǎn)擊【確定】后得到最終分析結(jié)果∶除了預(yù)測(cè)結(jié)果，SPSS的判別分析還得到了許多判別結(jié)果。個(gè)案分析如表10-2所示，各組均值分析如表10-3所示。該問題是有統(tǒng)計(jì)學(xué)的研究意義的第3節(jié)SPSS操作實(shí)例表10

2分析個(gè)案處理摘要未加權(quán)個(gè)案?jìng)€(gè)案數(shù)百分比/%有效1292.3排除缺失或超出范圍組代碼17.7至少一個(gè)

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《應(yīng)用統(tǒng)計(jì)分析》課件-第10章判別分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《應(yīng)用統(tǒng)計(jì)分析》課件-第10章 判別分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《應(yīng)用統(tǒng)計(jì)分析》課件-第10章判別分析