《應(yīng)用統(tǒng)計(jì)分析》課件-第10章 判別分析_第1頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第10章 判別分析_第2頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第10章 判別分析_第3頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第10章 判別分析_第4頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第10章 判別分析_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第10章判別分析1、判別分析概述2、判別分析方法3、SPSS操作實(shí)例12產(chǎn)品評估隨著近年來各個行業(yè)的各類產(chǎn)品競爭加大,產(chǎn)品競爭戰(zhàn)略也成為各企業(yè)的重要營銷策略。產(chǎn)品都具有多方面因素,如樣式新穎程度、包裝質(zhì)量、產(chǎn)品耐久性等,在未知分類判別標(biāo)準(zhǔn)的前提下,根據(jù)已有產(chǎn)品的先驗(yàn)數(shù)據(jù)集,綜合考慮這些因素找出分類標(biāo)準(zhǔn)(即判別函數(shù)),再判斷某產(chǎn)品是“受歡迎”產(chǎn)品還是“不受歡迎”產(chǎn)品,這種根據(jù)對象各個特征值判斷其屬于哪一類的問題,就是判別分析。某類型產(chǎn)品有12家不同的生產(chǎn)企業(yè),將這12家的產(chǎn)品的樣式、包裝和耐久性進(jìn)行評估后,可以得到各個產(chǎn)品的得分資料,如表10-1所示(滿分為10分)。引入案例3已知根據(jù)產(chǎn)品的銷量與利潤可以界定其中7家的產(chǎn)品受消費(fèi)者歡迎,屬于暢銷品,定義為1類;5家的產(chǎn)品不大受消費(fèi)者歡迎,屬于滯銷品,定義為2類?,F(xiàn)有一新廠家,其產(chǎn)品的銷量與利潤未知,無法直接界定受歡迎程度。已知該產(chǎn)品的樣式、包裝、耐久得分分別為6、4、5,如何通過該產(chǎn)品的得分?jǐn)?shù)據(jù)判斷該廠的產(chǎn)品是否受歡迎呢?引入案例第1節(jié)判別分析概述1、判別分析的基本思想2、判別分析的類型3、適用的數(shù)據(jù)范圍410.1.1判別分析的基本思想定義10.1判別分析(discriminantanalysis)∶根據(jù)觀測到的樣品的若干數(shù)量特征(稱為因子或判別變量)對樣品進(jìn)行歸類、識別,判斷其屬性的預(yù)報(bào)(預(yù)測)的一種多元統(tǒng)計(jì)分析方法。判別分析只知道一部分樣本的信息,但不知道分類判別的標(biāo)準(zhǔn)。判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類,求出判別函數(shù),再根據(jù)判別函數(shù)對未知所屬類別的事物進(jìn)行分類的一種分析方法。510.1.1判別分析的基本思想定義10.2判別函數(shù)(discriminantfunction):是指各個類別的判別區(qū)域確定后,可以用一些函數(shù)來表示和鑒別某個特征矢量屬于哪個類別,這些函數(shù)就稱為判別函數(shù),又稱為判決函數(shù)。在判別分析中,已經(jīng)明確了應(yīng)該分成幾類,需要根據(jù)已有數(shù)據(jù)過論每類的特點(diǎn),判斷新樣本屬于哪一類,即研究“怎么分”。在實(shí)際生活中,判別分析常被廣泛應(yīng)用于預(yù)測事物的類別歸屬。判別分析近年來在機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析等方面有廣泛應(yīng)用。610.1.2判別分析的類型按判別的組數(shù)來分,分為兩組判別分析、多組判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,分為線性判別、非線性判別;按判別對所處理的變量方法不同,分為逐步判別、序貫判別等;按判別準(zhǔn)則來分,有距離判別準(zhǔn)則、費(fèi)歇爾判別準(zhǔn)則、貝葉斯判別準(zhǔn)則等。710.1.2判別分析的類型線性判別分析(lineardiscriminantanalysis,LDA)是對費(fèi)歇爾的線性判別方法的歸納,這種方法使用統(tǒng)計(jì)學(xué)、模式識別和機(jī)器學(xué)習(xí)方法,試圖找到兩類物體或事件的特征的一個線性組合,以達(dá)到能夠特征化或區(qū)分它們。所得的組合可用來作為一個線性分類器,或者為后續(xù)的分類做降維處理。810.1.2判別分析的類型

910.1.3適用的數(shù)據(jù)范圍判別分析的目的是將未知屬性的數(shù)據(jù)分類。這部分未知屬性的數(shù)據(jù)可以是定性數(shù)據(jù)也可以是定量數(shù)據(jù)。在進(jìn)行分類的過程中,主要分析未知屬性的某些特征值,而這些特征值大都是定量數(shù)據(jù),分析出它們的數(shù)學(xué)特點(diǎn)后再進(jìn)行分類。10第2節(jié)判別分析方法1、距離判別2、貝葉斯判別3、費(fèi)歇爾判別4、逐步判別5、支持向量機(jī)判別6、隨機(jī)森林判別7、判別分析效果評價1110.2.1距離判別定義10.3距離判別(disecriminantbydistance):是以待判樣本到各測試樣本的距離遠(yuǎn)近為判據(jù)的一種直觀判別方法,也稱為直觀判別法。距離判別法的基本思想∶分別計(jì)算出已知數(shù)據(jù)各類的中心,然后計(jì)算出待測樣本與各類中心的距離,待測樣本與哪一類最近,就判斷待測樣本屬于哪一類。通常我們定義的距離是指歐式距離,但是它在距離判別中是不適用的。1210.2.1距離判別

1310.2.1距離判別

1410.2.2貝葉斯判別

1510.2.2貝葉斯判別

16似然比判決閾值10.2.3費(fèi)歇爾判別定義10.5費(fèi)歇爾判別(Fisherdiscriminant)∶費(fèi)歇爾判別是一種先進(jìn)行高維向低維投影,再根據(jù)距離判別的一種方法,也稱為線性判別法或費(fèi)歇爾判別法。費(fèi)歇爾判別法的基本思想∶通過將多維數(shù)據(jù)投影到某個方向上,投影的原則是將類與類之間盡可能地分開,然后再選擇合適的判別準(zhǔn)則,將待判的樣本進(jìn)行分類判別。17按照原來的變量(橫坐標(biāo)和縱坐標(biāo)),很難將這兩種點(diǎn)分開。沿著這個方向朝與這條虛線垂直的一條直線進(jìn)行投影會使得這兩類分得最清楚。10.2.3費(fèi)歇爾判別費(fèi)歇爾判別的幾何意義:把p維空間的點(diǎn)投影到一維空間(直線)上去,使各已知類在該直線上的投影盡可能分離。有了投影之后,再用前述的距離判別的方法來得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是費(fèi)歇爾判別法。從數(shù)學(xué)角度理解費(fèi)歇爾判別法:按照各類(總體)中的方差盡可能小、不同類中的均值之間差距盡可能大的原則,即類間距離最大而類內(nèi)離散度最小的原則求判別函數(shù),并利用判別函數(shù)進(jìn)行最小距離分類。1810.2.3費(fèi)歇爾判別

1910.2.3費(fèi)歇爾判別

2010.2.3費(fèi)歇爾判別

21得到10.2.3費(fèi)歇爾判別

2210.2.4逐步判別定義10.6逐步判別法(stepwisediscriminant)∶是利用一些檢驗(yàn)規(guī)則,對變量進(jìn)行逐步篩選,同時進(jìn)行判別的一種方法。在判別問題中,當(dāng)判別的變量個數(shù)多時,如果全部選擇會使得計(jì)算量大、計(jì)算精度差,因此需要適當(dāng)?shù)睾Y選變量。這種可以篩選變量的分析方法統(tǒng)稱為逐步判別法。逐步判別法的基本思想∶從模型沒有變量開始,每一步都對模型進(jìn)行檢驗(yàn),把模型外對模型的判別力貢獻(xiàn)最大的變量加到模型中,將在模型中不符合留在模型中條件的變量剔除,直到判別式中變量都很顯著,且剩下來的變量也沒有重要的變量可引入判別式時,逐步篩選結(jié)束。2310.2.4逐步判別

2410.2.4逐步判別

2510.2.4逐步判別

2610.2.4逐步判別

2710.2.4逐步判別非線性判別分類問題,一般有以下三種不同的處理方法。(1)傳統(tǒng)的模式識別技術(shù),側(cè)重于使用分段線性判別函數(shù)。(2)人工神經(jīng)元網(wǎng)絡(luò)(多層感知器等網(wǎng)絡(luò))對基于錯誤修正法的感知準(zhǔn)則函數(shù)進(jìn)行拓展,并能夠?qū)崿F(xiàn)復(fù)雜的非線性分類,以及非線性函數(shù)擬合、非線性映射等。(3)支持向量機(jī)則提出了一種基于特征映射的方法,也就是使用某種映射,使得本來在原特征空間必須使用非線性分類技術(shù)才能解決的問題映射到一個新的空間后,使線性分類技術(shù)能夠繼續(xù)使用。2810.2.5支持向量機(jī)判別定義10.7支持向量機(jī)(supportvectormachine,SVM):在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法,又稱為支持向量網(wǎng)絡(luò)。支持向量機(jī)(SVM)算法比較適合圖像和文本等樣本特征較多的應(yīng)用場合?;诮Y(jié)構(gòu)風(fēng)險最小化原理,對樣本集進(jìn)行壓縮,解決了以往需要大樣本數(shù)量進(jìn)行訓(xùn)練的問題。它將文本通過計(jì)算抽象成向量化的訓(xùn)練數(shù)據(jù),提高了分類的精確率。2910.2.5支持向量機(jī)判別支持向量機(jī)的基本模型是在特征空間中尋找間隔最大化的分離超平面,使距離最近的樣本點(diǎn)到該超平面的距離盡可能地遠(yuǎn)。主要的應(yīng)用場景有字符識別,面部識別,行人檢測,文本分類等領(lǐng)域。在機(jī)器學(xué)習(xí)領(lǐng)域,支持向量機(jī)SVM是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類(異常值檢測)以及回歸分析。3010.2.5支持向量機(jī)判別支持向量機(jī)分類的基本思想是利用最大間隔進(jìn)行分類,處理非線性問題是通過核函數(shù)將特征向量映射到高維空間,從而將其變成線性可分的,但是運(yùn)算卻是在低維空間運(yùn)行。考慮到數(shù)據(jù)中可能存在噪聲,分類過程中還引入了松弛變量。一個普通的SVM即一條直線,用來完美劃分線性可分的兩類,使其距離兩個類的點(diǎn)都一樣遠(yuǎn)。而支持向量就是這些離分界線最近的“點(diǎn)”。直線表示的是訓(xùn)練出的一個分類平面,將數(shù)據(jù)有效地分隔開。3110.2.5支持向量機(jī)判別針對訓(xùn)練數(shù)據(jù)的三種不同情況,將對應(yīng)不同的學(xué)習(xí)方法。1、線性可分SVM在二維空間上,兩類點(diǎn)被一條直線完全分開稱為線性可分。通過硬間隔最大化可以學(xué)習(xí)得到一個線性分類器,即硬間隔SVM。2、線性SVM當(dāng)訓(xùn)練數(shù)據(jù)不能線性可分但是可以近似線性可分時,通過軟間隔最大化也可以學(xué)習(xí)到一個線性分類器,即軟間隔SVM。我們允許個別樣本點(diǎn)出現(xiàn)在間隔帶里面。3210.2.5支持向量機(jī)判別3、非線性SVM樣本點(diǎn)不是線性可分的,這種情況的解決方法就是∶將二維線性不可分樣本映射到高維空間,讓樣本點(diǎn)在高維空間線性可分對于在有限維度向量空間中線性不可分的樣本,將其映射到更高維度的向量空間,再通過間隔最大化的方式,學(xué)習(xí)得到支持向量機(jī),就是非線性SVM。當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時,通過使用核技巧和軟間隔最大化,可以學(xué)習(xí)到一個非線性SVM。當(dāng)SVM模型訓(xùn)練成功后,運(yùn)用機(jī)器學(xué)習(xí)相關(guān)算法根據(jù)一組向量對后續(xù)向量進(jìn)行分類3310.2.6隨機(jī)森林判別定義10.8隨機(jī)森林(randomforest)∶利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器,其輸出的類別由個別樹輸出的類別的眾數(shù)而定。隨機(jī)森林是通過集成學(xué)習(xí)的思想,將多棵決策樹進(jìn)行集成的算法,是最常用也是最強(qiáng)大的監(jiān)督學(xué)習(xí)算法之一,兼顧了解決回歸問題和分類問題的能力。對于分類問題,其輸出的類別是由個別樹輸出的眾數(shù)所決定的。在回歸問題中,把每一棵決策樹的輸出進(jìn)行平均得到最終的回歸結(jié)果。決策樹的數(shù)量越大,隨機(jī)森林算法的魯棒性越強(qiáng),精確度越高。3410.2.6隨機(jī)森林判別

35生成原理10.2.6隨機(jī)森林判別

36生成原理10.2.7判別分析效果評價

3710.2.7判別分析效果評價誤判概率主要可通過回顧性、前瞻性和刀切法三種方法獲得。(1)回顧性。用建立判別函數(shù)的樣本回代判別。如某例22個樣本中,有4例誤判,則4/22≈18.2%為該判別函數(shù)的誤判概率。回顧性誤判概率估計(jì)往往夸大判別效果。(2)前瞻性。是指在建立判別函數(shù)前,將樣本隨機(jī)分成兩個部分,分別占總樣本量的85%和15%。前者用于建立判別函數(shù)(即訓(xùn)練樣本),后者用于考核判別函數(shù)的判別效果(即驗(yàn)證樣本),用驗(yàn)證樣本計(jì)算的誤判概率作為前瞻性誤判概率估計(jì)。前瞻性誤判概率估計(jì)則比較客觀。3810.2.7判別分析效果評價

3940第一步在【數(shù)據(jù)區(qū)】輸入需要進(jìn)行分析的數(shù)據(jù),并在【變量視圖】修改變量名字、類型、確定計(jì)算精度,注意樣式、包裝、耐久性三項(xiàng)數(shù)值型評分可以有計(jì)算精度,而類別數(shù)據(jù)是定性數(shù)據(jù),不需要計(jì)算精度。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評估41第二步選擇【分析】→【分類】→【判別式】,如圖10-6所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評估42第三步把在左側(cè)的參數(shù)分組變量與因變量移至右側(cè),點(diǎn)擊【定義范圍】按鍵,定義類別的范圍,注意這個類別需要是自然數(shù)1,2,3,…在本案例中,分組的變量分別是組1與組2,因此定義分組變量的范圍時義成1~2即可,如圖10-7所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評估43第四步點(diǎn)擊【統(tǒng)計(jì)】,對描述、矩陣、函數(shù)系數(shù)進(jìn)行選擇,如圖10-8所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評估44第五步點(diǎn)擊【分類】進(jìn)行先驗(yàn)概率、使用協(xié)方差矩陣、顯示、圖的選擇,同時還可以對缺失值平均值的替代進(jìn)行填充,如圖10-9所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評估45第六步點(diǎn)擊【保存】,進(jìn)行預(yù)測操作,如圖10-10所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評估46第七步點(diǎn)擊【確定】后得到最終分析結(jié)果∶首先是預(yù)測結(jié)果,回到數(shù)據(jù)界面,發(fā)現(xiàn)數(shù)據(jù)界而新增了4列(見圖10-11),分別是【Dis_1】—預(yù)測組別結(jié)果;【Dis1_1】—判別得分∶【Dis1_2】、【Dis2_2】—每個個案的分組概率,結(jié)果證明待測產(chǎn)品屬于"受歡迎"的類別,解決了引入案例提出的問題。同時,預(yù)測結(jié)果對已知產(chǎn)品的估計(jì)也是十分準(zhǔn)確的,說明預(yù)測,過程是正確的。第3節(jié)SPSS操作實(shí)例47第七步點(diǎn)擊【確定】后得到最終分析結(jié)果∶除了預(yù)測結(jié)果,SPSS的判別分析還得到了許多判別結(jié)果。個案分析如表10-2所示,各組均值分析如表10-3所示。該問題是有統(tǒng)計(jì)學(xué)的研究意義的第3節(jié)SPSS操作實(shí)例表10

-

2分析個案處理摘要未加權(quán)個案個案數(shù)百分比/%有效1292.3排除缺失或超出范圍組代碼17.7至少一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論