




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第10章判別分析1、判別分析概述2、判別分析方法3、SPSS操作實(shí)例12產(chǎn)品評(píng)估隨著近年來各個(gè)行業(yè)的各類產(chǎn)品競(jìng)爭(zhēng)加大,產(chǎn)品競(jìng)爭(zhēng)戰(zhàn)略也成為各企業(yè)的重要營銷策略。產(chǎn)品都具有多方面因素,如樣式新穎程度、包裝質(zhì)量、產(chǎn)品耐久性等,在未知分類判別標(biāo)準(zhǔn)的前提下,根據(jù)已有產(chǎn)品的先驗(yàn)數(shù)據(jù)集,綜合考慮這些因素找出分類標(biāo)準(zhǔn)(即判別函數(shù)),再判斷某產(chǎn)品是“受歡迎”產(chǎn)品還是“不受歡迎”產(chǎn)品,這種根據(jù)對(duì)象各個(gè)特征值判斷其屬于哪一類的問題,就是判別分析。某類型產(chǎn)品有12家不同的生產(chǎn)企業(yè),將這12家的產(chǎn)品的樣式、包裝和耐久性進(jìn)行評(píng)估后,可以得到各個(gè)產(chǎn)品的得分資料,如表10-1所示(滿分為10分)。引入案例3已知根據(jù)產(chǎn)品的銷量與利潤(rùn)可以界定其中7家的產(chǎn)品受消費(fèi)者歡迎,屬于暢銷品,定義為1類;5家的產(chǎn)品不大受消費(fèi)者歡迎,屬于滯銷品,定義為2類?,F(xiàn)有一新廠家,其產(chǎn)品的銷量與利潤(rùn)未知,無法直接界定受歡迎程度。已知該產(chǎn)品的樣式、包裝、耐久得分分別為6、4、5,如何通過該產(chǎn)品的得分?jǐn)?shù)據(jù)判斷該廠的產(chǎn)品是否受歡迎呢?引入案例第1節(jié)判別分析概述1、判別分析的基本思想2、判別分析的類型3、適用的數(shù)據(jù)范圍410.1.1判別分析的基本思想定義10.1判別分析(discriminantanalysis)∶根據(jù)觀測(cè)到的樣品的若干數(shù)量特征(稱為因子或判別變量)對(duì)樣品進(jìn)行歸類、識(shí)別,判斷其屬性的預(yù)報(bào)(預(yù)測(cè))的一種多元統(tǒng)計(jì)分析方法。判別分析只知道一部分樣本的信息,但不知道分類判別的標(biāo)準(zhǔn)。判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類,求出判別函數(shù),再根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法。510.1.1判別分析的基本思想定義10.2判別函數(shù)(discriminantfunction):是指各個(gè)類別的判別區(qū)域確定后,可以用一些函數(shù)來表示和鑒別某個(gè)特征矢量屬于哪個(gè)類別,這些函數(shù)就稱為判別函數(shù),又稱為判決函數(shù)。在判別分析中,已經(jīng)明確了應(yīng)該分成幾類,需要根據(jù)已有數(shù)據(jù)過論每類的特點(diǎn),判斷新樣本屬于哪一類,即研究“怎么分”。在實(shí)際生活中,判別分析常被廣泛應(yīng)用于預(yù)測(cè)事物的類別歸屬。判別分析近年來在機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析等方面有廣泛應(yīng)用。610.1.2判別分析的類型按判別的組數(shù)來分,分為兩組判別分析、多組判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,分為線性判別、非線性判別;按判別對(duì)所處理的變量方法不同,分為逐步判別、序貫判別等;按判別準(zhǔn)則來分,有距離判別準(zhǔn)則、費(fèi)歇爾判別準(zhǔn)則、貝葉斯判別準(zhǔn)則等。710.1.2判別分析的類型線性判別分析(lineardiscriminantanalysis,LDA)是對(duì)費(fèi)歇爾的線性判別方法的歸納,這種方法使用統(tǒng)計(jì)學(xué)、模式識(shí)別和機(jī)器學(xué)習(xí)方法,試圖找到兩類物體或事件的特征的一個(gè)線性組合,以達(dá)到能夠特征化或區(qū)分它們。所得的組合可用來作為一個(gè)線性分類器,或者為后續(xù)的分類做降維處理。810.1.2判別分析的類型
910.1.3適用的數(shù)據(jù)范圍判別分析的目的是將未知屬性的數(shù)據(jù)分類。這部分未知屬性的數(shù)據(jù)可以是定性數(shù)據(jù)也可以是定量數(shù)據(jù)。在進(jìn)行分類的過程中,主要分析未知屬性的某些特征值,而這些特征值大都是定量數(shù)據(jù),分析出它們的數(shù)學(xué)特點(diǎn)后再進(jìn)行分類。10第2節(jié)判別分析方法1、距離判別2、貝葉斯判別3、費(fèi)歇爾判別4、逐步判別5、支持向量機(jī)判別6、隨機(jī)森林判別7、判別分析效果評(píng)價(jià)1110.2.1距離判別定義10.3距離判別(disecriminantbydistance):是以待判樣本到各測(cè)試樣本的距離遠(yuǎn)近為判據(jù)的一種直觀判別方法,也稱為直觀判別法。距離判別法的基本思想∶分別計(jì)算出已知數(shù)據(jù)各類的中心,然后計(jì)算出待測(cè)樣本與各類中心的距離,待測(cè)樣本與哪一類最近,就判斷待測(cè)樣本屬于哪一類。通常我們定義的距離是指歐式距離,但是它在距離判別中是不適用的。1210.2.1距離判別
1310.2.1距離判別
1410.2.2貝葉斯判別
1510.2.2貝葉斯判別
16似然比判決閾值10.2.3費(fèi)歇爾判別定義10.5費(fèi)歇爾判別(Fisherdiscriminant)∶費(fèi)歇爾判別是一種先進(jìn)行高維向低維投影,再根據(jù)距離判別的一種方法,也稱為線性判別法或費(fèi)歇爾判別法。費(fèi)歇爾判別法的基本思想∶通過將多維數(shù)據(jù)投影到某個(gè)方向上,投影的原則是將類與類之間盡可能地分開,然后再選擇合適的判別準(zhǔn)則,將待判的樣本進(jìn)行分類判別。17按照原來的變量(橫坐標(biāo)和縱坐標(biāo)),很難將這兩種點(diǎn)分開。沿著這個(gè)方向朝與這條虛線垂直的一條直線進(jìn)行投影會(huì)使得這兩類分得最清楚。10.2.3費(fèi)歇爾判別費(fèi)歇爾判別的幾何意義:把p維空間的點(diǎn)投影到一維空間(直線)上去,使各已知類在該直線上的投影盡可能分離。有了投影之后,再用前述的距離判別的方法來得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是費(fèi)歇爾判別法。從數(shù)學(xué)角度理解費(fèi)歇爾判別法:按照各類(總體)中的方差盡可能小、不同類中的均值之間差距盡可能大的原則,即類間距離最大而類內(nèi)離散度最小的原則求判別函數(shù),并利用判別函數(shù)進(jìn)行最小距離分類。1810.2.3費(fèi)歇爾判別
1910.2.3費(fèi)歇爾判別
2010.2.3費(fèi)歇爾判別
21得到10.2.3費(fèi)歇爾判別
2210.2.4逐步判別定義10.6逐步判別法(stepwisediscriminant)∶是利用一些檢驗(yàn)規(guī)則,對(duì)變量進(jìn)行逐步篩選,同時(shí)進(jìn)行判別的一種方法。在判別問題中,當(dāng)判別的變量個(gè)數(shù)多時(shí),如果全部選擇會(huì)使得計(jì)算量大、計(jì)算精度差,因此需要適當(dāng)?shù)睾Y選變量。這種可以篩選變量的分析方法統(tǒng)稱為逐步判別法。逐步判別法的基本思想∶從模型沒有變量開始,每一步都對(duì)模型進(jìn)行檢驗(yàn),把模型外對(duì)模型的判別力貢獻(xiàn)最大的變量加到模型中,將在模型中不符合留在模型中條件的變量剔除,直到判別式中變量都很顯著,且剩下來的變量也沒有重要的變量可引入判別式時(shí),逐步篩選結(jié)束。2310.2.4逐步判別
2410.2.4逐步判別
2510.2.4逐步判別
2610.2.4逐步判別
2710.2.4逐步判別非線性判別分類問題,一般有以下三種不同的處理方法。(1)傳統(tǒng)的模式識(shí)別技術(shù),側(cè)重于使用分段線性判別函數(shù)。(2)人工神經(jīng)元網(wǎng)絡(luò)(多層感知器等網(wǎng)絡(luò))對(duì)基于錯(cuò)誤修正法的感知準(zhǔn)則函數(shù)進(jìn)行拓展,并能夠?qū)崿F(xiàn)復(fù)雜的非線性分類,以及非線性函數(shù)擬合、非線性映射等。(3)支持向量機(jī)則提出了一種基于特征映射的方法,也就是使用某種映射,使得本來在原特征空間必須使用非線性分類技術(shù)才能解決的問題映射到一個(gè)新的空間后,使線性分類技術(shù)能夠繼續(xù)使用。2810.2.5支持向量機(jī)判別定義10.7支持向量機(jī)(supportvectormachine,SVM):在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法,又稱為支持向量網(wǎng)絡(luò)。支持向量機(jī)(SVM)算法比較適合圖像和文本等樣本特征較多的應(yīng)用場(chǎng)合?;诮Y(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,對(duì)樣本集進(jìn)行壓縮,解決了以往需要大樣本數(shù)量進(jìn)行訓(xùn)練的問題。它將文本通過計(jì)算抽象成向量化的訓(xùn)練數(shù)據(jù),提高了分類的精確率。2910.2.5支持向量機(jī)判別支持向量機(jī)的基本模型是在特征空間中尋找間隔最大化的分離超平面,使距離最近的樣本點(diǎn)到該超平面的距離盡可能地遠(yuǎn)。主要的應(yīng)用場(chǎng)景有字符識(shí)別,面部識(shí)別,行人檢測(cè),文本分類等領(lǐng)域。在機(jī)器學(xué)習(xí)領(lǐng)域,支持向量機(jī)SVM是一個(gè)有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識(shí)別、分類(異常值檢測(cè))以及回歸分析。3010.2.5支持向量機(jī)判別支持向量機(jī)分類的基本思想是利用最大間隔進(jìn)行分類,處理非線性問題是通過核函數(shù)將特征向量映射到高維空間,從而將其變成線性可分的,但是運(yùn)算卻是在低維空間運(yùn)行??紤]到數(shù)據(jù)中可能存在噪聲,分類過程中還引入了松弛變量。一個(gè)普通的SVM即一條直線,用來完美劃分線性可分的兩類,使其距離兩個(gè)類的點(diǎn)都一樣遠(yuǎn)。而支持向量就是這些離分界線最近的“點(diǎn)”。直線表示的是訓(xùn)練出的一個(gè)分類平面,將數(shù)據(jù)有效地分隔開。3110.2.5支持向量機(jī)判別針對(duì)訓(xùn)練數(shù)據(jù)的三種不同情況,將對(duì)應(yīng)不同的學(xué)習(xí)方法。1、線性可分SVM在二維空間上,兩類點(diǎn)被一條直線完全分開稱為線性可分。通過硬間隔最大化可以學(xué)習(xí)得到一個(gè)線性分類器,即硬間隔SVM。2、線性SVM當(dāng)訓(xùn)練數(shù)據(jù)不能線性可分但是可以近似線性可分時(shí),通過軟間隔最大化也可以學(xué)習(xí)到一個(gè)線性分類器,即軟間隔SVM。我們?cè)试S個(gè)別樣本點(diǎn)出現(xiàn)在間隔帶里面。3210.2.5支持向量機(jī)判別3、非線性SVM樣本點(diǎn)不是線性可分的,這種情況的解決方法就是∶將二維線性不可分樣本映射到高維空間,讓樣本點(diǎn)在高維空間線性可分對(duì)于在有限維度向量空間中線性不可分的樣本,將其映射到更高維度的向量空間,再通過間隔最大化的方式,學(xué)習(xí)得到支持向量機(jī),就是非線性SVM。當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),通過使用核技巧和軟間隔最大化,可以學(xué)習(xí)到一個(gè)非線性SVM。當(dāng)SVM模型訓(xùn)練成功后,運(yùn)用機(jī)器學(xué)習(xí)相關(guān)算法根據(jù)一組向量對(duì)后續(xù)向量進(jìn)行分類3310.2.6隨機(jī)森林判別定義10.8隨機(jī)森林(randomforest)∶利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器,其輸出的類別由個(gè)別樹輸出的類別的眾數(shù)而定。隨機(jī)森林是通過集成學(xué)習(xí)的思想,將多棵決策樹進(jìn)行集成的算法,是最常用也是最強(qiáng)大的監(jiān)督學(xué)習(xí)算法之一,兼顧了解決回歸問題和分類問題的能力。對(duì)于分類問題,其輸出的類別是由個(gè)別樹輸出的眾數(shù)所決定的。在回歸問題中,把每一棵決策樹的輸出進(jìn)行平均得到最終的回歸結(jié)果。決策樹的數(shù)量越大,隨機(jī)森林算法的魯棒性越強(qiáng),精確度越高。3410.2.6隨機(jī)森林判別
35生成原理10.2.6隨機(jī)森林判別
36生成原理10.2.7判別分析效果評(píng)價(jià)
3710.2.7判別分析效果評(píng)價(jià)誤判概率主要可通過回顧性、前瞻性和刀切法三種方法獲得。(1)回顧性。用建立判別函數(shù)的樣本回代判別。如某例22個(gè)樣本中,有4例誤判,則4/22≈18.2%為該判別函數(shù)的誤判概率。回顧性誤判概率估計(jì)往往夸大判別效果。(2)前瞻性。是指在建立判別函數(shù)前,將樣本隨機(jī)分成兩個(gè)部分,分別占總樣本量的85%和15%。前者用于建立判別函數(shù)(即訓(xùn)練樣本),后者用于考核判別函數(shù)的判別效果(即驗(yàn)證樣本),用驗(yàn)證樣本計(jì)算的誤判概率作為前瞻性誤判概率估計(jì)。前瞻性誤判概率估計(jì)則比較客觀。3810.2.7判別分析效果評(píng)價(jià)
3940第一步在【數(shù)據(jù)區(qū)】輸入需要進(jìn)行分析的數(shù)據(jù),并在【變量視圖】修改變量名字、類型、確定計(jì)算精度,注意樣式、包裝、耐久性三項(xiàng)數(shù)值型評(píng)分可以有計(jì)算精度,而類別數(shù)據(jù)是定性數(shù)據(jù),不需要計(jì)算精度。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評(píng)估41第二步選擇【分析】→【分類】→【判別式】,如圖10-6所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評(píng)估42第三步把在左側(cè)的參數(shù)分組變量與因變量移至右側(cè),點(diǎn)擊【定義范圍】按鍵,定義類別的范圍,注意這個(gè)類別需要是自然數(shù)1,2,3,…在本案例中,分組的變量分別是組1與組2,因此定義分組變量的范圍時(shí)義成1~2即可,如圖10-7所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評(píng)估43第四步點(diǎn)擊【統(tǒng)計(jì)】,對(duì)描述、矩陣、函數(shù)系數(shù)進(jìn)行選擇,如圖10-8所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評(píng)估44第五步點(diǎn)擊【分類】進(jìn)行先驗(yàn)概率、使用協(xié)方差矩陣、顯示、圖的選擇,同時(shí)還可以對(duì)缺失值平均值的替代進(jìn)行填充,如圖10-9所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評(píng)估45第六步點(diǎn)擊【保存】,進(jìn)行預(yù)測(cè)操作,如圖10-10所示。第3節(jié)SPSS操作實(shí)例引入案例分析:產(chǎn)品評(píng)估46第七步點(diǎn)擊【確定】后得到最終分析結(jié)果∶首先是預(yù)測(cè)結(jié)果,回到數(shù)據(jù)界面,發(fā)現(xiàn)數(shù)據(jù)界而新增了4列(見圖10-11),分別是【Dis_1】—預(yù)測(cè)組別結(jié)果;【Dis1_1】—判別得分∶【Dis1_2】、【Dis2_2】—每個(gè)個(gè)案的分組概率,結(jié)果證明待測(cè)產(chǎn)品屬于"受歡迎"的類別,解決了引入案例提出的問題。同時(shí),預(yù)測(cè)結(jié)果對(duì)已知產(chǎn)品的估計(jì)也是十分準(zhǔn)確的,說明預(yù)測(cè),過程是正確的。第3節(jié)SPSS操作實(shí)例47第七步點(diǎn)擊【確定】后得到最終分析結(jié)果∶除了預(yù)測(cè)結(jié)果,SPSS的判別分析還得到了許多判別結(jié)果。個(gè)案分析如表10-2所示,各組均值分析如表10-3所示。該問題是有統(tǒng)計(jì)學(xué)的研究意義的第3節(jié)SPSS操作實(shí)例表10
-
2分析個(gè)案處理摘要未加權(quán)個(gè)案?jìng)€(gè)案數(shù)百分比/%有效1292.3排除缺失或超出范圍組代碼17.7至少一個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 筆記重點(diǎn)2025年證券從業(yè)資格證考試試題及答案
- 長(zhǎng)期投入的證券從業(yè)資格證試題及答案
- 項(xiàng)目團(tuán)隊(duì)績(jī)效管理的考試題型分析試題及答案
- 探索注冊(cè)會(huì)計(jì)師考試的行業(yè)背景與變化趨勢(shì)試題及答案
- 2025年證券從業(yè)資格理解與運(yùn)用試題及答案
- 財(cái)務(wù)報(bào)告審核技巧試題及答案2025
- 注冊(cè)會(huì)計(jì)師考試學(xué)術(shù)研究對(duì)提高專業(yè)素養(yǎng)的貢獻(xiàn)探討試題及答案
- 項(xiàng)目目標(biāo)與設(shè)計(jì)思路的有效結(jié)合試題及答案
- 員工心理健康與支持措施計(jì)劃
- 把握2025年證券從業(yè)資格證考試機(jī)會(huì)試題及答案
- 2025年華潤(rùn)電力控股有限公司招聘筆試參考題庫含答案解析
- 2023托福聽力高分筆記
- 全國班主任比賽一等獎(jiǎng)班主任經(jīng)驗(yàn)交流《春風(fēng)化為雨潤(rùn)物細(xì)無聲》精美課件
- 高一年級(jí)《沂蒙精神進(jìn)校園》班會(huì) 《沂蒙精神進(jìn)校園》 課件
- 物業(yè)應(yīng)急演練計(jì)劃應(yīng)急預(yù)案演練計(jì)劃
- 2025年中國華電招聘筆試參考題庫含答案解析
- 高一年級(jí)總結(jié)暨表彰大會(huì)校長(zhǎng)講話希望同學(xué)們以本次考試為起點(diǎn)用行動(dòng)來踐行自己對(duì)家長(zhǎng)的承諾
- 知識(shí)產(chǎn)權(quán)合規(guī)管理體系解讀
- 專題12:賓語從句 -2023年中考英語考試研究(解析版)(上海專用)
- GB/T 2624.5-2024用安裝在圓形截面管道中的差壓裝置測(cè)量滿管流體流量第5部分:錐形裝置
- 消防施工方案范本完整版
評(píng)論
0/150
提交評(píng)論