商業(yè)分析第6章-商業(yè)數(shù)據(jù)分析方法ppt課件_第1頁
商業(yè)分析第6章-商業(yè)數(shù)據(jù)分析方法ppt課件_第2頁
商業(yè)分析第6章-商業(yè)數(shù)據(jù)分析方法ppt課件_第3頁
商業(yè)分析第6章-商業(yè)數(shù)據(jù)分析方法ppt課件_第4頁
商業(yè)分析第6章-商業(yè)數(shù)據(jù)分析方法ppt課件_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、商 業(yè) 分 析,商業(yè)數(shù)據(jù)的分析、挖掘和應(yīng)用,華東師范大學(xué)出版社,第6章 商業(yè)數(shù)據(jù)分析方法,本章主要內(nèi)容,回歸分析介紹 回歸分析是處理變量之間關(guān)系的一種統(tǒng)計(jì)方法和技術(shù),其基本思想、方法以及“回歸(Regression)”名稱的由來都要?dú)w功于英國統(tǒng)計(jì)學(xué)家FGalton(18221911,回歸分析,回歸分析主要解決以下幾方面的問題: 通過分析大量的樣本數(shù)據(jù),確定變量之間的數(shù)學(xué)關(guān)系式。 對所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。 利用所確定的數(shù)學(xué)關(guān)系式,根據(jù)一個或幾個變量的值來預(yù)測或控制另一個特定變量的取值,并給出這種預(yù)測或控制的精確度

2、,回歸分析,一元線性回歸分析 一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析某一個因素(自變量)是如何影響另一事物(因變量)的過程,所進(jìn)行的分析是比較理想化的。其實(shí),在現(xiàn)實(shí)社會生活中,任何一個事物(因變量)總是受到其他多種事物(多個自變量)的影響,回歸分析,一元線性回歸模型的確定,回歸分析,利用t檢驗(yàn)和F檢驗(yàn)分別檢驗(yàn)回歸系數(shù)和一元線性回歸方程是否顯著。如兩者均顯著,說明該數(shù)據(jù)可以用一元線性回歸模型來擬合,否則要考慮其他模型,呈線性關(guān)系,不呈線性分布,回歸模型的顯著性檢驗(yàn)問題 通過樣本數(shù)據(jù)建立一個回歸方程后,不能立即用于對某個實(shí)際問題的預(yù)測。因?yàn)椋瑢?yīng)用最小二乘法求得的

3、樣本回歸直線作為對總體回歸直線的近似,這種近似是否合理必須通過各種統(tǒng)計(jì)檢驗(yàn)。一般經(jīng)常使用以下的統(tǒng)計(jì)檢驗(yàn),回歸分析,回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn)) 所謂回歸系數(shù)的顯著性檢驗(yàn),就是根據(jù)樣本估計(jì)的結(jié)果對總體回歸系數(shù)的有關(guān)假設(shè)進(jìn)行檢驗(yàn),也就是檢驗(yàn)斜率。 回歸系數(shù)顯著性檢驗(yàn)的基本步驟,回歸分析,Eg.一元線性回歸 回歸模型:y=0+1x+ (x為自變量,y為因變量, 0為截距, 1為斜率(回歸系數(shù)), 為誤差變量。) 指定 H0:1=0;備擇假設(shè)為H1: 10 檢驗(yàn)統(tǒng)計(jì)量為: 其中,Sb1是b1的標(biāo)準(zhǔn)偏差(標(biāo)準(zhǔn)誤差,回歸分析,為標(biāo)準(zhǔn)誤差,如果誤差變量服從正態(tài)分布,那么檢驗(yàn)統(tǒng)計(jì)量服從自由度為n-2的t分布

4、。拒絕域?yàn)?。 當(dāng)原假設(shè)為真,就說明兩個變量間沒有線性關(guān)系;當(dāng)備選假設(shè)為真,則兩個變量存在某種線性關(guān)系。 SPSS的實(shí)際操作中,我們只要關(guān)注t檢驗(yàn)的顯著性(Significance)值(sig值)。我們一般將這個sig值與0.05比較,當(dāng)sig值小于0.05,我們認(rèn)為差別顯著;當(dāng)sig值大于0.05,我們認(rèn)為差別不顯著;sig值越小,說明差別越顯著,回歸系數(shù)越顯著,回歸分析,擬合優(yōu)度檢驗(yàn) 回歸方程的擬合優(yōu)度檢驗(yàn)就是要檢驗(yàn)樣本數(shù)據(jù)聚集在樣本回歸直線周圍的密集程度,從而判斷回歸方程對樣本數(shù)據(jù)的擬合程度。 回歸方程的擬合優(yōu)度檢驗(yàn)一般用判定系數(shù)(Coefficient of Determination

5、)實(shí)現(xiàn),用R2表示。該指標(biāo)建立在對總離差平方和進(jìn)行分解的基礎(chǔ)之上。測定多元線性回歸的擬合程度,與一元線性回歸中的判定系數(shù)類似,使用調(diào)整后的判定系數(shù),回歸分析,擬合優(yōu)度檢驗(yàn),回歸分析,yi和 的離差可以進(jìn)一步分解為兩部分,如果對等式兩邊各項(xiàng)求平方,并把所有樣本點(diǎn)加起來,進(jìn)行一些代數(shù)運(yùn)算可得,方程的左邊衡量了因變量y的差異。方程右邊的第一項(xiàng)用SSE表示,第二項(xiàng)用SSR表示,為回歸平方和(Sum of Squares for Regression,SSR,Y的差異=SSE+SSR,因此將差異分解為兩個部分:SSE度量y中不可解釋的差異部分;SSR度量y中可以被自變量x的差異解釋的差異部分。把這個分析

6、過程整合到R2的定義中去: 因此,R2衡量了y的差異中能夠被x的差異解釋的部分在總差異中所占的比例。一般來說,R2的值越大,模型擬合數(shù)據(jù)的效果就越好,回歸分析,回歸方程的顯著性檢驗(yàn)(F檢驗(yàn)) 回歸方程的顯著性檢驗(yàn)是對因變量與所有自變量之間的線性關(guān)系是否顯著的一種假設(shè)檢驗(yàn)。回歸方程的顯著性檢驗(yàn)一般采用F檢驗(yàn),利用方差分析的方法進(jìn)行。 檢驗(yàn)統(tǒng)計(jì)量為: 拒絕域?yàn)?回歸分析,因變量的總差異可以分解為可解釋的差異和不可解釋的差異兩個部分: 而F=MSR/MSE,因此,若F值較大,表明因變量的總差異中可被回歸方程解釋的部分所占的比例較大,回歸模型有效 在SPSS軟件的實(shí)際操作中,我們也主要觀察它的sig值

7、,只要sig小于0.05,我們就認(rèn)為回歸模型是顯著的,回歸分析,多元線性回歸分析 一元線性回歸問題只涉及了一個自變量,但在實(shí)際問題中,影響因變量的因素往往有多個。 在線性相關(guān)條件下,研究兩個或兩個以上自變量對一個因變量的數(shù)量變化關(guān)系,稱為多元線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式,稱為多元線性回歸模型。 多元線性回歸模型是一元線性回歸模型的擴(kuò)展,其基本原理與一元線性回歸模型類似,只是在計(jì)算上更為復(fù)雜,一般需借助計(jì)算機(jī)來完成。多元線性回歸模型的確定時常用逐步回歸方法(Stepwise,回歸分析,逐步回歸法是對全部的自變量(X1,X2,Xp)對Y貢獻(xiàn)的大小進(jìn)行比較,并通過F檢驗(yàn)法選擇偏回歸平方和

8、顯著的變量進(jìn)入回歸方程,每一步只引入一個變量,同時建立一個偏回歸方程,回歸分析,在引入了兩個自變量以后,便開始考慮是否有需要剔除的變量,當(dāng)回歸方程中的所有自變量對Y都有顯著影響而不需要剔除時,不論引入還是剔除一個變量都被稱為一步。不斷重復(fù)這一過程,直至無法剔除已引入的變量,也無法再引入新的自變量,逐步回歸過程結(jié)束,多元線性回歸中還需要注意多元共線性問題。多重共線性指自變量間存在線性相關(guān)關(guān)系,即一個自變量可以用其他一個或幾個自變量的線性表達(dá)式進(jìn)行表示。 多元共線性會有兩個不利影響: 1. 估計(jì)回歸系數(shù)時會產(chǎn)生較大的抽樣誤差 2. 會影響系數(shù)的t檢驗(yàn),使依據(jù)t檢驗(yàn)做出的是否線性相關(guān)的推斷發(fā)生錯誤,

9、回歸分析,為了避免或者修正多元共線性,我們采用兩種方法: 1. 在建立模型時要盡可能確保自變量之間的相互獨(dú)立性 2. 另一個是逐步回歸 只有當(dāng)某個自變量能夠改變模型的擬合效果時,才把它放在模型中。如果兩個自變量強(qiáng)烈相關(guān),那么要對自變量進(jìn)行合并或?qū)⒅貜?fù)的自變量刪除,才可以最小化多元共線性的影響,回歸分析,實(shí)際運(yùn)用中多重共線性主要有以下幾種類型表現(xiàn): 1. 整個模型的方差分析檢驗(yàn)結(jié)果為(為顯著性水平),但各自變量的偏回歸系數(shù)的統(tǒng)計(jì)學(xué)檢驗(yàn)結(jié)果卻是; 2. 專業(yè)上認(rèn)為應(yīng)該有統(tǒng)計(jì)學(xué)意義的自變量檢驗(yàn)結(jié)果,卻無統(tǒng)計(jì)學(xué)意義; 3. 自變量的偏回歸系數(shù)取值大小甚至符號明顯與實(shí)際情況相違背,難以解釋; 4. 增加

10、或刪除一個自變量或一條記錄,自變量偏回歸系數(shù)發(fā)生較大變化,回歸分析,對于多重共線性的識別,可以通過SPSS中Statistics(統(tǒng)計(jì)量)子對話框中的Collinearity Diagnostics(共線性診斷)復(fù)選框予以實(shí)現(xiàn)。復(fù)選框Collinearity Diagnostics提供以下統(tǒng)計(jì)量: 1. 容忍度(Tolerance) 2. 方差膨脹因子(Variance Inflation Factor, VIF) 3. 特征根(Eigenvalue) 4. 條件指數(shù)(Condition Index,回歸分析,含虛擬自變量的回歸分析 數(shù)量變量、定量變量或數(shù)量因素:可以直接用數(shù)字計(jì)量的因變量和自

11、變量,即可以獲得實(shí)際觀測值(如收入、支出、產(chǎn)量、國內(nèi)生產(chǎn)總值等) 非數(shù)量型的變量:性別、民族、職業(yè)、文化程度、地區(qū)、正常年份與干旱年份、改革前與改革后等定性變量 定性變量作數(shù)量化處理:引進(jìn)只取“0”和“1”兩個值的虛擬自變量。當(dāng)某一屬性出現(xiàn)時,虛擬變量取值為“1”,否則取值為“0”。 對于包含一個具有k種特征或狀態(tài)的質(zhì)因素的回歸模型,如果回歸模型沒有常數(shù)項(xiàng),則需引入k個01型虛擬變量D;如果有常數(shù)項(xiàng),則只需引入k1個01型虛擬變量D。當(dāng)k=2時,只需要引入一個01型虛擬變量D,回歸分析,含調(diào)節(jié)變量的回歸分析 如果變量Y與變量X有關(guān)系,并且這個關(guān)系受到第三個變量M的影響,那么變量M就是調(diào)節(jié)變量。

12、 調(diào)節(jié)變量影響自變量和因變量之間的關(guān)系,既可以是定性的(比如性別、受教育程度等),也可以是定量的(比如年齡、工資收入),它影響自變量和因變量之間關(guān)系的方向(正負(fù))和程度(強(qiáng)弱,回歸分析,簡要模型: Y = aX + bM + cXM + e Y與X的關(guān)系由回歸系數(shù)a+bM來刻畫,它是M的線性函數(shù),c衡量了調(diào)節(jié)效應(yīng)(Moderating Effect)的大小。如果c顯著,說明M的調(diào)節(jié)效應(yīng)顯著,回歸分析,討論調(diào)節(jié)變量的調(diào)節(jié)效應(yīng),可分為以下情況: 1. 當(dāng)自變量是類別變量,調(diào)節(jié)變量也是類別變量時,用兩因素交互效應(yīng)的方差分析,交互效應(yīng)即調(diào)節(jié)效應(yīng); 2. 當(dāng)調(diào)節(jié)變量是連續(xù)變量時,自變量使用偽變量,將自變

13、量和調(diào)節(jié)變量中心化,使用上述公式做層次回歸分析: 做Y對X和M的回歸,得測定系數(shù)R21; 做Y對X、M和XM的回歸得R22,若R22顯著高于R21,則調(diào)節(jié)效應(yīng)顯著?;蛘?,作XM的回歸系數(shù)檢驗(yàn),若顯著,則調(diào)節(jié)效應(yīng)顯著; 3. 當(dāng)自變量是連續(xù)變量,調(diào)節(jié)變量是類別變量時,分組回歸應(yīng)按M的取值分組,做Y對X的回歸。若回歸系數(shù)的差異顯著,則調(diào)節(jié)效應(yīng)顯著,調(diào)節(jié)變量是連續(xù)變量時,同上述公式的層次回歸分析,回歸分析,多元線性回歸分析在的商業(yè)應(yīng)用案例,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,自變量:評論深度(字?jǐn)?shù))、評論極性(正面或負(fù)面)、產(chǎn)品類型 因變量:評論有用性 H1:商品類

14、型會為評論極性對評論有用性的影響起到顯著的調(diào)節(jié)作用。對于體驗(yàn)型商品,中立評價的作用比極端評價更顯著。 H2a:負(fù)面評論的在線評論有用性大于正面評論。 H2b:較體驗(yàn)型商品,正面評論對搜索型商品的有用性更高。 H2c:較體驗(yàn)型商品,負(fù)面評論對搜索型商品的有用性更高。 H2d:較搜索型商品,體驗(yàn)型商品的正面評論與負(fù)面評論的有用性差異更大。 H3:評論深度對評論有用性具有顯著的正向影響作用。 H4:商品類型會為評論深度對評論有用性的影響起到顯著的調(diào)節(jié)作用,與體驗(yàn)型商品相比,評論深度對有用性的正向影響在搜索型商品中更為明顯,回歸分析,數(shù)據(jù)來源:卓越亞馬遜() 研究樣本:體驗(yàn)型和搜索型兩種商品類型中的6

15、個大類下的12種商品。搜索型商品選擇U盤、手機(jī)和路由器,體驗(yàn)型商品選擇了音樂CD、書籍和化妝品。 對商品的基本信息和在線評論進(jìn)行抓取,主要通過火車頭采集器進(jìn)行 每條評論包括以下數(shù)據(jù):評論星級;評論總投票數(shù);評論有用票數(shù);評論者;評論時間;評論文本內(nèi)容 根據(jù)研究需求對采集到的在線評論進(jìn)行篩選 共得到2157條較高質(zhì)量的在線評論,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,自變量:評論星級Start_Rating;評論深度Review_Depth 調(diào)節(jié)變量:商品類型Product_Type;評論極性Review_Extremity 因變量:評論有用性Helpfulness

16、% 控制變量:投票總數(shù)Total_Votes,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,檢驗(yàn)H1、H3、H4采用的回歸方程: Helpfulness % =0 +1Star_Rating + 2Review_Depth + 3Product_Type+ 4Total_Votes + 5Star_Rating Product_Type+ 6Review _Depth Product_Type + 檢驗(yàn)H2a、H2b、H2c、H2d采用的回歸方程: Helpfulness % = 0 +1Product_Type + 2Review_Extremity + 3Revie

17、w_Extremity Product_Type +,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,調(diào)整后的R2=0.384,達(dá)到同類研究水平,方程擬合度較高,p值=0.000表明各指標(biāo)對評論有用性存在顯著的影響,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,為進(jìn)一步探究搜索型商品與體驗(yàn)型商品的具體調(diào)節(jié)作用,分別對其進(jìn)行多元線性回歸分析 對于體驗(yàn)型商品,評論星級Star_Rating(p=0.000)和Star_Rating2(p=0.018)對評論有用性有顯著影響。 對于搜索

18、型商品,評論星級Star_Rating(p=0.069)對評論有用性沒有顯著影響,而Star_Rating2(p=0.035)對評論有用性有顯著影響。 假設(shè)H1成立,即商品類型會使評論極性對評論有用性的影響起到調(diào)節(jié)作用,且對于體驗(yàn)型商品,中立評價的作用比極端評價更顯著,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,0,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,0,回歸分析,商業(yè)數(shù)據(jù) 的采集,變量的確定,回歸方程,模型構(gòu)建和假設(shè)形成,體驗(yàn)型商品和搜索型商品,p值0.05,且系數(shù)均為正,表明評論長度越長,有用性越高,即評論深度會對評論有用性產(chǎn)生顯

19、著的正向影響,假設(shè)H3成立。 模型輸出結(jié)果中Review_Depth Product_Type(p=0.009)可知商品類型使評論深度對評論有用性的影響起到顯著調(diào)節(jié)作用,而其系數(shù)為正,則評論深度對評論有用性的正向影響作用在搜索型商品中更為明顯,假設(shè)H4成立。 商品類型與評論極性的交互影響會影響到在線評論的有用性,我們發(fā)現(xiàn)在體驗(yàn)型商品中,中立評價比極端評價(無論是正面評論還是負(fù)面評論)更有用。 與體驗(yàn)型商品相比較,獲取搜索型商品的客觀信息對于消費(fèi)者更加便利有用,消費(fèi)者在瀏覽在線評論時會更多地關(guān)注字?jǐn)?shù)較多的評論,從中達(dá)到了解商品優(yōu)劣的目的,6.2.1 Logistic回歸簡介 線性回歸中的因變量是

20、定量變量,但是當(dāng)因變量的取值為兩個或兩個以上的定性變量時,之前介紹的回歸模型就無法解決了。 而事實(shí)上,無論是在社會科學(xué)還是經(jīng)濟(jì)生活中,我們常常會遇到這種情況(男性還是女性?買還是不買?用戶購買某商品是受何種因素影響:年齡?性別?收入水平?)。因?yàn)檫@些定性變量的誤差項(xiàng)不呈現(xiàn)正態(tài)分布,不能夠滿足線性回歸要求的正態(tài)分布假設(shè),而且普通線性回歸模型的預(yù)測值可能不在01之間,無法解釋某件事件發(fā)生的概率,6.2 Logistic回歸簡介,能否建立類似于線性回歸的模型,對這種數(shù)據(jù)加以分析? 以最簡單的二分類因變量為例來加以探討,為了討論方便,常定義出現(xiàn)陽性結(jié)果時因變量取值為1,反之則取值為0。例如當(dāng)領(lǐng)導(dǎo)層出有

21、女性職員、下雨、痊愈、是潛在消費(fèi)者時反應(yīng)變量y1,而沒有女性職員、未下雨、未痊愈時y0。記出現(xiàn)陽性結(jié)果的頻率為p(y1)。很顯然,6.2.1 Logistic回歸簡介,Logistic回歸是對定性變量的回歸分析。可用于處理定性因變量的統(tǒng)計(jì)分析方法有:判別分析(Discriminant Analysis)、Probit分析、Logistic回歸分析和對數(shù)線性模型等。 Logistic回歸分析根據(jù)因變量取值類別不同,又可以分為二元回歸(Binary Logistic)分析和多元回歸(Multinomi-nal Logistic)分析。 Binary Logistic回歸模型中因變量只能取兩個值1和

22、0(虛擬因變量),而Multinomial Logistic回歸模型中因變量可以取多個值,6.2.1 Logistic回歸簡介,Logistic回歸屬于多重變量分析的范疇,其實(shí)質(zhì)是利用概率的形式,通過Logit函數(shù)變換,將自變量與非連續(xù)性的因變量的關(guān)聯(lián)轉(zhuǎn)化為特定的對數(shù)線性關(guān)系。這種回歸方法一方面避免了對變量類型和變量分布的嚴(yán)格限定,另一方面又能保留線性回歸的直觀性,從而更好地對因變量的影響因素進(jìn)行分析和篩選,對因變量的產(chǎn)生進(jìn)行描述和預(yù)測,6.2.1 Logistic回歸簡介,Logistic回歸的用途可歸納為三個方面: 尋找影響因素:根據(jù)不同的研究目的,分析尋找影響研究結(jié)果的因素,即尋找定性因

23、變量。 預(yù)測:建立logistic回歸模型,根據(jù)模型,預(yù)測在不同的因變量情況下,發(fā)生某些情況的概率有多大。如銀行可以根據(jù)用戶的年齡、性別、購房、貸款信息等預(yù)測客戶還款情況。 判別:實(shí)際上跟預(yù)測有些類似,也是根據(jù)logistic模型,判斷人們可能的行為,還以銀行還款為例,即根據(jù)模型判別該用戶還款的幾率有多大,6.2.2 Logistic回歸的目的與用途,1、二元Logistic回歸模型 假設(shè)某一事件Y可能有兩種結(jié)果,發(fā)生(Y=1)和不發(fā)生(Y=0),該事件成功的概率P=Pr(Y=1)可以用Logistic模型表示為: 上式可推出: 為截距; 和 =1,2,.,k,是第j個自變量和該自變量的待估系

24、數(shù)?;貧w系數(shù)的大小和符號可以揭示不同自變量與發(fā)生概率直接關(guān)系,6.2.3 Logistic回歸模型,2、多元Logistic回歸模型 當(dāng)Y=1,2,3.n時,使用如下模型: 代表截距大小, 為回歸系數(shù), 代表獨(dú)立變量,6.2.3 Logistic回歸模型,6.2.4 Logistic回歸的分析步驟,1. 定義業(yè)務(wù)目標(biāo) 定義業(yè)務(wù)目標(biāo)是根據(jù)研究目的確定因變量和自變量。 與客戶購買保險產(chǎn)品行為有關(guān)的因變量包括年齡、性別、文化程度、收入、健康狀況、對風(fēng)險的認(rèn)識等,可以賦予這些因變量的值有1或0。 自變量也叫協(xié)變量,是指那些對因變量有影響的變量。自變量的確定要根據(jù)經(jīng)驗(yàn)和實(shí)際研究情況來確定,以客戶購買保險

25、產(chǎn)品行為為例,自變量可能是客戶所處的行業(yè)、地區(qū)、宗教信仰等,6.2.4 Logistic回歸的分析步驟,2. 估計(jì)回歸系數(shù) Logistic回歸系數(shù)一般由極大似然法(Maximum likelihood method)估算,以便估計(jì)的P當(dāng)Y=0時接近0,Y=1時接近1。自變量的取舍通常根據(jù)極大似然比(MLR)或者協(xié)方差近似估計(jì)(ACE)以逐步回歸的方式進(jìn)行。通常從數(shù)據(jù)中選取60%-70%的樣本作為估計(jì)回歸系數(shù)的建模樣本,其余的作為檢驗(yàn)?zāi)P蛿M合情況的驗(yàn)證樣本,6.2.4 Logistic回歸的分析步驟,3. 顯著性檢驗(yàn) 當(dāng)回歸系數(shù)不是很大時,可以用沃氏檢驗(yàn)(Wald test)檢驗(yàn)其顯著水平。該

26、統(tǒng)計(jì)量是建立在極大似然法估計(jì)的近似正態(tài)分布基礎(chǔ)上,可用下式估算: W=( /s.e.( )) 是某個預(yù)測變量的Logistic回歸系數(shù)估計(jì)值,s.e.( )是該系數(shù)的標(biāo)準(zhǔn)誤差。Wald統(tǒng)計(jì)量呈卡方分布,如果預(yù)測變量時定量變量,其自由度為1,如果預(yù)測變量是分類變量,其自由度為類別數(shù)減1。 實(shí)際上,也可以用參數(shù)估計(jì)值除以其標(biāo)準(zhǔn)誤差計(jì)算t值,然后用t檢驗(yàn)對參數(shù)為0的假設(shè)進(jìn)行檢驗(yàn),其自由度為樣本數(shù)減估計(jì)的參數(shù)個數(shù)。大樣本時可以用z檢驗(yàn),4. 解釋結(jié)果 截距決定假設(shè)所有變量值為0時事件發(fā)生的概率?;貧w系數(shù)表示事件發(fā)生概率與Xj之間的關(guān)系。 0,表示Xj與事件發(fā)生概率正相關(guān), 0,表示負(fù)相關(guān), =0表示X

27、j與事件發(fā)生概率無關(guān),6.2.4 Logistic回歸的分析步驟,確定業(yè)務(wù)目標(biāo) Logistic回歸模型可用于解決銀行對用戶提前還貸款情況的預(yù)測。我們首先從企業(yè)業(yè)務(wù)視角定義業(yè)務(wù)目標(biāo): 預(yù)測房貸客戶提前還款的可能性; 分析客戶提前還款的特征; 減少客戶提前還款率,6.2.5 Logistic回歸案例,定義目標(biāo)變量 解決該問題的原理為,通過房貸的基本屬性和客戶歷史行為預(yù)測客戶未來提前還款的可能性。表現(xiàn)期:標(biāo)識客戶未來是否提前還款的時間段(3個月)。模型目標(biāo):預(yù)測客戶未來三個月大幅提前還款,6.2.5 Logistic回歸案例,6.2.5 Logistic回歸案例,表6-5 目標(biāo)變量及含義,建模算法

28、 Logistic回歸模型的一般形式為: (6.13) 其中是P是流失概率, 代表截距大小, 為回歸系數(shù), 代表獨(dú)立變量。 因?yàn)樵摪咐龜?shù)據(jù)來源于銀行數(shù)據(jù)倉庫, Logistic回歸分析結(jié)果如表6-6所示,6.2.5 Logistic回歸案例,6.2.5 Logistic回歸案例,表6-6 Logistic回歸結(jié)果表,根據(jù)表6-6可以看出,表中所有的變量均顯著,即認(rèn)為這些因素都會影響客戶的還款。具體的指標(biāo)解釋如下,6.2.5 Logistic回歸案例,表6-7 指標(biāo)解釋,從而可得到可能提前還款的用戶特征為: 產(chǎn)品數(shù)和賬戶數(shù)較少 開戶時間較短,年齡偏小 貸方交易不活躍 借方交易次數(shù)較多 大額資金轉(zhuǎn)

29、出或取現(xiàn) 銷戶數(shù)增加 可根據(jù)這些特征對用戶采取挽留的措施,6.2.5 Logistic回歸案例,6.3 時間序列分析,如果歷史數(shù)據(jù)受變量過去值的制約,這種預(yù)測方法叫時間序列分析方法。該方法的目的是在歷史資料中發(fā)現(xiàn)規(guī)律性的軌跡,然后將這個軌跡推到未來。這種預(yù)測依賴于歷史數(shù)據(jù)和歷史預(yù)測誤差,6.3.1時間序列的構(gòu)成要素和分析步驟,時間序列概念: 時間序列,也叫時間數(shù)列,它是把不同時間狀態(tài)下的統(tǒng)一指標(biāo)按照時間的先后順序排列得到的數(shù)列。時間序列中取值的時間間隔可以是年份、季度、月份、天或小時等其他時間形式。所取數(shù)值可以是瞬間值,我們稱之為時點(diǎn)值,也可以是某一階段的累加值,即時期值,如,某一天12:00

30、時的網(wǎng)頁點(diǎn)擊量是時點(diǎn)值,超市的年?duì)I業(yè)額是時期值,2. 時間序列的構(gòu)成要素,時間序列數(shù)值隨著時間的統(tǒng)計(jì)特性呈現(xiàn)出多樣化的規(guī)律和特征。為了把握時間序列數(shù)值的規(guī)律,傳統(tǒng)統(tǒng)計(jì)學(xué)在研究大量實(shí)例后發(fā)現(xiàn),按其特點(diǎn)和綜合影響結(jié)果將時間序列分為四種不同的成分。一個時間序列往往是這四種要素的疊加或耦合。 長期趨勢(Long Term Trend,T)。 季節(jié)變動(Seasonal component,S)。 循環(huán)變動(Cyclical component,C)。 不規(guī)則變動/隨機(jī)變動(Irregular Component,I,時間序列由以上四種成分根據(jù)成分之間的關(guān)系進(jìn)行組合而成。組合的方式主要有兩種: 一種是加

31、法模型:Y=T+S+C+I 一種是乘法模型:Y=T*S*C*I,3. 時間序列分析的步驟,6.3.2 時間序列分析預(yù)測方法,指數(shù)平滑法簡介 指數(shù)平滑法是生產(chǎn)預(yù)測中常用的一種方法。也用于中短期經(jīng)濟(jì)發(fā)展趨勢預(yù)測,據(jù)平滑次數(shù)不同,指數(shù)平滑法分為:一次指數(shù)平滑法、二次指數(shù)平滑法和三次指數(shù)平滑法等。 當(dāng)時間數(shù)列無明顯的趨勢變化,可用一次指數(shù)平滑預(yù)測。二次指數(shù)平滑是對一次指數(shù)平滑的再平滑。它適用于具線性趨勢的時間數(shù)列。三次指數(shù)平滑預(yù)測是二次平滑基礎(chǔ)上的再平滑,指數(shù)平滑法案例,表6-8是一家制鞋公司在2010年、2011年、2012年皮鞋、雨鞋和膠鞋的銷售量數(shù)據(jù)(單位,雙)。由圖6-4、圖6-5、圖6-6可

32、知,各類鞋子的時間數(shù)列無明顯的趨勢變化,故本文將選用一次平滑指數(shù)計(jì)算皮鞋、雨鞋、和膠鞋在2013年一月的銷售數(shù)量。這里的 值選定為0.4,2)季節(jié)分解法簡介,季節(jié)趨勢預(yù)測法是對包含季節(jié)變動的時間序列進(jìn)行預(yù)測的專門方法。為此首先要研究時間序列中的季節(jié)變動規(guī)律。季節(jié)性分解法將時間序列分解為4個部分,或稱為4個分量,即“趨勢分量”、“季節(jié)分量”、“隨機(jī)分量”、“季節(jié)性調(diào)整序列分量”。 趨勢分量采用多項(xiàng)式擬合,季節(jié)分量采用傅里葉變換估計(jì),其數(shù)學(xué)表達(dá)式為: Yt=f(Tt,St,It) (6.17) 式中Tt代表長期趨勢(可以是線性趨勢,也可以是周期性波動或長周波動),St為季節(jié)因子(幅度和周期固定的波

33、動),It為隨機(jī)波動,可視為誤差。季節(jié)性調(diào)整序列分量是消除了季節(jié)性要素之后的時間序列,季節(jié)分解法案例 本例以具體的時間序列數(shù)據(jù),結(jié)合相應(yīng)的分析軟件SPSS 19.0的計(jì)算過程來展示季節(jié)分解的步驟,探討季節(jié)變動中的規(guī)律,然后選用恰當(dāng)?shù)哪P妥黾竟?jié)趨勢預(yù)測,從趨勢成分圖中發(fā)現(xiàn),銷量增速緩慢,故本文采取直接平均法預(yù)測季節(jié)銷量。直接平均法是通過同期(月或季度)數(shù)值直接平均的方法度量季節(jié)水平,進(jìn)而求解各期的季節(jié)指數(shù),預(yù)測出時間序列未來水平的預(yù)測方法,又稱同期平均法、按月(季)平均法。這種方法不考慮長期趨勢的影響,直接對原始數(shù)據(jù)的時間序列采用直接平均的方法消除不規(guī)則變動,計(jì)算出各期的季節(jié)指數(shù),對預(yù)測對象的平

34、均趨勢水平進(jìn)行季節(jié)性調(diào)整或預(yù)測。重點(diǎn)是對周期內(nèi)各個不同的水平進(jìn)行預(yù)測,6.4 交叉影響分析法,6.4 .1 交叉影響分析法概述(可稱為交叉影響矩陣法或交叉影響概率法,交叉影響分析法,就是根據(jù)若干個事件之間的相互影響關(guān)系,分析當(dāng)某一事件發(fā)生時,其他事件因受到影響而發(fā)生何種形式變化的一種方法。交叉影響法是研究一系列事件Ej(E1,E2,En)及其概率Pj(P1,P2,Pn)之間的相互關(guān)系,事件之間的相互影響關(guān)系:有影響、無影響或者分為正影響、負(fù)影響。 有影響表示某一事件的發(fā)生會引起另一事件發(fā)生的概率發(fā)生變化; 無影響表示某一事件的發(fā)生不引起另一事件發(fā)生的概率發(fā)生變化(或者變化極小,可以忽略不計(jì));

35、 正影響表示某一事件的發(fā)生會使受影響的另一事件發(fā)生的概率提高;負(fù)影響表示某一事件的發(fā)生會使受影響的另一事件發(fā)生的發(fā)生概率降低,6.4 .2 交叉影響分析法實(shí)施步驟,第一步:確定目標(biāo)事件中相互間存在重要影響關(guān)系的各事件及其相互之間的影響關(guān)系,以一個目標(biāo)事件E1受到兩個相關(guān)事件E2、E3影響為例,將事件影響關(guān)系按照有利發(fā)生(+),不利發(fā)生(-)及沒有影響(/)分類,其影響關(guān)系矩陣如表6-11,表6-11 各事件相互影響關(guān)系矩陣,第二步:評定各事件的初始概率Pj,見表6-12,6.4 .2 交叉影響分析法實(shí)施步驟,表6-12 各事件相互影響關(guān)系及初始概率,第三步:評定各事件的相互影響概率Pij,6.

36、4 .2 交叉影響分析法實(shí)施步驟,比如將影響程度分為五等,分別賦以0-1之間的數(shù)值(S)(見表6-13),結(jié)合之前確定的影響方法判定(A),可以計(jì)算出相互影響概率,從而得到完成的相互影響矩陣(表6-14,表6-13 影響程度賦值表,6.4 .2 交叉影響分析法實(shí)施步驟,表6-14 完整的相互影響關(guān)系矩陣,6.4 .2 交叉影響分析法實(shí)施步驟,第四步:通過隨機(jī)取樣的方式進(jìn)行實(shí)驗(yàn),一次試驗(yàn)的完成過程如下,從全部事件集合中隨機(jī)抽取一個事件,如E1; 用隨機(jī)數(shù)法確定事件E1是否發(fā)生,即從0-99中隨機(jī)抽取一數(shù)i,與事件E1的初始概率P1相比較,如果i75,則事件E1不發(fā)生;如果i75,則事件E1將發(fā)生

37、; 如果隨機(jī)抽取的事件E1不發(fā)生,將不影響其它事件,其它事件的初始概率均不改變。如果隨機(jī)抽取的事件E1發(fā)生,將影響其它事件,受其影響的各事件的概率將按照相互影響關(guān)系矩陣,利用公式計(jì)算過程Pj。過程概率Pj將在該次試驗(yàn)中取代相互影響關(guān)系矩陣中的初始概率Pj。 在沒有被抽到的事件中重復(fù)上述三個步驟,直至全部事件都被隨機(jī)抽取到,方完成一次試驗(yàn),6.4 .2 交叉影響分析法實(shí)施步驟,第五步:將過程概率Pj全部恢復(fù)為初始概率Pj,進(jìn)行下一次試驗(yàn)。通過多次反復(fù)試驗(yàn),最后由各事件發(fā)生的次數(shù)與試驗(yàn)總次數(shù)相比,得到該事件的校正概率P*j,用P*j代替Pj,結(jié)合結(jié)論分析進(jìn)行策略性決策,6.4.3 交叉影響分析法應(yīng)

38、用實(shí)例,1. 工程項(xiàng)目風(fēng)險事件等級的評定,假設(shè)某個工程項(xiàng)目在開發(fā)建設(shè)階段有以下五個風(fēng)險事件:成本超支、工期延誤、設(shè)計(jì)不當(dāng)、勞資糾紛、施工效率低下。風(fēng)險等級確定。根據(jù)行業(yè)經(jīng)驗(yàn)確定風(fēng)險事件登記的劃分范圍(見表6-15,表6-15風(fēng)險事件的等級劃分,6.4.3 交叉影響分析法應(yīng)用實(shí)例,最后將每種風(fēng)險事件發(fā)生的概率乘以該風(fēng)險事件對于工程項(xiàng)目的影響程度,得到每種風(fēng)險事件的風(fēng)險等級(風(fēng)險等級=風(fēng)險發(fā)生概率*風(fēng)險影響程度)。并對應(yīng)表6-15、表6-16可以給出每個風(fēng)險事件的登記含義以及風(fēng)險事件發(fā)生的概率,表6-16 用德爾菲法確定每種風(fēng)險的發(fā)生概率,6.4.3 交叉影響分析法應(yīng)用實(shí)例,由表6-17可以看出,

39、該工程項(xiàng)目有三個一般風(fēng)險事件和兩個輕度風(fēng)險事件,假設(shè)項(xiàng)目決策方或風(fēng)險管理人員看到了這個結(jié)果,則會認(rèn)為該工程項(xiàng)目中沒有特別重要的風(fēng)險,而有可能忽略對于風(fēng)險事件的防范和控制,表6-17各事件的風(fēng)險等級,6.4.3 交叉影響分析法應(yīng)用實(shí)例,2. 引入交叉影響法,以工程項(xiàng)目風(fēng)險事件為例,交叉影響法的運(yùn)用流程如下: 確定五種風(fēng)險的初始概率分別為P1=0.8,P2=0.5,P3=0.1,P4=0.4,P5=0.2。 假定用KS表示其中一種風(fēng)險對其它風(fēng)險的影響,其中K=+1表示正影響,K=-1表示負(fù)影響,S表示影響的程度大小,建立影響列表(見表6-18,表6-18 交叉影響的方向和程度,6.4.3 交叉影響

40、分析法應(yīng)用實(shí)例,表6-19 不同風(fēng)險的相互影響矩陣,表6-18、表6-19中的數(shù)值,可以通過德爾菲法由專家做出,即由專家測定交叉影響的程度。例如P1與P2交叉的-0.8代表的含義是:當(dāng)成本超支的風(fēng)險發(fā)生后,即當(dāng)P1=1,對工期延長的風(fēng)險有80%的負(fù)影響,6.4.3 交叉影響分析法應(yīng)用實(shí)例,然后可以根據(jù)交叉影響法的經(jīng)驗(yàn)公式,算出相互影響后的概率。 (6.20) 例如,當(dāng)成本超支的風(fēng)險已經(jīng)發(fā)生時候,即P1=1,工期延誤的風(fēng)險概率變?yōu)椋?(6.21) 即成本超支反而降低了工期延誤的風(fēng)險,因?yàn)楣て诤苡锌赡芤驗(yàn)榧哟笸顿Y而縮短,6.4.3 交叉影響分析法應(yīng)用實(shí)例,同理,6.22) (6.23) (6.24,可以看出,當(dāng)成本增加后,其它建設(shè)期的風(fēng)險都有所下降,6.4.3 交叉影響分析法應(yīng)用實(shí)例,依照這種方式,可以計(jì)算出當(dāng)P2=1,P3=1,P4=1,P5=1時其它風(fēng)險的交叉概率,最后可以得到交叉影響概率的匯總表(見表6-20,表6-20 相互影響發(fā)生后的概率矩陣,這就是交叉影響后的概率,舉例來說,當(dāng)發(fā)生勞資糾紛時,即P4=1相應(yīng)的成本超支的風(fēng)險會增大到0.928,工期延誤的風(fēng)險會增大到0.75等等,6.4.3 交叉影響分析法應(yīng)用實(shí)例,3. 通過蒙特卡羅模擬隨機(jī)實(shí)驗(yàn)得到校正概率,在實(shí)際運(yùn)用蒙特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論