數(shù)據(jù)分析與挖掘復(fù)習(xí)資料_第1頁
數(shù)據(jù)分析與挖掘復(fù)習(xí)資料_第2頁
數(shù)據(jù)分析與挖掘復(fù)習(xí)資料_第3頁
數(shù)據(jù)分析與挖掘復(fù)習(xí)資料_第4頁
數(shù)據(jù)分析與挖掘復(fù)習(xí)資料_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)分析與挖掘重點(diǎn)整理名詞解釋5*1、逐步篩選策略:多元線性回歸,存在解釋變量應(yīng)以怎樣的策略和順序進(jìn)入方 程及方程中多個(gè)解釋變量之間是否存在多重共線的問題。該策略在向前篩選 策略的基礎(chǔ)上,結(jié)合向后篩選策略,在每個(gè)變量進(jìn)入方程后再判斷是否存在 可以剔除方程的變量。(該策略在引入變量的每一個(gè)階段都提供了再剔除不 顯著變量的機(jī)會(huì),摒棄了向前篩選策略方法中變量一旦進(jìn)入回歸方程就不會(huì) 被剔除的弊端。在一定程度上解決了變量之間存在的多重共線問題。)2、時(shí)間序列的季節(jié)變動(dòng):指一年或更短的時(shí)間之內(nèi),由于受某種固定周期性因 素(如自然、生產(chǎn)、消費(fèi)等季節(jié)性因素)的影響而呈現(xiàn)出有規(guī)律的周期性波動(dòng)。3、時(shí)間序列的循環(huán)

2、變動(dòng):通常是指周期為一年以上,由非季節(jié)因素引起的漲落 起伏波形相似的波動(dòng)。4、序列相關(guān)性(回歸分析檢驗(yàn)中的DW檢驗(yàn)):一元及多元線性回歸模型假定 隨機(jī)誤差項(xiàng)是不相關(guān)的,如果一個(gè)回歸模型的隨機(jī)誤差項(xiàng)之間相關(guān),即相關(guān) 系數(shù)不為零,則稱隨機(jī)誤差項(xiàng)之間存在著序列相關(guān)現(xiàn)象。這種相關(guān)現(xiàn)象不是 指兩個(gè)和兩個(gè)以上的變量之間的關(guān)系而是指一個(gè)變量前后期數(shù)值之間存在 的相關(guān)關(guān)系。簡(jiǎn)答10* (包括對(duì)輸出結(jié)果的解釋,代表什么意義)1、怎樣判定樣本數(shù)據(jù)是否適合進(jìn)行因子分析在進(jìn)行因子分析之前,首先考察收集到的原有變量之間是否存在一定的線性關(guān) 系,是否適合采用因子分析提取因子??梢越柚兞康南嚓P(guān)系數(shù)矩陣和KMO檢 驗(yàn)方法進(jìn)

3、行分析。如果大多數(shù)變量之間的相關(guān)系數(shù)都比較高,能夠從中提取公共 因子,則適合進(jìn)行因子分析;根據(jù)KMO度量標(biāo)準(zhǔn),KMO值越接近于1,變量 間的相關(guān)性越強(qiáng),越適合進(jìn)行因子分析;越接近于0,變量間的相關(guān)性越弱,越 不適合做因子分析。(例子:本分析中的KMO值為0.713,說明變量間的相關(guān) 性比較強(qiáng),比較適合做因子分析。)2、回歸分析中,什么是多重共線性?有兩個(gè)指標(biāo)來反映多重共線性,這兩個(gè)指 標(biāo)如何反映多重共線性多重共線性是指解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象,解釋變量間高度的 多重共線性會(huì)給評(píng)價(jià)自變量的貢獻(xiàn)率帶來困難,因而要進(jìn)行共線性診斷,并且確 定它們對(duì)參數(shù)估計(jì)的影響。采用容忍度(Toleranc

4、e)和方差膨脹因子(VIF)兩 個(gè)統(tǒng)計(jì)量來檢測(cè)多重共線性問題。若容忍度(Tolerance)KP方差膨脹因子(VIF)均為1,說明各解釋變量之間不存 在多重共線性1問題。容忍度的取值范圍在01之間,越接近于0表示多重共線 性越強(qiáng),越接近于1,表示多重共線性越弱;方差膨脹因子是容忍度的倒數(shù),其 值大于等于1,其值越接近于1,解釋變量間的多重共線性越弱,若其值遠(yuǎn)遠(yuǎn)大 于1,則共線性越強(qiáng)。3、異方差性中,觀察一個(gè)表中哪個(gè)值取什么時(shí)異方差性顯著,取什么時(shí)異方差 性不顯著(應(yīng)該是觀察表的題)? ?理解下吧。殘差的異方差檢驗(yàn)通過各解釋變量與殘差的Spearman等級(jí)相關(guān)分析,可以得到表4.27: 表4.2

5、7 Spearman相關(guān)分析CorrelationsFAC11FAC2 1StandardizedSpearnans rhoFAC1_1Correlation Coefficient1.000-.333-.077Sig. (2-tailed).067.682N313131FAC2_1Correlation Coefficient-.3331.000-.176Sig. (2-tailed).067.344N333Standardized Residual Correlation Coefficient-.077-.1761.000Sig. (2-tailed).682.344.N313131表4

6、.27中,F(xiàn)AC1_1與標(biāo)準(zhǔn)化殘差(standardized residual) 的相關(guān)系數(shù)為 -0.077,sig=0.6820.05 ; FAC2_1與標(biāo)準(zhǔn)化殘差的相關(guān)系數(shù)為-0.176, sig=0.3440.05??梢姡瑱z驗(yàn)并不顯著,因而認(rèn)為異方差現(xiàn)象并不明顯。4、做出雷達(dá)圖的步驟是什么?其最大的優(yōu)點(diǎn)是什么?作圖步驟是:-作一圓,并把圓周分為p等分。-連接圓心和各分點(diǎn),把這p條半徑依次定義為各變量的坐標(biāo)軸,并標(biāo)以適 當(dāng)?shù)目潭取?對(duì)給定的一次觀測(cè)值,把它的p個(gè)分量值分別點(diǎn)在相應(yīng)的坐標(biāo)軸上,然后 連接成一個(gè)p邊形,這個(gè)p邊形就是p元觀測(cè)值的圖示,n次觀測(cè)值可畫 出n個(gè)p邊形。最大的優(yōu)點(diǎn)是:

7、這種圖形既象雷達(dá)熒光屏上看到的圖象,也象蜘蛛網(wǎng),因此 稱為雷達(dá)圖或蛛網(wǎng)圖。利用雷達(dá)圖有助于觀測(cè)多元數(shù)據(jù)的某些特點(diǎn),便于進(jìn)行深 入比較分析。5、在指數(shù)平滑法里,一次指數(shù)平滑法模型的適用范圍及其局限性(一次指數(shù)平滑又稱單指數(shù)平滑(Single Exponential Smoothing),其 模型為:y = a y + (1 一 a )y其中,y是實(shí)際值序列,y是平滑值序列(Smoothed Series), y是上期 ttt-1平滑值,a是平滑系數(shù)(Smoothing Parameter),也叫衰減因子(Damping Factor),其取值范圍為0 a 1。)-可以不答一次指數(shù)平滑的預(yù)測(cè)值是實(shí)

8、際值序列的加權(quán)平均,適用于比較平穩(wěn)的序列, 能夠追蹤數(shù)據(jù)的變化,預(yù)測(cè)值總是反映最新的數(shù)據(jù)結(jié)構(gòu)。但是該預(yù)測(cè)法有較大的局限性,首先,預(yù)測(cè)值不能反映趨勢(shì)變動(dòng)、季節(jié)波動(dòng) 等有規(guī)律的變動(dòng),僅適用于平穩(wěn)序列;其次,短期預(yù)測(cè)較靈敏但不適合中長(zhǎng)期預(yù) 測(cè);最后,由于預(yù)測(cè)值是歷史數(shù)據(jù)的均值,因此與實(shí)際序列的變化相比較有一定 程度的滯后現(xiàn)象。6、時(shí)間序列的基本特點(diǎn)是什么?離散型時(shí)間序列與連續(xù)性時(shí)間序列的異同處 時(shí)間序列的基本特點(diǎn):(1)序列中的數(shù)據(jù)或數(shù)據(jù)點(diǎn)的位置依賴于時(shí)間,即數(shù)據(jù)的取值依賴于時(shí)間 的變化,但不一定是時(shí)間t的嚴(yán)格函數(shù)。(2)每一時(shí)刻上的取值或數(shù)據(jù)點(diǎn)的位置具有一定的隨機(jī)性,不可能完全準(zhǔn) 確地用歷史值預(yù)測(cè)

9、。(3)前后時(shí)刻(不一定是相鄰時(shí)刻)的數(shù)值或數(shù)據(jù)點(diǎn)的位置有一定的相關(guān) 性,這種相關(guān)性就是系統(tǒng)的動(dòng)態(tài)規(guī)律性。(4)從整體上看,時(shí)間序列往往呈現(xiàn)某種趨勢(shì)性或出現(xiàn)周期性變化的現(xiàn)象。 按時(shí)間的連續(xù)性可將時(shí)間序列分為離散時(shí)間序列和連續(xù)時(shí)間序列。不同點(diǎn):離散時(shí)間序列中的每一個(gè)序列值所對(duì)應(yīng)的時(shí)間參數(shù)為間斷點(diǎn);連續(xù)時(shí) 間序列中的每個(gè)序列值所對(duì)應(yīng)的時(shí)間參數(shù)為連續(xù)函數(shù)相同點(diǎn):我們主要研究離散時(shí)間序列,并用Xt表示,對(duì)于連續(xù)時(shí)間序列,可 通過等間隔采樣使之轉(zhuǎn)化為離散時(shí)間序列后加以研究。7、回歸方程顯著性檢驗(yàn)是什么?在表的輸出結(jié)果中,F(xiàn)值是什么意思,Sig的 值表示什么。(AVOVA表)? ?理解下吧。回歸方程的顯著

10、性檢驗(yàn)是檢驗(yàn)被解釋變量與所有解釋變量之間的線性關(guān) 系是否顯著,用線性模型來描述他們之間的關(guān)系是否恰當(dāng)。回歸系數(shù)的顯著性檢 驗(yàn)的主要目的是,研究回歸方程中的每個(gè)解釋變量與被解釋變量之間是否存在顯 著的線性關(guān)系,也就是研究每個(gè)解釋變量能否有效的解釋被解釋變量的線性變 化,它們能否保留在線性回歸方程中。表4.25方差檢驗(yàn)表ANOVAcSum ofdfFSic1RegressionResidualTotal16.72513.27530 0001293016.725.45836.538Sig.000a2RegressionResidualTotal24.5675.43330 0002283012.283

11、.19463.303.000ba- Predictors: (Constant), RE GR factor score 2 for analysis 1b. Predictors: (Constant), RE GR factor score 2 for analysis 1, RE GR factor score 1 for analysis 1c- Dependent Variable:高技術(shù)人才集聚得分表4.25的信息說明,采用了 FAC2_1,F(xiàn)AC1_1作為解釋變量的模型2中,F(xiàn)統(tǒng) 計(jì)量的觀測(cè)值為63.303,對(duì)應(yīng)的概率P值近似為0。若顯著性水平sig為0.05時(shí), 概率P值小于顯

12、著性水平應(yīng)拒絕回歸方程顯著性檢驗(yàn)的原假設(shè),認(rèn)為各回歸系數(shù) 不同時(shí)為0,被解釋變量與解釋變量全體的線性關(guān)系是顯著的,可以建立線性模 型2,也同時(shí)說明回歸方程通過了顯著性檢驗(yàn)。表4.26回歸方程系數(shù)表CoefficientsModelUnstandardizedCoefficientsStandardized CoefficientstSig.Collinearity StatisticsBStd. ErrorBetaToleranceVIF1(Constant)REGR factor score 2for analysis 1-5.9E-017.747.122.124.747.0006.0451

13、.000.0001.0001.0002(Constant)REGR factor score 2for analysis 1-7.0E-017.747.079.030.747.0009.2341.000.0001.0001.000REGRfactor score 1 for analysis 1.511.030.5116.357.0001.0001.000a.英pen如ntVa前舊:高技術(shù)人才集聚得勿表4.26給出了關(guān)于模型的諸多信息:首先,B為偏回歸系數(shù),只有當(dāng)所有自變量單位統(tǒng)一時(shí),它們的大小才有可比性。 Beta是標(biāo)準(zhǔn)化回歸系數(shù),具有可比性。上面的方差分析的顯著性檢驗(yàn)是針對(duì)整個(gè) 方程的,與

14、表4.26中單獨(dú)進(jìn)行的每一個(gè)偏回歸系數(shù)的顯著性檢驗(yàn)不一定等效。 即由方差分析得出的回歸方程有統(tǒng)計(jì)意義,而回歸方程中的每一個(gè)偏回歸系數(shù)不 一定都有顯著性,但至少要有一個(gè)是顯著的。最終的回歸模型2中,F(xiàn)AC2_1的 偏回歸系數(shù)是 0.747,t=9.284, sig0.001 ;FAC1_1 的偏回歸系數(shù)是 0.511,t=6.357, sig0.001,所有解釋變量回歸系數(shù)的顯著性t珞驗(yàn)的概率P值都小于顯著性水 平,通過了回歸系數(shù)的顯著性檢驗(yàn)3,它們與被解釋變量的線性關(guān)系是顯著的, 應(yīng)該保留在回歸方程中。前幾個(gè)是所謂的重中之重8、時(shí)間序列分析的分類、基本思想、前提假設(shè)是什么,簡(jiǎn)要回答分類:時(shí)間序

15、列分析分為確定型時(shí)間序列分析(包括長(zhǎng)期趨勢(shì)分析、季節(jié)變動(dòng)分析和循環(huán)波動(dòng)測(cè)定等)和隨機(jī)時(shí)間序列分析基本思想:根據(jù)系統(tǒng)有限長(zhǎng)度的運(yùn)行記錄(觀察數(shù)據(jù)),建立能夠比較精確地 反映時(shí)間序列中所包含的動(dòng)態(tài)依存關(guān)系的數(shù)學(xué)模型,并借以對(duì)系統(tǒng)的未來行為進(jìn) 行預(yù)測(cè)。前提假設(shè):現(xiàn)象的未來行為與現(xiàn)在的行為有關(guān),于是,人們便用現(xiàn)象的現(xiàn)在 值作為其下一時(shí)刻的預(yù)測(cè)值。9、在因子分析中有個(gè)檢驗(yàn)是KMO檢驗(yàn),這個(gè)檢驗(yàn),表說明什么問題,什么信 息表4.14巴特利特球度檢驗(yàn)和KMO檢驗(yàn)KMO and Bartletts TestKaiser-Meyer-Olkin lasure of Sampling Adequacy.713Ba

16、rtletts Test ofApprox. Chi-Square250.149Sphericitydf21Sig.000從表4.14可知,巴特利特球度檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值為250.149,相應(yīng)的概率P 值接近于0,認(rèn)為相關(guān)系數(shù)矩陣與單位陣有顯著差異,通過檢驗(yàn)。根據(jù)KMO度量 標(biāo)準(zhǔn),KMO值越接近于1,變量間的相關(guān)性越強(qiáng),越適合進(jìn)行因子分析;越接近 于0,變量間的相關(guān)性越弱,越不適合做因子分析4。本分析中的KMO值為0.713, 說明變量間的相關(guān)性比較強(qiáng),比較適合做因子分析。10、簡(jiǎn)要分析ARMA模型(傅克斯一詹金斯法)的基本思想和基本前提假 設(shè)基本思想:將預(yù)測(cè)對(duì)象隨時(shí)間推移而形成的數(shù)據(jù)序列視為

17、一個(gè)隨機(jī)序列,即 除去個(gè)別的因偶然原因引起的觀測(cè)值外,時(shí)間序列是一組依賴于時(shí)間t的隨 機(jī)變量。這組隨機(jī)變量所具有的依存關(guān)系或自相關(guān)性表征了預(yù)測(cè)對(duì)象發(fā)展的 延續(xù)性,而這種自相關(guān)性一旦被相應(yīng)的數(shù)學(xué)模型描述出來,就可以通過時(shí)間 序列的過去值及現(xiàn)在值預(yù)測(cè)其未來的值。(以上是課件上的,還可以回答為: 某些時(shí)間序列是依賴于時(shí)間t的一組隨機(jī)變量,構(gòu)成該時(shí)序的單個(gè)序列值雖 然具有不確定性,但整個(gè)序列的變化卻有一定的規(guī)律性,可以用相應(yīng)的數(shù)學(xué) 模型近似描述。通過對(duì)該數(shù)學(xué)模型的分析研究,能夠更本質(zhì)地認(rèn)識(shí)時(shí)間序列 的結(jié)構(gòu)與特征,達(dá)到最小方差意義下的最先預(yù)測(cè)。-這是word上ARMA的 基本思想)前提條件:作為預(yù)測(cè)對(duì)象

18、的時(shí)間序列是零均值的平穩(wěn)隨機(jī)序列。平穩(wěn)隨機(jī)序 列的統(tǒng)計(jì)特性不隨時(shí)間的推移而變化。直觀地說,平穩(wěn)隨機(jī)序列的折線圖無明顯 的上升或下降趨勢(shì)。但是,大量的社會(huì)經(jīng)濟(jì)現(xiàn)象隨著時(shí)間的推移,總表現(xiàn)出某種 上升或下降趨構(gòu)成非零均值的非平穩(wěn)時(shí)間序列。對(duì)此的解決方法是在應(yīng)用ARMA 模型前,對(duì)時(shí)間序列進(jìn)行零均值化和差分平穩(wěn)化處理。11、簡(jiǎn)要回答逐步篩選策略有什么優(yōu)勢(shì)該策略在引入變量的每一個(gè)階段都提供了再剔除不顯著變量的機(jī)會(huì),摒棄了 向前篩選策略方法中變量一旦進(jìn)入回歸方程就不會(huì)被剔除的弊端。在一定程度上 解決了變量之間存在的多重共線問題。12、指數(shù)平滑法平滑系數(shù)a的取值策略一般來說,當(dāng)時(shí)間序列呈現(xiàn)較穩(wěn)定的水平趨勢(shì)時(shí)

19、,應(yīng)選較小的a值,一般 可在0.050.20之間取值;當(dāng)時(shí)間序列有波動(dòng),但長(zhǎng)期趨勢(shì)變化不大時(shí),可選稍 大的a值,常在0.10.4之間取值;當(dāng)時(shí)間序列是上升或下降的發(fā)展趨勢(shì)類型, a應(yīng)取較大的值,在0.61之間;當(dāng)時(shí)間序列波動(dòng)很大,長(zhǎng)期趨勢(shì)變化幅度較 大,呈現(xiàn)明顯且迅速的上升或下降趨勢(shì)時(shí),宜選擇較大的a值,則可在0.60.8 之間選值,以使預(yù)測(cè)模型靈敏度更高,能迅速跟上數(shù)據(jù)的變化。三. 論述20*2 (包括對(duì)分析結(jié)果的解釋)1、聚類分析中系統(tǒng)聚類法的基本思想是什么先將每個(gè)研究對(duì)象(樣品或指標(biāo))各自看成一類、按某種順序分別稱作第1, 第2,,第h類(如果對(duì)象是樣品,則h=n;如果對(duì)象是指標(biāo),則h=

20、p);然后 根據(jù)對(duì)象間的相似度量,將h類中最相似的兩類合并,組成一個(gè)新類,這樣得到 h-1類,再在這h-1類中找出最相似的兩類合并,得到h-2類,如此下去,直至 將所有的對(duì)象并成一個(gè)大類為止。當(dāng)然,真的合并成一個(gè)類就失去了聚類的意義, 所以上面的聚類過程應(yīng)該在某個(gè)類水平數(shù)(即未合并的類數(shù))停下來,最終的類 就取這些未合并的類。決定聚類個(gè)數(shù)是一個(gè)較復(fù)雜的問題。2、因子分析中的基本思想,兩種類型(R型、Q型)的區(qū)別是什么,根據(jù)什么 來提取公因子基本思想:是通過變量(或樣品)的相關(guān)系數(shù)矩陣(對(duì)樣品是相似系數(shù)矩陣)內(nèi)部 結(jié)構(gòu)的研究,找出能控制所有變量(或樣品)的少數(shù)幾個(gè)隨機(jī)變量去描述多個(gè)變量 (或樣品)之間的相關(guān)(相似)關(guān)系,但在這里,這少數(shù)幾個(gè)隨機(jī)變量是不可觀測(cè)的, 通常稱為因子。然后根據(jù)相關(guān)性(或相似性)的大小把變量(或樣品)分組,使得同 組內(nèi)的變量(或樣品)之間相關(guān)性(或相似性)較高,但不同組的變量相關(guān)性(或相似

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論