版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)時代的
數(shù)據(jù)挖掘與商務(wù)智能1大數(shù)據(jù)時代的
數(shù)據(jù)挖掘與商務(wù)智能1第三部分基于統(tǒng)計的傳統(tǒng)數(shù)據(jù)分析技術(shù)22數(shù)據(jù)分析基本概念統(tǒng)計學(xué)簡介測量與數(shù)據(jù)數(shù)據(jù)來源數(shù)據(jù)的類型數(shù)據(jù)預(yù)處理技術(shù)3數(shù)據(jù)分析基本概念統(tǒng)計學(xué)簡介3統(tǒng)計數(shù)據(jù)分析方法描述統(tǒng)計推斷統(tǒng)計常用統(tǒng)計分析軟件4統(tǒng)計數(shù)據(jù)分析方法4數(shù)學(xué)家的幽默統(tǒng)計學(xué)家調(diào)侃數(shù)學(xué)家:你們不是說若X=Y且Y=Z,則X=Z嗎!那么想必你若喜歡一個女孩,那么這個女孩喜歡的男生你也喜歡吧?數(shù)學(xué)家反問道:那么你把左手放到一鍋一百度的開水中,右手放到一鍋零度的冰水里想來也沒事吧!因為它們平均不過是五十度而已!”5數(shù)學(xué)家的幽默統(tǒng)計學(xué)家調(diào)侃數(shù)學(xué)家:你們不是說若X=Y且Y=Z,何為統(tǒng)計學(xué)?統(tǒng)計與數(shù)量有關(guān),同時它已經(jīng)滲透到社會經(jīng)濟活動和科學(xué)研究的方方面面。那么究竟何為統(tǒng)計?統(tǒng)計是如何開展研究的?作為一門科學(xué)的統(tǒng)計學(xué)與其他學(xué)科有何區(qū)別與聯(lián)系?6何為統(tǒng)計學(xué)?統(tǒng)計與數(shù)量有關(guān),同時它已經(jīng)滲透到社會經(jīng)濟活動和科統(tǒng)計(Statistics)的涵義統(tǒng)計是人們認識客觀世界總體數(shù)量變動關(guān)系和變動規(guī)律的活動的總稱,是認識客觀世界的有力工具。統(tǒng)計學(xué)是研究如何測定、收集、整理、歸納和分析反映客觀現(xiàn)象總體數(shù)量的數(shù)據(jù),以便給出正確認識的方法論科學(xué)。7統(tǒng)計(Statistics)的涵義統(tǒng)計是人們認識客觀世界總體統(tǒng)計的研究對象的特點數(shù)量性。統(tǒng)計數(shù)據(jù)是客觀事物量的反映。總體性。統(tǒng)計的數(shù)量研究是對現(xiàn)象總體中各單位普遍存在的事實進行大量觀察和綜合分析。變異性??傮w各單位的特征表現(xiàn)存在著差異,而且這些差異并不是事先可以預(yù)知的。8統(tǒng)計的研究對象的特點8統(tǒng)計研究的基本環(huán)節(jié)統(tǒng)計設(shè)計收集數(shù)據(jù)整理與分析資料積累開發(fā)應(yīng)用統(tǒng)計學(xué)理論與相關(guān)實質(zhì)性學(xué)科理論描述統(tǒng)計推斷統(tǒng)計統(tǒng)計調(diào)查、實驗9統(tǒng)計研究的基本環(huán)節(jié)統(tǒng)計設(shè)計收集數(shù)據(jù)整理與分析資料積累統(tǒng)計學(xué)理統(tǒng)計設(shè)計根據(jù)所要研究問題的性質(zhì),在有關(guān)學(xué)科理論的指導(dǎo)下,制定統(tǒng)計指標、指標體系和統(tǒng)計分類,給出統(tǒng)一的定義、標準。同時提出收集、整理和分析數(shù)據(jù)的方案和工作進度等。搞好統(tǒng)計設(shè)計不僅要有統(tǒng)計學(xué)的一般理論和方法為指導(dǎo),而且還要求設(shè)計者對所要研究的問題本身具有深刻的認識和相關(guān)的學(xué)科知識。10統(tǒng)計設(shè)計根據(jù)所要研究問題的性質(zhì),在有關(guān)學(xué)科理論的指導(dǎo)下,制定收集數(shù)據(jù)統(tǒng)計數(shù)據(jù)的收集有兩種基本方法。對于大多數(shù)自然科學(xué)和工程技術(shù)研究來說,有可能通過有控制的科學(xué)實驗去取得數(shù)據(jù),這時可以采用實驗法。對于社會經(jīng)濟現(xiàn)象來說,一般無法進行重復(fù)實驗,要取得有關(guān)數(shù)據(jù)就必須進行調(diào)查觀察。海量數(shù)據(jù)的積累?。。?1收集數(shù)據(jù)統(tǒng)計數(shù)據(jù)的收集有兩種基本方法。11整理與分析描述統(tǒng)計是指對采集的數(shù)據(jù)進行登記、審核、整理、歸類,在此基礎(chǔ)上進一步計算出各種能反映總體數(shù)量特征的綜合指標,并用圖表的形式表示經(jīng)過歸納分析而得到的各種有用的統(tǒng)計信息。推斷統(tǒng)計是在對樣本數(shù)據(jù)進行描述的基礎(chǔ)上,利用一定的方法根據(jù)樣本數(shù)據(jù)去估計或檢驗總體的數(shù)量特征。推斷統(tǒng)計是現(xiàn)代統(tǒng)計學(xué)的主要內(nèi)容。12整理與分析描述統(tǒng)計是指對采集的數(shù)據(jù)進行登記、審核、整理、歸類統(tǒng)計資料的積累、開發(fā)與應(yīng)用對于已經(jīng)公布的統(tǒng)計資料需要加以積累,同時還可以進行進一步的加工,結(jié)合相關(guān)的實質(zhì)性學(xué)科的理論知識去進行分析和利用。如何更好地將統(tǒng)計數(shù)據(jù)和統(tǒng)計方法應(yīng)用于各自的研究領(lǐng)域是應(yīng)用統(tǒng)計學(xué)研究的一個重要方面。13統(tǒng)計資料的積累、開發(fā)與應(yīng)用對于已經(jīng)公布的統(tǒng)計資料需要加以積累統(tǒng)計學(xué)的流派政治算術(shù)學(xué)派國勢學(xué)派社會統(tǒng)計學(xué)派數(shù)理統(tǒng)計學(xué)派理論統(tǒng)計學(xué)應(yīng)用統(tǒng)計學(xué)14統(tǒng)計學(xué)的流派政治算術(shù)學(xué)派14政治算術(shù)學(xué)派與國勢學(xué)派
政治算術(shù)學(xué)派。最早的統(tǒng)計學(xué)源于17世紀英國。其代表人物是威廉.配第(WilliamPatty,1623—1687年)。政治算術(shù)學(xué)派主張用大量觀察和數(shù)量分析等方法對社會經(jīng)濟現(xiàn)象進行研究的主張,為統(tǒng)計學(xué)的發(fā)展開辟了廣闊的前景。國勢學(xué)派。最早使用“統(tǒng)計學(xué)”這一術(shù)語的是德國國勢學(xué)派。國勢學(xué)派雖然創(chuàng)造了統(tǒng)計學(xué)這一名詞,但他們主要使用文字記述方法對國情國力進行研究,其學(xué)科內(nèi)容與現(xiàn)代統(tǒng)計學(xué)有較大差別。15政治算術(shù)學(xué)派與國勢學(xué)派
政治算術(shù)學(xué)派。最早的統(tǒng)計學(xué)源于17世社會統(tǒng)計學(xué)派1850年,德國的統(tǒng)計學(xué)家克尼斯(K.G.A.knies)發(fā)表了題為《獨立科學(xué)的統(tǒng)計學(xué)》的論文,提出統(tǒng)計學(xué)是一門獨立的社會科學(xué),是一門對社會經(jīng)濟現(xiàn)象進行數(shù)量對比分析的科學(xué)。各國學(xué)者在社會經(jīng)濟統(tǒng)計指標的設(shè)定與計算、指數(shù)的編制、資料的收集與整理、統(tǒng)計調(diào)查的組織和實施、經(jīng)濟社會的數(shù)量分析和預(yù)測等方面做出的貢獻已成為現(xiàn)代統(tǒng)計學(xué)的重要組成部分。例如,“恩格爾系數(shù)”,至今仍為人們廣泛使用。國內(nèi)生產(chǎn)總值(GDP)的核算方法被稱為“20世紀最偉大的發(fā)明之一?!?6社會統(tǒng)計學(xué)派1850年,德國的統(tǒng)計學(xué)家克尼斯(K.G.A.k數(shù)理統(tǒng)計學(xué)派認為統(tǒng)計學(xué)是一門通用的方法論科學(xué)。創(chuàng)始人是比利時統(tǒng)計學(xué)家凱特勒(AdolpheQuetelet,1796—1874年)。他所著的代表作《社會物理學(xué)》等將概率論和統(tǒng)計方法引入社會經(jīng)濟方面的研究。從19世紀中葉到20世紀中葉,數(shù)理統(tǒng)計學(xué)得到迅速發(fā)展。英國生物學(xué)家高爾頓提出并闡述了“相關(guān)”的概念;皮爾遜提出了計算復(fù)相關(guān)和偏相關(guān)的方法。戈塞特建立了“小樣本理論”,即所謂的“t分布”;費歇爾樣本相關(guān)系數(shù)的分布、方差分析、實驗設(shè)計等方面的研究中做出了重要貢獻。到20世紀中期,數(shù)理統(tǒng)計學(xué)的基本框架已經(jīng)形成。數(shù)理統(tǒng)計學(xué)派成為英美等國統(tǒng)計學(xué)界的主流。17數(shù)理統(tǒng)計學(xué)派認為統(tǒng)計學(xué)是一門通用的方法論科學(xué)。創(chuàng)始人是比利時理論統(tǒng)計學(xué)和應(yīng)用統(tǒng)計學(xué)歷經(jīng)300多年的發(fā)展,統(tǒng)計學(xué)目前已經(jīng)成為橫跨社會科學(xué)和自然科學(xué)領(lǐng)域的多科性的科學(xué)?!敖y(tǒng)計學(xué)是有關(guān)如何測定、收集和分析反映客觀現(xiàn)象總體數(shù)量的數(shù)據(jù),以便給出正確認識的方法論科學(xué)?!?/p>
現(xiàn)代統(tǒng)計學(xué)可以分為兩大類:一類是以抽象的數(shù)量為研究對象,研究一般的收集數(shù)據(jù)、整理數(shù)據(jù)和分析數(shù)據(jù)方法的理論統(tǒng)計學(xué)。另一類是以各個不同領(lǐng)域的具體數(shù)量為研究對象的應(yīng)用統(tǒng)計學(xué)。18理論統(tǒng)計學(xué)和應(yīng)用統(tǒng)計學(xué)歷經(jīng)300多年的發(fā)展,統(tǒng)計學(xué)目前已經(jīng)成數(shù)學(xué)與統(tǒng)計學(xué)的聯(lián)系數(shù)學(xué)與統(tǒng)計學(xué)都是研究數(shù)量規(guī)律的,都要利用各種公式進行運算。數(shù)學(xué)中的概率論,為統(tǒng)計學(xué)提供了數(shù)量分析的理論基礎(chǔ)。統(tǒng)計學(xué)中的理論統(tǒng)計學(xué)以抽象的數(shù)量為研究對象,其大部分內(nèi)容也可以看作是數(shù)學(xué)的分支。19數(shù)學(xué)與統(tǒng)計學(xué)的聯(lián)系數(shù)學(xué)與統(tǒng)計學(xué)都是研究數(shù)量規(guī)律的,都要利用各統(tǒng)計學(xué)與數(shù)學(xué)的區(qū)別從研究對象看,數(shù)學(xué)以最一般的形式研究數(shù)量的聯(lián)系和空間形式。統(tǒng)計學(xué)特別是應(yīng)用統(tǒng)計學(xué)則總是與客觀的對象聯(lián)系在一起的。從研究方法看,數(shù)學(xué)主要是邏輯推理和演繹論證的方法。而統(tǒng)計本質(zhì)上是歸納的方法。統(tǒng)計學(xué)家特別是應(yīng)用統(tǒng)計學(xué)家需要深入實際,進行調(diào)查或?qū)嶒炄ト〉脭?shù)據(jù),研究時不僅要運用統(tǒng)計的方法,而且還要掌握某一專門領(lǐng)域的知識。20統(tǒng)計學(xué)與數(shù)學(xué)的區(qū)別從研究對象看,數(shù)學(xué)以最一般的形式研究數(shù)量的測量與數(shù)據(jù)數(shù)據(jù)是通過把感興趣領(lǐng)域里的實體以某種測量過程映射到符號表示得到的。測量就是把實體的一個給定屬性與一個變量值聯(lián)系起來。屬性(變量):重量屬性(變量)值:2kg測量21測量與數(shù)據(jù)數(shù)據(jù)是通過把感興趣領(lǐng)域里的實體以某種測量過程映射到統(tǒng)計數(shù)據(jù)基本構(gòu)成要
素實體(Element)變量(Variable)觀測(Observation)關(guān)于實體的一種屬性或特征研究對象由各實體組成關(guān)于某一實體所有各變量的信息22統(tǒng)計數(shù)據(jù)基實體(Element)變量(Variable)觀測變量與變量值說明現(xiàn)象的某一數(shù)量特征的概念也被稱為變量,變量的具體取值是變量值,統(tǒng)計數(shù)據(jù)就是統(tǒng)計變量的具體表現(xiàn)。連續(xù)型變量是指變量的取值在數(shù)軸上連續(xù)不斷,無法一一列舉,即在一個區(qū)間內(nèi)可以取任意實數(shù)值。離散型變量是指變量的其取值是整數(shù)值,可以一一列舉。23變量與變量值說明現(xiàn)象的某一數(shù)量特征的概念也被稱為變量,變量的例:員工個人資料表姓名性別年齡身高(m)體重(kg)民族公司服務(wù)年限受教育年限甲男331.8565漢318乙女251.6555回216丙男261.7260滿115丁女351.6053回416戊男321.8368漢21924例:員工個人資料表姓名性別年齡身高(m)體重(kg)民族公司變量的測度等級變量的測度等級:量化程度變量的測度等級直接關(guān)系到數(shù)據(jù)分析方法的選擇。常用的劃分為四種名義測度(Nominal)有序測度(Ordinal)間距測度(Interval)比率測度(Ratio)25變量的測度等級變量的測度等級:量化程度25名義測度(Nominal)變量用多種狀態(tài)來表示,這些狀態(tài)之間既沒有數(shù)量關(guān)系,也沒有等級關(guān)系。例如,性別(男、女),顏色(紅、黃、藍)可以用數(shù)字表示(編碼),但數(shù)字只是用作標簽。編碼的數(shù)值之間不存在有實際意義的量的關(guān)系。26名義測度(Nominal)變量用多種狀態(tài)來表示,這些狀態(tài)之有序測度(Ordinal)有序測度量化水平高于名義測度變量編碼不僅具有分類的作用,而且也存在量的關(guān)系(等級或次序關(guān)系)。例如,受教育程度(文盲半文盲1、小學(xué)2、初中3、高中4、大學(xué)及以上5)編碼的數(shù)值之間存在有實際意義的量的關(guān)系,編碼值可以應(yīng)用于不等式計算。27有序測度(Ordinal)有序測度量化水平高于名義測度27間距測度(Interval)變量取值不再是類的編碼,而是采用一定單位的實際測量值。可以度量兩個不同變量值之間的差異及大小。例如,溫度(5攝氏度,10攝氏度)數(shù)值之間可以進行加法和減法,但不不能進行乘除計算。因為這一測度等級的變量所取得的0值不是物理意義上的絕對0。28間距測度(Interval)變量取值不再是類的編碼,而是采用比率測度(Ratio)最高級的測度等級。大多數(shù)物理量,例如質(zhì)量,長度以及能量都是比率測度;華氏溫度也是比率測度??梢赃M行各種運算。較高等級的變量可以降級使用。29比率測度(Ratio)最高級的測度等級。29數(shù)據(jù)來源30數(shù)據(jù)來源30總體和樣本總體:又稱母體,指所要研究對象的全體,由許多客觀存在的具有某種共同性質(zhì)的單位構(gòu)成??傮w單位數(shù)用N表示。樣本:又稱子樣,來自總體,是從總體中按隨機原則抽選出來的部分,由抽選的單位構(gòu)成。樣本單位數(shù)(容量)用n表示。總體是唯一的、確定的,而樣本是不確定的、可變的、隨機的。31總體和樣本總體:又稱母體,指所要研究對象的全體,由許多客觀存總體參數(shù)和樣本統(tǒng)計量總體參數(shù):反映總體數(shù)量特征的指標。其數(shù)值是唯一的、確定的。樣本統(tǒng)計量:根據(jù)樣本分布計算的指標,是隨機變量。平均數(shù)標準差、方差參數(shù)、2統(tǒng)計量S、S2總體樣本32總體參數(shù)和樣本統(tǒng)計量總體參數(shù):反映總體數(shù)量特征的指標。其數(shù)值數(shù)據(jù)的類型橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時間對同一總體內(nèi)不同單位的數(shù)量進行觀察而獲得的數(shù)據(jù)。時間序列數(shù)據(jù)又稱為動態(tài)數(shù)據(jù),它是指在不同時間對同一總體的數(shù)量表現(xiàn)進行觀察而獲得的數(shù)據(jù)。例如,2008年全國各省市自治區(qū)的國內(nèi)生產(chǎn)總值就屬于橫截面數(shù)據(jù)。而“十一五”期間我國歷年的國內(nèi)生產(chǎn)總值就屬于時間序列數(shù)據(jù)。面板數(shù)據(jù):橫截面數(shù)據(jù)與時間序列數(shù)據(jù)交織在一起。非結(jié)構(gòu)化數(shù)據(jù)33數(shù)據(jù)的類型橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時間對同一總面板數(shù)據(jù)所謂“面板數(shù)據(jù)”也稱為“平行數(shù)據(jù)”,是指對不同時刻的截面?zhèn)€體作連續(xù)觀測所得到的多維時間序列數(shù)據(jù)。例如,在研究生產(chǎn)成本與企業(yè)規(guī)模和技術(shù)進步的關(guān)系時,選擇不同規(guī)模企業(yè)在不同時間上的數(shù)據(jù)作為樣本觀測值,這些觀測值數(shù)據(jù)就是面板數(shù)據(jù)。34面板數(shù)據(jù)所謂“面板數(shù)據(jù)”也稱為“平行數(shù)據(jù)”,是指對不同時刻的非結(jié)構(gòu)化數(shù)據(jù)相對于結(jié)構(gòu)化數(shù)據(jù)(即存儲在數(shù)據(jù)庫中,可以用二維表結(jié)構(gòu)來邏輯表達的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、各類報表、圖像和音頻/視頻信息等等。據(jù)調(diào)查,現(xiàn)在人們所使用的數(shù)據(jù)有80%是非結(jié)構(gòu)化的,而非結(jié)構(gòu)化的數(shù)據(jù)又往往同結(jié)構(gòu)化的數(shù)據(jù)結(jié)合在一起。35非結(jié)構(gòu)化數(shù)據(jù)相對于結(jié)構(gòu)化數(shù)據(jù)(即存儲在數(shù)據(jù)庫中,可以用二維表數(shù)據(jù)與模型的關(guān)系數(shù)據(jù)1數(shù)據(jù)2……數(shù)據(jù)n模型分析結(jié)果決策方案輸入輸出處理過程36數(shù)據(jù)與模型的關(guān)系數(shù)據(jù)1數(shù)據(jù)2……數(shù)據(jù)n模型分析結(jié)果決策方案輸數(shù)據(jù)的質(zhì)量數(shù)據(jù)分析的有效性與數(shù)據(jù)質(zhì)量密不可分。GIGO-GarbageIn,GarbageOut.垃圾進,垃圾出。37數(shù)據(jù)的質(zhì)量數(shù)據(jù)分析的有效性與數(shù)據(jù)質(zhì)量密不可分。37數(shù)據(jù)的質(zhì)量數(shù)據(jù)分析研究的目的不同,對樣本數(shù)據(jù)要求也不同。選擇樣本數(shù)據(jù),除了考慮數(shù)據(jù)的可得性之外,還必須考慮數(shù)據(jù)的可用性。為保證分析結(jié)論的可靠性,應(yīng)從完整性、準確性、可比性和一致性等方面對選取的樣本數(shù)據(jù)的質(zhì)量進行考慮。38數(shù)據(jù)的質(zhì)量數(shù)據(jù)分析研究的目的不同,對樣本數(shù)據(jù)要求也不同。選數(shù)據(jù)的完整性人們無論是從宏觀、中觀和微觀角度研究的現(xiàn)象都可以看成一個系統(tǒng),研究所依據(jù)的數(shù)據(jù),作為系統(tǒng)狀態(tài)和其內(nèi)部機制及外部環(huán)境的數(shù)量應(yīng)該是完整的,否則,模型就無法確定。在統(tǒng)計模型中,表現(xiàn)為樣本數(shù)據(jù)的完整性。百分之百的完整是難以達到的,但對于少數(shù)“遺失數(shù)據(jù)”,必須采用科學(xué)的方法人為地補充以達到數(shù)據(jù)的完整性。39數(shù)據(jù)的完整性人們無論是從宏觀、中觀和微觀角度研究的現(xiàn)象都可數(shù)據(jù)的準確性數(shù)據(jù)的準確性包括兩個方面的含義。一是它必須準確反映它所代表的研究對象的狀態(tài),要求統(tǒng)計數(shù)據(jù)或調(diào)查數(shù)據(jù)本身是準確的;二是它必須是模型研究中所要求的數(shù)據(jù),它要求研究人員準確地選擇、應(yīng)用數(shù)據(jù)。40數(shù)據(jù)的準確性數(shù)據(jù)的準確性包括兩個方面的含義。40數(shù)據(jù)的可比性與一致性數(shù)據(jù)的可比性即數(shù)據(jù)口徑問題,在統(tǒng)計模型研究中人們得到的統(tǒng)計數(shù)據(jù),經(jīng)常具有比較差的可比性,其原因在于統(tǒng)計范圍口徑的變化,必須進行處理后才能為研究所用。統(tǒng)計分析方法,是從歷史的數(shù)據(jù)或同一時間截面的不同點的數(shù)據(jù)中尋找其內(nèi)在規(guī)律性,如果數(shù)據(jù)是不可比的,當然找出的規(guī)律并不能反映對象本身的固有規(guī)律。數(shù)據(jù)的一致性并不是可比性可以包容的,主要指縱向一致性(例如用于商品分類的代碼不一致)。41數(shù)據(jù)的可比性與一致性數(shù)據(jù)的可比性即數(shù)據(jù)口徑問題,在統(tǒng)計模型研數(shù)據(jù)預(yù)處理為什么需要預(yù)處理數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)規(guī)約42數(shù)據(jù)預(yù)處理為什么需要預(yù)處理42為什么需要預(yù)處理臟數(shù)據(jù)不完整,含噪聲,不一致數(shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除異常點,并解決不一致來清理數(shù)據(jù)。43為什么需要預(yù)處理臟數(shù)據(jù)43臟數(shù)據(jù)形成的原因濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語重復(fù)記錄丟失值拼寫變化不同的計量單位過時的編碼44臟數(shù)據(jù)形成的原因濫用縮寫詞44數(shù)據(jù)清理的重要性臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個非常困難的任務(wù)。數(shù)據(jù)清理可以改進數(shù)據(jù)的質(zhì)量,從而有助于提高分析和挖掘過程的精度和性能。45數(shù)據(jù)清理的重要性臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)數(shù)據(jù)清理處理內(nèi)容填充空缺值格式標準化異常數(shù)據(jù)清除錯誤糾正重復(fù)數(shù)據(jù)的清除46數(shù)據(jù)清理處理內(nèi)容填充空缺值46空缺值忽略元組人工填充空缺值使用一個全局常量填充空缺值使用屬性的平均值填充空缺值使用與給定元組屬于同一類的所有樣本的屬性平均值填充空缺值使用最有可能的值填充空缺值47空缺值忽略元組47噪聲數(shù)據(jù)如何平滑數(shù)據(jù),去掉噪聲數(shù)據(jù)平滑技術(shù)分箱聚類計算機和人工檢查相結(jié)合回歸48噪聲數(shù)據(jù)如何平滑數(shù)據(jù),去掉噪聲48分箱(binning)分箱方法通過考察數(shù)據(jù)的“近鄰”來光滑有序數(shù)據(jù)的值。平滑方法:按箱平均值平滑按箱中值平滑按箱邊界值平滑49分箱(binning)分箱方法通過考察數(shù)據(jù)的“近鄰”來光滑有分箱方法用于數(shù)據(jù)平滑價格數(shù)據(jù)(美元):4,8,9,15,21,21,24,25,26,28,29,34*劃分為(等頻)箱:
-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34*用箱均值平滑:
-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29*用箱的邊界平滑:
-箱1:4,4,4,15-箱2:21,21,25,25-箱3:26,26,26,3450分箱方法用于數(shù)據(jù)平滑價格數(shù)據(jù)(美元):4,8,9,聚類可以通過聚類檢測異常點每個簇(Cluster)中的數(shù)據(jù)用其中心值代替落在簇之外的點為異常點,一般情況下可以忽略異常點。51聚類可以通過聚類檢測異常點51聚類(Clustering)52聚類(Clustering)52計算機和人工檢查相結(jié)合先通過聚類等方法找出異常點。這些異常點可能包含有用的信息。人工再審查這些異常點。53計算機和人工檢查相結(jié)合先通過聚類等方法找出異常點。這些異常點回歸通過構(gòu)造函數(shù)來符合數(shù)據(jù)變化的趨勢,這樣可以用一個變量預(yù)測另一個變量。線性回歸非線性回歸xyy=x+1X1Y1Y1’54回歸通過構(gòu)造函數(shù)來符合數(shù)據(jù)變化的趨勢,這樣可以用一個變量預(yù)測數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中。實體識別問題:模式集成和對象匹配冗余:某個屬性可以由別的屬性推出。相關(guān)分析與相關(guān)性RA,B.RA,B>0,正相關(guān)。A隨B的值得增大而增大RA,B=0,不相關(guān)。AB無關(guān)RA,B<0,負相關(guān)。A隨B的值得增大而減少重復(fù)同一數(shù)據(jù)存儲多次數(shù)據(jù)值沖突的檢測和處理55數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲數(shù)據(jù)變換平滑:去掉數(shù)據(jù)中的噪聲聚集:對數(shù)據(jù)進行匯總或聚集數(shù)據(jù)概化:使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù)。規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,例如[0,1],[-1,1]屬性構(gòu)造(特征構(gòu)造):由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結(jié)構(gòu)的理解56數(shù)據(jù)變換平滑:去掉數(shù)據(jù)中的噪聲56數(shù)據(jù)規(guī)范化最小最大規(guī)范化小數(shù)定標規(guī)范化Z-Score規(guī)范化(μ:均值,σ:標準差)57數(shù)據(jù)規(guī)范化最小最大規(guī)范化57數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達到相同或基本相同的分析結(jié)果主要策略:數(shù)據(jù)立方體聚集屬性子集選擇維規(guī)約(通過變換降維)數(shù)值規(guī)約58數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達到相同或基本相屬性子集選擇刪除不相關(guān)的屬性(維)來減少數(shù)據(jù)量。找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布如何選???貪心算法逐步向前選擇逐步后向刪除向前選擇和后向刪除相結(jié)合決策樹歸納59屬性子集選擇刪除不相關(guān)的屬性(維)來減少數(shù)據(jù)量。59維規(guī)約維規(guī)約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的規(guī)約或“壓縮”表示。有損,無損小波變換與主成分分析(PCA)小波變換將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D’.對D’進行剪裁,保留小波系數(shù)最強的部分。60維規(guī)約維規(guī)約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的規(guī)約或“壓縮主成分分析
PCA通過尋找變量方差最大投影軸,判斷有多少不相關(guān)變量,并將原變量組合成新量,這大大可以減少計算的復(fù)雜性,同時保證盡可能小地丟失信息,即降維可以用以分解變量為幾個不相關(guān)分量相比于反射映射或交叉相關(guān)方法,PCA對樣本要求不高對數(shù)據(jù)預(yù)處理,去掉一些不重要或無關(guān)量61主成分分析 PCA通過尋找變量方差最大投影軸,判斷有多少不主成分分析
(PCA)x2x1e62主成分分析(PCA)x2x1e62數(shù)值規(guī)約通過選擇可替代的、規(guī)模小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量參數(shù)方法(例如回歸)模型假設(shè)、參數(shù)估計。存放數(shù)據(jù)參數(shù),而不是實際數(shù)據(jù)。例如回歸模型、對數(shù)線性模型等非參數(shù)方法
不預(yù)先假設(shè)模型直方圖,聚類,抽樣63數(shù)值規(guī)約通過選擇可替代的、規(guī)模小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量6抽樣(有放回和無放回)SRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData64抽樣(有放回和無放回)SRSWORSRSWRRawData聚類后抽樣原始數(shù)據(jù)
聚類抽樣65聚類后抽樣原始數(shù)據(jù)聚類抽樣65離散化和概念分層離散化技術(shù)用來減少給定連續(xù)屬性的個數(shù)通常是遞歸的。大量時間花在排序上。對于給定的數(shù)值屬性,概念分層定義了該屬性的一個離散化的值。66離散化和概念分層離散化技術(shù)用來減少給定連續(xù)屬性的個數(shù)66數(shù)值數(shù)據(jù)離散化和概念分層分箱直方圖分析聚類分析基于熵的離散化通過自然劃分分段3-4-5規(guī)則根據(jù)直觀劃分產(chǎn)生數(shù)值概念分層67數(shù)值數(shù)據(jù)離散化和概念分層分箱67數(shù)值概念分層(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000 Low=-$1,000 High=$2,000Step2:Step4:Step1:-$351 -$159 profit $1,838 $4,700 MinLow(i.e,5%-tile) High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)Step3:($1,000-$2,000)68數(shù)值概念分層(-$400-$5,000)(-$400-概念分層自動生成根據(jù)每個屬性的不同值的個數(shù)產(chǎn)生概念分層國家省市街道15distinctvalues365distinctvalues3567distinctvalues674,339distinctvalues69概念分層自動生成根據(jù)每個屬性的不同值的個數(shù)產(chǎn)生概念分層國家省數(shù)據(jù)預(yù)處理小結(jié)數(shù)據(jù)預(yù)處理對于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是一個重要的問題,因為實際數(shù)據(jù)多半是不完整的、有噪聲和不一致的。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。盡管已經(jīng)開發(fā)了許多數(shù)據(jù)預(yù)處理方法,由于不一致或臟數(shù)據(jù)數(shù)量巨大以及問題本身的復(fù)雜性,數(shù)據(jù)預(yù)處理仍然是一個活躍的研究領(lǐng)域。70數(shù)據(jù)預(yù)處理小結(jié)數(shù)據(jù)預(yù)處理對于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是一個重要的統(tǒng)計數(shù)據(jù)分析方法描述統(tǒng)計推斷統(tǒng)計常用統(tǒng)計分析軟件71統(tǒng)計數(shù)據(jù)分析方法71統(tǒng)計數(shù)據(jù)分析方法統(tǒng)計學(xué)探索客觀現(xiàn)象數(shù)量規(guī)律性的過程反映客觀現(xiàn)象的統(tǒng)計數(shù)據(jù)描述統(tǒng)計學(xué)(統(tǒng)計數(shù)據(jù)的收集、整理、顯示和分析)推斷統(tǒng)計學(xué)(利用樣本信息和概率論對總體數(shù)量特征進行估計并檢驗)概率論(分布理論、大數(shù)定律、中心極限定理)總體內(nèi)在的數(shù)量規(guī)律72統(tǒng)計數(shù)據(jù)分析方法統(tǒng)計學(xué)探索客觀現(xiàn)象數(shù)量規(guī)律性的過程反映客觀現(xiàn)描述統(tǒng)計的作用對事物的全局認識和大局把握描述粗略分布形狀描述現(xiàn)象基本特征和基本框架73描述統(tǒng)計的作用對事物的全局認識和大局把握73描述統(tǒng)計數(shù)據(jù)整理集中趨勢和離中趨勢相關(guān)分析74描述統(tǒng)計數(shù)據(jù)整理74數(shù)據(jù)整理數(shù)據(jù)分組統(tǒng)計指標統(tǒng)計表和統(tǒng)計圖
按照研究的目的,將搜集到的原始數(shù)據(jù)進行加工,從中提取有用的信息,并搜索其中的數(shù)量規(guī)律性。數(shù)據(jù)整理數(shù)據(jù)分組按照研究的目的,將搜集到的原始數(shù)據(jù)進75數(shù)據(jù)分組統(tǒng)計數(shù)據(jù)的分組分組是將總體所有單位按一定的標準區(qū)分為若干部分分組的目的:概括數(shù)據(jù),清晰條理76數(shù)據(jù)分組統(tǒng)計數(shù)據(jù)的分組分組是將總體所有單位按一定的標準區(qū)分為如何分組?將具有共性的個體歸入同一組將總體內(nèi)部個體間的差異通過組別區(qū)分開來77如何分組?將具有共性的個體歸入同一組將總體內(nèi)部個體間的差異通統(tǒng)計數(shù)據(jù)的分組空間數(shù)列是按不同地區(qū)標志進行的分組。例如人口按省、市、自治區(qū)分組;品質(zhì)數(shù)列是按現(xiàn)象的性質(zhì)、類別標志進行的分組。例如人口按性別和民族分組;時間數(shù)列按時間發(fā)生的先后順序分組。例如我國解放后各年的人口數(shù)字;GDP變量數(shù)列是按某一數(shù)量標志大小順序進行的分組。例如某企業(yè)按工資收入的多少分組;78統(tǒng)計數(shù)據(jù)的分組空間數(shù)列是按不同地區(qū)標志進行的分組。例如人口按次數(shù)分配數(shù)據(jù)觀察值在各組中的個數(shù)稱為次數(shù),各組間的次數(shù)稱為次數(shù)分配。次數(shù)分配描述了總體的結(jié)構(gòu)和特征。例如:某企業(yè)非熟練工人的月工資額(百元)數(shù)據(jù)如下表所示,應(yīng)如何分組?79次數(shù)分配數(shù)據(jù)觀察值在各組中的個數(shù)稱為次數(shù),各組間的次數(shù)稱為次某企業(yè)非熟練工人的月工資額(百元)人員編號月收入人員編號月收入人員編號月收入110611992185284129422106311131192310149114872410551091511825966911697261057111171032710781071810328128912119952911110105201063010180某企業(yè)非熟練工人的月工資額(百元)人員編號月收入人員編號月收變量次數(shù)分配的編制1、將原始資料順序排序2、確定組數(shù)與組距3、將各個數(shù)據(jù)按其數(shù)值大小歸入相應(yīng)的組內(nèi)4、確定組限81變量次數(shù)分配的編制1、將原始資料順序排序81確定組數(shù)與組距如果數(shù)據(jù)分布比較均勻、對稱,即中間數(shù)值次數(shù)多,大小極端值次數(shù)少,考慮用以下公式來確定組數(shù):Sturges提出的經(jīng)驗公式組數(shù)=1+3.322×logn。式中,n表示總次數(shù),log表示以10為底的對數(shù)。在不等距分組情況下,要比較各組次數(shù)或分析總體結(jié)構(gòu),要消除由組距不等造成的影響。為此需計算單位組距的次數(shù),即頻數(shù)密度。組距=(觀察值中的最大數(shù)值-觀察值中的最小數(shù)值)/組數(shù)82確定組數(shù)與組距如果數(shù)據(jù)分布比較均勻、對稱,即中間數(shù)值次數(shù)多,分組計算組數(shù)=1+3.322×logn=5.9(n=30)分6組組距:每組區(qū)間的寬度=(觀察值中的最大數(shù)值-觀察值中的最小數(shù)值)/組數(shù)
=(128-84)/6=7.383分組計算組數(shù)=1+3.322×logn83分6組,組距784,85,87,91,91,94,95,96,97,99,101,101,103,103……計算不方便84分6組,組距784,85,87,91,91,94,95,84結(jié)合實際數(shù)據(jù)比較計算組距值(7.3),組距為10比較好計算且方便,分組的組數(shù)相應(yīng)從6減少為5。最小值為83,下限從80開始,85結(jié)合實際數(shù)據(jù)比較計算組距值(7.3),組距為10比較好計算且按5組,10元作為組距,
計算次數(shù)。組限:區(qū)間界限80-89
求次數(shù)分配表和直方圖86按5組,10元作為組距,
計算次數(shù)。組限:區(qū)間界限8次數(shù)分配表工資收入次數(shù)分配表工資收入分組次數(shù)80-90(80-89)390-100(90-99)7100-11013110-1205120-1302合計3087次數(shù)分配表工資收入次數(shù)分配表工資收入分組次數(shù)80-90(作圖88作圖88用excel作直方圖89用excel作直方圖89分兩組工資收入次數(shù)分配表工資收入分組次數(shù)80-10513105-13017合計30反映不出觀察值分布特征90分兩組工資收入次數(shù)分配表工資收入分組次數(shù)80-10513分組太細會出現(xiàn)什么問題?91分組太細會出現(xiàn)什么問題?91分組數(shù)據(jù)的圖示
(直方圖的繪制)140150210直方圖下的面積之和等于1某電腦公司銷售量分布的直方圖我一眼就看出來了,銷售量在170~180之間的天數(shù)最多!190200180160170頻數(shù)(天)25201510530220230240銷售量(臺)92分組數(shù)據(jù)的圖示
(直方圖的繪制)140150210直方圖下的次數(shù)曲線用直線線段連接直方圖各組條形頂端中值,形成一條平滑的曲線,即次數(shù)曲線。常見的四種次數(shù)曲線:正態(tài)分布曲線,偏態(tài)曲線,J形曲線和U形曲線。正態(tài)分布曲線偏態(tài)曲線J形曲線U形曲線正偏(右偏)負偏(左偏)93次數(shù)曲線用直線線段連接直方圖各組條形頂端中值,形成一條平滑的累計次數(shù)分布周工資上組限組次數(shù)小于上組限的累計次數(shù)小于上組限的累計百分比%80-9090-100100-110110-120120-130901001101201303713523102328301033779310094累計次數(shù)分布周工資上組限組次數(shù)小于上組限的累計次數(shù)小于上組限統(tǒng)計表和統(tǒng)計圖一個完整的統(tǒng)計表要求有:表號、表名、分組標志或說明、指標名稱及數(shù)值;統(tǒng)計圖有條形圖、線形圖、圓餅圖、立體圖、枝葉圖等;統(tǒng)計圖線形圖條形圖圓餅圖95統(tǒng)計表和統(tǒng)計圖一個完整的統(tǒng)計表要求有:表號、表名、分組標志或示例數(shù)據(jù)96示例數(shù)據(jù)96線形圖(Linegraph)(億元)97線形圖(Linegraph)(億元)97條形圖(Barchart)(億元)98條形圖(Barchart)(億元)98圓餅圖(Piechart)99圓餅圖(Piechart)99環(huán)形圖
(doughnutchart)環(huán)形圖中間有一個“空洞”,樣本或總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示與餅圖類似,但又有區(qū)別餅圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個樣本或總體的數(shù)據(jù)系列,每一個樣本或總體的數(shù)據(jù)系列為一個環(huán)用于結(jié)構(gòu)比較研究用于展示分類和順序數(shù)據(jù)100環(huán)形圖
(doughnutchart)環(huán)形圖中間有一個“空環(huán)形圖8%36%31%15%7%33%26%21%13%10%
非常不滿意
不滿意
一般
滿意
非常滿意
甲乙兩城市家庭對住房狀況的評價101環(huán)形圖8%36%31%15%7%33%26%21%13%10多變量數(shù)據(jù)—雷達圖
(radarchart)也稱為蜘蛛圖(spiderchart)顯示多個變量的圖示方法在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用假定各變量的取值具有相同的正負號,總的絕對值與圖形所圍成的區(qū)域成正比可用于研究多個樣本之間的相似程度102多變量數(shù)據(jù)—雷達圖
(radarchart)也稱為蜘蛛圖(多變量數(shù)據(jù)—雷達圖
(雷達圖的制作)設(shè)有n組樣本S1,S2,…,Sn,每個樣本測得P個變量X1,X2
,…,XP,要繪制這P個變量的雷達圖,其具體做法是
先做一個圓,然后將圓P等分,得到P個點,令這P個點分別對應(yīng)P個變量,在將這P個點與圓心連線,得到P個輻射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示將同一樣本的值在P個坐標上的點連線。這樣,n個樣本形成的n個多邊形就是一個雷達圖103多變量數(shù)據(jù)—雷達圖
(雷達圖的制作)設(shè)有n組樣本S1,S多變量數(shù)據(jù)—雷達圖
(例題分析)【例】2003年我國城鄉(xiāng)居民家庭平均每人各項生活消費支出構(gòu)成數(shù)據(jù)如表。試繪制雷達圖2003年城鄉(xiāng)居民家庭平均每人生活消費支出構(gòu)成(%)項目城鎮(zhèn)居民農(nóng)村居民
食品衣著家庭設(shè)備用品及服務(wù)醫(yī)療保健交通通訊娛樂教育文化服務(wù)居住雜項商品與服務(wù)37.129.796.307.3111.0814.3510.743.3045.595.674.205.968.3612.1315.872.21104多變量數(shù)據(jù)—雷達圖
(例題分析)【例】2003年我國城鄉(xiāng)居多變量數(shù)據(jù)—雷達圖
(例題分析)105多變量數(shù)據(jù)—雷達圖
(例題分析)105106106散點圖(ScatterDiagram)107散點圖(ScatterDiagram)107集中趨勢和離中趨勢集中趨勢的計量離中趨勢的計量偏斜度和峰度的計量108集中趨勢和離中趨勢集中趨勢的計量108次數(shù)分配后有兩個特征集中趨勢的計量。集中趨勢反映一組數(shù)據(jù)中各數(shù)據(jù)所具有的共同趨勢,即資料中各數(shù)據(jù)聚集的位置離中(離散)趨勢的計量
109次數(shù)分配后有兩個特征集中趨勢的計量。109算術(shù)平均值
簡單算術(shù)平均數(shù)計算公式:
它反映數(shù)據(jù)集中的主要測度。110算術(shù)平均值簡單算術(shù)平均數(shù)計算公式:110加權(quán)算數(shù)平均數(shù)111加權(quán)算數(shù)平均數(shù)111算數(shù)平均值的好性質(zhì)一
數(shù)據(jù)觀察值與均值的離差值之和為零此性質(zhì)表明均值是個數(shù)值的重心112算數(shù)平均值的好性質(zhì)一數(shù)據(jù)觀察值與均值的離差值之和為零112算數(shù)平均值的好性質(zhì)二觀察值與均值的離差平方和最小,為任意數(shù)。113算數(shù)平均值的好性質(zhì)二觀察值與均值的離差平方和最小,113均值的缺點均值易受極端值的影響,某個極端大值或極端小值都會影響均值的代表性。同時還影響其對集中趨勢測度的準確性114均值的缺點均值易受極端值的影響,某個極端大值或極端小值都會影中位數(shù)將數(shù)據(jù)觀察值按其變量值由小到大的順序排序為如果個數(shù)為奇數(shù),中位數(shù)所在位置位置上的數(shù)值為成為中位數(shù);用表示中位數(shù),6,7,8,9,12,15,18115中位數(shù)將數(shù)據(jù)觀察值按其變量值由舉例1987年美國家庭收入中位數(shù)大約是30800美元。收入直方圖有一個長的右尾部,且平均數(shù)較高一些,為37000美元。在處理長尾的分布時,統(tǒng)計學(xué)家常常使用中位數(shù)而不用平均數(shù),理由在于在某些情況下,平均數(shù)過多地注意了分布的極端尾部的小百分比的事例。116舉例1987年美國家庭收入中位數(shù)大約是30800美元。收入直眾數(shù)眾數(shù)是一組資料中出現(xiàn)此書最多的那個數(shù)值,也反映數(shù)據(jù)集中的程度。20,15,18,20,20,22,20,2320,20,15,19,19,
20,19,2510,11,13,16,15,25,8,12117眾數(shù)眾數(shù)是一組資料中出現(xiàn)此書最多的那個數(shù)值,也反映數(shù)據(jù)集對稱分布平均數(shù)與中位數(shù)相同眾數(shù)平均數(shù)中位數(shù)118對稱分布平均數(shù)與中位數(shù)相同眾數(shù)平均數(shù)中位數(shù)118均值是數(shù)據(jù)分布的平衡點或重心中位數(shù)把這個分布劃分為兩半眾數(shù)正好是分布的頂端119均值是數(shù)據(jù)分布的平衡點或重心中位數(shù)把這個分布劃分為兩半119長左尾部—負偏態(tài)—左偏態(tài)平均數(shù)小于中位數(shù)120長左尾部—負偏態(tài)—左偏態(tài)平均數(shù)小于中位數(shù)120幾何均值凡是變量值乘積等于總比率或總速度的現(xiàn)象都可以用幾何平均數(shù)來計算平均率或平均速度。主要用于指數(shù)和平均發(fā)展速度的計算,用表示,公式為:121幾何均值凡是變量值乘積等于總比率或總速度的現(xiàn)象都可以用幾何平表示變異(離散)程度的特征數(shù)數(shù)據(jù)的變異程度產(chǎn)品質(zhì)量檢查的結(jié)果說明生產(chǎn)是否穩(wěn)定測量的結(jié)果說明測量方法或儀器是精密還是粗糙學(xué)生的成績成績是否整齊(而不是高低)122表示變異(離散)程度的特征數(shù)數(shù)據(jù)的變產(chǎn)品質(zhì)量檢查的結(jié)果說明生離散程度的測度離散程度的測度的主要方法是:極差和方差極差極差也稱為全距,是一組數(shù)據(jù)的最大值和最小值的差:
例如:天氣預(yù)報123離散程度的測度離散程度的測度的主要方法是:極差和方差例如:天方差方差是觀察值與其均值離差平方和的均值,又有總體方差和樣本方差之分;124方差方差是觀察值與其均值離差平方和的均值,又有總體方差和樣本標準差標準差是方差的正平方根總體標準差樣本標準差125標準差標準差是方差的正平方根總體標準差樣本標準差125用Excel計算描述統(tǒng)計量將120個銷售量的數(shù)據(jù)輸入到Excel工作表中,然后按下列步驟操作第1步:選擇【工具】下拉菜單第2步:選擇【數(shù)據(jù)分析】選項第3步:在分析工具中選擇【描述統(tǒng)計】,然后選擇【確定】第4步:當對話框出現(xiàn)時在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)區(qū)域在【輸出選項】中選擇輸出區(qū)域選擇【匯總統(tǒng)計】選擇【確定】實例計算126用Excel計算描述統(tǒng)計量將120個銷售量的數(shù)據(jù)輸入到ExExcel中的統(tǒng)計函數(shù)MODE—計算眾數(shù)MEDIAN—計算中位數(shù)QUARTILE—計算四分位數(shù)AVERAGE—計算平均數(shù)HARMEAN—計算簡單調(diào)和平均數(shù)GEOMEAN—計算幾何平均數(shù)AVEDEV—計算平均差STDEV—計算樣本標準差STDEVP—計算總體標準差SKEW—計算偏態(tài)系數(shù)KURT—計算峰態(tài)系數(shù)TRIMMEAN—計算切尾均值127Excel中的統(tǒng)計函數(shù)MODE—計算眾數(shù)127數(shù)據(jù)分布特征和描述統(tǒng)計量數(shù)據(jù)分布特征集中趨勢離散程度分布形狀中位數(shù)平均數(shù)異眾比率四分位差極差偏態(tài)系數(shù)平均差方差或標準差峰態(tài)系數(shù)眾數(shù)離散系數(shù)128數(shù)據(jù)分布特征和描述統(tǒng)計量數(shù)據(jù)分布特征集中趨勢離散程度分布形狀因變量(Y)與自變量(X)之間的關(guān)系
根據(jù)因變量與自變量之間的關(guān)系不同,可以分為兩種類型:函數(shù)關(guān)系統(tǒng)計關(guān)系129因變量(Y)與自變量(X)之間的關(guān)系
根據(jù)因變量與自變量之間變量之間的關(guān)系函數(shù)關(guān)系:變量之間依一定的函數(shù)形成的一一對應(yīng)關(guān)系,若兩個變量分別記做Y與X,則當Y與X之間存在函數(shù)關(guān)系時,X值一旦被指定,Y值就是唯一確定的。130變量之間的關(guān)系函數(shù)關(guān)系:變量之間依一定的函數(shù)形成的一一對應(yīng)關(guān)函數(shù)關(guān)系函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px(p為單價)圓的面積(S)與半徑之間的關(guān)系可表示為S=r2
企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y=x1x2x3
131函數(shù)關(guān)系函數(shù)關(guān)系的例子131變量之間的關(guān)系統(tǒng)計關(guān)系:兩個變量之間存在某種關(guān)系,但變量Y并不是由變量X唯一確定的,它們之間沒有嚴格的一一對應(yīng)關(guān)系。兩個變量間的這種關(guān)系就是統(tǒng)計關(guān)系,亦稱相關(guān)關(guān)系。兩個變量之間若存在線性關(guān)系稱為線性相關(guān),存在非線性關(guān)系稱為曲線相關(guān),通常通過適當?shù)淖兞孔儞Q,曲線相關(guān)可轉(zhuǎn)換為線性相關(guān)。132變量之間的關(guān)系統(tǒng)計關(guān)系:兩個變量之間存在某種關(guān)系,但變量Y并相關(guān)關(guān)系
相關(guān)關(guān)系的例子商品的消費量(y)與居民收入(x)之間的關(guān)系商品的消費量(y)與物價(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系父親身高(y)與子女身高(x)之間的關(guān)系133相關(guān)關(guān)系相關(guān)關(guān)系的例子133總體相關(guān)系數(shù)134總體相關(guān)系數(shù)134樣本相關(guān)系數(shù)135樣本相關(guān)系數(shù)135樣本相關(guān)系數(shù)136樣本相關(guān)系數(shù)136樣本相關(guān)系數(shù)137樣本相關(guān)系數(shù)137相關(guān)關(guān)系的測度
(相關(guān)系數(shù)取值及其意義)-1.0+1.00-0.5+0.5完全負相關(guān)無線性相關(guān)完全正相關(guān)負相關(guān)程度增加r正相關(guān)程度增加138相關(guān)關(guān)系的測度
(相關(guān)系數(shù)取值及其意義)-1.0+1.00-相關(guān)性的可視化Scatterplotsshowingthesimilarityfrom–1to1.139相關(guān)性的可視化Scatterplotsshowingt示例為研究股票收益與風(fēng)險之間的關(guān)系,抽選了美國15種股票,計算它們在1956~1980年間的平均收益率和標準差如表(美國15種股票平均收益率與標準差),試計算收益率與風(fēng)險之間的相關(guān)系數(shù)。計算結(jié)果為:r=0.6376,說明了平均收益越大風(fēng)險也越大。140示例為研究股票收益與風(fēng)險之間的關(guān)系,抽選了美國15種股票,計相關(guān)分析中應(yīng)注意的問題相關(guān)系數(shù)不解釋兩個變量間的因果關(guān)系,它只是表明了兩個變量間互相影響的程度和方向。有時兩變量之間不存在相關(guān)關(guān)系,但卻可能出現(xiàn)較高的相關(guān)系數(shù),要警惕虛假相關(guān)導(dǎo)致的錯誤結(jié)論。141相關(guān)分析中應(yīng)注意的問題相關(guān)系數(shù)不解釋兩個變量間的因果關(guān)系,它推斷統(tǒng)計參數(shù)估計假設(shè)檢驗方差分析回歸分析時間序列分析推斷性統(tǒng)計學(xué)142推斷統(tǒng)計參數(shù)估計假設(shè)檢驗方差分析回歸分析時間序列分析推142相關(guān)分析與回歸分析相關(guān)分析就是用一個指標來表明現(xiàn)象間相互依存關(guān)系的密切程度。廣義的相關(guān)分析包括相關(guān)關(guān)系的分析(狹義的相關(guān)分析)和回歸分析?;貧w分析是指對具有相關(guān)關(guān)系的現(xiàn)象,根據(jù)其相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學(xué)模型(稱為回歸方程式),用來近似地表達變量間的平均變化關(guān)系的一種統(tǒng)計分析方法。143相關(guān)分析與回歸分析相關(guān)分析就是用一個指標來表明現(xiàn)象間相互依存回歸模型的類型一個自變量兩個以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸144回歸模型的類型一個自變量兩個以上自變量回歸模型多元回歸一元回一元線性回歸模型統(tǒng)計關(guān)系的特征統(tǒng)計關(guān)系特征觀測點散布在統(tǒng)計關(guān)系直線的周圍,此種情況說明Y的變化除了受自變量X影響以外,還受其他因素的影響。因此試圖建立這樣一個回歸模型,通過對此模型所作的一些假設(shè),可以體現(xiàn)出上述統(tǒng)計關(guān)系所刻劃的特征。因變量Y隨自變量X有規(guī)律的變化,而統(tǒng)計關(guān)系直線描述了這一變化的趨勢。145一元線性回歸模型統(tǒng)計關(guān)系的特征統(tǒng)計關(guān)系觀測點散布在統(tǒng)計關(guān)系直一元線性回歸模型假設(shè)根據(jù)統(tǒng)計關(guān)系特征,可以進行下述假設(shè):假設(shè)(2)這些Y的概率分布的均值,有規(guī)律的隨X變化而變化(1)對于自變量的每一水平X,存在著Y的一個概率分布;146一元線性回歸模型假設(shè)根據(jù)統(tǒng)計關(guān)系特征,可以進行下述假設(shè):假設(shè)一元線性回歸模型Y與X具有統(tǒng)計關(guān)系而且是線性建立回歸模型Yi=β0+β1Xi+εi
(i=1,2,···,n)
其中,(Xi,Yj)表示(X,Y)的第i個觀測值,β0,β1為參數(shù),β0+β1Xi為反映統(tǒng)計關(guān)系直線的分量,εi為反映在統(tǒng)計關(guān)系直線周圍散布的隨機分量ε
i~N(0,σ2)。147一元線性回歸模型Y與X具有統(tǒng)計建立Yi=β0+β1Xi+εi一元線性回歸模型對于任意Xi值有:⑴Yi服從正態(tài)分布⑵E(Yi)=β0+β1Xi;⑶⑷各Yi間相互獨立
Yi~N(β0+β1Xi,σ2)148一元線性回歸模型對于任意Xi值有:⑴Yi服從正態(tài)分布⑵E一元線性回歸方程最小二乘法Y與X之間為線性關(guān)系選出一條最能反映Y與X之間關(guān)系規(guī)律的直線149一元線性回歸方程最小二乘法Y與X之間選出一條最能反149一元線性回歸方程Yi=β0+β1Xi+εi
β0和β1均未知根據(jù)樣本數(shù)據(jù)對β0和β1進行估計β0和β1的估計值為b0和b1
建立一元線性回歸方程
150一元線性回歸方程Yi=β0+β1Xi+εi根據(jù)樣本數(shù)據(jù)β0一元線性回歸方程一般而言,所求的b0和b1應(yīng)能使每個樣本觀測點(Xi,Yi)與回歸直線之間的偏差盡可能小,即使觀察值與擬合值的誤差平方和Q達到最小?;貧w方程原理圖151一元線性回歸方程一般而言,所求的b0和b1應(yīng)能使每個樣本觀測一元線性回歸方程令
Q達到最小值b0和b1稱為最小二乘估計量微積分中極值的必要條件
令偏導(dǎo)數(shù)為0解方程152一元線性回歸方程令一元線性回歸方程153一元線性回歸方程153模型適合性分析在對一元線性回歸模型的適合性進行分析時,由于誤差項是不可觀測或測量的,需借助殘差的圖像,來考察模型是否存在以下情況:異方差性和自相關(guān)性。154模型適合性分析在對一元線性回歸模型的適合性進行分析時,15誤差項的異方差性檢驗若不具有常數(shù)方差,稱模型存在異方差性。此時,殘差如下圖所示,數(shù)據(jù)點呈現(xiàn)發(fā)散或收斂趨勢。在此種情況下,最小二乘法失效,因此需按照一定方法對數(shù)據(jù)進行變換。155誤差項的異方差性檢驗若不具有常數(shù)方差,稱模型存在異方差誤差項的異方差性檢驗誤差項具有異方差性的殘差圖156誤差項的異方差性檢驗誤差項具有異方差性的殘差圖156誤差項的自相性關(guān)檢驗如果觀測值是來自一個時間序列的樣本,則很可能出現(xiàn)誤差項是不獨立的,將殘差et與時間t作殘差圖,將呈現(xiàn)出有規(guī)則的變化趨勢。稱模型存在自相關(guān)(Autocorrelation)現(xiàn)象,也需按一定方法對數(shù)據(jù)進行修正。157誤差項的自相性關(guān)檢驗如果觀測值是來自一個時間序列的樣本,則誤差項的自相性關(guān)檢驗誤差項具有負自相關(guān)性的殘差圖158誤差項的自相性關(guān)檢驗誤差項具有負自相關(guān)性的殘差圖158誤差項的自相性關(guān)檢驗誤差項具有正自相關(guān)性的殘差圖159誤差項的自相性關(guān)檢驗誤差項具有正自相關(guān)性的殘差圖159多元線性回歸分析多元線性回歸的基本思想是什么?多元線性回歸的模型與一元線性回歸有什么異同?與一元線性回歸相比,多元線性回歸的檢驗有何特殊之處?多元線性回歸分析多元線性回歸的基本思想是什么?160多元線性回歸分析的定義多元線性回歸分析:研究因變量(被解釋變量)與兩個或兩個以上自變量(解釋變量)之間的回歸問題,稱為多元回歸分析。線性回歸自變量個數(shù)大于等于2多元線性回歸161多元線性回歸分析的定義多元線性回歸分析:研究因變量(被解釋變多元線性回歸模型若因變量Y與解釋變量X1,X2,XK……具有線性關(guān)系,它們之間的線性回歸模型可表示為(其中b0,b1,…,bk為回歸系數(shù),u為隨機擾動項):多元線性回歸的基本理論162多元線性回歸模型若因變量Y與解釋變量X1,X2,XK……具有多元線性回歸模型將n個觀察數(shù)據(jù)代入上述模型,則問題轉(zhuǎn)化為:多元線性回歸的基本理論163多元線性回歸模型將n個觀察數(shù)據(jù)代入上述模型,則問題轉(zhuǎn)化為:多多元線性回歸模型多元線性回歸的基本理論寫為矩陣形式:164多元線性回歸模型多元線性回歸的基本理論寫為矩陣形式:164多元線性回歸模型多元線性回歸的基本理論即:其中,Y,u是n維向量,b是k維向量,x是m×k矩陣165多元線性回歸模型多元線性回歸的基本理論即:其中,Y,u是n多元線性回歸模型多元線性回歸的基本理論基本假定:①②166多元線性回歸模型多元線性回歸的基本理論基本假定:①②16多元線性回歸模型多元線性回歸的基本理論③④167多元線性回歸模型多元線性回歸的基本理論③④167參數(shù)的最小二乘估計采用最小二乘估計回歸系數(shù)b令:取最小值168參數(shù)的最小二乘估計采用最小二乘估計回歸系數(shù)b令:取最小值1參數(shù)的最小二乘估計Q在最小值處偏導(dǎo)數(shù)為0,得:采用最小二乘估計回歸系數(shù)b169參數(shù)的最小二乘估計Q在最小值處偏導(dǎo)數(shù)為0,得:采用最小二乘估參數(shù)的最小二乘估計采用最小二乘估計回歸系數(shù)b整理得:求解該聯(lián)立方程組即可得170參數(shù)的最小二乘估計采用最小二乘估計回歸系數(shù)b整理得:求解該聯(lián)回歸方程的顯著性檢驗假設(shè)求得的回歸方程為:總離差平方和分解171回歸方程的顯著性檢驗假設(shè)求得的回歸方程為:總離差平方和分總離差平方和分解同一元回歸,可得:并且:
(10-6)172總離差平方和分解同一元回歸,可得:并且:(10-6)17總離差平方和分解總離差平方和:即是:回歸平方和:殘差平方和:173總離差平方和分解總離差平方和:即是:回歸平方和:殘差平方樣本決定系數(shù)對回歸方程
“擬合優(yōu)度”的檢驗
樣本決定系數(shù)R2,又稱復(fù)決定系數(shù),或多重決定系數(shù)。定義:樣本決定系數(shù)R2174樣本決定系數(shù)對回歸方程
“擬合優(yōu)度”的檢驗樣本決定系數(shù)R樣本決定系數(shù)對回歸方程
“擬合優(yōu)度”的檢驗樣本容量增大(n↑)R2也隨之增大(R2↑)R2的大小很難說明問題R2存在的問題175樣本決定系數(shù)對回歸方程
“擬合優(yōu)度”的檢驗樣本容量增大(n↑樣本決定系數(shù)對回歸方程
“擬合優(yōu)度”的檢驗R2的改進當n為小樣本,解釋變量數(shù)很大時,上式可能為負數(shù),這時取其值為0。R2與均反映在給定樣本下,回歸方程與樣本觀測值擬合優(yōu)度,但不能據(jù)此進行總體模型的推斷。R2改進176樣本決定系數(shù)對回歸方程
“擬合優(yōu)度”的檢驗R2的改進當n為小回歸系數(shù)的顯著性檢驗
關(guān)于模型的異方差、自相關(guān)、多重共線性問題的檢驗,請參考有關(guān)教材。177回歸系數(shù)的顯著性檢驗關(guān)于模型的異方差、自相關(guān)、多重共線性問時間序列分析對時間序列的分析方法有哪幾種?它們分別有什么優(yōu)點和缺點?如何進行時間序列的預(yù)測?簡單外推模型平滑技術(shù)季節(jié)調(diào)整時間序列分析178時間序列的成分
一個時間序列中往往由幾種成分組成,通常假定是四種獨立的成分——趨勢、循環(huán)、季節(jié)和不規(guī)則。下面我們仔細研究其中的每一種成分。時間序列的四種獨立成分趨勢循環(huán)季節(jié)不規(guī)則179時間序列的成分一個時間序列中往往由幾種成分組成,通常假定是趨勢成分
在一段較長的時間內(nèi),時間序列往往呈現(xiàn)逐漸增加或減少的總體趨勢。時間序列逐漸轉(zhuǎn)變的性態(tài)稱為時間序列的趨勢。趨勢通常是長期因素影響的結(jié)果,如人口總量的變化、方法的變化等等趨勢成分時間序列的長期動向長期影響因素180趨勢成分在一段較長的時間內(nèi),時間序列往往呈現(xiàn)逐漸增加或減循環(huán)成分
時間序列常常呈現(xiàn)環(huán)繞趨勢線上、下的波動。任何時間間隔超過一年的,環(huán)繞趨勢線的上、下波動,都可歸結(jié)為時間序列的循環(huán)成分。循環(huán)成分圍繞長期趨勢線的上下波動181循環(huán)成分時間序列常常呈現(xiàn)環(huán)繞趨勢線上、下的波動。循環(huán)成分圍季節(jié)成分許多時間序列往往顯示出在一年內(nèi)有規(guī)則的運動,這通常由季節(jié)因素引起,因此稱為季節(jié)成分。季節(jié)成分季節(jié)因素引起的一年內(nèi)有規(guī)則的運動182季節(jié)成分許多時間序列往往顯示出在一年內(nèi)有規(guī)則的運動,這通常由季節(jié)成分例如,一個游泳池制造商在秋季和冬季各月有較低的銷售活動,而在春季和夏季各月有較高的銷售量。鏟雪設(shè)備和防寒衣物的制造商的銷售卻正好相反。183季節(jié)成分例如,一個游泳池制造商在秋季和冬季各月有較低的銷售活季節(jié)成分季節(jié)成分也可用來描述任何持續(xù)時間小于一年的、有規(guī)則的、重復(fù)的運動。例如,每天的交通流量資料顯示在一天內(nèi)的“季節(jié)”情況,在上、下班擁擠時刻出現(xiàn)高峰,在一天的休息時刻和傍晚出現(xiàn)中等流量,在午夜到清晨出現(xiàn)小流量。季節(jié)成分的擴展184季節(jié)成分季節(jié)成分也可用來描述任何持續(xù)時間小于一年的、有規(guī)則的不規(guī)則成分
時間序列的不規(guī)則成分是剩余的因素,它用來說明在分離了趨勢、循環(huán)和季節(jié)成分后,時間序列值的偏差。不規(guī)則成分是由那些影響時間序列的短期的、不可預(yù)期的和不重復(fù)出現(xiàn)的因素引起的。它是隨機的、無法預(yù)測的。不規(guī)則成分短期的,不可預(yù)期和不重復(fù)出現(xiàn)的因素引起的隨機變動185不規(guī)則成分時間序列的不規(guī)則成分是剩余的因素,它用來說明在分不規(guī)則成分
時間序列不規(guī)則成分分離出趨勢成分分離出循環(huán)成分分離出季節(jié)成分186不規(guī)則成分時不分離出趨勢成分分離出循環(huán)成分分離出季節(jié)成分1利用平滑法進行預(yù)測
討論三種平滑預(yù)測方法:移動平均法、加權(quán)移動平均法和指數(shù)平滑法。因為每一種方法的都是要“消除”由時間序列的不規(guī)則成分所引起的隨機波動,所以它們被稱為平滑方法。三種平滑方法移動平均法加權(quán)移動平均法指數(shù)平滑法187利用平滑法進行預(yù)測討論三種平滑預(yù)測方法:移動平均法、加權(quán)移利用平滑法進行預(yù)測
平滑方法對穩(wěn)定的時間序列——即沒有明顯的趨勢、循環(huán)和季節(jié)影響的時間序列——是合適的,這時平滑方法很適應(yīng)時間序列的水平變化。但當有明顯的趨勢、循環(huán)和季節(jié)變差時,平滑方法將不能很好地起作用平滑方法很容易使用,而且對近距離的預(yù)測,如下一個時期的預(yù)測,可提供較高的精度水平。預(yù)測方法之一的指數(shù)平滑法對資料有最低的要求平滑方法缺點優(yōu)點188利用平滑法進行預(yù)測平滑方法對穩(wěn)定的時間序列——即沒有明顯的移動平均法移動平均法使用時間序列中最近幾個時期數(shù)據(jù)值的平均數(shù)作為下一個時期的預(yù)測值。移動平均數(shù)的計算公式如下:189移動平均法移動平均法使用時間序列中最近幾個時期數(shù)據(jù)值的平均數(shù)加權(quán)移動平均法移動平均法加權(quán)移動平均法計算移動平均數(shù)時每個觀測值權(quán)數(shù)權(quán)數(shù)相同對每期數(shù)據(jù)值選擇不同的權(quán)數(shù),然后計算最近n個時期數(shù)值的加權(quán)平均數(shù)作為預(yù)測值通常,最近時期的觀測值應(yīng)取得最大的權(quán)數(shù),而比較遠的時期權(quán)數(shù)應(yīng)依次遞減190加權(quán)移動平均法移加權(quán)計算移動平均數(shù)時每個對每期數(shù)據(jù)值選擇不同指數(shù)平滑法
指數(shù)平滑法加權(quán)移動平均法屬于只選擇一個權(quán)數(shù)(最近時期觀測值的權(quán)數(shù)),其他時期數(shù)據(jù)值的權(quán)數(shù)可以自動推算出來。當觀測值離預(yù)測時期越久遠時,權(quán)數(shù)變得越小191指數(shù)平滑法指數(shù)平滑法加權(quán)移動平均法屬于只選擇一個權(quán)數(shù)(最近指數(shù)平滑法
指數(shù)平滑法模型:式中Ft+1——t+1期時間序列的預(yù)測值;
Yt——t期時間序列的實際值;
Ft——t期時間序列的預(yù)測值;
α——平滑常數(shù)(0≤α≤1)。192指數(shù)平滑法指數(shù)平滑法模型:式中Ft+1——t+1期時間序列指數(shù)平滑法
2期的預(yù)測值:3期預(yù)測值:最后,將F3的表達式代入F4的表達式中,有193指數(shù)平滑法2期的預(yù)測值:3期預(yù)測值:最后,將F3的表達指數(shù)平滑法
因此,F(xiàn)4是前三個時間序列數(shù)值的加權(quán)平均數(shù)。Y1,Y2和Y3的系數(shù)或權(quán)數(shù)之和等于1。由此可以得到一個結(jié)論,即任何預(yù)測值Ft+1是以前所有時間序列數(shù)值的加權(quán)平均數(shù)。194指數(shù)平滑法因此,F(xiàn)4是前三個時間序列數(shù)值的加權(quán)平均指數(shù)平滑法
指數(shù)平滑法特點指數(shù)平滑法提供的預(yù)測值是以前所有預(yù)測值的加權(quán)平均數(shù),但所有過去資料未必都需要保留,以用來計算下一個時期的預(yù)測值。一旦選定平滑常數(shù)α,只需要二項的信息就可計算預(yù)測值。對給定的α,我們只要知道t期時間序列的實際值和預(yù)測值,即Yt和Ft,就可計算t+1期的預(yù)測值。195指數(shù)平滑法指數(shù)指數(shù)平滑法提供的預(yù)測值是以前所有預(yù)測值的加權(quán)示例某一觀察值序列最后4期的觀察值為:5,5.5,5.8,6.2(1)使用4期移動平均法預(yù)測。(2)求在二期預(yù)測值中前面的系數(shù)等于多少?196示例某一觀察值序列最后4期的觀察值為:196示例(1)(2)
在二期預(yù)測值中前面的系數(shù)等于
197示例(1)197利用趨勢推測法進行預(yù)測
如何對擁有長期線性趨勢的時間序列進行預(yù)測。不穩(wěn)定,隨時間呈現(xiàn)持續(xù)增加或減少的形態(tài)長期線性趨勢數(shù)列趨勢推測法可行平滑法不合適198利用趨勢推測法進行預(yù)測如何對擁有長期線性趨勢的時間序列進行利用趨勢推測法進行預(yù)測
[例]
考慮一某超市過去10年的自行車銷售量時間序列,資料見表11-1。注意,第1年銷售了21600輛,第2年銷售了22900輛,…,第10年(即最近一年)銷售了31400輛。盡管圖11-1顯示在過去10年中銷售量有上、下波動,但時間序列總的趨勢是增長的或向上的。199利用趨勢推測法進行預(yù)測[例]199利用趨勢推測法進行預(yù)測
200利用趨勢推測法進行預(yù)測200利用趨勢推測法進行預(yù)測
圖11-1自行車銷售時間序列的圖形201利用趨勢推測法進行預(yù)測圖11-1自行車銷售時間序列的圖形利用趨勢推測法進行預(yù)測
圖11-2用線性函數(shù)對自行車銷售量的趨勢描述
202利用趨勢推測法進行預(yù)測圖11-2用線性函數(shù)對自行車銷售量利用趨勢推測法進行預(yù)測
被估計的銷售量可表示為時間的函數(shù),其表達式如下:線性趨勢方程上式中Tt——t期時間序列的趨勢值;
b0——線性趨勢的截距;
b1——線性趨勢的斜率;
t
——時間。[解析]203利用趨勢推測法進行預(yù)測被估計的銷售量可表示為時間的函利用趨勢推測法進行預(yù)測
其中:[解析(續(xù))]204利用趨勢推測法進行預(yù)測其中:[解析(續(xù))]204利用趨勢推測法進行預(yù)測
式中Tt——t期時間序列的值;
n——時期的個數(shù);——時間序列的平均值,即
—t的平均值,即=∑t/n。[解析(續(xù))]205利用趨勢推測法進行預(yù)測式中Tt——t期時間序列的值;——利用趨勢推測法進行預(yù)測
根據(jù)計算b0和b1的關(guān)系式及表11-1的自行車銷售量資料,我們有如下計算結(jié)果:[解析(續(xù))]206利用趨勢推測法進行預(yù)測根據(jù)計算b0和b1的關(guān)系式及利用趨勢推測法進行預(yù)測
因此,自行車銷售量時間序列的線性趨勢成分的表達式為:Tt=20.4+1.1t[解析(續(xù))]207利用趨勢推測法進行預(yù)測因此,自行車銷售量時間序列的擬合澳大利亞政府1981—1990年
每季度的消費支出序列
208擬合澳大利亞政府1981—1990年
每季度的消費支出序列線性擬合模型參數(shù)估計方法最小二乘估計參數(shù)估計值209線性擬合模型209擬合效果圖210擬合效果圖210非線性擬合使用場合長期趨勢呈現(xiàn)出非線形特征參數(shù)估計指導(dǎo)思想能轉(zhuǎn)換成線性模型的都轉(zhuǎn)換成線性模型,用線性最小二乘法進行參數(shù)估計實在不能轉(zhuǎn)換成線性的,就用迭代法進行參數(shù)估計211非線性擬合使用場合211常用非線性模型模型變換變換后模型參數(shù)估計方法線性最小二乘估計線性最小二乘估計--迭代法--迭代法--迭代法212常用非線性模型模型變換變換后模型參數(shù)估計方法線性最小二乘估計對上海證券交易所每月末上證指數(shù)
序列進行模型擬合
213對上海證券交易所每月末上證指數(shù)
序列進行模型擬合213非線性擬合模型變換參數(shù)估計方法線性最小二乘估計擬合模型口徑214非線性擬合模型214擬合效果圖215擬合效果圖215利用趨勢和季節(jié)成分進行預(yù)測
前面我們已經(jīng)介紹了如何對有趨勢成分的時間序列進行預(yù)測。本節(jié)我們將把這種討論擴展到對同時擁有趨勢和季節(jié)成分的時間序列進行預(yù)測的情形。216利用趨勢和季節(jié)成分進行預(yù)測前面我們已經(jīng)介紹了如何對有利用趨勢和季節(jié)成分進行預(yù)測商業(yè)和經(jīng)濟中的許多情形是一期與一期的比較。例如,我們想研究和了解失業(yè)人數(shù)是否比上個月上升1%,鋼產(chǎn)量是否比上個月上升5%等問題。在使用這些資料時,必須十分小心。因為每當描述季節(jié)影響時,這樣的比較會使人產(chǎn)生誤解。217利用趨勢和季節(jié)成分進行預(yù)測商業(yè)和經(jīng)濟中的許多情形是一期與一期利用趨勢和季節(jié)成分進行預(yù)測
例如,9月份電能消費量比8月份下降
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度專業(yè)技術(shù)人員聘用協(xié)議樣本
- 2024年專業(yè)吊裝作業(yè)協(xié)議格式
- 2024年套房精裝修協(xié)議模板
- 2024年規(guī)范租車操作詳細協(xié)議模板
- 辦公廠房租賃協(xié)議模板(2024年度)
- 2024專用學(xué)校物資采購協(xié)議模板
- DB11∕T 1693-2019 餐廚垃圾收集運輸節(jié)能規(guī)范
- DB11∕T 1682-2019 城市軌道交通視頻監(jiān)視系統(tǒng)測試規(guī)范
- 不動產(chǎn)項目出售協(xié)議(2024年度)
- 2024年賽事執(zhí)行協(xié)議樣本
- 《狼和小羊》PPT課件.ppt
- 神明—EZflame火焰檢測系統(tǒng)
- 新《固廢法》解讀(專業(yè)版)
- 個人簡歷求職簡歷課件.ppt
- 副神經(jīng)節(jié)瘤圖文.ppt
- 業(yè)務(wù)流程繪制方法IDEF和IDEFPPT課件
- (完整版)垃圾自動分揀機構(gòu)PLC控制畢業(yè)設(shè)計.doc
- 小學(xué)四年級音樂課程標準
- 我的一次教研經(jīng)歷
- 工業(yè)廠房中英文對照施工組織設(shè)計(土建、水電安裝)范本
- PCR儀使用手冊
評論
0/150
提交評論