應用多元統(tǒng)計分析課件_第1頁
應用多元統(tǒng)計分析課件_第2頁
應用多元統(tǒng)計分析課件_第3頁
應用多元統(tǒng)計分析課件_第4頁
應用多元統(tǒng)計分析課件_第5頁
已閱讀5頁,還剩363頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)收集和描述

第一節(jié)數(shù)據(jù)收集

第二節(jié)兩變數(shù)圖描述和量化分析

第三節(jié)多變量圖描述

第四節(jié)上機實現(xiàn)

第一節(jié)數(shù)據(jù)收集

1.1.1一手和二手數(shù)據(jù)

一手數(shù)據(jù)(primarydata,也叫原始數(shù)據(jù))是一些組織或個人為了某些特定的應用或研究目的,必須自己來收集的數(shù)據(jù).二手數(shù)據(jù)(secondary

data)是其他人收集的(對於他們來說是一手數(shù)據(jù)),而你僅僅用它來進行分析或進行數(shù)據(jù)挖掘,該數(shù)據(jù)對你來說則是二手數(shù)據(jù).常見的二手數(shù)據(jù)包括從期刊和網(wǎng)路上找到的,由政府、機構、公司、組織專門收集和維護的數(shù)據(jù),比如:外匯牌價、房價、人口抽樣調查結果等數(shù)據(jù)在開展一手數(shù)據(jù)收集前,要先調研一下是否已經有相應的二手數(shù)據(jù)存在.而在使用二手數(shù)據(jù)的過程中,要瞭解數(shù)據(jù)的來源及其真實和可靠程度,是否符合研究目的,以便恰當?shù)剡M行分析並解釋結果.試驗數(shù)據(jù)和觀測數(shù)據(jù)

試驗數(shù)據(jù)(experimental

data)中的引數(shù)取值是可以人為改變的.比如,通過調節(jié)冶煉金屬的時間、溫度和原料配比,尋找最佳組合條件,以煉成滿足某些性能指標的金屬材料;這類數(shù)據(jù)便於分析因果關係.實踐中,我們遇到的絕大部分二手數(shù)據(jù)都是觀測數(shù)據(jù)(observational

data).如跟蹤觀測研究吸煙與罹患癌癥的關係等.這類數(shù)據(jù)的引數(shù)不能隨意調節(jié),我們不能在身體健康狀況完全類似的人中隨機抽樣,強迫一部分人吸煙而另一部分不吸,之後觀測他們將來是否罹患癌癥.

第一節(jié)數(shù)據(jù)收集

1.1.2數(shù)據(jù)的度量級別和類型

名義數(shù)據(jù)(nominaldata),也叫定性數(shù)據(jù)或分類數(shù)據(jù)(categoricaldata),是最低級形式的數(shù)據(jù),我們可以對數(shù)據(jù)取值任意編號.如對婚姻狀態(tài),可以用1~4或M,S,D和O分別標記,即是M(已婚),S(未婚),D(離婚)和O(其他)有序數(shù)據(jù)(ordinal

data)-比名義數(shù)據(jù)高一級別,數(shù)據(jù)的類別是有序的.如健康狀態(tài):1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).

級別--從低到高包括:

區(qū)間數(shù)據(jù)(intervaldata)是有序的,而且任意兩點的距離是可以精確度量出來的.如華氏(Fahrenheit)和攝氏(Celsius)溫度.比率數(shù)據(jù)(ratiodata)有真正有意義的零點,度量級別最高.如體重、高度、距離、錢包裏的錢數(shù)等等.口袋沒錢,不管是美元還是人民幣元,都是0.

第一節(jié)數(shù)據(jù)收集

數(shù)據(jù)的類型

定量數(shù)據(jù)(quantitivedata)-指可以用數(shù)字量化的數(shù)據(jù),具體地又可以分為連續(xù)型(如身高)數(shù)據(jù)和離散型(如某路口每月交通事故次數(shù))數(shù)據(jù);定性數(shù)據(jù)(qualititivedata)-指取值分類別的數(shù)據(jù),如性別為男女.定性數(shù)據(jù)可以是名義數(shù)據(jù),也可以是有序數(shù)據(jù).定量數(shù)據(jù)可以是區(qū)間數(shù)據(jù),也可以是比率數(shù)據(jù).從數(shù)據(jù)整體特點來看,數(shù)據(jù)類型還可以分為:橫截面數(shù)據(jù)(cross-sectional)是在某個固定的時間點觀測得到的一組數(shù)據(jù),如某校大學生高考入學成績;時間序列數(shù)據(jù)(timeseriesdata)和縱向數(shù)據(jù)(longitudinaldata)中,每個對象都有重複觀測,這些重複觀測可能是按某種順序的不同的時間點或不同的狀況採集的.許多社會和醫(yī)學領域的前瞻群組跟蹤研究(prospectivecohortstudy)和回顧群組調查研究(retrospectivecohortstudy)都在不同時間點有多次觀測值.

第一節(jié)數(shù)據(jù)收集

1.1.3數(shù)據(jù)存放格式

截面數(shù)據(jù)的存放很簡單.以用Excel進行數(shù)據(jù)收集整理為例,-可將第一行存放變數(shù)名(variable),-從第二行開始,每一行存放一個樣品或對象的觀測值,即一行數(shù)據(jù)對應一個樣本觀測.-每個變數(shù)名所對應的列為各樣本點的觀測值.

對於時間序列,前瞻群組跟蹤研究數(shù)據(jù)和回顧群組調查研究數(shù)據(jù),每一個觀測對象可以在幾個不同時間點有觀測值,這種數(shù)據(jù)有兩種存放方式:(1).每一個對象有幾行觀測值,常稱長表格式(longform);(2).每一個對象僅有一行觀測值,不同時間觀測點用不同的變數(shù)名,常稱短表或寬表格式(shortform或wideform).

對於一些整合後的列聯(lián)表數(shù)據(jù),也可以存成矩形表格形式.-可在變數(shù)名中添加一個頻數(shù)(計數(shù)),-將表格中的數(shù)值放在這個頻數(shù)變數(shù)所在的列.-這類數(shù)據(jù)在分析中通常要做加權處理.

第二節(jié)兩變量圖描述和量化分析

對於這個數(shù)據(jù),我們一般會關心casual(臨時用戶人數(shù))、regist(註冊用戶人數(shù))或cnt(臨時用戶和註冊用戶人數(shù)之和)受天氣和季節(jié)的影響情況,也就是把這三個定量變數(shù)之一看成因變數(shù)(dependentvariable),其他的定性或定量變數(shù)看為引數(shù)(independentvariable),做回歸分析.本節(jié)我們先就數(shù)據(jù)中的不同變量類型,介紹如何用圖描述和簡單量化分析瞭解變數(shù)之間的關係.

第二節(jié)兩變量圖描述和量化分析

其結果顯示四個季節(jié)人數(shù)均值相等的零假設被拒絕,而且後三個季度各自的平均人數(shù)都分別顯著高於第一季度的平均人數(shù).

第二節(jié)兩變量圖描述和量化分析

二、量化分析在兩個變數(shù)不相關(即變數(shù)的相關係數(shù)r=0)的零假設下,其中n是樣本量.此檢驗與兩個變數(shù)之間線性回歸係數(shù)是否為零的假設檢驗是等價的,它們有相同的p值,詳見第3章內容.結果表明,對於給定的顯著性水準0.05,--

temp,atemp,windspd與cnt不相關的零假設被拒絕,

--但hum和cnt無關的零假設沒被拒絕.--溫度temp和體感溫度atemp越高,人數(shù)cnt越多;--風速windspd越高,人數(shù)cnt越少.

一、圖描述

觀察兩個定性變數(shù)之間的關係,如季節(jié)season和天氣情況weathsit,可用列聯(lián)表(contingencytable),也可用旁置或摞在一起的條形圖通過比較各行(或列)觀測頻數(shù)是否成比例,判斷兩個定性變數(shù)取值之間是否獨立.

1.2.3兩個定性變數(shù)

第二節(jié)兩變量圖描述和量化分析

第三節(jié)多變量圖描述

在用臉譜圖對觀測對象進行比較分析時,臉譜形狀受各變數(shù)次序的影響很大.如果將本例中8個變數(shù)的次序換一下,得到的臉譜圖會很不一樣.另外,不同人關注的臉的部位有很大不同,有人在意胖瘦,有人在意五官.實踐中臉譜圖必須與聚類分析等量化分析方法結合使用.與臉譜圖相比,雷達圖和星圖受變數(shù)排序和人為主觀偏好的影響較小.注意:

第三節(jié)多變量圖描述

1.3.3輪廓圖--把多個變數(shù)(或樣品)的取值放在同一個圖中用線連起來,就是輪廓圖(又稱折線圖).--圖1.7展示了8個變數(shù)在31個地區(qū)的取值.--當然,我們也可以行列顛倒,畫31條折線,以顯示31個地區(qū)在8個變數(shù)(方面)的取值.它們都有助於比較31個地區(qū)取值的不同.--輪廓圖的優(yōu)點是直觀明瞭,缺點是在變數(shù)或樣品多的時候,折線易摞在一起,難以分清.

第三節(jié)多變量圖描述

總之,各種圖示方法雖然直觀,但也容易受主觀因素的影響.因此,實踐中要與有關量化分析方法結合使用.得到圖1.7的R語句

線性回歸分析案例

第一節(jié)房地產公司預測房價

第二節(jié)Bikeshare數(shù)據(jù)

第三節(jié)上機實現(xiàn)因變數(shù)引數(shù)定性定量或定性定量AnoVa線性回歸定性(0-1兩類)??定性(三類或以上,有序、無序)??離散(泊松分佈)???:廣義線性回歸模型數(shù)據(jù)有解釋變數(shù)和被解釋變數(shù),而且被解釋變數(shù)是連續(xù)型數(shù)據(jù),可以考慮線性回歸模型.兩個案例:1、問題導向,

需先找到影響房價的因素,收集數(shù)據(jù),再建立預測房價的模型;2、數(shù)據(jù)導向的,利用現(xiàn)有的二手數(shù)據(jù)進行數(shù)據(jù)挖掘,看看數(shù)據(jù)中包含哪些有價值的資訊.第一節(jié)房地產公司預測房價3.1.1數(shù)據(jù)介紹和初步分析3.1.2模型合理性檢查3.1.3分類引數(shù)的處理方法3.1.4其他改進模型的思路3.1.1數(shù)據(jù)介紹和初步分析FirstCity房地產公司想建立一個預測房價的模型,如何選擇引數(shù)呢?公司找一些部門經理開了一個頭腦風暴討論會,選出幾個候選引數(shù),包括:房屋面積(sqf:平方英尺),房齡(age:年),臥房個數(shù)(bed),衛(wèi)生間個數(shù)(bath)和車庫車位個數(shù)(garage).還有其他一些變數(shù),如房屋狀況,也對房價有影響,但由於缺乏量化的數(shù)據(jù),只能暫時去掉.從某區(qū)域兩個月內賣出的居民住房中抽取了319個樣本(firstcity1.csv),包括銷售價格(price,Y,單位美元)和前面提到的5個引數(shù)sqf,age,bed,bath,garage,部分數(shù)據(jù)見圖3.1.1數(shù)據(jù)介紹和初步分析變數(shù)都看作連續(xù)變數(shù),散點圖和相關係數(shù)及其顯著性表明,房屋價格與房屋面積、臥房個數(shù)、衛(wèi)生間個數(shù)和車庫車位個數(shù)線性正相關,與房齡負相關,而且相關係數(shù)是否為零的假設檢驗,在顯著性水準0.001下統(tǒng)計顯著.3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析第一節(jié)房地產公司預測房價第一節(jié)房地產公司預測房價3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法在其他變數(shù)取值相同時,

房屋面積(sqf)每增加1平方英尺,平均價格增加54.83美元,房齡(age)每增加1年,均價減少261.30美元;每多一車位(garage),均價增加26753.30美元;建在山坡上(1-foothill)的房子比建在平地上(0-flatland)的平均貴60578.05美元.3.1.3分類引數(shù)的處理方法解釋符合大家的認知,即山坡上因多挖地基會增加建築費用,多要車位也會單獨多加錢,而新房的價格都按面積計算價格,不會把臥室個數(shù)和衛(wèi)生間個數(shù)代入價格計算公式.還有,模型中係數(shù)的正負符號也與單個變數(shù)分析的正負相關性一致,沒有得到與通常認識相違背的結論.3.1.3分類引數(shù)的處理方法買新房時,房價計算公式中都沒有加入臥室和衛(wèi)生間的個數(shù),但當我們拿到數(shù)據(jù)時,發(fā)現(xiàn)臥室個數(shù)(bed)和衛(wèi)生間個數(shù)(bath)分別與房屋價格有關,這主要是因為價格與面積(sqf)有關,而面積(sqf)又與臥室個數(shù)(bed)和衛(wèi)生間個數(shù)(bath)有較強的相關性.3.1.3分類引數(shù)的處理方法此模型中,房面積(sqf)、房齡(age)、車庫車位數(shù)(garage)、建在山坡/平地上這4個變數(shù)相關性較弱,能夠說固定其他變數(shù)不變時,某個引數(shù)增加1個單位,因變數(shù)價格(Y)的變化.3.1.3分類引數(shù)的處理方法相反,像3.1.1節(jié)模型I中房屋面積(sqf),臥房個數(shù)(bed)和衛(wèi)生間個數(shù)(bath)之間有強相關性,很難說固定面積(sqf)和衛(wèi)生間個數(shù)(bath)等不變,臥房個數(shù)(bed)增加一個,售價如何變化之類,因為每增加一個臥房數(shù)(bed),面積(sqf)肯定會增加,不可能不變.3.1.3分類引數(shù)的處理方法3.1.1節(jié)模型I中有5個連續(xù)變數(shù),共有6個參數(shù),均方差為27350,而本節(jié)模型有3個連續(xù)變數(shù),一個分類引數(shù),共5個參數(shù),均方差為20250.本節(jié)模型的擬合效果比模型I要好.3.1.3分類引數(shù)的處理方法應用中,不是引數(shù)越多越好,應該儘量找各有特色的引數(shù),從不同角度解釋因變數(shù)取值的差異.資訊類似的引數(shù)對解釋因變數(shù)取值差異.不但沒有幫助,還會產生不合理的參數(shù)估計值.3.1.4其他改進模型的思路雖然二倍標準差40650美元,比模型I的54700美元要小,但要做預測,誤差還是比較大,現(xiàn)實中,還可考慮:(1)房屋是否有中央空調(centralairconditioning)?(2)房屋所在郵遞區(qū)號,因編碼不同價格也會很不同.(3)房屋建築是一層,還是二層?房屋本身狀況,能直接搬入,還是需要裝修等.庭院是否做過專業(yè)美化設計(landscaping)?房屋的建築材質等.第二節(jié)Bikeshare數(shù)據(jù)2012年Capital自行車租用公司每天租車人次數(shù)據(jù)及有關當天天氣、季節(jié)等。

具體變數(shù):dteday(日期),分類引數(shù)season(季節(jié),1-春,2-夏,3-秋,4-冬),mnth(月,1-12),holiday(是否節(jié)假日,0-否,1-是),weekday(星期幾,0-6),workday(是否工作日,1-不是週末或節(jié)假日,0-是週末或節(jié)假日),weathsit(天氣情況,1-晴,無雲(yún)或少雲(yún)或局部多雲(yún),2-有霧或多雲(yún),3-小雪或小雨等,4-大雪或大雨或大霧或冰雹等連續(xù)引數(shù)temp(0-1,標準化後的溫度),atemp(0-1,標準化後的體感溫度),hum(0-1,標準化後的濕度),windspd(0-1,標準化後的風速).可能關心的因變數(shù)有casual(臨時用戶人數(shù)),regist(註冊用戶人數(shù)),cnt(臨時用戶和註冊用戶人數(shù)之和).我們關心因變數(shù)cnt,想建立線性回歸模型描述因變數(shù)與其他引數(shù)的關係.對於數(shù)據(jù)中的每個分類引數(shù),利用方差分析和單個分類引數(shù)的回歸分析查看cnt的取值是否與分類引數(shù)取值有關,各類的平均差異如何.比如對season,讀入數(shù)據(jù)X後,在R中運行M=lm(cnt~factor(season),data=X);anova(M);summary(M);對每個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論