




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)收集和描述
第一節(jié)數(shù)據(jù)收集
第二節(jié)兩變數(shù)圖描述和量化分析
第三節(jié)多變量圖描述
第四節(jié)上機(jī)實(shí)現(xiàn)
第一節(jié)數(shù)據(jù)收集
1.1.1一手和二手?jǐn)?shù)據(jù)
一手?jǐn)?shù)據(jù)(primarydata,也叫原始數(shù)據(jù))是一些組織或個(gè)人為了某些特定的應(yīng)用或研究目的,必須自己來收集的數(shù)據(jù).二手?jǐn)?shù)據(jù)(secondary
data)是其他人收集的(對於他們來說是一手?jǐn)?shù)據(jù)),而你僅僅用它來進(jìn)行分析或進(jìn)行數(shù)據(jù)挖掘,該數(shù)據(jù)對你來說則是二手?jǐn)?shù)據(jù).常見的二手?jǐn)?shù)據(jù)包括從期刊和網(wǎng)路上找到的,由政府、機(jī)構(gòu)、公司、組織專門收集和維護(hù)的數(shù)據(jù),比如:外匯牌價(jià)、房價(jià)、人口抽樣調(diào)查結(jié)果等數(shù)據(jù)在開展一手?jǐn)?shù)據(jù)收集前,要先調(diào)研一下是否已經(jīng)有相應(yīng)的二手?jǐn)?shù)據(jù)存在.而在使用二手?jǐn)?shù)據(jù)的過程中,要瞭解數(shù)據(jù)的來源及其真實(shí)和可靠程度,是否符合研究目的,以便恰當(dāng)?shù)剡M(jìn)行分析並解釋結(jié)果.試驗(yàn)數(shù)據(jù)和觀測數(shù)據(jù)
試驗(yàn)數(shù)據(jù)(experimental
data)中的引數(shù)取值是可以人為改變的.比如,通過調(diào)節(jié)冶煉金屬的時(shí)間、溫度和原料配比,尋找最佳組合條件,以煉成滿足某些性能指標(biāo)的金屬材料;這類數(shù)據(jù)便於分析因果關(guān)係.實(shí)踐中,我們遇到的絕大部分二手?jǐn)?shù)據(jù)都是觀測數(shù)據(jù)(observational
data).如跟蹤觀測研究吸煙與罹患癌癥的關(guān)係等.這類數(shù)據(jù)的引數(shù)不能隨意調(diào)節(jié),我們不能在身體健康狀況完全類似的人中隨機(jī)抽樣,強(qiáng)迫一部分人吸煙而另一部分不吸,之後觀測他們將來是否罹患癌癥.
第一節(jié)數(shù)據(jù)收集
1.1.2數(shù)據(jù)的度量級別和類型
名義數(shù)據(jù)(nominaldata),也叫定性數(shù)據(jù)或分類數(shù)據(jù)(categoricaldata),是最低級形式的數(shù)據(jù),我們可以對數(shù)據(jù)取值任意編號.如對婚姻狀態(tài),可以用1~4或M,S,D和O分別標(biāo)記,即是M(已婚),S(未婚),D(離婚)和O(其他)有序數(shù)據(jù)(ordinal
data)-比名義數(shù)據(jù)高一級別,數(shù)據(jù)的類別是有序的.如健康狀態(tài):1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).
級別--從低到高包括:
區(qū)間數(shù)據(jù)(intervaldata)是有序的,而且任意兩點(diǎn)的距離是可以精確度量出來的.如華氏(Fahrenheit)和攝氏(Celsius)溫度.比率數(shù)據(jù)(ratiodata)有真正有意義的零點(diǎn),度量級別最高.如體重、高度、距離、錢包裏的錢數(shù)等等.口袋沒錢,不管是美元還是人民幣元,都是0.
第一節(jié)數(shù)據(jù)收集
數(shù)據(jù)的類型
定量數(shù)據(jù)(quantitivedata)-指可以用數(shù)字量化的數(shù)據(jù),具體地又可以分為連續(xù)型(如身高)數(shù)據(jù)和離散型(如某路口每月交通事故次數(shù))數(shù)據(jù);定性數(shù)據(jù)(qualititivedata)-指取值分類別的數(shù)據(jù),如性別為男女.定性數(shù)據(jù)可以是名義數(shù)據(jù),也可以是有序數(shù)據(jù).定量數(shù)據(jù)可以是區(qū)間數(shù)據(jù),也可以是比率數(shù)據(jù).從數(shù)據(jù)整體特點(diǎn)來看,數(shù)據(jù)類型還可以分為:橫截面數(shù)據(jù)(cross-sectional)是在某個(gè)固定的時(shí)間點(diǎn)觀測得到的一組數(shù)據(jù),如某校大學(xué)生高考入學(xué)成績;時(shí)間序列數(shù)據(jù)(timeseriesdata)和縱向數(shù)據(jù)(longitudinaldata)中,每個(gè)對象都有重複觀測,這些重複觀測可能是按某種順序的不同的時(shí)間點(diǎn)或不同的狀況採集的.許多社會和醫(yī)學(xué)領(lǐng)域的前瞻群組跟蹤研究(prospectivecohortstudy)和回顧群組調(diào)查研究(retrospectivecohortstudy)都在不同時(shí)間點(diǎn)有多次觀測值.
第一節(jié)數(shù)據(jù)收集
1.1.3數(shù)據(jù)存放格式
截面數(shù)據(jù)的存放很簡單.以用Excel進(jìn)行數(shù)據(jù)收集整理為例,-可將第一行存放變數(shù)名(variable),-從第二行開始,每一行存放一個(gè)樣品或?qū)ο蟮挠^測值,即一行數(shù)據(jù)對應(yīng)一個(gè)樣本觀測.-每個(gè)變數(shù)名所對應(yīng)的列為各樣本點(diǎn)的觀測值.
對於時(shí)間序列,前瞻群組跟蹤研究數(shù)據(jù)和回顧群組調(diào)查研究數(shù)據(jù),每一個(gè)觀測對象可以在幾個(gè)不同時(shí)間點(diǎn)有觀測值,這種數(shù)據(jù)有兩種存放方式:(1).每一個(gè)對象有幾行觀測值,常稱長表格式(longform);(2).每一個(gè)對象僅有一行觀測值,不同時(shí)間觀測點(diǎn)用不同的變數(shù)名,常稱短表或?qū)挶砀袷?shortform或wideform).
對於一些整合後的列聯(lián)表數(shù)據(jù),也可以存成矩形表格形式.-可在變數(shù)名中添加一個(gè)頻數(shù)(計(jì)數(shù)),-將表格中的數(shù)值放在這個(gè)頻數(shù)變數(shù)所在的列.-這類數(shù)據(jù)在分析中通常要做加權(quán)處理.
第二節(jié)兩變量圖描述和量化分析
對於這個(gè)數(shù)據(jù),我們一般會關(guān)心casual(臨時(shí)用戶人數(shù))、regist(註冊用戶人數(shù))或cnt(臨時(shí)用戶和註冊用戶人數(shù)之和)受天氣和季節(jié)的影響情況,也就是把這三個(gè)定量變數(shù)之一看成因變數(shù)(dependentvariable),其他的定性或定量變數(shù)看為引數(shù)(independentvariable),做回歸分析.本節(jié)我們先就數(shù)據(jù)中的不同變量類型,介紹如何用圖描述和簡單量化分析瞭解變數(shù)之間的關(guān)係.
第二節(jié)兩變量圖描述和量化分析
其結(jié)果顯示四個(gè)季節(jié)人數(shù)均值相等的零假設(shè)被拒絕,而且後三個(gè)季度各自的平均人數(shù)都分別顯著高於第一季度的平均人數(shù).
第二節(jié)兩變量圖描述和量化分析
二、量化分析在兩個(gè)變數(shù)不相關(guān)(即變數(shù)的相關(guān)係數(shù)r=0)的零假設(shè)下,其中n是樣本量.此檢驗(yàn)與兩個(gè)變數(shù)之間線性回歸係數(shù)是否為零的假設(shè)檢驗(yàn)是等價(jià)的,它們有相同的p值,詳見第3章內(nèi)容.結(jié)果表明,對於給定的顯著性水準(zhǔn)0.05,--
temp,atemp,windspd與cnt不相關(guān)的零假設(shè)被拒絕,
--但hum和cnt無關(guān)的零假設(shè)沒被拒絕.--溫度temp和體感溫度atemp越高,人數(shù)cnt越多;--風(fēng)速windspd越高,人數(shù)cnt越少.
一、圖描述
觀察兩個(gè)定性變數(shù)之間的關(guān)係,如季節(jié)season和天氣情況weathsit,可用列聯(lián)表(contingencytable),也可用旁置或摞在一起的條形圖通過比較各行(或列)觀測頻數(shù)是否成比例,判斷兩個(gè)定性變數(shù)取值之間是否獨(dú)立.
1.2.3兩個(gè)定性變數(shù)
第二節(jié)兩變量圖描述和量化分析
第三節(jié)多變量圖描述
在用臉譜圖對觀測對象進(jìn)行比較分析時(shí),臉譜形狀受各變數(shù)次序的影響很大.如果將本例中8個(gè)變數(shù)的次序換一下,得到的臉譜圖會很不一樣.另外,不同人關(guān)注的臉的部位有很大不同,有人在意胖瘦,有人在意五官.實(shí)踐中臉譜圖必須與聚類分析等量化分析方法結(jié)合使用.與臉譜圖相比,雷達(dá)圖和星圖受變數(shù)排序和人為主觀偏好的影響較小.注意:
第三節(jié)多變量圖描述
1.3.3輪廓圖--把多個(gè)變數(shù)(或樣品)的取值放在同一個(gè)圖中用線連起來,就是輪廓圖(又稱折線圖).--圖1.7展示了8個(gè)變數(shù)在31個(gè)地區(qū)的取值.--當(dāng)然,我們也可以行列顛倒,畫31條折線,以顯示31個(gè)地區(qū)在8個(gè)變數(shù)(方面)的取值.它們都有助於比較31個(gè)地區(qū)取值的不同.--輪廓圖的優(yōu)點(diǎn)是直觀明瞭,缺點(diǎn)是在變數(shù)或樣品多的時(shí)候,折線易摞在一起,難以分清.
第三節(jié)多變量圖描述
總之,各種圖示方法雖然直觀,但也容易受主觀因素的影響.因此,實(shí)踐中要與有關(guān)量化分析方法結(jié)合使用.得到圖1.7的R語句
線性回歸分析案例
第一節(jié)房地產(chǎn)公司預(yù)測房價(jià)
第二節(jié)Bikeshare數(shù)據(jù)
第三節(jié)上機(jī)實(shí)現(xiàn)因變數(shù)引數(shù)定性定量或定性定量AnoVa線性回歸定性(0-1兩類)??定性(三類或以上,有序、無序)??離散(泊松分佈)???:廣義線性回歸模型數(shù)據(jù)有解釋變數(shù)和被解釋變數(shù),而且被解釋變數(shù)是連續(xù)型數(shù)據(jù),可以考慮線性回歸模型.兩個(gè)案例:1、問題導(dǎo)向,
需先找到影響房價(jià)的因素,收集數(shù)據(jù),再建立預(yù)測房價(jià)的模型;2、數(shù)據(jù)導(dǎo)向的,利用現(xiàn)有的二手?jǐn)?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,看看數(shù)據(jù)中包含哪些有價(jià)值的資訊.第一節(jié)房地產(chǎn)公司預(yù)測房價(jià)3.1.1數(shù)據(jù)介紹和初步分析3.1.2模型合理性檢查3.1.3分類引數(shù)的處理方法3.1.4其他改進(jìn)模型的思路3.1.1數(shù)據(jù)介紹和初步分析FirstCity房地產(chǎn)公司想建立一個(gè)預(yù)測房價(jià)的模型,如何選擇引數(shù)呢?公司找一些部門經(jīng)理開了一個(gè)頭腦風(fēng)暴討論會,選出幾個(gè)候選引數(shù),包括:房屋面積(sqf:平方英尺),房齡(age:年),臥房個(gè)數(shù)(bed),衛(wèi)生間個(gè)數(shù)(bath)和車庫車位個(gè)數(shù)(garage).還有其他一些變數(shù),如房屋狀況,也對房價(jià)有影響,但由於缺乏量化的數(shù)據(jù),只能暫時(shí)去掉.從某區(qū)域兩個(gè)月內(nèi)賣出的居民住房中抽取了319個(gè)樣本(firstcity1.csv),包括銷售價(jià)格(price,Y,單位美元)和前面提到的5個(gè)引數(shù)sqf,age,bed,bath,garage,部分?jǐn)?shù)據(jù)見圖3.1.1數(shù)據(jù)介紹和初步分析變數(shù)都看作連續(xù)變數(shù),散點(diǎn)圖和相關(guān)係數(shù)及其顯著性表明,房屋價(jià)格與房屋面積、臥房個(gè)數(shù)、衛(wèi)生間個(gè)數(shù)和車庫車位個(gè)數(shù)線性正相關(guān),與房齡負(fù)相關(guān),而且相關(guān)係數(shù)是否為零的假設(shè)檢驗(yàn),在顯著性水準(zhǔn)0.001下統(tǒng)計(jì)顯著.3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析第一節(jié)房地產(chǎn)公司預(yù)測房價(jià)第一節(jié)房地產(chǎn)公司預(yù)測房價(jià)3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法3.1.3分類引數(shù)的處理方法在其他變數(shù)取值相同時(shí),
房屋面積(sqf)每增加1平方英尺,平均價(jià)格增加54.83美元,房齡(age)每增加1年,均價(jià)減少261.30美元;每多一車位(garage),均價(jià)增加26753.30美元;建在山坡上(1-foothill)的房子比建在平地上(0-flatland)的平均貴60578.05美元.3.1.3分類引數(shù)的處理方法解釋符合大家的認(rèn)知,即山坡上因多挖地基會增加建築費(fèi)用,多要車位也會單獨(dú)多加錢,而新房的價(jià)格都按面積計(jì)算價(jià)格,不會把臥室個(gè)數(shù)和衛(wèi)生間個(gè)數(shù)代入價(jià)格計(jì)算公式.還有,模型中係數(shù)的正負(fù)符號也與單個(gè)變數(shù)分析的正負(fù)相關(guān)性一致,沒有得到與通常認(rèn)識相違背的結(jié)論.3.1.3分類引數(shù)的處理方法買新房時(shí),房價(jià)計(jì)算公式中都沒有加入臥室和衛(wèi)生間的個(gè)數(shù),但當(dāng)我們拿到數(shù)據(jù)時(shí),發(fā)現(xiàn)臥室個(gè)數(shù)(bed)和衛(wèi)生間個(gè)數(shù)(bath)分別與房屋價(jià)格有關(guān),這主要是因?yàn)閮r(jià)格與面積(sqf)有關(guān),而面積(sqf)又與臥室個(gè)數(shù)(bed)和衛(wèi)生間個(gè)數(shù)(bath)有較強(qiáng)的相關(guān)性.3.1.3分類引數(shù)的處理方法此模型中,房面積(sqf)、房齡(age)、車庫車位數(shù)(garage)、建在山坡/平地上這4個(gè)變數(shù)相關(guān)性較弱,能夠說固定其他變數(shù)不變時(shí),某個(gè)引數(shù)增加1個(gè)單位,因變數(shù)價(jià)格(Y)的變化.3.1.3分類引數(shù)的處理方法相反,像3.1.1節(jié)模型I中房屋面積(sqf),臥房個(gè)數(shù)(bed)和衛(wèi)生間個(gè)數(shù)(bath)之間有強(qiáng)相關(guān)性,很難說固定面積(sqf)和衛(wèi)生間個(gè)數(shù)(bath)等不變,臥房個(gè)數(shù)(bed)增加一個(gè),售價(jià)如何變化之類,因?yàn)槊吭黾右粋€(gè)臥房數(shù)(bed),面積(sqf)肯定會增加,不可能不變.3.1.3分類引數(shù)的處理方法3.1.1節(jié)模型I中有5個(gè)連續(xù)變數(shù),共有6個(gè)參數(shù),均方差為27350,而本節(jié)模型有3個(gè)連續(xù)變數(shù),一個(gè)分類引數(shù),共5個(gè)參數(shù),均方差為20250.本節(jié)模型的擬合效果比模型I要好.3.1.3分類引數(shù)的處理方法應(yīng)用中,不是引數(shù)越多越好,應(yīng)該儘量找各有特色的引數(shù),從不同角度解釋因變數(shù)取值的差異.資訊類似的引數(shù)對解釋因變數(shù)取值差異.不但沒有幫助,還會產(chǎn)生不合理的參數(shù)估計(jì)值.3.1.4其他改進(jìn)模型的思路雖然二倍標(biāo)準(zhǔn)差40650美元,比模型I的54700美元要小,但要做預(yù)測,誤差還是比較大,現(xiàn)實(shí)中,還可考慮:(1)房屋是否有中央空調(diào)(centralairconditioning)?(2)房屋所在郵遞區(qū)號,因編碼不同價(jià)格也會很不同.(3)房屋建築是一層,還是二層?房屋本身狀況,能直接搬入,還是需要裝修等.庭院是否做過專業(yè)美化設(shè)計(jì)(landscaping)?房屋的建築材質(zhì)等.第二節(jié)Bikeshare數(shù)據(jù)2012年Capital自行車租用公司每天租車人次數(shù)據(jù)及有關(guān)當(dāng)天天氣、季節(jié)等。
具體變數(shù):dteday(日期),分類引數(shù)season(季節(jié),1-春,2-夏,3-秋,4-冬),mnth(月,1-12),holiday(是否節(jié)假日,0-否,1-是),weekday(星期幾,0-6),workday(是否工作日,1-不是週末或節(jié)假日,0-是週末或節(jié)假日),weathsit(天氣情況,1-晴,無雲(yún)或少雲(yún)或局部多雲(yún),2-有霧或多雲(yún),3-小雪或小雨等,4-大雪或大雨或大霧或冰雹等連續(xù)引數(shù)temp(0-1,標(biāo)準(zhǔn)化後的溫度),atemp(0-1,標(biāo)準(zhǔn)化後的體感溫度),hum(0-1,標(biāo)準(zhǔn)化後的濕度),windspd(0-1,標(biāo)準(zhǔn)化後的風(fēng)速).可能關(guān)心的因變數(shù)有casual(臨時(shí)用戶人數(shù)),regist(註冊用戶人數(shù)),cnt(臨時(shí)用戶和註冊用戶人數(shù)之和).我們關(guān)心因變數(shù)cnt,想建立線性回歸模型描述因變數(shù)與其他引數(shù)的關(guān)係.對於數(shù)據(jù)中的每個(gè)分類引數(shù),利用方差分析和單個(gè)分類引數(shù)的回歸分析查看cnt的取值是否與分類引數(shù)取值有關(guān),各類的平均差異如何.比如對season,讀入數(shù)據(jù)X後,在R中運(yùn)行M=lm(cnt~factor(season),data=X);anova(M);summary(M);對每個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 付費(fèi)搭建店鋪合同范本
- 內(nèi)墻抹灰施工合同范本
- 農(nóng)民工工資付款合同范本
- 關(guān)于規(guī)范使用合同范本
- 辦公輔助崗位合同范本
- 住宅消防維修采購合同范本
- mind+ 星球大戰(zhàn) 教學(xué)設(shè)計(jì)
- 出售貨架合同范本
- 與勞務(wù)外包簽訂合同范本
- 勘探合同屬于合同范本
- 2024年廣東省2024屆高三高考模擬測試(一)一模 化學(xué)試卷(含答案)
- 半導(dǎo)體行業(yè)質(zhì)量管理與質(zhì)量控制
- 2024年山東省春季高考技能考試汽車專業(yè)試題庫-下(判斷題匯總)
- 部編版道德與法治二年級下冊第三單元 綠色小衛(wèi)士 單元作業(yè)設(shè)計(jì)
- 戲曲鑒賞完整版剖析課件
- 《幼兒園經(jīng)營與管理》課件
- 熱化學(xué)儲熱耦合高溫相變儲熱多物理場協(xié)同調(diào)控機(jī)理
- 趙匡胤:中國北宋時(shí)期的開國皇帝2
- 中國紡織服裝制造業(yè)年度授信政策指引研究報(bào)告
- 零基礎(chǔ)學(xué)機(jī)器學(xué)習(xí)
- 西方繪畫藝術(shù)流派(最全)課件
評論
0/150
提交評論