寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹1-4(轉(zhuǎn)載)_第1頁(yè)
寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹1-4(轉(zhuǎn)載)_第2頁(yè)
寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹1-4(轉(zhuǎn)載)_第3頁(yè)
寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹1-4(轉(zhuǎn)載)_第4頁(yè)
寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹1-4(轉(zhuǎn)載)_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)的領(lǐng)域(寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹之一)By謝益輝@2008-11-2519:19標(biāo)簽:統(tǒng)計(jì)學(xué),表述數(shù)據(jù),分析數(shù)據(jù),學(xué)習(xí)經(jīng)歷,學(xué)習(xí)體會(huì),收集數(shù)據(jù),整理數(shù)據(jù)

分類:\o"查看基礎(chǔ)統(tǒng)計(jì)的全部文章"基礎(chǔ)統(tǒng)計(jì);RSS訂閱本文評(píng)論;跟蹤引用作者注:本文是為中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院本科院刊所寫的稿件。走過(guò)了四年本科,覺得應(yīng)該對(duì)后來(lái)人講一些負(fù)責(zé)人的話,以使大家能更高效地學(xué)習(xí)。我認(rèn)為人生的奮斗,怕的不是沒有動(dòng)力,而是有動(dòng)力卻不知道方向。因此,我把我所了解的統(tǒng)計(jì)學(xué)的領(lǐng)域介紹給大家,讓大家早日了解一下統(tǒng)計(jì)學(xué)的基本內(nèi)容,早日找到自己的方向。當(dāng)然,僅僅四年的學(xué)習(xí),得出的觀點(diǎn)或多或少會(huì)淺薄,所以也請(qǐng)各位大師多多指點(diǎn)批評(píng)。如果學(xué)了幾年統(tǒng)計(jì),還連統(tǒng)計(jì)的那個(gè)經(jīng)典定義都背不出就不應(yīng)該了,在此我不再啰嗦一遍。統(tǒng)計(jì)學(xué)也不是什么神秘的學(xué)科,它的目的主要是通過(guò)數(shù)據(jù)探索信息,因此也就相應(yīng)有一系列的流程:收集、整理、分析和表述(數(shù)據(jù))。按照這個(gè)流程,統(tǒng)計(jì)下屬的眾多學(xué)科的地位與作用也就一目了然。今日我取標(biāo)題為“統(tǒng)計(jì)學(xué)的領(lǐng)域”,說(shuō)實(shí)話這個(gè)題目有些狂妄。夠資格寫這種題目的人,恐怕至少應(yīng)該在統(tǒng)計(jì)學(xué)界混過(guò)數(shù)十載。不幸的是,本人一向提倡“人不猖狂枉少年”。如果沒有足夠的熱情和斗志,是不可能取得一番成就的。正值青春年少,安能不立鴻鵠之志?此為題外話。1、收集數(shù)據(jù)一般來(lái)說(shuō),數(shù)據(jù)的來(lái)源無(wú)非是試驗(yàn)和調(diào)查。平時(shí)我們談統(tǒng)計(jì)學(xué)似乎不太注重?cái)?shù)據(jù)的收集問(wèn)題,然而試驗(yàn)設(shè)計(jì)和調(diào)查技術(shù)(包括抽樣等)都是很有用的學(xué)問(wèn)。就我們這種純粹的統(tǒng)計(jì)學(xué)院來(lái)說(shuō),試驗(yàn)設(shè)計(jì)的地位似乎不太高,而我所了解的生物統(tǒng)計(jì)、醫(yī)學(xué)統(tǒng)計(jì)等領(lǐng)域?qū)λ囊髤s特別高,有志于生物醫(yī)學(xué)統(tǒng)計(jì)方向的同學(xué)一定要注意研究這門課,有些名詞諸如正交設(shè)計(jì)、隨機(jī)區(qū)組試驗(yàn)、拉丁方試驗(yàn)等都是你們將來(lái)會(huì)遇見的,方差分析一般則是試驗(yàn)設(shè)計(jì)之后最基本的統(tǒng)計(jì)分析方法;對(duì)于調(diào)查,一方面它是由統(tǒng)計(jì)學(xué)的理論作背景支撐的(大數(shù)定律、數(shù)理統(tǒng)計(jì)、抽樣理論等),另一方面涉及到實(shí)務(wù)操作方面的技術(shù),做過(guò)調(diào)查的同學(xué)應(yīng)該都了解調(diào)查的“艱辛”,當(dāng)然如果有統(tǒng)計(jì)學(xué)的指導(dǎo),我們也會(huì)發(fā)現(xiàn)一些讓人變聰明的技術(shù),舉個(gè)例子,對(duì)于吸毒問(wèn)題,受眾(調(diào)查客體)一般都會(huì)低報(bào)(不愿意告訴訪員自己吸毒),對(duì)于這種情況我們?cè)撛趺刺幚??暫且把懸念留在這里;如果事先不知道答案,恐怕是很難想象這件事情與拋硬幣有任何瓜葛的。對(duì)于我們這個(gè)統(tǒng)計(jì)學(xué)院(素以經(jīng)濟(jì)統(tǒng)計(jì)強(qiáng)勢(shì)著稱),從收集數(shù)據(jù)角度來(lái)說(shuō),國(guó)民經(jīng)濟(jì)核算與經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)也是兩門比較重要的課程,搞經(jīng)濟(jì)統(tǒng)計(jì)不能不對(duì)于經(jīng)濟(jì)數(shù)據(jù)的來(lái)龍去脈了如指掌,要不然統(tǒng)計(jì)指標(biāo)都是從何計(jì)算而來(lái)有何意義都搞不清楚,還從何談起經(jīng)濟(jì)統(tǒng)計(jì)?2、整理數(shù)據(jù)數(shù)據(jù)不是說(shuō)收集上來(lái)就可以馬上作分析,有實(shí)踐經(jīng)驗(yàn)的人都知道,在收集數(shù)據(jù)的過(guò)程中,總會(huì)有各種意想不到的情況發(fā)生,但也是天要下雨娘要嫁人沒辦法的事情,你總不能把那些在問(wèn)卷上偷懶空著不填或者亂填一氣的同志們抓來(lái)嚴(yán)刑拷打。在此我有必要提醒各位,一定要做好心理準(zhǔn)備,無(wú)論你們?cè)趯W(xué)校里老師教授給你們多完美的理論,到現(xiàn)實(shí)中往往會(huì)四處碰壁的。空著調(diào)查項(xiàng)目不填寫的我們稱之為缺失值(MissingValue),胡亂填寫的可能成為離群點(diǎn)或野值(Outlier),對(duì)于這樣的數(shù)據(jù),我們應(yīng)該事先做一些處理才能進(jìn)行下一步的統(tǒng)計(jì)分析,不然會(huì)對(duì)統(tǒng)計(jì)結(jié)果產(chǎn)生一些不良影響,這些道理用腳趾頭想想就能明白(都用不著用膝蓋想)。當(dāng)然數(shù)據(jù)的整理還包括很多其它內(nèi)容,諸如重新編碼(Recode)或者進(jìn)行某種綜合計(jì)算等等,這里不詳談,因?yàn)槎际呛荜惻f的內(nèi)容了。我想把我所知道的統(tǒng)計(jì)學(xué)中比較近代的技術(shù)介紹給大家,讓大家對(duì)我們的前沿知識(shí)有所了解。關(guān)于確實(shí)值的處理,目前已經(jīng)發(fā)展起來(lái)比較完備的插補(bǔ)技術(shù)(Imputation),這里面包括均值插補(bǔ)、熱平臺(tái)插補(bǔ)、冷平臺(tái)插補(bǔ)、最近鄰插補(bǔ)、EM算法、Bootstrap、Jackknife、MCMC(Monte-CarloMarkovChain)等知識(shí)。相信如果大家看看近代現(xiàn)代統(tǒng)計(jì)學(xué)的發(fā)展,這些名詞一定不會(huì)陌生。對(duì)于數(shù)據(jù)中的離群點(diǎn),也要先思考一下,不要輕易刪除,一個(gè)窮山村中冒出一個(gè)大富翁的可能性不一定就是0,在離群點(diǎn)中反而有可能隱藏對(duì)我們有啟發(fā)的信息(比如一位同學(xué)的學(xué)分績(jī)太高以至于成了“野值”,我們就不能把他/她從班里“刪除”,而應(yīng)該借鑒學(xué)習(xí)經(jīng)驗(yàn))。3、分析數(shù)據(jù)不可否認(rèn),當(dāng)今社會(huì)對(duì)于統(tǒng)計(jì)的需求,大部分都在于這一塊。數(shù)理統(tǒng)計(jì)的紙老虎會(huì)讓很多數(shù)學(xué)功底不好的同志望而卻步,再加上統(tǒng)計(jì)中眾多術(shù)語(yǔ)如P值、置信區(qū)間、卡方統(tǒng)計(jì)量等又會(huì)讓很多人覺得費(fèi)解(曾經(jīng)有一次我給一位同志解釋了好半天X與Y兩個(gè)變量的相關(guān)系數(shù)對(duì)方死活就不明白,我瘋了),如果再來(lái)一些稍微前沿一些的統(tǒng)計(jì)分析方法例如結(jié)構(gòu)方程模型什么的,他們更是會(huì)云里霧里找不著北,然而來(lái)自統(tǒng)計(jì)分析的打擊似乎是無(wú)窮盡的,他們最后發(fā)現(xiàn)統(tǒng)計(jì)軟件也不太會(huì)用,要花很多錢購(gòu)買,更可怕的還都是英文的……我琢磨著,他們一定心想,蒼天吶,如果還有來(lái)生,我……一定要學(xué)統(tǒng)計(jì)……作為統(tǒng)計(jì)人也不要太得意,首先統(tǒng)計(jì)分析方法你不一定會(huì)用,其次即使你會(huì)用也未必能用對(duì)地方。這個(gè)領(lǐng)域我?guī)缀跻呀?jīng)無(wú)法介紹,因?yàn)閿?shù)百年的發(fā)展,讓統(tǒng)計(jì)方法擴(kuò)充得讓人很難概括全面了。最簡(jiǎn)單的分類莫過(guò)于描述統(tǒng)計(jì)與推斷統(tǒng)計(jì)了;描述統(tǒng)計(jì)大家應(yīng)該都懂,數(shù)據(jù)是什么就是什么,在原始數(shù)據(jù)的基礎(chǔ)上稍作加工,提煉一下信息,讓人對(duì)一個(gè)數(shù)據(jù)集(樣本)在心中有一個(gè)大致的了解,比如一國(guó)的GDP,國(guó)家統(tǒng)計(jì)局不可能每年都向人民群眾公布張三家的雞下蛋買了多少錢以及某紅星工廠鋼鐵年產(chǎn)值多少錢,等等,而是公布一個(gè)總數(shù),讓大家對(duì)我國(guó)的國(guó)力有大致的了解;推斷統(tǒng)計(jì)就需要用到一些比較精深的統(tǒng)計(jì)理論了,最重要的支撐莫過(guò)于數(shù)理統(tǒng)計(jì),所以這門課大家也一定要學(xué)好,要知道相比起數(shù)學(xué)系的數(shù)學(xué)課,數(shù)理統(tǒng)計(jì)根本就沒什么難度。推斷統(tǒng)計(jì)中,根據(jù)是否需要參數(shù)假設(shè)又可以分為參數(shù)統(tǒng)計(jì)和非參數(shù)統(tǒng)計(jì),后者出現(xiàn)的年代要晚,因此在理論和應(yīng)用方面可能不如前者,二者的比較又足以寫一大篇文章,此處作罷,但是無(wú)論如何,從參數(shù)統(tǒng)計(jì)到非參數(shù)統(tǒng)計(jì),你的統(tǒng)計(jì)思維必將經(jīng)歷一個(gè)重大轉(zhuǎn)變,如果學(xué)得夠深入,你甚至可以由此聯(lián)想人生得失問(wèn)題;不是和大家開玩笑,有時(shí)候統(tǒng)計(jì)確實(shí)能為我們展現(xiàn)一種人生觀。相關(guān)名的詞恐怕也不是一兩頁(yè)紙能列舉完的:相關(guān)分析(包括典型相關(guān)分析)、回歸分析(包括投影尋蹤回歸、分位數(shù)回歸)、對(duì)應(yīng)分析、信度分析、生存分析、聚類分析、判別分析、因子分析、路徑分析和主成分分析等。如果你至今還只知道普通最小二乘法(OLS)而不知道偏最小二乘法(PLS)這樣的名詞,那只能說(shuō)明你還在一個(gè)古董世界徘徊,需要加把勁了。關(guān)于數(shù)據(jù)分析方法,當(dāng)然首先要打好基礎(chǔ),掌握那些基本方法,若想在方法領(lǐng)域有所造詣,那么請(qǐng)回家把概率論與數(shù)理統(tǒng)計(jì)多翻幾遍,然后開始啃國(guó)外的教材以及文章。我常常遇到這種情況,就是一種方法,我看國(guó)外最早的論文是二十世紀(jì)六七十年代的,而國(guó)內(nèi)最早的論文則往往已經(jīng)是二十一世紀(jì)了??梢钥闯?,國(guó)內(nèi)在方法上的研究與國(guó)外的差距有多大。聰明人會(huì)從這里發(fā)現(xiàn)一個(gè)“市場(chǎng)”,我就不誘導(dǎo)大家了,這對(duì)于國(guó)內(nèi)統(tǒng)計(jì)學(xué)的長(zhǎng)遠(yuǎn)發(fā)展不太有利。還有一點(diǎn),也是要提醒大家切記,統(tǒng)計(jì)分析方法往往都有理論假設(shè)或前提,在實(shí)際應(yīng)用時(shí),務(wù)必務(wù)必要注意!首先要檢查數(shù)據(jù)是否滿足我們的理論條件,不要拿來(lái)就作分析,即使統(tǒng)計(jì)軟件會(huì)“不假思索”地給你輸出漂亮的結(jié)果。(統(tǒng)計(jì)軟件有時(shí)候挺害人的,不要完全相信它們)4、表述數(shù)據(jù)我認(rèn)為世上不存在不懶的人,因此數(shù)據(jù)的表述一定也是一門學(xué)問(wèn)。你要是把統(tǒng)計(jì)軟件輸出的P值活生生拿給別人看,八成會(huì)被毆;你要是膽敢告訴人家聚類分析碎石圖上石頭的位置表示特征根的大小,被扁的概率將一致趨近于1。統(tǒng)計(jì)是用來(lái)說(shuō)明問(wèn)題的,不是用來(lái)嚇唬人的。把我們的分析結(jié)果表述給人家看,就需要經(jīng)過(guò)一定的“轉(zhuǎn)化”。不要輕視數(shù)據(jù)的表述問(wèn)題,有些統(tǒng)計(jì)方法之所以能“紅”起來(lái),就是因?yàn)槿藗優(yōu)樗姆治鼋Y(jié)果找到了巧妙的解釋。上面說(shuō)的是統(tǒng)計(jì)學(xué)方面的表述,外觀形式方面的問(wèn)題同樣應(yīng)該注意。表格中的數(shù)據(jù)不使用右對(duì)齊(或小數(shù)點(diǎn)對(duì)齊)、圖形畫得花里胡哨或土里土氣,都會(huì)讓統(tǒng)計(jì)的功效受損,雖然只是“面子問(wèn)題”。學(xué)了那么長(zhǎng)時(shí)間的統(tǒng)計(jì),不應(yīng)該不知道圖的標(biāo)題應(yīng)該寫在圖下方而表的標(biāo)題應(yīng)該寫在表上方,平時(shí)看文章多注意別人是怎樣表達(dá)的。好了,統(tǒng)計(jì)學(xué)本身就從流程上介紹到這里。稍微再談?wù)勎宜姷降慕y(tǒng)計(jì)學(xué)發(fā)展趨勢(shì):一方面是學(xué)科結(jié)合的趨勢(shì),單單只會(huì)一門統(tǒng)計(jì)學(xué)恐已難以立足,統(tǒng)計(jì)學(xué)的發(fā)展動(dòng)力,越來(lái)越多地來(lái)自于其它各個(gè)學(xué)科,若不是這些學(xué)科給統(tǒng)計(jì)學(xué)“出難題”,統(tǒng)計(jì)學(xué)的發(fā)展可能早已經(jīng)停止了,醫(yī)學(xué)會(huì)問(wèn)你,怎樣設(shè)計(jì)試驗(yàn)既能得出顯著的統(tǒng)計(jì)結(jié)果又能節(jié)約成本?心理學(xué)會(huì)問(wèn)你,人的情商是一個(gè)隱變量,應(yīng)該怎樣測(cè)量?金融學(xué)會(huì)問(wèn)你,股票市場(chǎng)上時(shí)序數(shù)據(jù)的異方差怎樣處理?市場(chǎng)營(yíng)銷學(xué)會(huì)問(wèn)你,怎樣從超市的海量數(shù)據(jù)中挖掘出有用的商品信息?法學(xué)會(huì)問(wèn)你,某甲殺人的概率有多大?新聞傳播學(xué)會(huì)問(wèn)你,大眾對(duì)某位候選者的真實(shí)支持率有多高?等等……;另一方面是計(jì)算機(jī)的廣泛應(yīng)用趨勢(shì),我也要特別強(qiáng)調(diào),計(jì)算機(jī)在未來(lái)的統(tǒng)計(jì)中必將扮演越來(lái)越重要的角色,想要搖著筆桿子去追趕奔四3.2絕對(duì)是不可能了,計(jì)算機(jī)方面又尤其要數(shù)編程能力最重要,這番話是對(duì)那些想沖到統(tǒng)計(jì)時(shí)代前沿的同學(xué)們說(shuō)的,統(tǒng)計(jì)方法的發(fā)展太快,以至于很多統(tǒng)計(jì)軟件都跟不上,因此,若自己掌握計(jì)算機(jī)編程技術(shù)的話就能不必受到統(tǒng)計(jì)軟件的制約。我在中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院已經(jīng)學(xué)習(xí)了四年,感觸頗多,牢騷也不少。生活方面不多說(shuō),大家最好早點(diǎn)學(xué)會(huì)自強(qiáng)自立,早已經(jīng)過(guò)了18歲,有空聽聽鄭智化的《水手》。學(xué)習(xí)方面說(shuō)這樣幾點(diǎn)吧:首先,不要指望你的老師會(huì)教給你所有的知識(shí),同時(shí)也要明白你所學(xué)的知識(shí)是很不全面的。大學(xué)與高中不一樣,這里不是一個(gè)純粹的教學(xué)的地方,更多地是思想碰撞交流的地方。如果到現(xiàn)在你還在上課時(shí)埋頭認(rèn)真地把老師說(shuō)的每一個(gè)字記下來(lái),那么你可能還沒理解什么叫大學(xué)。統(tǒng)計(jì)學(xué)紛繁蕪雜的體系,不是老師在幾節(jié)課上能講出來(lái)的。老師可以告訴你,統(tǒng)計(jì)學(xué)都有什么內(nèi)容,剩下的就是你自己多多努力奮斗。其次,攻書莫畏難??赡苓@也是大學(xué)與高中的區(qū)別之一,高中某一道題不會(huì)做可能會(huì)影響你的考試成績(jī),而大學(xué)則不是用來(lái)為難人的地方。此路不通可以走彼路,你若不擅長(zhǎng)積分,那么對(duì)于書中證明用到積分的地方大可不必仔細(xì)看,總之要有自己擅長(zhǎng)的地方,然后注意培養(yǎng)自己的優(yōu)勢(shì),以最快的速度向前發(fā)展。不過(guò)話說(shuō)回來(lái),不要被我誤導(dǎo),我不是說(shuō)可以隨意放棄一些課程,基礎(chǔ)仍然是要打好的,在這個(gè)條件下,你可以選擇自己擅長(zhǎng)的方向發(fā)展。再次,不要忽視圖書館的豐富資源,不僅包括圖書,而且還有大量電子資源,注意上網(wǎng)看看,學(xué)校都購(gòu)買了大量的論文數(shù)據(jù)庫(kù),不用實(shí)在可惜了。里面的統(tǒng)計(jì)刊物可以趁早接觸一些,對(duì)于論文寫作以及知識(shí)面的拓展是很有好處的。最后,不要懼怕高年級(jí)的學(xué)長(zhǎng)們,他們都知道吃人是犯法的,因此大可放心去請(qǐng)教、取經(jīng),讓自己少走一些彎路。只可惜,當(dāng)年沒有學(xué)長(zhǎng)對(duì)我這樣說(shuō),以至于我一直懼怕學(xué)長(zhǎng)會(huì)吃了我……還有,一定要用好英語(yǔ)。(我可沒告訴你們要考好英語(yǔ))以及,不要沒日沒夜地上自習(xí)。(當(dāng)然也別像我從不上自習(xí))對(duì)了,上網(wǎng)別總聊QQ,以后發(fā)財(cái)了有的是時(shí)間聊,現(xiàn)在有空多來(lái)我們的“統(tǒng)計(jì)之都”網(wǎng)站看看:\o"統(tǒng)計(jì)之都"一死生為虛誕,齊彭殤為妄作。各位加油。謝益輝

2006-10-07關(guān)于搜索統(tǒng)計(jì)資源(寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹之二)By謝益輝@2008-11-2922:06標(biāo)簽:統(tǒng)計(jì)資源,統(tǒng)計(jì)數(shù)據(jù),參考文獻(xiàn),搜索

分類:\o"查看基礎(chǔ)統(tǒng)計(jì)的全部文章"基礎(chǔ)統(tǒng)計(jì);RSS訂閱本文評(píng)論;跟蹤引用關(guān)于搜集資料,其實(shí)是許久以來(lái)我很想談的一個(gè)話題,因?yàn)樯磉吿嗵嗟耐瑢W(xué)在這方面根本就沒入門。找點(diǎn)資料,也不知上哪里找。頂多Baidu一下,高級(jí)一些的就Google一下,就算完事了。拜托,老大們,這是二十一世紀(jì)哎!記得古時(shí)候有一個(gè)詞叫作“獺祭”,語(yǔ)出《禮記·月令》:“獺祭魚”。印象中李商隱和這個(gè)詞似乎有某種聯(lián)系,可惜古文修養(yǎng)太差,也弄不清了:“商隱工詩(shī),為文瑰邁奇古,辭隱事難。及從楚學(xué),儷偶長(zhǎng)短,而繁縟過(guò)之。每屬綴,多檢閱書冊(cè),左右鱗次,號(hào)‘獺祭魚’”。元·辛文房·《唐才子傳》大意也就是說(shuō)的找資料的事情,可見,寫點(diǎn)東西(無(wú)論文人與否),都是要資料的。古人把書冊(cè)一排排鱗次,今人恐怕不會(huì)那樣做了,很可能就是在遨游(Maxthon)瀏覽器中一口氣點(diǎn)開好多個(gè)窗口,然后把網(wǎng)頁(yè)挨個(gè)來(lái)看,也算是某種形式的“獺祭”吧。這篇小文,依舊是寫給統(tǒng)計(jì)學(xué)院的學(xué)弟學(xué)妹們的,因此,仍然圍繞著“統(tǒng)計(jì)”的話題展開。大約也就談兩方面吧:一、怎樣找數(shù)據(jù)數(shù)據(jù)是統(tǒng)計(jì)的生命之源,其重要性就不在羅嗦。在上一篇文章“統(tǒng)計(jì)學(xué)的領(lǐng)域”中,我所說(shuō)的數(shù)據(jù)來(lái)源其實(shí)主要是一手?jǐn)?shù)據(jù)(調(diào)查和試驗(yàn)),做研究當(dāng)然也可以使用二手?jǐn)?shù)據(jù),也就是別人已經(jīng)通過(guò)調(diào)查或試驗(yàn)取得的數(shù)據(jù),我們拿過(guò)來(lái)借用一下。提到統(tǒng)計(jì)數(shù)據(jù),可能人們首先想到的就是統(tǒng)計(jì)局,不錯(cuò),這是我們的選擇之一,比如中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局:/,在這個(gè)官方網(wǎng)站中,包含了大量的統(tǒng)計(jì)數(shù)據(jù),其中有年度數(shù)據(jù)、進(jìn)度數(shù)據(jù)、專題數(shù)據(jù)、部門數(shù)據(jù)等等。比較方便的是,大多都是文本形式的數(shù)據(jù),可以復(fù)制出來(lái)供分析使用。很多地方統(tǒng)計(jì)局也都有自己的網(wǎng)站,如果需要某地的數(shù)據(jù),可以登錄相應(yīng)的網(wǎng)站查看。除了統(tǒng)計(jì)局,也別忘了學(xué)校的圖書館,人大的圖書館購(gòu)買了一些統(tǒng)計(jì)數(shù)據(jù)庫(kù),從首頁(yè)/登錄就會(huì)看到“參考工具”一欄中有“年鑒資源庫(kù)”,點(diǎn)擊進(jìn)入就會(huì)看到大量的年鑒資料,不過(guò)不幸的是,里面很多資料都是圖片格式,不能直接復(fù)制出來(lái)供分析。上面說(shuō)的是中文數(shù)據(jù),若要找國(guó)際數(shù)據(jù),其實(shí)UnitiedStates也是個(gè)可以考慮的地方,在那里有專門的StatisticsDivision,,里面的數(shù)據(jù)有Excel格式的,也提供了相應(yīng)的PDF格式文件。事實(shí)上,國(guó)外的數(shù)據(jù)比國(guó)內(nèi)要豐富得多,大家平時(shí)瀏覽網(wǎng)站的時(shí)候多多注意,一定會(huì)有很多積累的。比如OECD的網(wǎng)站,;U.S.CensusBureau:;等等。二、怎樣找參考文獻(xiàn)對(duì)于寫論文來(lái)說(shuō),大多數(shù)情況下恐怕找參考文獻(xiàn)比找數(shù)據(jù)更重要。這里首先仍然是介紹我們圖書館的資料,一般說(shuō)來(lái),中文方面的論文庫(kù)當(dāng)然要數(shù)“中國(guó)期刊全文數(shù)據(jù)庫(kù)”比較全面(/),其中收錄了大量的期刊全文,圖書館網(wǎng)站上給出了登錄用戶名和密碼,大家可以嘗試進(jìn)去看看。統(tǒng)計(jì)類的期刊有《統(tǒng)計(jì)研究》、《統(tǒng)計(jì)與決策》、《數(shù)理統(tǒng)計(jì)與管理》、《數(shù)理統(tǒng)計(jì)與應(yīng)用概率》等等,這些期刊都可以通過(guò)右上角的“期刊導(dǎo)航”找到。當(dāng)然,也可以按照關(guān)鍵字搜索論文,網(wǎng)站左側(cè)有檢索的文本框,諸多選項(xiàng)大家自己去看吧。其他的數(shù)據(jù)庫(kù)諸如“萬(wàn)方數(shù)據(jù)資源系統(tǒng)”等都是比較好的資源中心,大家可以去嘗試嘗試;最后要說(shuō)的是除了文本形式的數(shù)據(jù)庫(kù),其實(shí)圖書館的資源中也有視頻/音頻數(shù)據(jù)庫(kù),一些名家的講座都可以從中直接看到。中文論文庫(kù)就不介紹太多了,是個(gè)中國(guó)人都能自己看懂,下面說(shuō)說(shuō)外文數(shù)據(jù)庫(kù)資源。如果要查找5年前的期刊論文,那么JSTOR也許可以滿足你們大部分需要了,JSTOR就是JournalStorage的縮寫,網(wǎng)址為,其中收錄的論文基本上都是圖片格式,可以在網(wǎng)站上一頁(yè)一頁(yè)翻著看,或者直接Download為PDF文件閱讀(里面仍然是圖片格式)。關(guān)于統(tǒng)計(jì)界的外文刊物,大家不能不知道這些:JournaloftheAmericanStatisticalAssociation(JASA)、AnnalsofStatistics、JournaloftheRoyalStatisticalSociety,其實(shí)還有Biometrica等等,暫時(shí)還是別介紹太多了。WileyInterScience(圖書館網(wǎng)站上寫的“JohnWiley電子期刊”,網(wǎng)址)這個(gè)網(wǎng)站中有不少統(tǒng)計(jì)學(xué)的寶貝,有空應(yīng)該去淘一淘,比較難得的是里面有大量的OnlineBooks,如”IntroductiontoBayesianStatistics”,”RegressionModelsforTimeSeriesAnalysis”,”StatisticalAnalysisandDataMining”,”AnalysisofFinancialTimeSeries(SecondEdition)”等。其它數(shù)據(jù)庫(kù)我平時(shí)較少用,不過(guò)也是比較好的資源,如“ProQuest學(xué)位論文全文數(shù)據(jù)庫(kù)”等,在此不多加介紹了。前面提到的JSTOR只能看好幾年前的期刊論文,如果要看最新的文章的話,也可以試試EBSCO或者ProQuest數(shù)據(jù)庫(kù),不過(guò)至少我似乎沒發(fā)現(xiàn)JASA的文章,可能跟學(xué)校購(gòu)買的數(shù)據(jù)庫(kù)限制有關(guān)。如果有比較重要的外文文獻(xiàn)需要下載全文閱讀而學(xué)校圖書館又沒有購(gòu)買相應(yīng)的數(shù)據(jù)庫(kù),那么也可以找你們?cè)趪?guó)外的同學(xué)或朋友,國(guó)外大學(xué)圖書館購(gòu)買的英文數(shù)據(jù)庫(kù)肯定比我們要全。說(shuō)了這么多,歸根到底都是一些輔助工具,真正要需要腦子的仍然在于專業(yè)知識(shí),否則手中掌握再多的資源也白搭。不過(guò)話說(shuō)回來(lái),能盡早接觸統(tǒng)計(jì)方面的專業(yè)知識(shí),對(duì)大家應(yīng)該也是有好處的。希望這些東西對(duì)大家有用。我的一些統(tǒng)計(jì)方法觀(寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹之三)By謝益輝@2008-11-2923:43標(biāo)簽:Bootstrap,空間統(tǒng)計(jì)學(xué),縱向數(shù)據(jù),統(tǒng)計(jì)方法,統(tǒng)計(jì)模型,重抽樣,Jackknife,R語(yǔ)言,分位回歸,回歸

分類:\o"查看回歸分析的全部文章"回歸分析,\o"查看基礎(chǔ)統(tǒng)計(jì)的全部文章"基礎(chǔ)統(tǒng)計(jì);RSS訂閱本文評(píng)論;跟蹤引用收入與支出的分位回歸記得高中很討厭政治課,但是有幾個(gè)詞烙在腦子里,想忘都忘不掉,比如“世界觀”和“方法論”,當(dāng)時(shí)那位老爺爺整天給我們灌輸這些玩意兒,搞得我現(xiàn)在對(duì)這些詞匯仍然如鬼神般敬而遠(yuǎn)之。這次我要寫的是關(guān)于統(tǒng)計(jì)方法的一些思考(主要是思路),但又不太多涉及方法本身的推導(dǎo)證明,因此只好稱之為“方法觀”?,F(xiàn)在每天感慨統(tǒng)計(jì)領(lǐng)域太寬,模型太多,方法太雜,讓人把握不住方向。不過(guò)上次高校研究生統(tǒng)計(jì)論壇我仍然不知天高地厚地選了一個(gè)講述統(tǒng)計(jì)思想的題目,其原因正是覺得方法太雜,應(yīng)該理出一些頭緒來(lái);當(dāng)然我所理的頭緒也僅僅是很局部(local)的,管中窺豹而已。下面我先舉幾個(gè)例子說(shuō)明一些統(tǒng)計(jì)方法的發(fā)展思路,這些也是我在上次論壇上發(fā)言的部分內(nèi)容:一、縱向數(shù)據(jù)與空間統(tǒng)計(jì)學(xué)縱向數(shù)據(jù)(LongitudinalData)和空間統(tǒng)計(jì)學(xué)(SpatialStatistics)算是代表了統(tǒng)計(jì)學(xué)發(fā)展領(lǐng)域的兩個(gè)前進(jìn)維度;眾所周知,統(tǒng)計(jì)的數(shù)據(jù)有截面數(shù)據(jù)(Cross-section)和時(shí)間序列數(shù)據(jù)(Time-series)之分,前者是在同一時(shí)點(diǎn)觀測(cè)不同個(gè)體得到的數(shù)據(jù),后者是在不同時(shí)點(diǎn)觀測(cè)同一個(gè)個(gè)體(當(dāng)然也可以不同)得到的,這兩種數(shù)據(jù)都有比較成熟的分析方法,如回歸、多元、ARMA等等,而縱向數(shù)據(jù)則可視作是它們的“綜合”:對(duì)不同的個(gè)體在不同的時(shí)點(diǎn)上(重復(fù))觀測(cè)——這體現(xiàn)的是時(shí)間的維度;而空間統(tǒng)計(jì)學(xué)則是結(jié)合地理學(xué)的知識(shí),運(yùn)用統(tǒng)計(jì)分析方法去分析與地理相關(guān)的問(wèn)題,這里我摘一段Wikipedia中關(guān)于空間統(tǒng)計(jì)學(xué)的介紹:“ApplicationswithinGIS;mathematicalanalysisonvariedspatialdatasets;Issuesonhumangeography,particularlythoseinvolvingthespreadofdisease(epidemiology),thepracticeofcommerceandmilitaryplanning(logistics),andthedevelopmentofefficientspatialnetworks.”…其中GIS是地理信息系統(tǒng),也是現(xiàn)在研究應(yīng)用比較火熱的技術(shù);空間統(tǒng)計(jì)學(xué)牽涉的領(lǐng)域有疾病的散布(流行病學(xué))、商業(yè)和軍事規(guī)劃(后勤)以及開發(fā)有效的空間網(wǎng)絡(luò)等等。聽起來(lái)挺有意思。此外,一些傳統(tǒng)的統(tǒng)計(jì)學(xué)概念、模型也被自然而然的轉(zhuǎn)移到空間統(tǒng)計(jì)學(xué)中,比如空間回歸(SpatialRegression)、空間滯后模型(SpatialLagged)、空間自相關(guān)(Autocorrelation)、空間計(jì)量經(jīng)濟(jì)學(xué)(SpatialEconometrics)等。若對(duì)R有所了解,不妨看看相應(yīng)的一些Package,對(duì)于縱向數(shù)據(jù),一般使用nlme(\o"JohnFox關(guān)于混合模型的文檔"JohnFox的文檔);對(duì)于空間統(tǒng)計(jì)學(xué),可以參見相應(yīng)的\o"空間統(tǒng)計(jì)妧??TaskView"TaskView。二、分位數(shù)回歸與均值回歸眾所周知,經(jīng)典的最小二乘回歸是針對(duì)因變量的均值(期望)的:模型反映了因變量的均值怎樣受自變量的影響——,;這個(gè)小小的式子說(shuō)明了經(jīng)典回歸的本質(zhì),自變量(有時(shí)也稱為協(xié)變量Covariates)影響著因變量的一個(gè)位置參數(shù)量,從這個(gè)意義上,可以把回歸稱之為一個(gè)位置移動(dòng)模型(LocationShiftModel);用最小二乘方法容易推出,使最小的正是。分位數(shù)回歸(QuantileRegression)的核心思想就是從這個(gè)Location的角度出發(fā)而產(chǎn)生的,把Location從均值推廣到分位數(shù),回歸家族也就增添了分位數(shù)回歸這位新成員。最小二乘回歸的目標(biāo)是最小化誤差平方和,分位數(shù)回歸也是最小化一個(gè)新的目標(biāo)函數(shù):同樣我們可以看看什么樣的使得上面的目標(biāo)函數(shù)最???通過(guò)對(duì)簡(jiǎn)單的求導(dǎo),不難發(fā)現(xiàn)滿足條件的正是的分位數(shù)。圖1分位回歸目標(biāo)函數(shù)示意圖在R中,與分位數(shù)回歸對(duì)應(yīng)的包是quantreg,這個(gè)包也有自帶的一份Vignette,對(duì)于分位數(shù)回歸的學(xué)習(xí)者來(lái)說(shuō)絕對(duì)是好材料(位于/doc目錄下,rq.pdf)。這份文檔中舉了一個(gè)關(guān)于恩格爾系數(shù)的例子(見圖2),圖中虛線是最小二乘回歸結(jié)果,黑線是中位數(shù)回歸結(jié)果(實(shí)際上就是),灰線從下至上分別是0.05、0.1、0.25、0.75、0.90、0.95分位數(shù);從圖中可以看出,大趨勢(shì)是隨家庭收入增大,食品支出也增加(廢話?。窃诮o定家庭收入的情況下,食品支出的不同分位數(shù)的變化趨勢(shì)(斜率)是有差別的,高分位變化更陡峭,而低分位相對(duì)平緩;說(shuō)明的實(shí)際問(wèn)題大約也就是恩格爾系數(shù)高的家庭更傾向于在食品上花錢。相比起來(lái),最小二乘回歸就不能說(shuō)明這樣的趨勢(shì),而只能說(shuō)明前面那句“廢話”。圖2家庭收入與食品支出:一個(gè)分位數(shù)回歸的例子三、Bootstrap&Jackknife與抽樣在統(tǒng)計(jì)的世界,我們面臨的總是只有樣本,Wherethereissample,thereisuncertainty,正因?yàn)椴淮_定性的存在,才使統(tǒng)計(jì)能夠生生不息。傳說(shuō)統(tǒng)計(jì)學(xué)家、數(shù)學(xué)家和物理學(xué)家乘坐一列火車上旅行,路上看到草原上有一只黑羊,統(tǒng)計(jì)學(xué)家說(shuō),“基于這個(gè)樣本來(lái)看,這片草原上所有的羊都是黑的”,數(shù)學(xué)家說(shuō),“只有眼前這只羊是黑的”,物理學(xué)家則說(shuō),“你們都不對(duì),只有羊的這一面是黑的”。這是關(guān)于統(tǒng)計(jì)和其他學(xué)科的一個(gè)玩笑話,說(shuō)明了統(tǒng)計(jì)的一些特征,比如基于樣本推斷總體。一般情況下,總體永遠(yuǎn)都無(wú)法知道,我們能利用的只有樣本,現(xiàn)在的問(wèn)題是,樣本該怎樣利用呢?Bootstrap的奧義也就是:既然樣本是抽出來(lái)的,那我何不從樣本中再抽樣(Resample)?Jackknife的奧義在于:既然樣本是抽出來(lái)的,那我在作估計(jì)、推斷的時(shí)候“扔掉”幾個(gè)樣本點(diǎn)看看效果如何?既然人們要質(zhì)疑估計(jì)的穩(wěn)定性,那么我們就用樣本的樣本去證明吧。JohnFox的那一系列附錄中有一篇叫“BootstrappingRegressionModels”,當(dāng)我看到第二頁(yè)用方框框標(biāo)出那句話時(shí),我才對(duì)Bootstrap的思想真正有了了解(之前迷茫了很長(zhǎng)時(shí)間)。Bootstrap的一般的抽樣方式都是“有放回地全抽”(其實(shí)樣本量也要視情況而定,不一定非要與原樣本量相等),意思就是抽取的Bootstrap樣本量與原樣本相同,只是在抽樣方式上采取有放回地抽,這樣的抽樣可以進(jìn)行B次,每次都可以求一個(gè)相應(yīng)的統(tǒng)計(jì)量/估計(jì)量,最后看看這個(gè)統(tǒng)計(jì)量的穩(wěn)定性如何(用方差表示)。Jackknife的抽樣痕跡不明顯,但主旨也是取樣本的樣本,在作估計(jì)推斷時(shí),每次先排除一個(gè)或者多個(gè)樣本點(diǎn),然后用剩下的樣本點(diǎn)求一個(gè)相應(yīng)的統(tǒng)計(jì)量,最后也可以看統(tǒng)計(jì)量的穩(wěn)定性如何。在R中簡(jiǎn)單隨機(jī)抽樣的函數(shù)是sample(),其中有個(gè)參數(shù)replacement表示是否放回,經(jīng)典的抽樣基本都是不放回(replace=FALSE),而Bootstrap則是replace=TRUE;從FALSE到TRUE,小小的一個(gè)變化,孕育了Bootstrap的經(jīng)典思想。結(jié)語(yǔ):例子暫舉這么三個(gè),對(duì)于一些大思想,我(不知天高地厚地)盡力以一句話概括出來(lái),看似簡(jiǎn)單,其實(shí)里面的工作還很多,QuantileRegression的老大RogerKoenker等、Bootstrap的老大Efron等都有相應(yīng)的著作,閑著沒事干的同學(xué)不妨翻翻,不過(guò)我個(gè)人并不推薦這種方式,原因是看英文著作太花時(shí)間,最好先找點(diǎn)介紹性的材料看看,心里有把握之后再去找詳細(xì)的材料翻閱。平時(shí)學(xué)習(xí)中我比較注重研究統(tǒng)計(jì)模型和方法,但是對(duì)于理論性的東西我也有我的看法,到現(xiàn)在為止,我對(duì)模型的評(píng)判標(biāo)準(zhǔn)可以總結(jié)為:其目的能用一句話概括,或者結(jié)果能用圖形直觀展示;(目標(biāo))數(shù)學(xué)公式能對(duì)應(yīng)上某種成熟的生活觀念。(手段)如果模型不符合這兩條標(biāo)準(zhǔn),我是不愿花功夫研究學(xué)習(xí)的。雖然在一定程度上追求模型的“先進(jìn)性”,但是骨子里仍然認(rèn)為統(tǒng)計(jì)應(yīng)該與實(shí)際有緊密聯(lián)系,否則統(tǒng)計(jì)也沒什么存在的價(jià)值。所以概括起來(lái),我追求的目標(biāo)仍然是一個(gè)映射(Mapping):從理論到實(shí)踐。對(duì)于統(tǒng)計(jì)的理論方法,我一般看兩個(gè)問(wèn)題,與上面的標(biāo)準(zhǔn)對(duì)應(yīng):目標(biāo)是什么?手段是什么(數(shù)學(xué)公式是否能與實(shí)際對(duì)應(yīng))?比如對(duì)于回歸,目標(biāo):尋找自變量和因變量之間盡可能精確的(線性或非線性)關(guān)系;手段:使誤差平方和最小,而誤差平方和說(shuō)明的是什么?就是因變量的期望值與實(shí)際值的差距,由于因變量的期望是通過(guò)自變量來(lái)計(jì)算的,因此從實(shí)際來(lái)看,這里的“差距”越小也就說(shuō)明自變量與因變量之間的關(guān)系越精確——正好與前面的目標(biāo)對(duì)應(yīng)。類似還能總結(jié)出其它例子,比如現(xiàn)在國(guó)內(nèi)應(yīng)用如火如荼的結(jié)構(gòu)方程模型(SturcturalEquationModel,SEM)——目標(biāo):尋找觀測(cè)變量和潛變量之間盡可能精確的關(guān)系;手段:最小化樣本協(xié)方差陣與理論協(xié)方差陣之間的差距。若我們要對(duì)統(tǒng)計(jì)方法提出質(zhì)疑,則可以直接從其數(shù)學(xué)手段切入,比如“最小化樣本協(xié)方差陣與理論協(xié)方差陣之間的差距”是否能保證找出觀測(cè)變量和潛變量之間的精確關(guān)系?把理論和實(shí)際的差距轉(zhuǎn)化為協(xié)方差陣的差距,這一點(diǎn)從直觀上太難想象,不像回歸那樣,就是兩個(gè)數(shù)字作減法說(shuō)明差距。因此,我對(duì)SEM一直是霧里看花,有些“朦朧感”,這也是我對(duì)SEM持保留態(tài)度的原因之一,本質(zhì)就在于我難以構(gòu)建一個(gè)從理論到實(shí)際的“映射”。最后再談一點(diǎn)關(guān)于建模的想法。關(guān)于統(tǒng)計(jì)建模,我一向堅(jiān)持以“簡(jiǎn)潔而能說(shuō)明問(wèn)題”為首要原則,并且更強(qiáng)調(diào)“簡(jiǎn)潔”;事實(shí)上,知道赤池信息量的人都知道,AIC(AkaikeInformationCriterion)的計(jì)算是兩部分之和,一部分是(-2倍的)對(duì)數(shù)似然函數(shù)最大值,另一部分就是(2倍的)模型未知參數(shù)個(gè)數(shù),“使AIC盡可能小”是一條著名的統(tǒng)計(jì)建模準(zhǔn)則,顯然,第二部分說(shuō)的無(wú)非就是模型的簡(jiǎn)潔程度。我反對(duì)一味追求數(shù)學(xué)上的復(fù)雜與高深,搞統(tǒng)計(jì)不是比誰(shuí)的數(shù)學(xué)更拽,要是脫離實(shí)際或者對(duì)實(shí)際沒有指導(dǎo)作用,那么模型再花哨、方法再先進(jìn)也不過(guò)是個(gè)繡花枕頭——中看不中用。曾經(jīng)有人問(wèn)我認(rèn)為什么統(tǒng)計(jì)方法最好,我不假思索地回答,“‘散點(diǎn)圖’唄!”當(dāng)然,這里面也有開玩笑的成份,但意思也是想表達(dá)統(tǒng)計(jì)方法的應(yīng)用,應(yīng)該能讓人家容易理解你的意圖?!拔恼潞蠟闀r(shí)而著,歌詩(shī)合為事而作?!蹦敲?,統(tǒng)計(jì)為誰(shuí)而做?大家不妨自行思考吧。統(tǒng)計(jì)學(xué)專業(yè)應(yīng)該使用什么樣的統(tǒng)計(jì)軟件(寫給在統(tǒng)計(jì)學(xué)院學(xué)習(xí)的學(xué)弟學(xué)妹之四)By謝益輝@2008-11-3014:25標(biāo)簽:統(tǒng)計(jì)軟件,統(tǒng)計(jì)分析,表述數(shù)據(jù),R語(yǔ)言,SAS,SPSS,Stata,分析數(shù)據(jù),收集數(shù)據(jù),整理數(shù)據(jù)

分類:\o"查看基礎(chǔ)統(tǒng)計(jì)的全部文章"基礎(chǔ)統(tǒng)計(jì),\o"查看統(tǒng)計(jì)軟件的全部文章"統(tǒng)計(jì)軟件;RSS訂閱本文評(píng)論;跟蹤引用RGui:Win下R的圖形界面過(guò)去兩三年為院刊寫了一些稿件,其中一部分是統(tǒng)計(jì)技術(shù)層面的,一部分是方法論和原則層面的,姑且作為對(duì)低年級(jí)統(tǒng)計(jì)學(xué)子們的一些學(xué)習(xí)建議,目的在于讓大家學(xué)會(huì)擦亮自己的眼睛,辨明統(tǒng)計(jì)學(xué)的是與非。文章觀點(diǎn)僅為一家之言,而且大多數(shù)情況下這些觀點(diǎn)相對(duì)于流行的、教科書式的觀點(diǎn)可能有顯著差異,因此請(qǐng)各位小心閱讀。這次要求我寫一篇關(guān)于統(tǒng)計(jì)軟件的介紹,我想我也沒這個(gè)本事去介紹所有的軟件,因此私自把主題改成了“統(tǒng)計(jì)學(xué)專業(yè)應(yīng)該使用什么樣的統(tǒng)計(jì)軟件”,竊以為這樣寫更有意義,不然這篇文章就變成了死板的統(tǒng)計(jì)軟件使用手冊(cè)。關(guān)于統(tǒng)計(jì)軟件,隨著時(shí)間的推移,我最終以R語(yǔ)言為中心,基本廢棄了其它工具的學(xué)習(xí),換句話說(shuō),其它統(tǒng)計(jì)工具對(duì)我來(lái)說(shuō)作用有限,不符合本人的統(tǒng)計(jì)分析思想和使用習(xí)慣。長(zhǎng)話短說(shuō),本文的摘要為三個(gè)字:用R吧!數(shù)據(jù)分析的需求毫無(wú)疑問(wèn),選擇都是根據(jù)需求而定的。換言之,世上沒有萬(wàn)能的好軟件。C語(yǔ)言、Fortran語(yǔ)言等低層語(yǔ)言在計(jì)算上效率非常高,而且人人都重視計(jì)算,但并非所有人都直接選擇這些低層語(yǔ)言作為計(jì)算工具,原因就是計(jì)算速度快不是唯一的需求;SPSS號(hào)稱統(tǒng)計(jì)功能齊全,它最近引進(jìn)了Python語(yǔ)言,原因是什么?我個(gè)人認(rèn)為模塊化的統(tǒng)計(jì)分析過(guò)程已經(jīng)不足以滿足現(xiàn)代數(shù)據(jù)分析的需要——沒有哪個(gè)問(wèn)題是點(diǎn)鼠標(biāo)計(jì)算一個(gè)回歸模型就能解決的。我還見過(guò)有的公司花了幾百萬(wàn)人民幣買了SAS軟件,其作用只是用來(lái)導(dǎo)入導(dǎo)出Excel數(shù)據(jù),這就是沒有明確需求而盲目選擇的典型。統(tǒng)計(jì)專業(yè)對(duì)軟件的需求是什么?這要從我們直接從事的工作說(shuō)起。統(tǒng)計(jì)的工作是什么?仍然是那個(gè)定義:收集、整理、分析和表述數(shù)據(jù)。統(tǒng)計(jì)軟件在收集數(shù)據(jù)中一般用處不大(只有試驗(yàn)設(shè)計(jì)可能需要計(jì)算機(jī)生成試驗(yàn)表),而后三部分則處處需要軟件的幫助。整理數(shù)據(jù)要求軟件具有良好的處理原始數(shù)據(jù)的能力?,F(xiàn)實(shí)生活中的數(shù)據(jù)與教科書中的行列二維表格區(qū)別往往很大,因此我們需要通過(guò)整理把那些看似雜亂的數(shù)據(jù)變成統(tǒng)計(jì)中能使用的數(shù)據(jù)形式。我認(rèn)為這種能力反映在兩方面:(1)字符處理:例如原始數(shù)據(jù)為簡(jiǎn)單的文本格式,我們需要從中提取數(shù)據(jù),則需要根據(jù)特定的規(guī)則讀寫文本數(shù)據(jù),這往往涉及到一邊計(jì)算一邊取數(shù)據(jù)而不是一口氣全讀進(jìn)來(lái),更復(fù)雜的情況下還需要正則表達(dá)式的幫忙,舉例來(lái)說(shuō),有時(shí)候數(shù)據(jù)分散放在多個(gè)文件中,我們需要將含有特定文件名的文件找出來(lái),然后將其中符合條件的行讀取出來(lái),最終合并為所需的數(shù)據(jù),或再距離來(lái)說(shuō),我們希望了解某個(gè)關(guān)鍵詞在Google中隨著日期推移,搜索結(jié)果數(shù)目的變化,這樣我們需要?jiǎng)討B(tài)查詢Google網(wǎng)頁(yè),每次都把特定位置上的那個(gè)數(shù)字提出來(lái);這些情況下,數(shù)據(jù)并非理想中的一張表格形式,需要我們預(yù)處理才能使用;(2)數(shù)據(jù)庫(kù)的整理:隨著數(shù)據(jù)存儲(chǔ)技術(shù)的進(jìn)步,數(shù)據(jù)往往都被存放在數(shù)據(jù)庫(kù)中,統(tǒng)計(jì)人員在分析之前需要和數(shù)據(jù)庫(kù)交互查詢得到自己所需要的變量或觀測(cè),這些過(guò)程中,SQL是必不可少的,因此對(duì)SQL的支持是統(tǒng)計(jì)數(shù)據(jù)整理的基本要求。有人可能會(huì)產(chǎn)生疑問(wèn),為什么不把這樣的工作交給計(jì)算機(jī)專業(yè)的人去做?殊不知統(tǒng)計(jì)分析乃是精工細(xì)活,數(shù)據(jù)整理并不僅僅是一個(gè)技術(shù)問(wèn)題,更多的是對(duì)實(shí)際問(wèn)題和統(tǒng)計(jì)模型的理解:我們需要解決什么實(shí)際問(wèn)題?我們需要哪些變量?這些變量從哪里來(lái)?統(tǒng)計(jì)模型是什么?模型的變量是什么性質(zhì)(離散、連續(xù))?……在正式分析之前,我們對(duì)數(shù)據(jù)應(yīng)該還有諸多類似的問(wèn)題,不然僅僅依靠計(jì)算機(jī)技術(shù),也許會(huì)計(jì)算出分類變量的均值(如某班級(jí)平均性別為1.35)或連續(xù)變量的頻數(shù)等不合理的數(shù)據(jù)結(jié)果。當(dāng)然,不可否認(rèn)的是,純粹的計(jì)算機(jī)技術(shù)對(duì)統(tǒng)計(jì)數(shù)據(jù)整理也是很有幫助的,這時(shí),我們可能需要找計(jì)算機(jī)專業(yè)人士合作。分析數(shù)據(jù)應(yīng)該是統(tǒng)計(jì)軟件的核心功能,顯而易見,這要求統(tǒng)計(jì)軟件的模型方法比較齊全,表面看來(lái),這只是一個(gè)數(shù)量的問(wèn)題,然而,它背后還隱藏著兩個(gè)問(wèn)題:(1)程序的可靠性或正確性:大多數(shù)商業(yè)軟件都不是開源軟件,我們并不知道其背后統(tǒng)計(jì)方法在計(jì)算機(jī)程序上的可靠性,從這一點(diǎn)上來(lái)講,我們只能根據(jù)輸出結(jié)果去判斷程序是否可靠,而這種測(cè)試方法是非常低效的,因?yàn)檫@是“測(cè)標(biāo)不測(cè)本”的做法,我們檢驗(yàn)出來(lái)的問(wèn)題說(shuō)明軟件確實(shí)在某方面有錯(cuò)誤,但還有很多方面我們無(wú)法檢驗(yàn),這就如同統(tǒng)計(jì)假設(shè)檢驗(yàn)的道理一樣——零假設(shè)(軟件沒問(wèn)題)可以被拒絕,但不拒絕不能說(shuō)明零假設(shè)就可以被接受;舉例來(lái)說(shuō),Excel在統(tǒng)計(jì)計(jì)算上漏洞百出,被詬病已久(參見\o"為什么不使用Excel"/cn/tag.php?tag=Excel),然而除了那些被發(fā)現(xiàn)的問(wèn)題,也許還有更多問(wèn)題,我們(暫時(shí))無(wú)法發(fā)現(xiàn);(2)模型方法的變化與更新:我們都知道現(xiàn)在統(tǒng)計(jì)方法和模型的更新速度非???,統(tǒng)計(jì)學(xué)科的發(fā)展日新月異,因此要求統(tǒng)計(jì)軟件的發(fā)展速度能跟上學(xué)科的發(fā)展,不然統(tǒng)計(jì)方法的實(shí)施就會(huì)大受阻礙。除了這兩個(gè)問(wèn)題之外,統(tǒng)計(jì)分析還有個(gè)特點(diǎn),那就是它的結(jié)果對(duì)象往往并不“整齊”,不會(huì)是行列二維表格,例如典型的回歸分析中得到的結(jié)果可能有回歸系數(shù)及其P值(矩陣形式)、R平方(單個(gè)數(shù)值)、殘差(向量)、AIC(單個(gè)數(shù)值)等等,這也對(duì)統(tǒng)計(jì)軟件提出了要求:我們需要能夠靈活處理統(tǒng)計(jì)分析結(jié)果的軟件,而不是生成無(wú)窮無(wú)盡的大篇幅報(bào)表,報(bào)表只是統(tǒng)計(jì)分析結(jié)果的匯總形式之一,并不一定滿足用戶的需要,例如有時(shí)候我們需要計(jì)算多個(gè)回歸模型,而我們只關(guān)心擬合效果如何,因此對(duì)于每個(gè)回歸結(jié)果,我們只需要提出R平方或者調(diào)整后的R平方之類的統(tǒng)計(jì)量并保存起來(lái)即可,而不需要輸出多篇報(bào)表,然后人工去尋找最大的R平方值。表述數(shù)據(jù)也是統(tǒng)計(jì)工作的重要組成部分,我認(rèn)為這部分和統(tǒng)計(jì)分析部分有密切的關(guān)系,因?yàn)楸硎鐾埠蟹治龅囊馕?。表面看?lái)這只是一個(gè)美學(xué)問(wèn)題,而統(tǒng)計(jì)分析結(jié)果的表述卻不光是美學(xué)這么簡(jiǎn)單。一方面,我們想將結(jié)果安排得美觀或直觀,這需要我們挑選關(guān)鍵的統(tǒng)計(jì)量來(lái)完成表達(dá),而去掉那些無(wú)關(guān)緊要的結(jié)果,這也要求統(tǒng)計(jì)分析結(jié)果中的對(duì)象可以被任意提?。涣硪环矫?,統(tǒng)計(jì)圖形也是數(shù)據(jù)表述的核心組成部分,因此要求統(tǒng)計(jì)軟件有較強(qiáng)的統(tǒng)計(jì)圖形展示能力。R語(yǔ)言RGui:Windows下R的圖形界面R是一門用于統(tǒng)計(jì)計(jì)算和作圖的語(yǔ)言(\o"R主頁(yè)"),受S語(yǔ)言影響發(fā)展而來(lái)。R語(yǔ)言最初由新西蘭奧克蘭大學(xué)統(tǒng)計(jì)系的RobertGentleman和RossIhaka合作編寫。自1997年開始,R語(yǔ)言開始由一個(gè)核心團(tuán)隊(duì)開發(fā),團(tuán)隊(duì)成員來(lái)自世界各地的大學(xué)和研究機(jī)構(gòu)。迄今為止,R源代碼已經(jīng)經(jīng)歷了近70次主要更新,功能也在不斷完善、增強(qiáng)中,主要統(tǒng)計(jì)功能包括線性模型/廣義線性模型、非線性回歸模型、時(shí)間序列分析、經(jīng)典的參數(shù)/非參數(shù)檢驗(yàn)、聚類和光滑方法等。R語(yǔ)言具有免費(fèi)、開源及統(tǒng)計(jì)模塊齊全的特征,已被國(guó)外大量學(xué)術(shù)和科研機(jī)構(gòu)采用,其應(yīng)用范圍涵蓋了數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)量經(jīng)濟(jì)學(xué)、實(shí)證金融學(xué)、統(tǒng)計(jì)遺傳學(xué)、自然語(yǔ)言處理、心理計(jì)量學(xué)和空間統(tǒng)計(jì)學(xué)諸多領(lǐng)域。談R語(yǔ)言不能不提S語(yǔ)言,因?yàn)镽語(yǔ)言的發(fā)展主要是受S語(yǔ)言和Scheme語(yǔ)言的影響,尤其是在統(tǒng)計(jì)分析部分,R和S非常相似。S語(yǔ)言在70年代由貝爾實(shí)驗(yàn)室統(tǒng)計(jì)部門開發(fā)出來(lái),它的設(shè)計(jì)者們從一開始就做出了三個(gè)決定:設(shè)計(jì)S語(yǔ)言的目的是為了提供一個(gè)完整的數(shù)據(jù)分析環(huán)境S語(yǔ)言應(yīng)該包括交互式圖形S語(yǔ)言應(yīng)該有詳細(xì)的在線文檔從這三點(diǎn)我們可以看出,S的直接目的在于數(shù)據(jù)分析,這是由于此前統(tǒng)計(jì)部門的工作者在實(shí)際工作中感覺到了當(dāng)時(shí)的軟件在數(shù)據(jù)分析上的不便,因此想開發(fā)一套針對(duì)數(shù)據(jù)分析的環(huán)境;統(tǒng)計(jì)圖形的意義在于用戶可以隨時(shí)調(diào)用圖形來(lái)交互式分析數(shù)據(jù),這是探索性數(shù)據(jù)分析的重要部分,我們也都知道探索性數(shù)據(jù)分析在統(tǒng)計(jì)分析中的地位,因此圖形作為S語(yǔ)言的開發(fā)重點(diǎn)有長(zhǎng)遠(yuǎn)的戰(zhàn)略意義;至于文檔,則是統(tǒng)計(jì)軟件與模型方法的重要連接,它意味著使用統(tǒng)計(jì)軟件必須清楚文檔,而讀懂文檔的前提是對(duì)統(tǒng)計(jì)方法有一定的了解,這就要求統(tǒng)計(jì)軟件使用者具備一定的專業(yè)素質(zhì),從而避免“垃圾進(jìn)垃圾出”的情況。深感Fortran語(yǔ)言使用繁瑣的S語(yǔ)言設(shè)計(jì)者們?cè)谝粋€(gè)大的Fortran庫(kù)的基礎(chǔ)上設(shè)計(jì)出了易用的S語(yǔ)言,它省去了每次都編寫低層程序的麻煩,而只需要在高層語(yǔ)言中調(diào)用低層語(yǔ)言計(jì)算。這對(duì)那些常規(guī)的統(tǒng)計(jì)分析過(guò)程來(lái)說(shuō)大大減輕了編程的工作,甚至可以說(shuō),常規(guī)的統(tǒng)計(jì)分析從此不需要“編程”了。S語(yǔ)言于1998年獲得了ACM(美國(guó)計(jì)算機(jī)學(xué)會(huì))的軟件系統(tǒng)獎(jiǎng),獲獎(jiǎng)的原因是:S系統(tǒng)永久性改變了人們分析、圖示和處理數(shù)據(jù)的方式S是一個(gè)精致、廣為人們接受和不朽的完整軟件系統(tǒng)注意S語(yǔ)言是所有統(tǒng)計(jì)軟件中唯一獲此殊榮的軟件系統(tǒng)。S語(yǔ)言后來(lái)逐漸發(fā)展成為了商業(yè)軟件S-Plus,但最初S語(yǔ)言的源代碼都是被公布在網(wǎng)絡(luò)上,因此R的幾位作者可以參考S語(yǔ)言的源代碼開發(fā)R語(yǔ)言,后來(lái)R語(yǔ)言也成為了自由軟件的成員,獲得了越來(lái)越多的支持者,大家開始為它找錯(cuò)誤和漏洞、編寫代碼、撰寫文檔并對(duì)用戶提供幫助。這所有的工作都是無(wú)償?shù)?。R語(yǔ)言除了在統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)作圖上的方便之外,其面向?qū)ο蟮木幊谭绞綖榻y(tǒng)計(jì)分析帶來(lái)了本質(zhì)性的革命。在R里面,幾乎所有的東西都是對(duì)象。每個(gè)對(duì)象都有自己的屬性,我們可以自由操縱這些對(duì)象及其屬性,包括提取、修改子對(duì)象,以及保存對(duì)象等。既然統(tǒng)計(jì)模型能和對(duì)象對(duì)應(yīng)起來(lái),那么只要一個(gè)新的對(duì)象在數(shù)學(xué)理論上存在或可計(jì)算,那么就可以很快用R寫出來(lái),而且用R寫程序非常簡(jiǎn)便,一般來(lái)說(shuō)它的代碼幾乎可以和數(shù)學(xué)公式完全對(duì)應(yīng),例如一個(gè)變量的m階樣本中心矩:數(shù)學(xué)上為,R里面為sum((x-mean(x))^m)/length(x);再如回歸系數(shù)向量(注意實(shí)際上R不是直接用下面這種矩陣求逆的方式計(jì)算的):數(shù)學(xué)上為,R里面可以寫作solve(t(x)%*%x)%*%t(x)%*%y;可以看出,R編程具有數(shù)學(xué)上的優(yōu)越性,它內(nèi)在的隱循環(huán)讓我們節(jié)省了大量寫繁瑣代碼的時(shí)間和精力,以上的例子若用低層代碼編寫必不可少涉及到大段的顯式循環(huán),而R將這些過(guò)程打包交給低層代碼去計(jì)算,從而簡(jiǎn)化了編程的工作。實(shí)際上即便是這種“編程”在R里面也不多見,諸如回歸等模型都有特定的函數(shù)lm()去計(jì)算,用不著我們自己寫程序。從這種意義上來(lái)說(shuō),R沒有圖形界面完全不重要,因?yàn)樵谄渌鼛D形界面的軟件中點(diǎn)菜單本質(zhì)上就是在設(shè)定函數(shù)的參數(shù),對(duì)R來(lái)說(shuō)只是敲鍵盤的事情。而R里面有大量能做的工作通過(guò)菜單操作是不可能做到的。這樣的例子數(shù)不勝數(shù)。(插播小廣告:寫這篇文章聽著歌,剛好聽到五月天的一首歌,讓我想類比一句話:R只因統(tǒng)計(jì)而生!廣告完畢。)R與統(tǒng)計(jì)結(jié)合之緊密,是需要時(shí)間去體會(huì)的,這種味道,我在其它軟件中沒有感覺到過(guò)。這里不再多舉例,僅留幾個(gè)問(wèn)題供大家思考、玩味:為什么R很多函數(shù)對(duì)缺失值的處理方式是不要?jiǎng)h掉缺失值(na.rm=FALSE),從而使得計(jì)算結(jié)果為NA?為什么連簡(jiǎn)單的計(jì)算均值的函數(shù)mean()還有trim參數(shù)?均值不就是把所有數(shù)字加起來(lái)除以樣本量么?為什么R、Excel、SPSS、SAS等軟件計(jì)算出來(lái)的分位數(shù)可能不一樣?樣本分位數(shù)的計(jì)算有多少種方法?參見quantile()函數(shù)。為什么簡(jiǎn)單的箱線圖還有notch參數(shù)?為什么直方圖hist()不能像SPSS那樣自帶選項(xiàng)讓用戶添加一條正態(tài)分布的密度曲線?Stata軟件Stata統(tǒng)計(jì)軟件由美國(guó)計(jì)算機(jī)資源中心(ComputerResourceCenter)1985年研制。特點(diǎn)是采用命令操作,也可以菜單操作,程序容量較小,統(tǒng)計(jì)分析方法較齊全,計(jì)算結(jié)果的輸出形式簡(jiǎn)潔,繪出的圖形精美。不足之處是數(shù)據(jù)的兼容性差,占內(nèi)存空間較大,數(shù)據(jù)管理功能需要加強(qiáng)。網(wǎng)址:。Stata是各種商業(yè)統(tǒng)計(jì)軟件中我最喜歡的一款(先聲明我沒有收取廣告費(fèi)),當(dāng)然不管什么統(tǒng)計(jì)軟件在我眼中都離R差遠(yuǎn)了,但是Stata確實(shí)做得還不錯(cuò),雖然它的名聲遠(yuǎn)不如SAS和SPSS,但其統(tǒng)計(jì)模塊非常齊全,打開看看菜單就知道了。尤其是計(jì)量經(jīng)濟(jì)學(xué)和醫(yī)學(xué)統(tǒng)計(jì)的人,如果懼怕寫代碼,不妨試試Stata。它分析小型數(shù)據(jù)應(yīng)該是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論