寫給在統(tǒng)計學院學習的學弟學妹1-4(轉(zhuǎn)載)_第1頁
寫給在統(tǒng)計學院學習的學弟學妹1-4(轉(zhuǎn)載)_第2頁
寫給在統(tǒng)計學院學習的學弟學妹1-4(轉(zhuǎn)載)_第3頁
寫給在統(tǒng)計學院學習的學弟學妹1-4(轉(zhuǎn)載)_第4頁
寫給在統(tǒng)計學院學習的學弟學妹1-4(轉(zhuǎn)載)_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計學的領(lǐng)域(寫給在統(tǒng)計學院學習的學弟學妹之一)By謝益輝@2008-11-2519:19標簽:統(tǒng)計學,表述數(shù)據(jù),分析數(shù)據(jù),學習經(jīng)歷,學習體會,收集數(shù)據(jù),整理數(shù)據(jù)

分類:\o"查看基礎(chǔ)統(tǒng)計的全部文章"基礎(chǔ)統(tǒng)計;RSS訂閱本文評論;跟蹤引用作者注:本文是為中國人民大學統(tǒng)計學院本科院刊所寫的稿件。走過了四年本科,覺得應(yīng)該對后來人講一些負責人的話,以使大家能更高效地學習。我認為人生的奮斗,怕的不是沒有動力,而是有動力卻不知道方向。因此,我把我所了解的統(tǒng)計學的領(lǐng)域介紹給大家,讓大家早日了解一下統(tǒng)計學的基本內(nèi)容,早日找到自己的方向。當然,僅僅四年的學習,得出的觀點或多或少會淺薄,所以也請各位大師多多指點批評。如果學了幾年統(tǒng)計,還連統(tǒng)計的那個經(jīng)典定義都背不出就不應(yīng)該了,在此我不再啰嗦一遍。統(tǒng)計學也不是什么神秘的學科,它的目的主要是通過數(shù)據(jù)探索信息,因此也就相應(yīng)有一系列的流程:收集、整理、分析和表述(數(shù)據(jù))。按照這個流程,統(tǒng)計下屬的眾多學科的地位與作用也就一目了然。今日我取標題為“統(tǒng)計學的領(lǐng)域”,說實話這個題目有些狂妄。夠資格寫這種題目的人,恐怕至少應(yīng)該在統(tǒng)計學界混過數(shù)十載。不幸的是,本人一向提倡“人不猖狂枉少年”。如果沒有足夠的熱情和斗志,是不可能取得一番成就的。正值青春年少,安能不立鴻鵠之志?此為題外話。1、收集數(shù)據(jù)一般來說,數(shù)據(jù)的來源無非是試驗和調(diào)查。平時我們談統(tǒng)計學似乎不太注重數(shù)據(jù)的收集問題,然而試驗設(shè)計和調(diào)查技術(shù)(包括抽樣等)都是很有用的學問。就我們這種純粹的統(tǒng)計學院來說,試驗設(shè)計的地位似乎不太高,而我所了解的生物統(tǒng)計、醫(yī)學統(tǒng)計等領(lǐng)域?qū)λ囊髤s特別高,有志于生物醫(yī)學統(tǒng)計方向的同學一定要注意研究這門課,有些名詞諸如正交設(shè)計、隨機區(qū)組試驗、拉丁方試驗等都是你們將來會遇見的,方差分析一般則是試驗設(shè)計之后最基本的統(tǒng)計分析方法;對于調(diào)查,一方面它是由統(tǒng)計學的理論作背景支撐的(大數(shù)定律、數(shù)理統(tǒng)計、抽樣理論等),另一方面涉及到實務(wù)操作方面的技術(shù),做過調(diào)查的同學應(yīng)該都了解調(diào)查的“艱辛”,當然如果有統(tǒng)計學的指導,我們也會發(fā)現(xiàn)一些讓人變聰明的技術(shù),舉個例子,對于吸毒問題,受眾(調(diào)查客體)一般都會低報(不愿意告訴訪員自己吸毒),對于這種情況我們該怎么處理?暫且把懸念留在這里;如果事先不知道答案,恐怕是很難想象這件事情與拋硬幣有任何瓜葛的。對于我們這個統(tǒng)計學院(素以經(jīng)濟統(tǒng)計強勢著稱),從收集數(shù)據(jù)角度來說,國民經(jīng)濟核算與經(jīng)濟社會統(tǒng)計也是兩門比較重要的課程,搞經(jīng)濟統(tǒng)計不能不對于經(jīng)濟數(shù)據(jù)的來龍去脈了如指掌,要不然統(tǒng)計指標都是從何計算而來有何意義都搞不清楚,還從何談起經(jīng)濟統(tǒng)計?2、整理數(shù)據(jù)數(shù)據(jù)不是說收集上來就可以馬上作分析,有實踐經(jīng)驗的人都知道,在收集數(shù)據(jù)的過程中,總會有各種意想不到的情況發(fā)生,但也是天要下雨娘要嫁人沒辦法的事情,你總不能把那些在問卷上偷懶空著不填或者亂填一氣的同志們抓來嚴刑拷打。在此我有必要提醒各位,一定要做好心理準備,無論你們在學校里老師教授給你們多完美的理論,到現(xiàn)實中往往會四處碰壁的??罩{(diào)查項目不填寫的我們稱之為缺失值(MissingValue),胡亂填寫的可能成為離群點或野值(Outlier),對于這樣的數(shù)據(jù),我們應(yīng)該事先做一些處理才能進行下一步的統(tǒng)計分析,不然會對統(tǒng)計結(jié)果產(chǎn)生一些不良影響,這些道理用腳趾頭想想就能明白(都用不著用膝蓋想)。當然數(shù)據(jù)的整理還包括很多其它內(nèi)容,諸如重新編碼(Recode)或者進行某種綜合計算等等,這里不詳談,因為都是很陳舊的內(nèi)容了。我想把我所知道的統(tǒng)計學中比較近代的技術(shù)介紹給大家,讓大家對我們的前沿知識有所了解。關(guān)于確實值的處理,目前已經(jīng)發(fā)展起來比較完備的插補技術(shù)(Imputation),這里面包括均值插補、熱平臺插補、冷平臺插補、最近鄰插補、EM算法、Bootstrap、Jackknife、MCMC(Monte-CarloMarkovChain)等知識。相信如果大家看看近代現(xiàn)代統(tǒng)計學的發(fā)展,這些名詞一定不會陌生。對于數(shù)據(jù)中的離群點,也要先思考一下,不要輕易刪除,一個窮山村中冒出一個大富翁的可能性不一定就是0,在離群點中反而有可能隱藏對我們有啟發(fā)的信息(比如一位同學的學分績太高以至于成了“野值”,我們就不能把他/她從班里“刪除”,而應(yīng)該借鑒學習經(jīng)驗)。3、分析數(shù)據(jù)不可否認,當今社會對于統(tǒng)計的需求,大部分都在于這一塊。數(shù)理統(tǒng)計的紙老虎會讓很多數(shù)學功底不好的同志望而卻步,再加上統(tǒng)計中眾多術(shù)語如P值、置信區(qū)間、卡方統(tǒng)計量等又會讓很多人覺得費解(曾經(jīng)有一次我給一位同志解釋了好半天X與Y兩個變量的相關(guān)系數(shù)對方死活就不明白,我瘋了),如果再來一些稍微前沿一些的統(tǒng)計分析方法例如結(jié)構(gòu)方程模型什么的,他們更是會云里霧里找不著北,然而來自統(tǒng)計分析的打擊似乎是無窮盡的,他們最后發(fā)現(xiàn)統(tǒng)計軟件也不太會用,要花很多錢購買,更可怕的還都是英文的……我琢磨著,他們一定心想,蒼天吶,如果還有來生,我……一定要學統(tǒng)計……作為統(tǒng)計人也不要太得意,首先統(tǒng)計分析方法你不一定會用,其次即使你會用也未必能用對地方。這個領(lǐng)域我?guī)缀跻呀?jīng)無法介紹,因為數(shù)百年的發(fā)展,讓統(tǒng)計方法擴充得讓人很難概括全面了。最簡單的分類莫過于描述統(tǒng)計與推斷統(tǒng)計了;描述統(tǒng)計大家應(yīng)該都懂,數(shù)據(jù)是什么就是什么,在原始數(shù)據(jù)的基礎(chǔ)上稍作加工,提煉一下信息,讓人對一個數(shù)據(jù)集(樣本)在心中有一個大致的了解,比如一國的GDP,國家統(tǒng)計局不可能每年都向人民群眾公布張三家的雞下蛋買了多少錢以及某紅星工廠鋼鐵年產(chǎn)值多少錢,等等,而是公布一個總數(shù),讓大家對我國的國力有大致的了解;推斷統(tǒng)計就需要用到一些比較精深的統(tǒng)計理論了,最重要的支撐莫過于數(shù)理統(tǒng)計,所以這門課大家也一定要學好,要知道相比起數(shù)學系的數(shù)學課,數(shù)理統(tǒng)計根本就沒什么難度。推斷統(tǒng)計中,根據(jù)是否需要參數(shù)假設(shè)又可以分為參數(shù)統(tǒng)計和非參數(shù)統(tǒng)計,后者出現(xiàn)的年代要晚,因此在理論和應(yīng)用方面可能不如前者,二者的比較又足以寫一大篇文章,此處作罷,但是無論如何,從參數(shù)統(tǒng)計到非參數(shù)統(tǒng)計,你的統(tǒng)計思維必將經(jīng)歷一個重大轉(zhuǎn)變,如果學得夠深入,你甚至可以由此聯(lián)想人生得失問題;不是和大家開玩笑,有時候統(tǒng)計確實能為我們展現(xiàn)一種人生觀。相關(guān)名的詞恐怕也不是一兩頁紙能列舉完的:相關(guān)分析(包括典型相關(guān)分析)、回歸分析(包括投影尋蹤回歸、分位數(shù)回歸)、對應(yīng)分析、信度分析、生存分析、聚類分析、判別分析、因子分析、路徑分析和主成分分析等。如果你至今還只知道普通最小二乘法(OLS)而不知道偏最小二乘法(PLS)這樣的名詞,那只能說明你還在一個古董世界徘徊,需要加把勁了。關(guān)于數(shù)據(jù)分析方法,當然首先要打好基礎(chǔ),掌握那些基本方法,若想在方法領(lǐng)域有所造詣,那么請回家把概率論與數(shù)理統(tǒng)計多翻幾遍,然后開始啃國外的教材以及文章。我常常遇到這種情況,就是一種方法,我看國外最早的論文是二十世紀六七十年代的,而國內(nèi)最早的論文則往往已經(jīng)是二十一世紀了??梢钥闯?,國內(nèi)在方法上的研究與國外的差距有多大。聰明人會從這里發(fā)現(xiàn)一個“市場”,我就不誘導大家了,這對于國內(nèi)統(tǒng)計學的長遠發(fā)展不太有利。還有一點,也是要提醒大家切記,統(tǒng)計分析方法往往都有理論假設(shè)或前提,在實際應(yīng)用時,務(wù)必務(wù)必要注意!首先要檢查數(shù)據(jù)是否滿足我們的理論條件,不要拿來就作分析,即使統(tǒng)計軟件會“不假思索”地給你輸出漂亮的結(jié)果。(統(tǒng)計軟件有時候挺害人的,不要完全相信它們)4、表述數(shù)據(jù)我認為世上不存在不懶的人,因此數(shù)據(jù)的表述一定也是一門學問。你要是把統(tǒng)計軟件輸出的P值活生生拿給別人看,八成會被毆;你要是膽敢告訴人家聚類分析碎石圖上石頭的位置表示特征根的大小,被扁的概率將一致趨近于1。統(tǒng)計是用來說明問題的,不是用來嚇唬人的。把我們的分析結(jié)果表述給人家看,就需要經(jīng)過一定的“轉(zhuǎn)化”。不要輕視數(shù)據(jù)的表述問題,有些統(tǒng)計方法之所以能“紅”起來,就是因為人們?yōu)樗姆治鼋Y(jié)果找到了巧妙的解釋。上面說的是統(tǒng)計學方面的表述,外觀形式方面的問題同樣應(yīng)該注意。表格中的數(shù)據(jù)不使用右對齊(或小數(shù)點對齊)、圖形畫得花里胡哨或土里土氣,都會讓統(tǒng)計的功效受損,雖然只是“面子問題”。學了那么長時間的統(tǒng)計,不應(yīng)該不知道圖的標題應(yīng)該寫在圖下方而表的標題應(yīng)該寫在表上方,平時看文章多注意別人是怎樣表達的。好了,統(tǒng)計學本身就從流程上介紹到這里。稍微再談?wù)勎宜姷降慕y(tǒng)計學發(fā)展趨勢:一方面是學科結(jié)合的趨勢,單單只會一門統(tǒng)計學恐已難以立足,統(tǒng)計學的發(fā)展動力,越來越多地來自于其它各個學科,若不是這些學科給統(tǒng)計學“出難題”,統(tǒng)計學的發(fā)展可能早已經(jīng)停止了,醫(yī)學會問你,怎樣設(shè)計試驗既能得出顯著的統(tǒng)計結(jié)果又能節(jié)約成本?心理學會問你,人的情商是一個隱變量,應(yīng)該怎樣測量?金融學會問你,股票市場上時序數(shù)據(jù)的異方差怎樣處理?市場營銷學會問你,怎樣從超市的海量數(shù)據(jù)中挖掘出有用的商品信息?法學會問你,某甲殺人的概率有多大?新聞傳播學會問你,大眾對某位候選者的真實支持率有多高?等等……;另一方面是計算機的廣泛應(yīng)用趨勢,我也要特別強調(diào),計算機在未來的統(tǒng)計中必將扮演越來越重要的角色,想要搖著筆桿子去追趕奔四3.2絕對是不可能了,計算機方面又尤其要數(shù)編程能力最重要,這番話是對那些想沖到統(tǒng)計時代前沿的同學們說的,統(tǒng)計方法的發(fā)展太快,以至于很多統(tǒng)計軟件都跟不上,因此,若自己掌握計算機編程技術(shù)的話就能不必受到統(tǒng)計軟件的制約。我在中國人民大學統(tǒng)計學院已經(jīng)學習了四年,感觸頗多,牢騷也不少。生活方面不多說,大家最好早點學會自強自立,早已經(jīng)過了18歲,有空聽聽鄭智化的《水手》。學習方面說這樣幾點吧:首先,不要指望你的老師會教給你所有的知識,同時也要明白你所學的知識是很不全面的。大學與高中不一樣,這里不是一個純粹的教學的地方,更多地是思想碰撞交流的地方。如果到現(xiàn)在你還在上課時埋頭認真地把老師說的每一個字記下來,那么你可能還沒理解什么叫大學。統(tǒng)計學紛繁蕪雜的體系,不是老師在幾節(jié)課上能講出來的。老師可以告訴你,統(tǒng)計學都有什么內(nèi)容,剩下的就是你自己多多努力奮斗。其次,攻書莫畏難??赡苓@也是大學與高中的區(qū)別之一,高中某一道題不會做可能會影響你的考試成績,而大學則不是用來為難人的地方。此路不通可以走彼路,你若不擅長積分,那么對于書中證明用到積分的地方大可不必仔細看,總之要有自己擅長的地方,然后注意培養(yǎng)自己的優(yōu)勢,以最快的速度向前發(fā)展。不過話說回來,不要被我誤導,我不是說可以隨意放棄一些課程,基礎(chǔ)仍然是要打好的,在這個條件下,你可以選擇自己擅長的方向發(fā)展。再次,不要忽視圖書館的豐富資源,不僅包括圖書,而且還有大量電子資源,注意上網(wǎng)看看,學校都購買了大量的論文數(shù)據(jù)庫,不用實在可惜了。里面的統(tǒng)計刊物可以趁早接觸一些,對于論文寫作以及知識面的拓展是很有好處的。最后,不要懼怕高年級的學長們,他們都知道吃人是犯法的,因此大可放心去請教、取經(jīng),讓自己少走一些彎路。只可惜,當年沒有學長對我這樣說,以至于我一直懼怕學長會吃了我……還有,一定要用好英語。(我可沒告訴你們要考好英語)以及,不要沒日沒夜地上自習。(當然也別像我從不上自習)對了,上網(wǎng)別總聊QQ,以后發(fā)財了有的是時間聊,現(xiàn)在有空多來我們的“統(tǒng)計之都”網(wǎng)站看看:\o"統(tǒng)計之都"一死生為虛誕,齊彭殤為妄作。各位加油。謝益輝

2006-10-07關(guān)于搜索統(tǒng)計資源(寫給在統(tǒng)計學院學習的學弟學妹之二)By謝益輝@2008-11-2922:06標簽:統(tǒng)計資源,統(tǒng)計數(shù)據(jù),參考文獻,搜索

分類:\o"查看基礎(chǔ)統(tǒng)計的全部文章"基礎(chǔ)統(tǒng)計;RSS訂閱本文評論;跟蹤引用關(guān)于搜集資料,其實是許久以來我很想談的一個話題,因為身邊太多太多的同學在這方面根本就沒入門。找點資料,也不知上哪里找。頂多Baidu一下,高級一些的就Google一下,就算完事了。拜托,老大們,這是二十一世紀哎!記得古時候有一個詞叫作“獺祭”,語出《禮記·月令》:“獺祭魚”。印象中李商隱和這個詞似乎有某種聯(lián)系,可惜古文修養(yǎng)太差,也弄不清了:“商隱工詩,為文瑰邁奇古,辭隱事難。及從楚學,儷偶長短,而繁縟過之。每屬綴,多檢閱書冊,左右鱗次,號‘獺祭魚’”。元·辛文房·《唐才子傳》大意也就是說的找資料的事情,可見,寫點東西(無論文人與否),都是要資料的。古人把書冊一排排鱗次,今人恐怕不會那樣做了,很可能就是在遨游(Maxthon)瀏覽器中一口氣點開好多個窗口,然后把網(wǎng)頁挨個來看,也算是某種形式的“獺祭”吧。這篇小文,依舊是寫給統(tǒng)計學院的學弟學妹們的,因此,仍然圍繞著“統(tǒng)計”的話題展開。大約也就談兩方面吧:一、怎樣找數(shù)據(jù)數(shù)據(jù)是統(tǒng)計的生命之源,其重要性就不在羅嗦。在上一篇文章“統(tǒng)計學的領(lǐng)域”中,我所說的數(shù)據(jù)來源其實主要是一手數(shù)據(jù)(調(diào)查和試驗),做研究當然也可以使用二手數(shù)據(jù),也就是別人已經(jīng)通過調(diào)查或試驗取得的數(shù)據(jù),我們拿過來借用一下。提到統(tǒng)計數(shù)據(jù),可能人們首先想到的就是統(tǒng)計局,不錯,這是我們的選擇之一,比如中華人民共和國國家統(tǒng)計局:/,在這個官方網(wǎng)站中,包含了大量的統(tǒng)計數(shù)據(jù),其中有年度數(shù)據(jù)、進度數(shù)據(jù)、專題數(shù)據(jù)、部門數(shù)據(jù)等等。比較方便的是,大多都是文本形式的數(shù)據(jù),可以復(fù)制出來供分析使用。很多地方統(tǒng)計局也都有自己的網(wǎng)站,如果需要某地的數(shù)據(jù),可以登錄相應(yīng)的網(wǎng)站查看。除了統(tǒng)計局,也別忘了學校的圖書館,人大的圖書館購買了一些統(tǒng)計數(shù)據(jù)庫,從首頁/登錄就會看到“參考工具”一欄中有“年鑒資源庫”,點擊進入就會看到大量的年鑒資料,不過不幸的是,里面很多資料都是圖片格式,不能直接復(fù)制出來供分析。上面說的是中文數(shù)據(jù),若要找國際數(shù)據(jù),其實UnitiedStates也是個可以考慮的地方,在那里有專門的StatisticsDivision,,里面的數(shù)據(jù)有Excel格式的,也提供了相應(yīng)的PDF格式文件。事實上,國外的數(shù)據(jù)比國內(nèi)要豐富得多,大家平時瀏覽網(wǎng)站的時候多多注意,一定會有很多積累的。比如OECD的網(wǎng)站,;U.S.CensusBureau:;等等。二、怎樣找參考文獻對于寫論文來說,大多數(shù)情況下恐怕找參考文獻比找數(shù)據(jù)更重要。這里首先仍然是介紹我們圖書館的資料,一般說來,中文方面的論文庫當然要數(shù)“中國期刊全文數(shù)據(jù)庫”比較全面(/),其中收錄了大量的期刊全文,圖書館網(wǎng)站上給出了登錄用戶名和密碼,大家可以嘗試進去看看。統(tǒng)計類的期刊有《統(tǒng)計研究》、《統(tǒng)計與決策》、《數(shù)理統(tǒng)計與管理》、《數(shù)理統(tǒng)計與應(yīng)用概率》等等,這些期刊都可以通過右上角的“期刊導航”找到。當然,也可以按照關(guān)鍵字搜索論文,網(wǎng)站左側(cè)有檢索的文本框,諸多選項大家自己去看吧。其他的數(shù)據(jù)庫諸如“萬方數(shù)據(jù)資源系統(tǒng)”等都是比較好的資源中心,大家可以去嘗試嘗試;最后要說的是除了文本形式的數(shù)據(jù)庫,其實圖書館的資源中也有視頻/音頻數(shù)據(jù)庫,一些名家的講座都可以從中直接看到。中文論文庫就不介紹太多了,是個中國人都能自己看懂,下面說說外文數(shù)據(jù)庫資源。如果要查找5年前的期刊論文,那么JSTOR也許可以滿足你們大部分需要了,JSTOR就是JournalStorage的縮寫,網(wǎng)址為,其中收錄的論文基本上都是圖片格式,可以在網(wǎng)站上一頁一頁翻著看,或者直接Download為PDF文件閱讀(里面仍然是圖片格式)。關(guān)于統(tǒng)計界的外文刊物,大家不能不知道這些:JournaloftheAmericanStatisticalAssociation(JASA)、AnnalsofStatistics、JournaloftheRoyalStatisticalSociety,其實還有Biometrica等等,暫時還是別介紹太多了。WileyInterScience(圖書館網(wǎng)站上寫的“JohnWiley電子期刊”,網(wǎng)址)這個網(wǎng)站中有不少統(tǒng)計學的寶貝,有空應(yīng)該去淘一淘,比較難得的是里面有大量的OnlineBooks,如”IntroductiontoBayesianStatistics”,”RegressionModelsforTimeSeriesAnalysis”,”StatisticalAnalysisandDataMining”,”AnalysisofFinancialTimeSeries(SecondEdition)”等。其它數(shù)據(jù)庫我平時較少用,不過也是比較好的資源,如“ProQuest學位論文全文數(shù)據(jù)庫”等,在此不多加介紹了。前面提到的JSTOR只能看好幾年前的期刊論文,如果要看最新的文章的話,也可以試試EBSCO或者ProQuest數(shù)據(jù)庫,不過至少我似乎沒發(fā)現(xiàn)JASA的文章,可能跟學校購買的數(shù)據(jù)庫限制有關(guān)。如果有比較重要的外文文獻需要下載全文閱讀而學校圖書館又沒有購買相應(yīng)的數(shù)據(jù)庫,那么也可以找你們在國外的同學或朋友,國外大學圖書館購買的英文數(shù)據(jù)庫肯定比我們要全。說了這么多,歸根到底都是一些輔助工具,真正要需要腦子的仍然在于專業(yè)知識,否則手中掌握再多的資源也白搭。不過話說回來,能盡早接觸統(tǒng)計方面的專業(yè)知識,對大家應(yīng)該也是有好處的。希望這些東西對大家有用。我的一些統(tǒng)計方法觀(寫給在統(tǒng)計學院學習的學弟學妹之三)By謝益輝@2008-11-2923:43標簽:Bootstrap,空間統(tǒng)計學,縱向數(shù)據(jù),統(tǒng)計方法,統(tǒng)計模型,重抽樣,Jackknife,R語言,分位回歸,回歸

分類:\o"查看回歸分析的全部文章"回歸分析,\o"查看基礎(chǔ)統(tǒng)計的全部文章"基礎(chǔ)統(tǒng)計;RSS訂閱本文評論;跟蹤引用收入與支出的分位回歸記得高中很討厭政治課,但是有幾個詞烙在腦子里,想忘都忘不掉,比如“世界觀”和“方法論”,當時那位老爺爺整天給我們灌輸這些玩意兒,搞得我現(xiàn)在對這些詞匯仍然如鬼神般敬而遠之。這次我要寫的是關(guān)于統(tǒng)計方法的一些思考(主要是思路),但又不太多涉及方法本身的推導證明,因此只好稱之為“方法觀”?,F(xiàn)在每天感慨統(tǒng)計領(lǐng)域太寬,模型太多,方法太雜,讓人把握不住方向。不過上次高校研究生統(tǒng)計論壇我仍然不知天高地厚地選了一個講述統(tǒng)計思想的題目,其原因正是覺得方法太雜,應(yīng)該理出一些頭緒來;當然我所理的頭緒也僅僅是很局部(local)的,管中窺豹而已。下面我先舉幾個例子說明一些統(tǒng)計方法的發(fā)展思路,這些也是我在上次論壇上發(fā)言的部分內(nèi)容:一、縱向數(shù)據(jù)與空間統(tǒng)計學縱向數(shù)據(jù)(LongitudinalData)和空間統(tǒng)計學(SpatialStatistics)算是代表了統(tǒng)計學發(fā)展領(lǐng)域的兩個前進維度;眾所周知,統(tǒng)計的數(shù)據(jù)有截面數(shù)據(jù)(Cross-section)和時間序列數(shù)據(jù)(Time-series)之分,前者是在同一時點觀測不同個體得到的數(shù)據(jù),后者是在不同時點觀測同一個個體(當然也可以不同)得到的,這兩種數(shù)據(jù)都有比較成熟的分析方法,如回歸、多元、ARMA等等,而縱向數(shù)據(jù)則可視作是它們的“綜合”:對不同的個體在不同的時點上(重復(fù))觀測——這體現(xiàn)的是時間的維度;而空間統(tǒng)計學則是結(jié)合地理學的知識,運用統(tǒng)計分析方法去分析與地理相關(guān)的問題,這里我摘一段Wikipedia中關(guān)于空間統(tǒng)計學的介紹:“ApplicationswithinGIS;mathematicalanalysisonvariedspatialdatasets;Issuesonhumangeography,particularlythoseinvolvingthespreadofdisease(epidemiology),thepracticeofcommerceandmilitaryplanning(logistics),andthedevelopmentofefficientspatialnetworks.”…其中GIS是地理信息系統(tǒng),也是現(xiàn)在研究應(yīng)用比較火熱的技術(shù);空間統(tǒng)計學牽涉的領(lǐng)域有疾病的散布(流行病學)、商業(yè)和軍事規(guī)劃(后勤)以及開發(fā)有效的空間網(wǎng)絡(luò)等等。聽起來挺有意思。此外,一些傳統(tǒng)的統(tǒng)計學概念、模型也被自然而然的轉(zhuǎn)移到空間統(tǒng)計學中,比如空間回歸(SpatialRegression)、空間滯后模型(SpatialLagged)、空間自相關(guān)(Autocorrelation)、空間計量經(jīng)濟學(SpatialEconometrics)等。若對R有所了解,不妨看看相應(yīng)的一些Package,對于縱向數(shù)據(jù),一般使用nlme(\o"JohnFox關(guān)于混合模型的文檔"JohnFox的文檔);對于空間統(tǒng)計學,可以參見相應(yīng)的\o"空間統(tǒng)計妧??TaskView"TaskView。二、分位數(shù)回歸與均值回歸眾所周知,經(jīng)典的最小二乘回歸是針對因變量的均值(期望)的:模型反映了因變量的均值怎樣受自變量的影響——,;這個小小的式子說明了經(jīng)典回歸的本質(zhì),自變量(有時也稱為協(xié)變量Covariates)影響著因變量的一個位置參數(shù)量,從這個意義上,可以把回歸稱之為一個位置移動模型(LocationShiftModel);用最小二乘方法容易推出,使最小的正是。分位數(shù)回歸(QuantileRegression)的核心思想就是從這個Location的角度出發(fā)而產(chǎn)生的,把Location從均值推廣到分位數(shù),回歸家族也就增添了分位數(shù)回歸這位新成員。最小二乘回歸的目標是最小化誤差平方和,分位數(shù)回歸也是最小化一個新的目標函數(shù):同樣我們可以看看什么樣的使得上面的目標函數(shù)最???通過對簡單的求導,不難發(fā)現(xiàn)滿足條件的正是的分位數(shù)。圖1分位回歸目標函數(shù)示意圖在R中,與分位數(shù)回歸對應(yīng)的包是quantreg,這個包也有自帶的一份Vignette,對于分位數(shù)回歸的學習者來說絕對是好材料(位于/doc目錄下,rq.pdf)。這份文檔中舉了一個關(guān)于恩格爾系數(shù)的例子(見圖2),圖中虛線是最小二乘回歸結(jié)果,黑線是中位數(shù)回歸結(jié)果(實際上就是),灰線從下至上分別是0.05、0.1、0.25、0.75、0.90、0.95分位數(shù);從圖中可以看出,大趨勢是隨家庭收入增大,食品支出也增加(廢話?。?,但是在給定家庭收入的情況下,食品支出的不同分位數(shù)的變化趨勢(斜率)是有差別的,高分位變化更陡峭,而低分位相對平緩;說明的實際問題大約也就是恩格爾系數(shù)高的家庭更傾向于在食品上花錢。相比起來,最小二乘回歸就不能說明這樣的趨勢,而只能說明前面那句“廢話”。圖2家庭收入與食品支出:一個分位數(shù)回歸的例子三、Bootstrap&Jackknife與抽樣在統(tǒng)計的世界,我們面臨的總是只有樣本,Wherethereissample,thereisuncertainty,正因為不確定性的存在,才使統(tǒng)計能夠生生不息。傳說統(tǒng)計學家、數(shù)學家和物理學家乘坐一列火車上旅行,路上看到草原上有一只黑羊,統(tǒng)計學家說,“基于這個樣本來看,這片草原上所有的羊都是黑的”,數(shù)學家說,“只有眼前這只羊是黑的”,物理學家則說,“你們都不對,只有羊的這一面是黑的”。這是關(guān)于統(tǒng)計和其他學科的一個玩笑話,說明了統(tǒng)計的一些特征,比如基于樣本推斷總體。一般情況下,總體永遠都無法知道,我們能利用的只有樣本,現(xiàn)在的問題是,樣本該怎樣利用呢?Bootstrap的奧義也就是:既然樣本是抽出來的,那我何不從樣本中再抽樣(Resample)?Jackknife的奧義在于:既然樣本是抽出來的,那我在作估計、推斷的時候“扔掉”幾個樣本點看看效果如何?既然人們要質(zhì)疑估計的穩(wěn)定性,那么我們就用樣本的樣本去證明吧。JohnFox的那一系列附錄中有一篇叫“BootstrappingRegressionModels”,當我看到第二頁用方框框標出那句話時,我才對Bootstrap的思想真正有了了解(之前迷茫了很長時間)。Bootstrap的一般的抽樣方式都是“有放回地全抽”(其實樣本量也要視情況而定,不一定非要與原樣本量相等),意思就是抽取的Bootstrap樣本量與原樣本相同,只是在抽樣方式上采取有放回地抽,這樣的抽樣可以進行B次,每次都可以求一個相應(yīng)的統(tǒng)計量/估計量,最后看看這個統(tǒng)計量的穩(wěn)定性如何(用方差表示)。Jackknife的抽樣痕跡不明顯,但主旨也是取樣本的樣本,在作估計推斷時,每次先排除一個或者多個樣本點,然后用剩下的樣本點求一個相應(yīng)的統(tǒng)計量,最后也可以看統(tǒng)計量的穩(wěn)定性如何。在R中簡單隨機抽樣的函數(shù)是sample(),其中有個參數(shù)replacement表示是否放回,經(jīng)典的抽樣基本都是不放回(replace=FALSE),而Bootstrap則是replace=TRUE;從FALSE到TRUE,小小的一個變化,孕育了Bootstrap的經(jīng)典思想。結(jié)語:例子暫舉這么三個,對于一些大思想,我(不知天高地厚地)盡力以一句話概括出來,看似簡單,其實里面的工作還很多,QuantileRegression的老大RogerKoenker等、Bootstrap的老大Efron等都有相應(yīng)的著作,閑著沒事干的同學不妨翻翻,不過我個人并不推薦這種方式,原因是看英文著作太花時間,最好先找點介紹性的材料看看,心里有把握之后再去找詳細的材料翻閱。平時學習中我比較注重研究統(tǒng)計模型和方法,但是對于理論性的東西我也有我的看法,到現(xiàn)在為止,我對模型的評判標準可以總結(jié)為:其目的能用一句話概括,或者結(jié)果能用圖形直觀展示;(目標)數(shù)學公式能對應(yīng)上某種成熟的生活觀念。(手段)如果模型不符合這兩條標準,我是不愿花功夫研究學習的。雖然在一定程度上追求模型的“先進性”,但是骨子里仍然認為統(tǒng)計應(yīng)該與實際有緊密聯(lián)系,否則統(tǒng)計也沒什么存在的價值。所以概括起來,我追求的目標仍然是一個映射(Mapping):從理論到實踐。對于統(tǒng)計的理論方法,我一般看兩個問題,與上面的標準對應(yīng):目標是什么?手段是什么(數(shù)學公式是否能與實際對應(yīng))?比如對于回歸,目標:尋找自變量和因變量之間盡可能精確的(線性或非線性)關(guān)系;手段:使誤差平方和最小,而誤差平方和說明的是什么?就是因變量的期望值與實際值的差距,由于因變量的期望是通過自變量來計算的,因此從實際來看,這里的“差距”越小也就說明自變量與因變量之間的關(guān)系越精確——正好與前面的目標對應(yīng)。類似還能總結(jié)出其它例子,比如現(xiàn)在國內(nèi)應(yīng)用如火如荼的結(jié)構(gòu)方程模型(SturcturalEquationModel,SEM)——目標:尋找觀測變量和潛變量之間盡可能精確的關(guān)系;手段:最小化樣本協(xié)方差陣與理論協(xié)方差陣之間的差距。若我們要對統(tǒng)計方法提出質(zhì)疑,則可以直接從其數(shù)學手段切入,比如“最小化樣本協(xié)方差陣與理論協(xié)方差陣之間的差距”是否能保證找出觀測變量和潛變量之間的精確關(guān)系?把理論和實際的差距轉(zhuǎn)化為協(xié)方差陣的差距,這一點從直觀上太難想象,不像回歸那樣,就是兩個數(shù)字作減法說明差距。因此,我對SEM一直是霧里看花,有些“朦朧感”,這也是我對SEM持保留態(tài)度的原因之一,本質(zhì)就在于我難以構(gòu)建一個從理論到實際的“映射”。最后再談一點關(guān)于建模的想法。關(guān)于統(tǒng)計建模,我一向堅持以“簡潔而能說明問題”為首要原則,并且更強調(diào)“簡潔”;事實上,知道赤池信息量的人都知道,AIC(AkaikeInformationCriterion)的計算是兩部分之和,一部分是(-2倍的)對數(shù)似然函數(shù)最大值,另一部分就是(2倍的)模型未知參數(shù)個數(shù),“使AIC盡可能小”是一條著名的統(tǒng)計建模準則,顯然,第二部分說的無非就是模型的簡潔程度。我反對一味追求數(shù)學上的復(fù)雜與高深,搞統(tǒng)計不是比誰的數(shù)學更拽,要是脫離實際或者對實際沒有指導作用,那么模型再花哨、方法再先進也不過是個繡花枕頭——中看不中用。曾經(jīng)有人問我認為什么統(tǒng)計方法最好,我不假思索地回答,“‘散點圖’唄!”當然,這里面也有開玩笑的成份,但意思也是想表達統(tǒng)計方法的應(yīng)用,應(yīng)該能讓人家容易理解你的意圖?!拔恼潞蠟闀r而著,歌詩合為事而作?!蹦敲矗y(tǒng)計為誰而做?大家不妨自行思考吧。統(tǒng)計學專業(yè)應(yīng)該使用什么樣的統(tǒng)計軟件(寫給在統(tǒng)計學院學習的學弟學妹之四)By謝益輝@2008-11-3014:25標簽:統(tǒng)計軟件,統(tǒng)計分析,表述數(shù)據(jù),R語言,SAS,SPSS,Stata,分析數(shù)據(jù),收集數(shù)據(jù),整理數(shù)據(jù)

分類:\o"查看基礎(chǔ)統(tǒng)計的全部文章"基礎(chǔ)統(tǒng)計,\o"查看統(tǒng)計軟件的全部文章"統(tǒng)計軟件;RSS訂閱本文評論;跟蹤引用RGui:Win下R的圖形界面過去兩三年為院刊寫了一些稿件,其中一部分是統(tǒng)計技術(shù)層面的,一部分是方法論和原則層面的,姑且作為對低年級統(tǒng)計學子們的一些學習建議,目的在于讓大家學會擦亮自己的眼睛,辨明統(tǒng)計學的是與非。文章觀點僅為一家之言,而且大多數(shù)情況下這些觀點相對于流行的、教科書式的觀點可能有顯著差異,因此請各位小心閱讀。這次要求我寫一篇關(guān)于統(tǒng)計軟件的介紹,我想我也沒這個本事去介紹所有的軟件,因此私自把主題改成了“統(tǒng)計學專業(yè)應(yīng)該使用什么樣的統(tǒng)計軟件”,竊以為這樣寫更有意義,不然這篇文章就變成了死板的統(tǒng)計軟件使用手冊。關(guān)于統(tǒng)計軟件,隨著時間的推移,我最終以R語言為中心,基本廢棄了其它工具的學習,換句話說,其它統(tǒng)計工具對我來說作用有限,不符合本人的統(tǒng)計分析思想和使用習慣。長話短說,本文的摘要為三個字:用R吧!數(shù)據(jù)分析的需求毫無疑問,選擇都是根據(jù)需求而定的。換言之,世上沒有萬能的好軟件。C語言、Fortran語言等低層語言在計算上效率非常高,而且人人都重視計算,但并非所有人都直接選擇這些低層語言作為計算工具,原因就是計算速度快不是唯一的需求;SPSS號稱統(tǒng)計功能齊全,它最近引進了Python語言,原因是什么?我個人認為模塊化的統(tǒng)計分析過程已經(jīng)不足以滿足現(xiàn)代數(shù)據(jù)分析的需要——沒有哪個問題是點鼠標計算一個回歸模型就能解決的。我還見過有的公司花了幾百萬人民幣買了SAS軟件,其作用只是用來導入導出Excel數(shù)據(jù),這就是沒有明確需求而盲目選擇的典型。統(tǒng)計專業(yè)對軟件的需求是什么?這要從我們直接從事的工作說起。統(tǒng)計的工作是什么?仍然是那個定義:收集、整理、分析和表述數(shù)據(jù)。統(tǒng)計軟件在收集數(shù)據(jù)中一般用處不大(只有試驗設(shè)計可能需要計算機生成試驗表),而后三部分則處處需要軟件的幫助。整理數(shù)據(jù)要求軟件具有良好的處理原始數(shù)據(jù)的能力?,F(xiàn)實生活中的數(shù)據(jù)與教科書中的行列二維表格區(qū)別往往很大,因此我們需要通過整理把那些看似雜亂的數(shù)據(jù)變成統(tǒng)計中能使用的數(shù)據(jù)形式。我認為這種能力反映在兩方面:(1)字符處理:例如原始數(shù)據(jù)為簡單的文本格式,我們需要從中提取數(shù)據(jù),則需要根據(jù)特定的規(guī)則讀寫文本數(shù)據(jù),這往往涉及到一邊計算一邊取數(shù)據(jù)而不是一口氣全讀進來,更復(fù)雜的情況下還需要正則表達式的幫忙,舉例來說,有時候數(shù)據(jù)分散放在多個文件中,我們需要將含有特定文件名的文件找出來,然后將其中符合條件的行讀取出來,最終合并為所需的數(shù)據(jù),或再距離來說,我們希望了解某個關(guān)鍵詞在Google中隨著日期推移,搜索結(jié)果數(shù)目的變化,這樣我們需要動態(tài)查詢Google網(wǎng)頁,每次都把特定位置上的那個數(shù)字提出來;這些情況下,數(shù)據(jù)并非理想中的一張表格形式,需要我們預(yù)處理才能使用;(2)數(shù)據(jù)庫的整理:隨著數(shù)據(jù)存儲技術(shù)的進步,數(shù)據(jù)往往都被存放在數(shù)據(jù)庫中,統(tǒng)計人員在分析之前需要和數(shù)據(jù)庫交互查詢得到自己所需要的變量或觀測,這些過程中,SQL是必不可少的,因此對SQL的支持是統(tǒng)計數(shù)據(jù)整理的基本要求。有人可能會產(chǎn)生疑問,為什么不把這樣的工作交給計算機專業(yè)的人去做?殊不知統(tǒng)計分析乃是精工細活,數(shù)據(jù)整理并不僅僅是一個技術(shù)問題,更多的是對實際問題和統(tǒng)計模型的理解:我們需要解決什么實際問題?我們需要哪些變量?這些變量從哪里來?統(tǒng)計模型是什么?模型的變量是什么性質(zhì)(離散、連續(xù))?……在正式分析之前,我們對數(shù)據(jù)應(yīng)該還有諸多類似的問題,不然僅僅依靠計算機技術(shù),也許會計算出分類變量的均值(如某班級平均性別為1.35)或連續(xù)變量的頻數(shù)等不合理的數(shù)據(jù)結(jié)果。當然,不可否認的是,純粹的計算機技術(shù)對統(tǒng)計數(shù)據(jù)整理也是很有幫助的,這時,我們可能需要找計算機專業(yè)人士合作。分析數(shù)據(jù)應(yīng)該是統(tǒng)計軟件的核心功能,顯而易見,這要求統(tǒng)計軟件的模型方法比較齊全,表面看來,這只是一個數(shù)量的問題,然而,它背后還隱藏著兩個問題:(1)程序的可靠性或正確性:大多數(shù)商業(yè)軟件都不是開源軟件,我們并不知道其背后統(tǒng)計方法在計算機程序上的可靠性,從這一點上來講,我們只能根據(jù)輸出結(jié)果去判斷程序是否可靠,而這種測試方法是非常低效的,因為這是“測標不測本”的做法,我們檢驗出來的問題說明軟件確實在某方面有錯誤,但還有很多方面我們無法檢驗,這就如同統(tǒng)計假設(shè)檢驗的道理一樣——零假設(shè)(軟件沒問題)可以被拒絕,但不拒絕不能說明零假設(shè)就可以被接受;舉例來說,Excel在統(tǒng)計計算上漏洞百出,被詬病已久(參見\o"為什么不使用Excel"/cn/tag.php?tag=Excel),然而除了那些被發(fā)現(xiàn)的問題,也許還有更多問題,我們(暫時)無法發(fā)現(xiàn);(2)模型方法的變化與更新:我們都知道現(xiàn)在統(tǒng)計方法和模型的更新速度非???,統(tǒng)計學科的發(fā)展日新月異,因此要求統(tǒng)計軟件的發(fā)展速度能跟上學科的發(fā)展,不然統(tǒng)計方法的實施就會大受阻礙。除了這兩個問題之外,統(tǒng)計分析還有個特點,那就是它的結(jié)果對象往往并不“整齊”,不會是行列二維表格,例如典型的回歸分析中得到的結(jié)果可能有回歸系數(shù)及其P值(矩陣形式)、R平方(單個數(shù)值)、殘差(向量)、AIC(單個數(shù)值)等等,這也對統(tǒng)計軟件提出了要求:我們需要能夠靈活處理統(tǒng)計分析結(jié)果的軟件,而不是生成無窮無盡的大篇幅報表,報表只是統(tǒng)計分析結(jié)果的匯總形式之一,并不一定滿足用戶的需要,例如有時候我們需要計算多個回歸模型,而我們只關(guān)心擬合效果如何,因此對于每個回歸結(jié)果,我們只需要提出R平方或者調(diào)整后的R平方之類的統(tǒng)計量并保存起來即可,而不需要輸出多篇報表,然后人工去尋找最大的R平方值。表述數(shù)據(jù)也是統(tǒng)計工作的重要組成部分,我認為這部分和統(tǒng)計分析部分有密切的關(guān)系,因為表述往往也含有分析的意味。表面看來這只是一個美學問題,而統(tǒng)計分析結(jié)果的表述卻不光是美學這么簡單。一方面,我們想將結(jié)果安排得美觀或直觀,這需要我們挑選關(guān)鍵的統(tǒng)計量來完成表達,而去掉那些無關(guān)緊要的結(jié)果,這也要求統(tǒng)計分析結(jié)果中的對象可以被任意提取;另一方面,統(tǒng)計圖形也是數(shù)據(jù)表述的核心組成部分,因此要求統(tǒng)計軟件有較強的統(tǒng)計圖形展示能力。R語言RGui:Windows下R的圖形界面R是一門用于統(tǒng)計計算和作圖的語言(\o"R主頁"),受S語言影響發(fā)展而來。R語言最初由新西蘭奧克蘭大學統(tǒng)計系的RobertGentleman和RossIhaka合作編寫。自1997年開始,R語言開始由一個核心團隊開發(fā),團隊成員來自世界各地的大學和研究機構(gòu)。迄今為止,R源代碼已經(jīng)經(jīng)歷了近70次主要更新,功能也在不斷完善、增強中,主要統(tǒng)計功能包括線性模型/廣義線性模型、非線性回歸模型、時間序列分析、經(jīng)典的參數(shù)/非參數(shù)檢驗、聚類和光滑方法等。R語言具有免費、開源及統(tǒng)計模塊齊全的特征,已被國外大量學術(shù)和科研機構(gòu)采用,其應(yīng)用范圍涵蓋了數(shù)據(jù)挖掘、機器學習、計量經(jīng)濟學、實證金融學、統(tǒng)計遺傳學、自然語言處理、心理計量學和空間統(tǒng)計學諸多領(lǐng)域。談R語言不能不提S語言,因為R語言的發(fā)展主要是受S語言和Scheme語言的影響,尤其是在統(tǒng)計分析部分,R和S非常相似。S語言在70年代由貝爾實驗室統(tǒng)計部門開發(fā)出來,它的設(shè)計者們從一開始就做出了三個決定:設(shè)計S語言的目的是為了提供一個完整的數(shù)據(jù)分析環(huán)境S語言應(yīng)該包括交互式圖形S語言應(yīng)該有詳細的在線文檔從這三點我們可以看出,S的直接目的在于數(shù)據(jù)分析,這是由于此前統(tǒng)計部門的工作者在實際工作中感覺到了當時的軟件在數(shù)據(jù)分析上的不便,因此想開發(fā)一套針對數(shù)據(jù)分析的環(huán)境;統(tǒng)計圖形的意義在于用戶可以隨時調(diào)用圖形來交互式分析數(shù)據(jù),這是探索性數(shù)據(jù)分析的重要部分,我們也都知道探索性數(shù)據(jù)分析在統(tǒng)計分析中的地位,因此圖形作為S語言的開發(fā)重點有長遠的戰(zhàn)略意義;至于文檔,則是統(tǒng)計軟件與模型方法的重要連接,它意味著使用統(tǒng)計軟件必須清楚文檔,而讀懂文檔的前提是對統(tǒng)計方法有一定的了解,這就要求統(tǒng)計軟件使用者具備一定的專業(yè)素質(zhì),從而避免“垃圾進垃圾出”的情況。深感Fortran語言使用繁瑣的S語言設(shè)計者們在一個大的Fortran庫的基礎(chǔ)上設(shè)計出了易用的S語言,它省去了每次都編寫低層程序的麻煩,而只需要在高層語言中調(diào)用低層語言計算。這對那些常規(guī)的統(tǒng)計分析過程來說大大減輕了編程的工作,甚至可以說,常規(guī)的統(tǒng)計分析從此不需要“編程”了。S語言于1998年獲得了ACM(美國計算機學會)的軟件系統(tǒng)獎,獲獎的原因是:S系統(tǒng)永久性改變了人們分析、圖示和處理數(shù)據(jù)的方式S是一個精致、廣為人們接受和不朽的完整軟件系統(tǒng)注意S語言是所有統(tǒng)計軟件中唯一獲此殊榮的軟件系統(tǒng)。S語言后來逐漸發(fā)展成為了商業(yè)軟件S-Plus,但最初S語言的源代碼都是被公布在網(wǎng)絡(luò)上,因此R的幾位作者可以參考S語言的源代碼開發(fā)R語言,后來R語言也成為了自由軟件的成員,獲得了越來越多的支持者,大家開始為它找錯誤和漏洞、編寫代碼、撰寫文檔并對用戶提供幫助。這所有的工作都是無償?shù)摹語言除了在統(tǒng)計計算和統(tǒng)計作圖上的方便之外,其面向?qū)ο蟮木幊谭绞綖榻y(tǒng)計分析帶來了本質(zhì)性的革命。在R里面,幾乎所有的東西都是對象。每個對象都有自己的屬性,我們可以自由操縱這些對象及其屬性,包括提取、修改子對象,以及保存對象等。既然統(tǒng)計模型能和對象對應(yīng)起來,那么只要一個新的對象在數(shù)學理論上存在或可計算,那么就可以很快用R寫出來,而且用R寫程序非常簡便,一般來說它的代碼幾乎可以和數(shù)學公式完全對應(yīng),例如一個變量的m階樣本中心矩:數(shù)學上為,R里面為sum((x-mean(x))^m)/length(x);再如回歸系數(shù)向量(注意實際上R不是直接用下面這種矩陣求逆的方式計算的):數(shù)學上為,R里面可以寫作solve(t(x)%*%x)%*%t(x)%*%y;可以看出,R編程具有數(shù)學上的優(yōu)越性,它內(nèi)在的隱循環(huán)讓我們節(jié)省了大量寫繁瑣代碼的時間和精力,以上的例子若用低層代碼編寫必不可少涉及到大段的顯式循環(huán),而R將這些過程打包交給低層代碼去計算,從而簡化了編程的工作。實際上即便是這種“編程”在R里面也不多見,諸如回歸等模型都有特定的函數(shù)lm()去計算,用不著我們自己寫程序。從這種意義上來說,R沒有圖形界面完全不重要,因為在其它帶圖形界面的軟件中點菜單本質(zhì)上就是在設(shè)定函數(shù)的參數(shù),對R來說只是敲鍵盤的事情。而R里面有大量能做的工作通過菜單操作是不可能做到的。這樣的例子數(shù)不勝數(shù)。(插播小廣告:寫這篇文章聽著歌,剛好聽到五月天的一首歌,讓我想類比一句話:R只因統(tǒng)計而生!廣告完畢。)R與統(tǒng)計結(jié)合之緊密,是需要時間去體會的,這種味道,我在其它軟件中沒有感覺到過。這里不再多舉例,僅留幾個問題供大家思考、玩味:為什么R很多函數(shù)對缺失值的處理方式是不要刪掉缺失值(na.rm=FALSE),從而使得計算結(jié)果為NA?為什么連簡單的計算均值的函數(shù)mean()還有trim參數(shù)?均值不就是把所有數(shù)字加起來除以樣本量么?為什么R、Excel、SPSS、SAS等軟件計算出來的分位數(shù)可能不一樣?樣本分位數(shù)的計算有多少種方法?參見quantile()函數(shù)。為什么簡單的箱線圖還有notch參數(shù)?為什么直方圖hist()不能像SPSS那樣自帶選項讓用戶添加一條正態(tài)分布的密度曲線?Stata軟件Stata統(tǒng)計軟件由美國計算機資源中心(ComputerResourceCenter)1985年研制。特點是采用命令操作,也可以菜單操作,程序容量較小,統(tǒng)計分析方法較齊全,計算結(jié)果的輸出形式簡潔,繪出的圖形精美。不足之處是數(shù)據(jù)的兼容性差,占內(nèi)存空間較大,數(shù)據(jù)管理功能需要加強。網(wǎng)址:。Stata是各種商業(yè)統(tǒng)計軟件中我最喜歡的一款(先聲明我沒有收取廣告費),當然不管什么統(tǒng)計軟件在我眼中都離R差遠了,但是Stata確實做得還不錯,雖然它的名聲遠不如SAS和SPSS,但其統(tǒng)計模塊非常齊全,打開看看菜單就知道了。尤其是計量經(jīng)濟學和醫(yī)學統(tǒng)計的人,如果懼怕寫代碼,不妨試試Stata。它分析小型數(shù)據(jù)應(yīng)該是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論