統(tǒng)計(jì)學(xué)與大數(shù)據(jù)分析_第1頁(yè)
統(tǒng)計(jì)學(xué)與大數(shù)據(jù)分析_第2頁(yè)
統(tǒng)計(jì)學(xué)與大數(shù)據(jù)分析_第3頁(yè)
統(tǒng)計(jì)學(xué)與大數(shù)據(jù)分析_第4頁(yè)
統(tǒng)計(jì)學(xué)與大數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    統(tǒng)計(jì)學(xué)與大數(shù)據(jù)分析    劉靜摘要:由于互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,數(shù)據(jù)已然成為新世紀(jì)的巨大經(jīng)濟(jì)資產(chǎn)和礦產(chǎn)資源。為各個(gè)領(lǐng)域帶來(lái)了新的方向與變革,當(dāng)今最受關(guān)注的學(xué)科不是經(jīng)濟(jì)學(xué),也不是醫(yī)學(xué),而是能夠運(yùn)用大數(shù)據(jù)進(jìn)行相關(guān)分析的統(tǒng)計(jì)學(xué)。企業(yè)帶來(lái)統(tǒng)計(jì)學(xué)與大數(shù)據(jù)分析迎合了時(shí)代的發(fā)展,定將展現(xiàn)出光明的前景。關(guān)鍵詞:統(tǒng)計(jì)學(xué);大數(shù)據(jù);利用;發(fā)展:c829.2 文獻(xiàn)識(shí)別碼:a :1001-828x(2018)025-0058-02信息時(shí)代的來(lái)臨使得大數(shù)據(jù)技術(shù)在全球范圍內(nèi)獲得了很大的發(fā)展,對(duì)于政府統(tǒng)計(jì)機(jī)關(guān)來(lái)說(shuō)大數(shù)據(jù)使用了多種數(shù)據(jù)收集模式,對(duì)各種數(shù)據(jù)進(jìn)行整合而且通過(guò)現(xiàn)代信

2、息技術(shù)以及高速處理的挖掘數(shù)據(jù),發(fā)揮了自己的應(yīng)用價(jià)值與決策支持功能,一方面,統(tǒng)計(jì)調(diào)查主體的多元化發(fā)展和電子商務(wù)的發(fā)展給統(tǒng)計(jì)數(shù)據(jù)的發(fā)展帶來(lái)了很大的難題。會(huì)對(duì)政府統(tǒng)計(jì)管理體制以及統(tǒng)計(jì)理念產(chǎn)生影響,另一方面,因?yàn)橛?jì)算機(jī)技術(shù)以及網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展,它在提高統(tǒng)計(jì)生產(chǎn)力方面發(fā)揮著重要作用。大數(shù)據(jù)是官方統(tǒng)計(jì)部門要研究的方向,在這種情況下,分析大數(shù)據(jù)在政府統(tǒng)計(jì)中的效果,了解政府統(tǒng)計(jì)改革和發(fā)展的機(jī)會(huì)對(duì)政府統(tǒng)計(jì)具有重要意義。雖然近代統(tǒng)計(jì)學(xué)獲得了很大的發(fā)展,但是大數(shù)據(jù)時(shí)期的來(lái)臨暴露了統(tǒng)計(jì)學(xué)方面的問(wèn)題,在抽樣調(diào)查設(shè)計(jì),數(shù)據(jù)管理以及統(tǒng)計(jì)分析等方面,數(shù)據(jù)分析都顛覆了傳統(tǒng)的統(tǒng)計(jì)方式。一、古代統(tǒng)計(jì)學(xué)時(shí)代眾所周知,關(guān)于統(tǒng)計(jì)學(xué)

3、的分類有很多,但是最主要的包括三種類型的統(tǒng)計(jì)學(xué)方法。第一,可以處理不定期事件的統(tǒng)計(jì)方法,例如概率統(tǒng)計(jì)法;第二,可以處理定期事件的統(tǒng)計(jì)方法,例如比值編制、調(diào)查研究等方法;第三,能夠處理跨學(xué)科領(lǐng)域的相關(guān)聯(lián)的統(tǒng)計(jì)方法,例如應(yīng)用技術(shù)統(tǒng)計(jì)方法等。由于數(shù)據(jù)收集以及數(shù)據(jù)處理受到一定的約束,所以人們很難獲取較為全面的數(shù)據(jù)信息,這就使得古代的統(tǒng)計(jì)學(xué)方法基礎(chǔ)幾乎都是從一些可取的樣本上獲得的?;蛘呖梢酝ㄟ^(guò)其他的一些途徑得到數(shù)據(jù)信息,但是如果從客觀條件考慮,可能需要付出很大的成本,所以人們會(huì)放棄獲取全部的具體數(shù)據(jù)。面對(duì)這種情形,人們常常會(huì)去經(jīng)過(guò)長(zhǎng)時(shí)間的篩選,選擇一個(gè)相對(duì)而言較好的統(tǒng)計(jì)方法,但這也僅僅是反映了總體當(dāng)中的

4、某一個(gè)小的方面的具體特點(diǎn)。然而,我們所觀察到的這些數(shù)據(jù)特征占總體大量數(shù)據(jù)特征的比例甚小,很多的其他數(shù)據(jù)特點(diǎn)有待發(fā)現(xiàn)。總而言之,統(tǒng)計(jì)學(xué)是在抽樣理論的基礎(chǔ)上發(fā)展而來(lái)的,統(tǒng)計(jì)學(xué)分析方法較為強(qiáng)調(diào)具有因果關(guān)系的統(tǒng)計(jì)分析結(jié)果,能夠根據(jù)部分?jǐn)?shù)據(jù)去推測(cè)整體。統(tǒng)計(jì)學(xué)是通過(guò)搜集數(shù)據(jù)、整理、分析數(shù)據(jù)等過(guò)程進(jìn)而得出數(shù)據(jù)內(nèi)在規(guī)律的一門學(xué)科。統(tǒng)計(jì)學(xué)最常用的方法就是樣本抽取方法,根據(jù)抽取的局部數(shù)據(jù)去推測(cè)整體,進(jìn)而得出事物的總體發(fā)展走勢(shì)的綜合性學(xué)科。二、現(xiàn)代統(tǒng)計(jì)學(xué)時(shí)代喬治華盛頓大學(xué)的jeremy s.wu教授以其豐富的實(shí)踐經(jīng)驗(yàn)提到了現(xiàn)代治理統(tǒng)計(jì)2.0的概念。與統(tǒng)計(jì)2.0相比,胡善清教授說(shuō),現(xiàn)代統(tǒng)計(jì)是1.0時(shí)代。并且非隨機(jī)數(shù)據(jù)

5、是沒(méi)有研究?jī)r(jià)值的。1.利用所有的數(shù)據(jù)在原始統(tǒng)計(jì)中,由于沒(méi)有很多用于記錄,存儲(chǔ)和分析的工具,因此僅對(duì)整體進(jìn)行樣本分析。由于統(tǒng)計(jì)學(xué)的目標(biāo)是通過(guò)最少數(shù)據(jù)證明發(fā)現(xiàn),統(tǒng)計(jì)學(xué)家認(rèn)為,采樣分析的準(zhǔn)確性因?yàn)殡S機(jī)性的增加而增加,但是,它與樣品數(shù)量的增加幾乎沒(méi)有關(guān)系。就像經(jīng)濟(jì)學(xué)中邊際遞減效應(yīng)一樣。在大數(shù)據(jù)時(shí)代,沒(méi)有使用隨機(jī)分析的原理,并且使用了所有大數(shù)據(jù)。即“樣本=總體”。統(tǒng)計(jì)抽樣的目標(biāo)主要是為了技術(shù)受限的過(guò)程中,可以更好的解決相關(guān)的問(wèn)題而出現(xiàn)的,慢慢的又會(huì)將樣本分析拋棄。2.接受不精確對(duì)于小數(shù)據(jù),統(tǒng)計(jì)數(shù)據(jù)可以更好地處理數(shù)據(jù),但在大數(shù)據(jù)時(shí)代,大量數(shù)據(jù)使統(tǒng)計(jì)方法成為問(wèn)題。隨著數(shù)據(jù)量的增加導(dǎo)致結(jié)果出現(xiàn)問(wèn)題,對(duì)準(zhǔn)確性的

6、強(qiáng)調(diào)是信息時(shí)代和模擬時(shí)代的產(chǎn)物,但是接受不涉及的區(qū)域的不準(zhǔn)確性,接受不準(zhǔn)確是從“小數(shù)據(jù)”到“大數(shù)據(jù)”的重要轉(zhuǎn)變之一。由于數(shù)據(jù)量相對(duì)較大所帶來(lái)的準(zhǔn)確性,可以接受不準(zhǔn)確的問(wèn)題,以獲得大規(guī)模數(shù)據(jù)的好處,混亂就是一種新的方法,所以不能夠避免。3.追求相關(guān)關(guān)系而不是確定因果在小數(shù)據(jù)期間,也存在相關(guān)性。在其中找到具體的定量規(guī)律,人們?cè)趯?shí)踐中學(xué)到變量之間存在兩種關(guān)系:函數(shù)關(guān)系和相關(guān)關(guān)系。相關(guān)以及回歸就是處理變量的方法。變量之間出現(xiàn)的不確定量之間的關(guān)系也稱為相關(guān)性。通常,可以通過(guò)散點(diǎn)圖和相關(guān)系數(shù)來(lái)分析相關(guān)性。相關(guān)性的目標(biāo)是量化數(shù)據(jù)之間的邏輯關(guān)系。知道是什么就行了。通過(guò)探索“什么”而不是“為什么”,這種關(guān)系可以

7、讓我們更好地了解世界,如果凡事有因果,那么就沒(méi)有決定任何事情的自由。4.數(shù)據(jù)的來(lái)源并非那么簡(jiǎn)單一般來(lái)說(shuō),為了獲得需要的數(shù)據(jù)就要通過(guò)不同的方式測(cè)量,才能獲得記錄。但是數(shù)據(jù)會(huì)在意想不到的地方獲得,雖然精心的對(duì)實(shí)驗(yàn)以及研究進(jìn)行的設(shè)計(jì),但是真正操作的過(guò)程中不如想象的簡(jiǎn)單。因?yàn)樵诖髷?shù)據(jù)時(shí)期數(shù)據(jù)沒(méi)有規(guī)律性,所以要分析數(shù)據(jù)的其他問(wèn)題,這些數(shù)據(jù)以及資料是否要自己去獲得?或者參考其他人的結(jié)果,這將節(jié)省能源和時(shí)間,如果您只是參考您需要的數(shù)據(jù)來(lái)了解及時(shí)性和使用范圍,它可能不是為了想象而準(zhǔn)備的。大數(shù)據(jù)的目標(biāo)就是為了獲得擁有的獨(dú)特價(jià)值。三、大數(shù)據(jù)分析1.大數(shù)據(jù)的概念大數(shù)據(jù)的概念較為抽象,單從表面的意思來(lái)看,大數(shù)據(jù)的大指

8、的是數(shù)據(jù)所占的空間較大或者數(shù)據(jù)量的規(guī)模較為龐大,如,單從百度搜索引擎來(lái)看,每日產(chǎn)生的數(shù)據(jù)有幾十pb,但事實(shí)上這是個(gè)誤區(qū),大數(shù)據(jù)并不單單是指數(shù)據(jù)所占的存儲(chǔ)空間大。一般意義上認(rèn)為大數(shù)據(jù)是指那些需要經(jīng)過(guò)處理才能發(fā)現(xiàn)其內(nèi)在聯(lián)系性或規(guī)律性、能夠?yàn)闆Q策提供依據(jù)的海量信息數(shù)據(jù)。權(quán)威雜志science將大數(shù)據(jù)定義為那些無(wú)法在有限時(shí)間內(nèi)用當(dāng)前的技術(shù)去獲取的數(shù)據(jù)。此外,大多數(shù)人認(rèn)為大數(shù)據(jù)的“大”包含了其數(shù)據(jù)規(guī)模的“大”,同時(shí)也包含了數(shù)據(jù)在采集、存儲(chǔ)、挖掘、傳遞等方面的“大”,更包括應(yīng)用方面、用途方面“大”。大數(shù)據(jù)的大是數(shù)據(jù)本身、數(shù)據(jù)技術(shù)及數(shù)據(jù)應(yīng)用三者的有機(jī)統(tǒng)一。大數(shù)據(jù)的發(fā)展是各方面共同作用的結(jié)果。2.大數(shù)據(jù)的對(duì)象

9、目前來(lái)看,大數(shù)據(jù)是一個(gè)較為寬泛的概念,它主要包羅了各種各樣的數(shù)據(jù)類型,包括文件、數(shù)據(jù)庫(kù)等等,這種數(shù)據(jù)基本上來(lái)源于計(jì)算機(jī)系統(tǒng)所產(chǎn)生的數(shù)據(jù);其次是人們?cè)谑褂没ヂ?lián)網(wǎng)進(jìn)行交流及溝通時(shí)所產(chǎn)生的大量數(shù)據(jù),這些內(nèi)容包含了文本、圖片、音頻、視頻等等。此外,還有一些大數(shù)據(jù)來(lái)自于一些技術(shù)設(shè)備,如衛(wèi)星所采集的一些數(shù)據(jù)等。3.大數(shù)據(jù)應(yīng)用大數(shù)據(jù)應(yīng)用方面主要是指對(duì)獲取的數(shù)據(jù)進(jìn)行分析,從而尋找數(shù)據(jù)中的聯(lián)系或規(guī)律,運(yùn)用這些結(jié)果來(lái)對(duì)未來(lái)的一些趨勢(shì)進(jìn)行合理預(yù)測(cè)及分析,這樣能夠增強(qiáng)行業(yè)或領(lǐng)域競(jìng)爭(zhēng)力。此外,通過(guò)對(duì)大數(shù)據(jù)進(jìn)行詳細(xì)分析能夠?qū)崿F(xiàn)透過(guò)現(xiàn)象看本質(zhì)的目的,以為決策提供依據(jù)。四、大數(shù)據(jù)的利用方式在統(tǒng)計(jì)學(xué)中,大數(shù)據(jù)的使用不僅僅是使用

10、平均值,方差和分位數(shù)。如果可以,您需要了解數(shù)據(jù)的關(guān)系或聯(lián)系方式。不僅要對(duì)父母的身高進(jìn)行分析,還要對(duì)孩子的身高進(jìn)行分析,通過(guò)其中的關(guān)系得到結(jié)論。有些數(shù)據(jù)可能不容易使用,因此數(shù)據(jù)利用的方法因情況而異。使用已經(jīng)從基本使用緩慢轉(zhuǎn)變?yōu)槎问褂?,因?yàn)闀r(shí)間的變化使數(shù)據(jù)變得有價(jià)值。了解冰山下面的數(shù)據(jù)價(jià)值企業(yè)就能獲得潛在價(jià)值并且獲得很大的利益。即便如此,數(shù)據(jù)的重要性仍遠(yuǎn)不止這些。由于生成大數(shù)據(jù),總和比部分更有價(jià)值。如果要使用有價(jià)值的數(shù)據(jù),就要更新數(shù)據(jù)庫(kù)并且對(duì)無(wú)用的數(shù)據(jù)進(jìn)行淘汰,雖然數(shù)據(jù)用途的價(jià)值會(huì)降低,但是潛在的價(jià)值也會(huì)上升。潛在的數(shù)據(jù)價(jià)值要通過(guò)創(chuàng)新來(lái)獲得,而且為價(jià)值貼上標(biāo)簽就能帶來(lái)很多的機(jī)會(huì)。五、結(jié)語(yǔ)統(tǒng)計(jì)是以數(shù)據(jù)為基礎(chǔ)的。傳統(tǒng)的數(shù)據(jù)采集方法主要包括實(shí)驗(yàn)數(shù)據(jù)、調(diào)查數(shù)據(jù)和各種方法收集的二手?jǐn)?shù)據(jù)。在長(zhǎng)期實(shí)踐中,傳統(tǒng)采集方法獲取的數(shù)據(jù)大多是錯(cuò)誤的,樣本的客觀性難以保證,樣本選擇也會(huì)影響結(jié)果。因此,傳統(tǒng)的數(shù)據(jù)采集方法已不能適應(yīng)統(tǒng)計(jì)發(fā)展的需要。從這個(gè)意義上說(shuō),大數(shù)據(jù)的出現(xiàn)可以說(shuō)是科學(xué)發(fā)展的必然。大數(shù)據(jù)的出現(xiàn)使得統(tǒng)計(jì)數(shù)據(jù)收集最關(guān)鍵的環(huán)節(jié)跨越了統(tǒng)計(jì):大數(shù)據(jù)意味著所有的統(tǒng)計(jì)數(shù)據(jù)都可以應(yīng)用到統(tǒng)計(jì)過(guò)程中,統(tǒng)計(jì)數(shù)據(jù)不再受到限制,結(jié)合適當(dāng)?shù)慕y(tǒng)計(jì)方

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論