




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 數(shù)理統(tǒng)計(jì)與數(shù)據(jù)分析的總結(jié)數(shù)理統(tǒng)計(jì)的數(shù)據(jù)分析應(yīng)用實(shí)際在于提高數(shù)理概念研究能力,通過(guò)數(shù)理統(tǒng)計(jì)內(nèi)容的完善及統(tǒng)計(jì)的科學(xué)配置解決數(shù)據(jù)研究理論問(wèn)題,為數(shù)理統(tǒng)計(jì)實(shí)踐提供更多元的信息分析模塊。本文將以數(shù)理統(tǒng)計(jì)的數(shù)據(jù)分析為基礎(chǔ),對(duì)數(shù)理統(tǒng)計(jì)的數(shù)據(jù)分析應(yīng)用發(fā)展及內(nèi)容等做逐一闡述,以此為數(shù)理統(tǒng)計(jì)的數(shù)理分析科學(xué)運(yùn)用提供部分參考性研究建議。伴隨著社會(huì)的不斷進(jìn)步和科學(xué)技術(shù)的飛速發(fā)展,數(shù)理統(tǒng)計(jì)也在完善和進(jìn)步,并逐漸應(yīng)用于眾多不同的領(lǐng)域。作為統(tǒng)計(jì)工作中一項(xiàng)非常重要的內(nèi)容,數(shù)理統(tǒng)計(jì)的方法和研究數(shù)理統(tǒng)計(jì)問(wèn)題的理念在社會(huì)企業(yè)發(fā)展過(guò)程中發(fā)揮著巨大的作用,這些都可以通過(guò)數(shù)理統(tǒng)計(jì)工作體現(xiàn)出來(lái)。本文通過(guò)對(duì)數(shù)理統(tǒng)計(jì)內(nèi)容、統(tǒng)計(jì)方法及數(shù)據(jù)分析發(fā)
2、展的歷程等不同方面,對(duì)數(shù)理統(tǒng)計(jì)進(jìn)行研究,闡述了現(xiàn)在統(tǒng)計(jì)學(xué)的發(fā)展和統(tǒng)計(jì)學(xué)對(duì)于社會(huì)政治經(jīng)濟(jì)生活中各個(gè)領(lǐng)域的重要性。數(shù)理統(tǒng)計(jì)的發(fā)展背景及現(xiàn)狀:數(shù)理統(tǒng)計(jì)有著非常悠久的歷史,最開始以“統(tǒng)而計(jì)之”這個(gè)簡(jiǎn)單的理念出現(xiàn),經(jīng)過(guò)幾千年的積累和發(fā)展,加上科技的進(jìn)步和社會(huì)生產(chǎn)力以及經(jīng)濟(jì)的不斷進(jìn)步,當(dāng)代數(shù)理統(tǒng)計(jì)分析的應(yīng)用范圍也逐漸擴(kuò)大,不單單局限于“統(tǒng)而計(jì)之”的方面,其在人文科學(xué)、社會(huì)科學(xué)和自然科學(xué)等眾多領(lǐng)域均有涉及。在統(tǒng)計(jì)內(nèi)容、統(tǒng)計(jì)方法及數(shù)據(jù)統(tǒng)計(jì)的思想發(fā)展中,數(shù)理統(tǒng)計(jì)占據(jù)著非常重要的地位,其作用不可小覷。在進(jìn)行科學(xué)研究的過(guò)程中,經(jīng)常會(huì)遇到描述兩個(gè)或多個(gè)隨機(jī)變量的關(guān)系、描述隨機(jī)變量的分布特征、離散性質(zhì)或變量的大小等類似
3、的問(wèn)題,而數(shù)理統(tǒng)計(jì)這一數(shù)學(xué)工具的出現(xiàn),能夠特定的描述隨機(jī)變量間的關(guān)系和隨機(jī)變量,成功的解決了這些問(wèn)題,促進(jìn)科學(xué)領(lǐng)域的進(jìn)步。因此,如何將數(shù)理統(tǒng)計(jì)方法更好地應(yīng)用于科學(xué)研究工作,有效的利用運(yùn)用數(shù)理統(tǒng)計(jì)分析解決具體的科學(xué)研究問(wèn)題,成為數(shù)據(jù)分析過(guò)程中非常關(guān)鍵的部分,也是研究現(xiàn)代數(shù)理統(tǒng)計(jì)過(guò)程中迫切需要解決的問(wèn)題。數(shù)理統(tǒng)計(jì)的研究?jī)?nèi)容:基于數(shù)據(jù)分析及數(shù)理統(tǒng)計(jì)的基本定義和概念,以數(shù)據(jù)分析中數(shù)理統(tǒng)計(jì)的廣泛應(yīng)用為重點(diǎn),對(duì)數(shù)據(jù)統(tǒng)計(jì)的相關(guān)理論進(jìn)行論述,總結(jié)出數(shù)據(jù)統(tǒng)計(jì)的特點(diǎn),突出體現(xiàn)了數(shù)據(jù)統(tǒng)計(jì)在統(tǒng)計(jì)學(xué)中發(fā)揮著不可替代的作用。此外,還將數(shù)據(jù)統(tǒng)計(jì)同現(xiàn)代企業(yè)進(jìn)行綜合考慮,研究數(shù)據(jù)統(tǒng)計(jì)的應(yīng)用對(duì)企業(yè)發(fā)展的價(jià)值和意義。數(shù)理統(tǒng)計(jì)和數(shù)據(jù)
4、分析的概念及特點(diǎn):對(duì)數(shù)理統(tǒng)計(jì)內(nèi)容的定義及概念的理解程度是學(xué)習(xí)數(shù)據(jù)分析知識(shí)的關(guān)鍵性問(wèn)題,直接關(guān)系著能否學(xué)好這門學(xué)科,如果不能做到很好的理解數(shù)理統(tǒng)計(jì)的概念,就更不用談如何有效的運(yùn)用數(shù)理統(tǒng)計(jì)方法。統(tǒng)計(jì)方法及統(tǒng)計(jì)思想這兩個(gè)方面是數(shù)據(jù)統(tǒng)計(jì)學(xué)中的主要內(nèi)容,而對(duì)基本概念和相關(guān)定義的理解和認(rèn)識(shí),則是掌握和運(yùn)用統(tǒng)計(jì)方法和統(tǒng)計(jì)思想的基礎(chǔ)??傮w是全部研究對(duì)象的統(tǒng)稱,利用樣本中包含的信息,進(jìn)而統(tǒng)計(jì)推斷總體的信息是數(shù)理統(tǒng)計(jì)的基本思想,所以,數(shù)理統(tǒng)計(jì)中樣本和總體的概念也是最根本和最重要的。然而,人們?cè)诮鉀Q實(shí)際問(wèn)題的過(guò)程中,由于忽視總體的重要性,不能很好的對(duì)總體進(jìn)行深入了解,從而造成盲目性統(tǒng)計(jì)分析的后果。利用研究對(duì)象中的一
5、個(gè)或若干個(gè)數(shù)量指標(biāo)形成的隨機(jī)變量,對(duì)總體進(jìn)行描述是數(shù)理統(tǒng)計(jì)的常用方法,其中由于總體的特性而制定了統(tǒng)計(jì)模型及統(tǒng)計(jì)問(wèn)題這兩個(gè)概念。推斷總體的統(tǒng)計(jì)處理過(guò)程中可以體現(xiàn)出統(tǒng)計(jì)思想,推斷總體的具體操作中運(yùn)用了統(tǒng)計(jì)方法,因此,根據(jù)以上理論,可以將數(shù)理統(tǒng)計(jì)的概念定義為:在有限次的試驗(yàn)和觀察隨機(jī)現(xiàn)象后,總結(jié)歸納隨機(jī)現(xiàn)象中出現(xiàn)的數(shù)據(jù),根據(jù)這些有限數(shù)據(jù)推斷出其中的規(guī)律,并由總結(jié)的成果判定和推斷整體的數(shù)量規(guī)律性和相應(yīng)現(xiàn)象的學(xué)科。將概率論作為基礎(chǔ)理論,根據(jù)試驗(yàn)和觀察隨機(jī)現(xiàn)象得到的數(shù)據(jù)資料,對(duì)隨機(jī)現(xiàn)象進(jìn)行研究,這個(gè)過(guò)程即為數(shù)理統(tǒng)計(jì)的特點(diǎn)。具體表現(xiàn)為:參考數(shù)據(jù)資料將合適的數(shù)學(xué)模型應(yīng)用到隨機(jī)現(xiàn)象中,并通過(guò)資料來(lái)檢驗(yàn)數(shù)學(xué)模型的
6、合理性,確認(rèn)合理的基礎(chǔ)上進(jìn)行對(duì)數(shù)學(xué)模型規(guī)律性、性質(zhì)及特點(diǎn)等內(nèi)容的研究。在現(xiàn)實(shí)生活中的應(yīng)用,可以通過(guò)測(cè)試燈泡生產(chǎn)企業(yè)檢測(cè)燈泡使用時(shí)間的例子來(lái)證明,首先在不清楚該燈泡廠的燈泡使用時(shí)間的情況下,隨機(jī)抽取某天該廠生產(chǎn)的幾個(gè)燈泡作為樣本,然后進(jìn)行壽命檢測(cè)的實(shí)驗(yàn),最后統(tǒng)計(jì)這幾個(gè)燈泡的平均使用時(shí)間。根據(jù)這幾個(gè)燈泡使用時(shí)間的數(shù)學(xué)資料,來(lái)對(duì)生產(chǎn)的所有燈泡的合格率及壽命等指標(biāo)進(jìn)行推算。在概率論的支撐下,通過(guò)創(chuàng)建數(shù)學(xué)模型的方式對(duì)燈泡使用時(shí)間的分步進(jìn)行計(jì)算,然后,根據(jù)數(shù)學(xué)資料建立分布圖,在之后的一段時(shí)間內(nèi)反復(fù)抽取幾個(gè)樣本進(jìn)行測(cè)試,從而觀察指數(shù)的分布是否合理。作為應(yīng)用數(shù)學(xué)中最活躍的一個(gè)學(xué)科,數(shù)理統(tǒng)計(jì)學(xué)的特征使其具有非常
7、高的應(yīng)用價(jià)值,與其他學(xué)科不同的是,數(shù)理統(tǒng)計(jì)學(xué)在研究數(shù)學(xué)方法及理論之外,還注重的是實(shí)際應(yīng)用,其他學(xué)科側(cè)重的是數(shù)學(xué)的演繹法,而數(shù)理統(tǒng)計(jì)這一學(xué)科則強(qiáng)調(diào)歸納法的應(yīng)用。因此,站在學(xué)科劃分的角度來(lái)看,數(shù)理統(tǒng)計(jì)可以作為數(shù)學(xué)學(xué)科的內(nèi)容。參考統(tǒng)計(jì)學(xué)多年的發(fā)展歷史,可以看出,人們認(rèn)識(shí)社會(huì)的初期主要是通過(guò)數(shù)據(jù)分析實(shí)現(xiàn)的,隨著不斷發(fā)展,現(xiàn)代社會(huì)除了地質(zhì)學(xué)、工農(nóng)業(yè)生產(chǎn)、氣象與災(zāi)害預(yù)報(bào)及醫(yī)學(xué)等領(lǐng)域應(yīng)用到了數(shù)據(jù)分析,人工智能、信息論、金融數(shù)學(xué)及醫(yī)藥統(tǒng)計(jì)等新興學(xué)科也普遍涉及到數(shù)理統(tǒng)計(jì)知識(shí)。數(shù)據(jù)分析和數(shù)理統(tǒng)計(jì)二者之間有很大的聯(lián)系,如果僅僅通過(guò)簡(jiǎn)單、固定的統(tǒng)計(jì)來(lái)應(yīng)對(duì)不同學(xué)科領(lǐng)域的實(shí)際問(wèn)題是不可能完成的,因?yàn)楦鱾€(gè)學(xué)科都有各自的特征
8、,利用全面調(diào)查的方式研究多樣化的學(xué)科,必定會(huì)存在局限性。所以,因數(shù)據(jù)分析的需要而逐漸產(chǎn)生了數(shù)理統(tǒng)計(jì)方法,為實(shí)現(xiàn)通過(guò)部分樣本來(lái)推測(cè)整體的數(shù)理統(tǒng)計(jì)作鋪墊,其統(tǒng)計(jì)思想也為現(xiàn)代統(tǒng)計(jì)學(xué)發(fā)展做出了巨大貢獻(xiàn),應(yīng)用于許多實(shí)際問(wèn)題的處理。數(shù)理統(tǒng)計(jì)方法的出現(xiàn)順應(yīng)了社會(huì)發(fā)展的需要,可以幫助我們了解不同學(xué)科間的數(shù)據(jù)規(guī)律及聯(lián)系,使我們更好地對(duì)每個(gè)學(xué)科的概況進(jìn)行全面而細(xì)致的分析。數(shù)理統(tǒng)計(jì)在數(shù)據(jù)分析中的應(yīng)用:在對(duì)某個(gè)學(xué)科領(lǐng)域研究的過(guò)程中會(huì)應(yīng)用到許多數(shù)據(jù)分析方法,通過(guò)多種不同的數(shù)據(jù)分析方法,我們才能更好的掌握該學(xué)科的特點(diǎn),對(duì)研究社會(huì)活動(dòng)領(lǐng)域和不同學(xué)科研究有非常大的幫助。正因?yàn)閿?shù)理統(tǒng)計(jì)具有解決實(shí)際問(wèn)題的功能,所以,其在數(shù)據(jù)分析
9、中占據(jù)著非常重要的地位,隨著不斷發(fā)展,也就逐漸形成了數(shù)理統(tǒng)計(jì)方法,應(yīng)用于數(shù)據(jù)分析。數(shù)理統(tǒng)計(jì)和數(shù)據(jù)分析之間主要是通過(guò)大數(shù)定律而產(chǎn)生緊密的聯(lián)系,總體的相對(duì)數(shù)及平均數(shù)等相關(guān)指標(biāo)在數(shù)據(jù)分析中之所以能發(fā)揮作用,體現(xiàn)其價(jià)值,都是建立在大量觀察的基礎(chǔ)上實(shí)現(xiàn)的。大量觀察法是大數(shù)定律形成的根基,大數(shù)定律在數(shù)據(jù)分析過(guò)程中主要運(yùn)用到了大量觀察這個(gè)基本方法。數(shù)理統(tǒng)計(jì)在數(shù)據(jù)分析過(guò)程中發(fā)揮著非常重要的作用,同時(shí),數(shù)理統(tǒng)計(jì)也會(huì)對(duì)數(shù)據(jù)分析產(chǎn)生一些影響。一方面,數(shù)理統(tǒng)計(jì)會(huì)對(duì)總體分布形態(tài)、方差分析和正交設(shè)計(jì)、相關(guān)與回歸分析、一個(gè)或兩個(gè)總體參數(shù)的假設(shè)檢驗(yàn)及參數(shù)或非參數(shù)估計(jì)等方面產(chǎn)生顯著的影響;另一方面,還可以影響相對(duì)數(shù)及平均數(shù)等統(tǒng)
10、計(jì)學(xué)中計(jì)算原理的基本描述指標(biāo)。數(shù)理統(tǒng)計(jì)對(duì)企業(yè)發(fā)展的影響:前期進(jìn)行資料的搜集,然后加工處理相關(guān)數(shù)據(jù),最后進(jìn)行分析預(yù)測(cè)是統(tǒng)計(jì)工作的基本流程,在應(yīng)用數(shù)理統(tǒng)計(jì)理論解決實(shí)際問(wèn)題的過(guò)程中,需要不同部門和方面的共同努力。在社會(huì)及自然等學(xué)科領(lǐng)域中均涉及到了數(shù)理統(tǒng)計(jì)方法,其應(yīng)用十分廣泛。但作為一種輔助工具,要想合理的運(yùn)用數(shù)理統(tǒng)計(jì)方法來(lái)解決實(shí)際上的問(wèn)題,就要求我們對(duì)所研究的內(nèi)容踐行充分的了解,根據(jù)相關(guān)專業(yè)的知識(shí)和多年積累的經(jīng)驗(yàn),或是有效的工作組織來(lái)科學(xué)的規(guī)劃,由實(shí)際情況來(lái)決定數(shù)理統(tǒng)計(jì)方法,將數(shù)理統(tǒng)計(jì)方法視為一種輔助工具,這樣才能發(fā)揮統(tǒng)計(jì)處理應(yīng)有的作用。生產(chǎn)型企業(yè)在應(yīng)用數(shù)理統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行分析時(shí),主要可以體現(xiàn)在
11、以下兩個(gè)方面:(1)統(tǒng)計(jì)質(zhì)量管理法的應(yīng)用。在生產(chǎn)過(guò)程中,面對(duì)分析大批生產(chǎn)元件的可靠性、控制工序、檢測(cè)系統(tǒng)(含有多種元件)可靠性及抽樣檢測(cè)成批產(chǎn)品的方案等,在生產(chǎn)企業(yè)中連續(xù)制造和大批量生產(chǎn)等實(shí)際問(wèn)題,可以采取不同形式的可靠性統(tǒng)計(jì)分析、抽樣檢驗(yàn)統(tǒng)計(jì)分析和質(zhì)量控制圖統(tǒng)計(jì)分析等方法來(lái)解決。(2)在處理產(chǎn)品工藝流程的改革、研究影響產(chǎn)品質(zhì)量的次要因素和關(guān)鍵因素、對(duì)舊產(chǎn)品進(jìn)行改進(jìn)、選取恰當(dāng)?shù)呐浞?、最?yōu)生產(chǎn)條件的組合、新產(chǎn)品的試制和替代材料的應(yīng)用等問(wèn)題的過(guò)程中,可以利用多元統(tǒng)計(jì)分析、正交設(shè)計(jì)、方差分析及回歸分析等統(tǒng)計(jì)方法。數(shù)據(jù)分析不僅在企業(yè)生產(chǎn)過(guò)程中發(fā)揮著巨大的作用,還有助于企業(yè)的管理,凡是涉及到數(shù)據(jù)的方面都
12、能通過(guò)數(shù)據(jù)分析來(lái)解決,在企業(yè)的生產(chǎn)、加工和銷售等多個(gè)環(huán)節(jié)中都可以看到數(shù)據(jù)分析的存在。企業(yè)內(nèi)部數(shù)據(jù)分析方法的應(yīng)用得到完善和發(fā)展后,在產(chǎn)品質(zhì)量管理和控制、開發(fā)新產(chǎn)品及開拓市場(chǎng)等企業(yè)經(jīng)營(yíng)管理方面都涉及到數(shù)據(jù)分析。其中在開拓市場(chǎng)方面,通過(guò)數(shù)據(jù)分析的方法可以掌握更多關(guān)于競(jìng)爭(zhēng)對(duì)手和產(chǎn)品的信息及數(shù)據(jù),將準(zhǔn)確的數(shù)據(jù)分析說(shuō)明提供給企業(yè),有利于企業(yè)對(duì)市場(chǎng)的研究和行情的判定,提高企業(yè)的競(jìng)爭(zhēng)力,為企業(yè)構(gòu)建合理的發(fā)展目標(biāo)奠定基礎(chǔ),推動(dòng)企業(yè)發(fā)展壯大。綜上所述,基于數(shù)理統(tǒng)計(jì)理論形成的數(shù)據(jù)統(tǒng)計(jì)分析方法和理論,隨著科學(xué)技術(shù)的不斷進(jìn)步和社會(huì)經(jīng)濟(jì)的發(fā)展也得到了完善和充實(shí),在數(shù)據(jù)分析中的應(yīng)用中發(fā)揮著非常重要的作用。在現(xiàn)代科技的幫助下
13、,數(shù)據(jù)統(tǒng)計(jì)分析方法也會(huì)不斷地發(fā)展進(jìn)步,應(yīng)用于不同領(lǐng)域,為社會(huì)經(jīng)濟(jì)的發(fā)展做出巨大的貢獻(xiàn)。大數(shù)據(jù)與數(shù)理統(tǒng)計(jì)之間的比較:大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)都是圍繞數(shù)據(jù)展開的,這是兩者之間的一種內(nèi)在的聯(lián)系。“一切以數(shù)據(jù)說(shuō)話”是其共同的本質(zhì),兩者都是從數(shù)據(jù)分析中發(fā)現(xiàn)隱含的規(guī)律,以便透過(guò)事物表象的記錄來(lái)認(rèn)識(shí)其本質(zhì)。作為發(fā)掘規(guī)律和認(rèn)知世界的基本方法,兩者有以下三個(gè)方面的共同點(diǎn)。數(shù)據(jù)科學(xué)是以數(shù)據(jù)解析的方法來(lái)進(jìn)行研究的科學(xué),可以簡(jiǎn)單概括為“用數(shù)據(jù)的方法來(lái)研究科學(xué)和用科學(xué)的方法來(lái)研究數(shù)據(jù)”。雖然數(shù)據(jù)科學(xué)因大數(shù)據(jù)才被人們所熟知,但其研究?jī)?nèi)容卻涵蓋了應(yīng)用數(shù)學(xué)、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)等學(xué)科,被稱為繼實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)之后又一新的
14、科學(xué)研究范式。數(shù)理統(tǒng)計(jì)被稱為“收集和分析數(shù)據(jù)的科學(xué)與藝術(shù)”,是數(shù)據(jù)科學(xué)的理論基礎(chǔ)。過(guò)去,由于受到技術(shù)條件的限制,一般只能獲得有限的數(shù)據(jù),即“樣本”,為了根據(jù)有限的樣本作出盡量科學(xué)的判斷,就需要借助概率論,排除隨機(jī)性對(duì)分析、推斷的干擾,以正確揭示隱藏在數(shù)據(jù)背后的總體規(guī)律,這便是數(shù)理統(tǒng)計(jì)的主要任務(wù)。隨著大數(shù)據(jù)時(shí)代的到來(lái),在許多領(lǐng)域獲得了全面、完整和系統(tǒng)的數(shù)據(jù),而大數(shù)據(jù)分析作為數(shù)據(jù)科學(xué)的發(fā)展前沿,也成為了知識(shí)創(chuàng)新的重要方法。對(duì)于新時(shí)代的數(shù)據(jù)科學(xué)而言,雖然對(duì)數(shù)理統(tǒng)計(jì)提出了許多新的挑戰(zhàn),但大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)仍然具有共同的出發(fā)點(diǎn)和最終目標(biāo),并在應(yīng)用實(shí)踐中不斷為數(shù)據(jù)科學(xué)提供新的思想、方法和技術(shù)。兩者都是定
15、量研究的具體方法定量研究是科學(xué)研究的基本方法之一,其實(shí)質(zhì)就是按照一定的標(biāo)準(zhǔn)對(duì)研究對(duì)象的特征進(jìn)行量化比較,從而推定其性質(zhì)或某些因素間的變化規(guī)律。在常規(guī)數(shù)據(jù)條件下,數(shù)理統(tǒng)計(jì)一直是定量研究的主要方法。大數(shù)據(jù)的出現(xiàn),不僅是量的增長(zhǎng),更是質(zhì)的變化,而大數(shù)據(jù)分析則為定量研究提供了全新的思路和方法。量化是大數(shù)據(jù)分析和數(shù)理統(tǒng)計(jì)的基礎(chǔ),在具體的應(yīng)用中,兩者都形成了一整套指導(dǎo)數(shù)據(jù)量化處理的科學(xué)系統(tǒng)的理論。在數(shù)理統(tǒng)計(jì)中,按照量化水平的高低,分為名義數(shù)據(jù)、順序數(shù)據(jù)、等距數(shù)據(jù)和比率數(shù)據(jù),不同的數(shù)據(jù)類型適用不同的統(tǒng)計(jì)分析方法。而對(duì)于大數(shù)據(jù)來(lái)說(shuō),其包含的數(shù)據(jù)類型更為復(fù)雜,不僅有結(jié)構(gòu)化數(shù)據(jù),更多的則是文字、網(wǎng)頁(yè)、圖像、視頻等
16、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),后兩類數(shù)據(jù)必須按照數(shù)據(jù)模型的要求,經(jīng)過(guò)量化轉(zhuǎn)換才能進(jìn)入數(shù)據(jù)分析的環(huán)節(jié)。大數(shù)據(jù)分析和數(shù)理統(tǒng)計(jì)都圍繞著量化后的數(shù)據(jù)展開,按照相應(yīng)的分布規(guī)律或數(shù)據(jù)模型,以數(shù)為據(jù),由量定性,力圖精確展現(xiàn)研究對(duì)象的內(nèi)在特征與發(fā)展規(guī)律,以優(yōu)化和改進(jìn)決策,這也是兩者之間的一種內(nèi)在聯(lián)系。兩者均與計(jì)算機(jī)技術(shù)緊密結(jié)合大數(shù)據(jù)因計(jì)算機(jī)和網(wǎng)絡(luò)的普及而產(chǎn)生,并伴隨著云計(jì)算、物聯(lián)網(wǎng)的發(fā)展日漸成熟。要實(shí)現(xiàn)對(duì)大數(shù)據(jù)的分析,不僅需要支撐海量數(shù)據(jù)處理的計(jì)算平臺(tái),還要有專業(yè)的程序和算法,可以說(shuō)大數(shù)據(jù)分析既要依靠計(jì)算機(jī)技術(shù)來(lái)實(shí)現(xiàn),同時(shí),又給計(jì)算機(jī)技術(shù)帶來(lái)了許多新的挑戰(zhàn)。近年來(lái),圍繞著大數(shù)據(jù)分析問(wèn)題,在計(jì)算機(jī)領(lǐng)域形成了分布式存儲(chǔ)
17、、并行計(jì)算、數(shù)據(jù)挖掘算法和數(shù)據(jù)可視化等研究熱點(diǎn),并產(chǎn)生了若干大數(shù)據(jù)計(jì)算平臺(tái)和分析工具,其中以Hadoop和Hive的應(yīng)用最為廣泛。數(shù)理統(tǒng)計(jì)雖然先于計(jì)算機(jī)而產(chǎn)生,但早已走出了依靠手工計(jì)算進(jìn)行分析的時(shí)代,并隨著計(jì)算機(jī)技術(shù)的發(fā)展而發(fā)展。一方面,由于統(tǒng)計(jì)數(shù)據(jù)和統(tǒng)計(jì)方法具有很強(qiáng)的規(guī)范性,非常適合用計(jì)算機(jī)來(lái)進(jìn)行快速處理和計(jì)算;另一方面,計(jì)算機(jī)技術(shù)能夠通過(guò)嚴(yán)格的程序確保數(shù)據(jù)處理的準(zhǔn)確性。因此,當(dāng)計(jì)算機(jī)產(chǎn)生以后,就被迅速應(yīng)用于數(shù)理統(tǒng)計(jì)之中,并實(shí)現(xiàn)了日趨緊密的結(jié)合。當(dāng)前,以SAS、SPSS等為代表的數(shù)據(jù)管理軟件,提供了豐富、完善的分析算法和交互式的操作過(guò)程,極大地提高了統(tǒng)計(jì)的效率。大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)的主要區(qū)別
18、:從數(shù)理統(tǒng)計(jì)到大數(shù)據(jù)分析,不是一種簡(jiǎn)單的技術(shù)演進(jìn),大數(shù)據(jù)已超出了現(xiàn)有數(shù)理統(tǒng)計(jì)的處理能力,而大數(shù)據(jù)分析則顛覆了傳統(tǒng)的數(shù)據(jù)處理模式,使數(shù)據(jù)思維和分析方法等都發(fā)生了革命性的變化。兩者所依據(jù)的原理不同對(duì)于任意一種隨機(jī)現(xiàn)象,如果能夠進(jìn)行充分的觀察或?qū)嶒?yàn),積累足夠多的數(shù)據(jù),那么一定可以清楚地發(fā)現(xiàn)和掌握其中的規(guī)律。但在過(guò)去很長(zhǎng)的一段時(shí)間內(nèi),數(shù)據(jù)的稀缺性比較突出,數(shù)理統(tǒng)計(jì)只能依據(jù)隨機(jī)變量的概率分布理論,特別是其中的大數(shù)定律、中心極限定理和抽樣分布定理等,通過(guò)模型和假設(shè)來(lái)科學(xué)合理地推斷總體。而在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的獲取能力大大提升,對(duì)于某些研究對(duì)象,可以進(jìn)行詳盡的觀察和記錄,從而獲得海量的數(shù)據(jù),甚至是全部數(shù)據(jù),因
19、此,可以通過(guò)對(duì)數(shù)據(jù)的整合和理解,直接提煉其中所蘊(yùn)含的規(guī)律。大數(shù)據(jù)分析不再需要作任何假設(shè)或判斷,而是利用挖掘算法去自動(dòng)尋找數(shù)據(jù)中隱藏的關(guān)系或規(guī)律,其原理就包含在所使用的算法之中。以對(duì)流感疫情的預(yù)測(cè)為例,在互聯(lián)網(wǎng)普及之前,要根據(jù)數(shù)理統(tǒng)計(jì)的要求,通過(guò)對(duì)人群和醫(yī)院的抽樣調(diào)查來(lái)獲得數(shù)據(jù),然后根據(jù)其抽樣分布和經(jīng)驗(yàn)?zāi)P蛠?lái)進(jìn)行預(yù)測(cè)。而谷歌公司則另辟蹊徑,運(yùn)用大數(shù)據(jù)分析的方法來(lái)展開預(yù)測(cè)。谷歌公司每天會(huì)執(zhí)行超過(guò)數(shù)十億次的搜索,從累積的搜索記錄中篩選出了5000萬(wàn)條頻繁集,然后與美國(guó)疾控中心公布的流感數(shù)據(jù)相對(duì)比,挖掘出了高度相關(guān)的45種搜索詞組合,從而構(gòu)建了流感預(yù)測(cè)的挖掘算法,并在2007-2008年,根據(jù)網(wǎng)民的搜
20、索記錄進(jìn)行準(zhǔn)確的預(yù)測(cè)。由此可見,與數(shù)理統(tǒng)計(jì)相比,大數(shù)據(jù)分析不需要具備概率分布的先驗(yàn)知識(shí),其限制條件更少,更為靈活高效。兩者所處理的對(duì)象不同首先,從數(shù)據(jù)本身的特點(diǎn)來(lái)看,數(shù)理統(tǒng)計(jì)所涉及的數(shù)據(jù)量一般較小,且數(shù)據(jù)類型相對(duì)單一,屬于普通數(shù)據(jù)。大數(shù)據(jù)則是與普通數(shù)據(jù)相對(duì)應(yīng)的概念,具有容量大、種類多、生成速度快和價(jià)值密度低的“4V”特征,這標(biāo)志著大數(shù)據(jù)完全不同于普通的數(shù)據(jù)形態(tài),與普通數(shù)據(jù)有著本質(zhì)的差別。其次,從分析對(duì)象所占的比例來(lái)看,數(shù)理統(tǒng)計(jì)的主要對(duì)象是樣本,是從總體中抽取的部分?jǐn)?shù)據(jù)。樣本容量、抽樣方法和數(shù)據(jù)的精確性是影響其質(zhì)量的重要因素。由于樣本的容量不可能太大,因此,一般通過(guò)科學(xué)的抽樣方法來(lái)確保樣本的代表
21、性,以提高有限數(shù)據(jù)條件下統(tǒng)計(jì)推斷的質(zhì)量。舍恩伯格在大數(shù)據(jù)時(shí)代中指出:“大數(shù)據(jù)指不用隨機(jī)分析(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法?!彪m然大家對(duì)“所有數(shù)據(jù)”的表述存在一定的爭(zhēng)議,但這已足以表明大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)的處理對(duì)象截然不同,由樣本轉(zhuǎn)向了總體。此外,兩者對(duì)數(shù)據(jù)的精確性也有著不同的要求。因?yàn)闃颖局械腻e(cuò)誤很容易在計(jì)算過(guò)程中被放大,所以數(shù)理統(tǒng)計(jì)特別強(qiáng)調(diào)數(shù)據(jù)的精確性,而對(duì)于大數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)量的增加有助于消除少量錯(cuò)誤的影響,因此,降低了對(duì)個(gè)體精確性的要求。以國(guó)家統(tǒng)計(jì)局的農(nóng)民工市民化統(tǒng)計(jì)為例,調(diào)查范圍是按照一定方法抽取的4萬(wàn)多戶進(jìn)城農(nóng)民工樣本,由調(diào)查員直接入戶面訪,這就屬于典型的抽樣統(tǒng)計(jì)。而國(guó)家
22、統(tǒng)計(jì)局開展的利用百度搜索數(shù)據(jù)預(yù)測(cè)房地產(chǎn)價(jià)格的研究,則是試圖利用搜索大數(shù)據(jù)來(lái)獲取真實(shí)的房地產(chǎn)走勢(shì)信息,并在北京地區(qū)的二手房?jī)r(jià)格預(yù)測(cè)中取得了很好的效果。 兩者所應(yīng)用的平臺(tái)不同現(xiàn)在,雖然傳統(tǒng)的數(shù)理統(tǒng)計(jì)也是借助計(jì)算機(jī)和網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),并且可以處理來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),但一般是基于集中式的系統(tǒng)環(huán)境,其數(shù)據(jù)存儲(chǔ)、計(jì)算主要利用關(guān)系型數(shù)據(jù)庫(kù),仍然屬于集中式的計(jì)算環(huán)境。而對(duì)于大數(shù)據(jù)來(lái)說(shuō),所需要的計(jì)算資源已遠(yuǎn)遠(yuǎn)超出了集中式系統(tǒng)的性能,主要是通過(guò)分布式的云計(jì)算來(lái)完成。云計(jì)算是大數(shù)據(jù)處理的基礎(chǔ)性技術(shù),大數(shù)據(jù)分析的平臺(tái)就是云計(jì)算平臺(tái),只有在云平臺(tái)之上,依托分布式數(shù)據(jù)庫(kù)和并行計(jì)算等技術(shù),才能對(duì)大數(shù)據(jù)進(jìn)行整合、管理和分析。大數(shù)
23、據(jù)與云計(jì)算可以說(shuō)是同一枚硬幣的正反兩面,在實(shí)際應(yīng)用中兩者是密不可分的。例如,廣泛應(yīng)用的大數(shù)據(jù)處理平臺(tái)Hadoop,就實(shí)現(xiàn)了分布式文件系統(tǒng)、并行計(jì)算框架等云計(jì)算技術(shù)。很多傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)軟件也在向大數(shù)據(jù)分析領(lǐng)域演進(jìn),如有著近60年發(fā)展歷史的SAS,也增加了基于Hadoop平臺(tái)的大數(shù)據(jù)分析功能。兩者所采用的方法不同:數(shù)理統(tǒng)計(jì)主要通過(guò)對(duì)樣本數(shù)據(jù)進(jìn)行分析,并將分析結(jié)果延伸至整體,從而得出一般結(jié)論,是一種以小見大、以簡(jiǎn)馭繁的推理方法。其整個(gè)過(guò)程可以歸結(jié)為“假設(shè)采樣驗(yàn)證”,即提出假設(shè)、隨機(jī)抽樣、問(wèn)卷調(diào)查或?qū)嶒?yàn)、驗(yàn)證假設(shè)等步驟。其中對(duì)數(shù)據(jù)分布和變量間的關(guān)系作出假設(shè)以及對(duì)參數(shù)進(jìn)行顯著性檢驗(yàn)是最具技術(shù)含量的內(nèi)容。
24、大數(shù)據(jù)分析一般不作預(yù)先假定、不抽取樣本、不注重精確、不追尋因果關(guān)系,而是直接進(jìn)行開放式分析,通過(guò)搜索、聚類和分類、神經(jīng)網(wǎng)絡(luò)等算法,提煉其中的知識(shí),形成對(duì)數(shù)據(jù)的理解。其過(guò)程可以歸納為“整合分析發(fā)現(xiàn)”,這與數(shù)理統(tǒng)計(jì)的方法是完全不同的。例如,對(duì)于商品銷售類的大數(shù)據(jù),可以通過(guò)關(guān)聯(lián)關(guān)系的自動(dòng)挖掘,在購(gòu)買行為中找出更多的相關(guān)性,眾所周知的沃爾瑪從超市的購(gòu)物清單中發(fā)掘出啤酒與尿布之間的相關(guān)性,便是關(guān)聯(lián)規(guī)則挖掘的典型事例。對(duì)海量、雜亂的數(shù)據(jù)而言,大數(shù)據(jù)分析具有明顯的應(yīng)用優(yōu)勢(shì)。以神經(jīng)網(wǎng)絡(luò)分析技術(shù)為例,其中的隱蔽層就是一個(gè)“黑箱”,用戶不必理解其中實(shí)際的自變量組合過(guò)程,而直接接受其結(jié)果。正確把握兩者之間的關(guān)系大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)雖然在產(chǎn)生的時(shí)間上有先后,但它們既不是簡(jiǎn)單的繼承關(guān)系,也不是包含關(guān)系,在今后的發(fā)展中,兩者將形成相互滲透、相互促進(jìn)的關(guān)系。大數(shù)據(jù)分析離不開數(shù)理統(tǒng)計(jì)的支持“在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)依然是數(shù)據(jù)分析的靈魂?!笔紫龋F(xiàn)實(shí)問(wèn)題總是具有超越已有技術(shù)的復(fù)雜性,大數(shù)據(jù)并不完全等同于全部數(shù)據(jù),還不能全面、準(zhǔn)確、真實(shí)地反映所有的事物。其次,即使獲得了某一事物的所有數(shù)據(jù),要挖掘出其中的信息也還存在一定的難度,還取決于數(shù)據(jù)挖掘的方法和手段。因此,需要將大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)學(xué)相結(jié)合,利用數(shù)理統(tǒng)計(jì)思想優(yōu)化后
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 計(jì)算機(jī)四級(jí)嵌入式課程學(xué)習(xí)計(jì)劃試題及答案
- 嵌入式技術(shù)學(xué)習(xí)路徑試題及答案建議
- 加工費(fèi)用合同協(xié)議書
- 竹架合同協(xié)議書范文圖片
- 判決合同部分解除協(xié)議書
- 財(cái)務(wù)分析中的推理技巧試題及答案
- 施工合同協(xié)議書如何簽寫
- 2025攜手合作開設(shè)加盟店鋪合同模板
- 醫(yī)美消費(fèi)服務(wù)合同協(xié)議書
- 2025年計(jì)算機(jī)二級(jí)ACCESS考試綜合試題及答案
- 水庫(kù)工程設(shè)計(jì)規(guī)范
- 版新教材地理人教版必修第一冊(cè)課件第四章地貌章末總結(jié)
- 年產(chǎn)10噸功能益生菌凍干粉的工廠設(shè)計(jì)改
- 拔牙術(shù)的禁忌癥
- 項(xiàng)目每日情況報(bào)告
- 專業(yè)知識(shí)二湯以恒口訣(完整版)
- GA/T 1133-2014基于視頻圖像的車輛行駛速度技術(shù)鑒定
- XX項(xiàng)目不動(dòng)產(chǎn)權(quán)籍調(diào)查技術(shù)設(shè)計(jì)書
- 檢驗(yàn)科三基測(cè)試試題與答案
- 三調(diào)土地利用現(xiàn)狀分類和三大地類對(duì)應(yīng)甄選
- 中國(guó)醫(yī)院質(zhì)量安全管理 第4-6部分:醫(yī)療管理 醫(yī)療安全(不良)事件管理 T∕CHAS 10-4-6-2018
評(píng)論
0/150
提交評(píng)論