下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 計(jì)算機(jī)數(shù)據(jù)分析常用方法與比較 譚博中摘 要:基于數(shù)據(jù)化時(shí)代的發(fā)展特點(diǎn),很多科研工作與行業(yè)發(fā)展都需要通過(guò)數(shù)據(jù)分析來(lái)獲得發(fā)展依據(jù),數(shù)據(jù)分析工作也顯得越來(lái)越重要了。為了完成分析數(shù)據(jù)的任務(wù),現(xiàn)代人對(duì)于數(shù)據(jù)分析技術(shù)進(jìn)行了開(kāi)發(fā),并獲取了更多的分析方法,計(jì)算機(jī)在數(shù)據(jù)分析工作之中發(fā)揮了相當(dāng)重要的作用,應(yīng)用計(jì)算機(jī)可以以較高的效率處理種類(lèi)豐富,數(shù)量龐大的數(shù)據(jù)。分析人員需要以分析條件以及數(shù)據(jù)實(shí)際情況為準(zhǔn),選出合適的分析方法,本文對(duì)幾種常見(jiàn)的分析數(shù)據(jù)的方法展開(kāi)比較性研究。關(guān)鍵詞:計(jì)算機(jī);數(shù)據(jù)分析;常用方法;比較數(shù)據(jù)分析已經(jīng)逐漸成為了各個(gè)行業(yè)之中的基礎(chǔ)性工作,在對(duì)數(shù)
2、據(jù)進(jìn)行分析之后可以清晰地找出數(shù)據(jù)之間存在的規(guī)律與聯(lián)系,在驗(yàn)證了規(guī)律的正確性之后,還可以通過(guò)合理的方法來(lái)運(yùn)用規(guī)律達(dá)到一定的目的,進(jìn)行而成正確可靠的決策。雖然人們對(duì)數(shù)據(jù)分析工作不斷改進(jìn),但是需要處理的數(shù)據(jù)量仍在不斷增加,數(shù)據(jù)分析工作逐漸變得更具難度,選擇合適的分析方法頗為關(guān)鍵,本文對(duì)常用的數(shù)據(jù)分析方法展開(kāi)研究,并通過(guò)對(duì)比來(lái)給數(shù)據(jù)分析人員提供參考。1 數(shù)據(jù)分析工作概述在了解數(shù)據(jù)分析工作中常用的分析方法時(shí),工作人員需要對(duì)數(shù)據(jù)分析這項(xiàng)工作任務(wù)的基本概念有所了解,在數(shù)據(jù)分析工作中,分析人員具有相對(duì)較強(qiáng)的目的性,其會(huì)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行收集、整理以及加工,再選定分析方法對(duì)數(shù)據(jù)展開(kāi)多角度的分析工作,借此來(lái)將數(shù)據(jù)之間
3、存在的可靠聯(lián)系與科學(xué)規(guī)律找出,輔助其他工作,在數(shù)據(jù)分析過(guò)程中,提煉出有價(jià)值的信息這個(gè)環(huán)節(jié)非常重要,在數(shù)據(jù)分析工作結(jié)束之后,工作人員還要對(duì)分析過(guò)程的各種工作情況進(jìn)行整理,撰寫(xiě)出詳細(xì)的數(shù)據(jù)分析報(bào)告 。在開(kāi)展數(shù)據(jù)分析工作時(shí),分析人員一般會(huì)從數(shù)據(jù)挖掘方法與統(tǒng)計(jì)分析方法兩種方法之中選出合適的分析方法,數(shù)據(jù)分析結(jié)果與選定的分析方法存在極大的聯(lián)系,甚至?xí)o分析結(jié)果的精準(zhǔn)度帶去影響,因此可知選對(duì)分析方法的意義。2 數(shù)據(jù)挖掘方法分析分類(lèi)分析:決策樹(shù)。決策樹(shù)是一種樹(shù)形結(jié)構(gòu),通過(guò)把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。常用的決策樹(shù)方法有c4.5、cart和assistant。決策樹(shù)能
4、生成可理解的規(guī)則,計(jì)算量相對(duì)較小,能夠清晰顯示比較重要的字段,但當(dāng)類(lèi)別太多時(shí),錯(cuò)誤也可能增加較快,比較難預(yù)測(cè)連續(xù)性的字段,在一般算法分類(lèi)時(shí),只根據(jù)一個(gè)屬性進(jìn)行分類(lèi),這是其缺點(diǎn)。人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類(lèi)似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型,它是數(shù)據(jù)挖掘中機(jī)器學(xué)習(xí)的典型代表。簡(jiǎn)言之,“神經(jīng)網(wǎng)絡(luò)”就是通過(guò)輸入多個(gè)非線(xiàn)性模型及不同模型之間的加權(quán)互聯(lián),最終得到一個(gè)輸出模型。貝葉斯分類(lèi)方法。貝葉斯分類(lèi)方法主要用于預(yù)測(cè)類(lèi)成員間關(guān)系的可能性,它是統(tǒng)計(jì)學(xué)的一種分類(lèi)方法。在許多場(chǎng)合,樸素貝葉斯分類(lèi)算法可以與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類(lèi)算法相媲美,該算法能運(yùn)用到大型數(shù)據(jù)庫(kù)中。回歸分析。數(shù)據(jù)挖掘中的
5、回歸分析主要是指多元線(xiàn)性回歸和邏輯斯蒂回歸,后者多在數(shù)據(jù)化運(yùn)營(yíng)中使用。多元線(xiàn)性回歸主要描述一個(gè)因變量如何隨著一批自變量的變化而變化,其回歸方程是因變量與自變量關(guān)系的數(shù)據(jù)反映,最常用的是最小二乘法,即找出一組對(duì)應(yīng)自變量的相應(yīng)參數(shù),使得因變量的實(shí)際觀(guān)測(cè)值與回歸方程的預(yù)測(cè)值之間的總方差減到最小。聚類(lèi)分析。聚類(lèi)分析是指當(dāng)要分析的數(shù)據(jù)缺乏描述信息,或是無(wú)法組成任何分類(lèi)模式時(shí)就采用聚類(lèi)的方法,將組之間的差異識(shí)別出來(lái),并對(duì)個(gè)別組內(nèi)的相似樣本進(jìn)行挑選,實(shí)現(xiàn)同組數(shù)據(jù)相近,不同組數(shù)據(jù)相異。3 統(tǒng)計(jì)分析方法分析描述性統(tǒng)計(jì)分析。描述性統(tǒng)計(jì)分析是通過(guò)圖標(biāo)或數(shù)學(xué)方法,對(duì)數(shù)據(jù)資料進(jìn)行整理、分析并對(duì)數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和
6、隨機(jī)變量之間的關(guān)系進(jìn)行估計(jì)和描述的方法。它分為集中趨勢(shì)分析、離中趨勢(shì)分析和相關(guān)分析三大部分。集中趨勢(shì)分析主要靠平均數(shù)、中數(shù)、眾數(shù)等統(tǒng)計(jì)指標(biāo)來(lái)表示數(shù)據(jù)的集中趨勢(shì)。離中趨勢(shì)分析主要靠全距、四分差、方差、平均差、標(biāo)準(zhǔn)差等統(tǒng)計(jì)指標(biāo)來(lái)研究數(shù)據(jù)的離中趨勢(shì)。相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對(duì)具體有依存關(guān)系的現(xiàn)象進(jìn)行其相關(guān)方向及相關(guān)程度的研究。這種關(guān)系既包括兩個(gè)數(shù)據(jù)之間的單一相關(guān)關(guān)系,也包括多個(gè)數(shù)據(jù)之間的多重相關(guān)關(guān)系?;貧w分析。回歸分析是確定兩種或兩種以上變量間相互依賴(lài)的定量關(guān)系的一種統(tǒng)計(jì)分析方法。按照涉及的自變量的多少,分為回歸和多重回歸分析;按照因變量的多少,分為一元回歸分析和多元回歸分析;
7、按照自變量和因變量之間的關(guān)系類(lèi)型,分為線(xiàn)性回歸分析和非線(xiàn)性回歸分析。這里講的回歸分析是指一元線(xiàn)性回歸,區(qū)別于數(shù)據(jù)挖掘方法中的多元線(xiàn)性回歸。關(guān)聯(lián)分析。關(guān)聯(lián)分析又稱(chēng)關(guān)聯(lián)挖掘,通過(guò)分析由定性變量構(gòu)成的交互匯總表從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。其基本思想就是將一個(gè)聯(lián)列表的行與列中各個(gè)元素的比例結(jié)構(gòu)以點(diǎn)的形式在較低維的空間中表示出來(lái)。因子分析。因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù),即從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減輕決策困難的分析方法。因子分析有重心法、最大似然揭發(fā),最小平方法,拉奧典型抽因法等,都以相關(guān)系數(shù)矩陣為基礎(chǔ)。方差分析。方差分析又稱(chēng)“變異數(shù)分析”或“f檢驗(yàn)”,用于兩個(gè)
8、及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。研究所得的數(shù)據(jù)一般呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類(lèi),一類(lèi)是不可控的隨機(jī)因素,另一類(lèi)是研究中施加的對(duì)結(jié)果形成影響的可控因素。方差分析是從觀(guān)測(cè)變量的方差入手,研究諸多控制變量中哪些變量是對(duì)觀(guān)測(cè)變量有顯著影響的變量。4 兩種分析方法對(duì)比分析前文詳細(xì)地介紹了數(shù)據(jù)挖掘方法與統(tǒng)計(jì)分析方法,對(duì)兩種類(lèi)型的分析工作的實(shí)現(xiàn)途徑進(jìn)行了詳細(xì)地解析,以下是對(duì)這兩種分析方法的對(duì)比情況。從理論來(lái)源的角度來(lái)看,這兩種分析方法理論基礎(chǔ)都是統(tǒng)計(jì)基礎(chǔ)理論,在統(tǒng)計(jì)方法中的隨機(jī)事件與概率均來(lái)自于統(tǒng)計(jì)學(xué),另外抽樣分析也與該理論存在聯(lián)系,而在數(shù)據(jù)挖掘系統(tǒng)之中應(yīng)用的貝葉斯分類(lèi)法也可以被看做是基礎(chǔ)統(tǒng)計(jì)理
9、論的延伸,因此可以明確兩種分析方法雖然具有存在差異的分析途徑,但是卻具有同樣的理論研究基礎(chǔ)。在分析實(shí)踐工作之中,兩種方法之間存在的差異就很明顯了,應(yīng)用統(tǒng)計(jì)分析方法時(shí),工作人員需要先給出判斷與假設(shè),再應(yīng)用其他的數(shù)據(jù)分析技術(shù)來(lái)對(duì)已有的判定以及假設(shè)進(jìn)行驗(yàn)證,在分析中會(huì)形成很多函數(shù)關(guān)系式,而選用數(shù)據(jù)挖掘技術(shù)時(shí),工作人員會(huì)直接通過(guò)算法找尋數(shù)據(jù)間的主要聯(lián)系,并不需要應(yīng)用大量的函數(shù)關(guān)系式,因此可知在處理數(shù)量較大的數(shù)據(jù)時(shí)可以有限選用數(shù)據(jù)挖掘技術(shù)。5 結(jié)束語(yǔ)本文重點(diǎn)介紹的兩種分析方法是當(dāng)前的數(shù)據(jù)統(tǒng)計(jì)工作中應(yīng)用頻次最高的分析方法。分析人員在不同的客觀(guān)分析條件之下可以選擇應(yīng)用不同的方法,也可以按照分析工作的不同階段來(lái)對(duì)不同的分析方法加以與應(yīng)用,先借助統(tǒng)計(jì)分析工作對(duì)數(shù)據(jù)進(jìn)行整體性地處理,再通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行深度分析,本文還簡(jiǎn)單地對(duì)兩種數(shù)據(jù)分析方法進(jìn)行了對(duì)比,數(shù)據(jù)分析人員在方法選擇方面要保持一定的靈活性,規(guī)范地開(kāi)展數(shù)據(jù)分析工作,切實(shí)將數(shù)據(jù)分析工作的作用在預(yù)測(cè)與方案制定等工作中發(fā)揮出來(lái)。參考文獻(xiàn):1趙禹.(2016). 計(jì)算機(jī)數(shù)據(jù)分析常用方法與比較. 數(shù)字技術(shù)與應(yīng)用(3), 256-256.2梁萌, & 管陽(yáng). (2017). 基于并行數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO/TS 19144-3:2024 EN Geographic information - Classification systems - Part 3: Land Use Meta Language (LUML)
- 企業(yè)開(kāi)業(yè)慶典致辭范文
- 九月學(xué)校迎新致辭(7篇)
- 主持人大賽策劃書(shū)
- 測(cè)量實(shí)習(xí)報(bào)告范文十篇
- 中秋節(jié)國(guó)旗下的講話(huà)稿(15篇)
- 壯族課件教學(xué)課件
- 3D立體風(fēng)立體商務(wù)模板
- 文書(shū)模板-診所負(fù)責(zé)人與診所法人的免責(zé)協(xié)議書(shū)
- 影響和諧校園建設(shè)的負(fù)面因素調(diào)查方案
- 電梯保養(yǎng)年度作業(yè)計(jì)劃表格
- 醫(yī)院月考核指標(biāo)及評(píng)價(jià)辦法
- 監(jiān)理例會(huì)記錄表
- 阿米巴經(jīng)營(yíng)課件
- 二年級(jí)(上)音樂(lè)第四單元 單元分析
- 道路運(yùn)輸企業(yè)職業(yè)安全健康管理工作臺(tái)帳(全版通用)參考模板范本
- 中國(guó)小學(xué)生生命教育調(diào)查問(wèn)卷
- 通用模板-封條模板
- 集團(tuán)公司后備人才選拔培養(yǎng)暫行辦法
- 第五章旅游餐飲設(shè)計(jì)ppt課件
- 從馬克思主義視角看當(dāng)前高房?jī)r(jià)
評(píng)論
0/150
提交評(píng)論