大數(shù)據(jù)分析研究報告的流程淺析之一:大數(shù)據(jù)采集過程分析研究報告_第1頁
大數(shù)據(jù)分析研究報告的流程淺析之一:大數(shù)據(jù)采集過程分析研究報告_第2頁
大數(shù)據(jù)分析研究報告的流程淺析之一:大數(shù)據(jù)采集過程分析研究報告_第3頁
大數(shù)據(jù)分析研究報告的流程淺析之一:大數(shù)據(jù)采集過程分析研究報告_第4頁
大數(shù)據(jù)分析研究報告的流程淺析之一:大數(shù)據(jù)采集過程分析研究報告_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、個人收集整理僅供參考學(xué)習(xí)6/5大數(shù)據(jù)分析地流程淺析之一:大數(shù)據(jù)采集過程分析數(shù)據(jù)采集,就是使用某種技術(shù)或手段,將數(shù)據(jù)收集起來并存儲 在某種設(shè)備上,這種設(shè)備可以是磁盤或磁帶.區(qū)別于普通地數(shù)據(jù)分 析,大數(shù)據(jù)分析地數(shù)據(jù)采集在數(shù)據(jù)收集和存儲技術(shù)上都是不同地具 體情 況如下:1.大數(shù)據(jù)收集過程在收集階段,大數(shù)據(jù)分析在時空兩個方面都有顯著地不同在時 間維度上,為了獲取更多地數(shù)據(jù),大數(shù)據(jù)收集地時間頻度大一些,有 時也叫數(shù)據(jù)采集地深度.在空間維度上,為了獲取更準(zhǔn)確地數(shù)據(jù),數(shù) 據(jù)采集點(diǎn)設(shè)置得會更密一 些.b5E2RGbCAP以收集一個面積為100 平方米地葡萄園地平均溫度 為例小數(shù)據(jù)時代,由于成本 地原因,葡萄園

2、主只能在葡 萄園地中央設(shè)置一個溫度計 用來計算溫度,而且每一小 時觀測一次,這樣一天就只 有24個數(shù)據(jù).而在大數(shù)據(jù) 時代,在空間維度上,可以設(shè)置100個溫度計,即每個1平方米 一個溫度計;在時間維度上,每隔1分鐘就觀測一次,這樣天就有 144000個數(shù)據(jù),是原來地6000倍.plEanqFDPw有了大量地數(shù)據(jù),我們就 可以更準(zhǔn)確地知道葡萄園地平均溫度,如果加上時間刻度地話,還 可以得出一個時間序列地曲線,結(jié)果看起來使人很神往.DXDiTa9E3d2.大數(shù)據(jù)地存儲技術(shù)通過增加數(shù)據(jù)采集地深度和廣度,數(shù)據(jù)量越來越大,數(shù)據(jù)存儲 問題就凸現(xiàn).原來1TB地數(shù)據(jù),可以使用一塊硬盤就可以實現(xiàn)數(shù)據(jù)地 存儲,而現(xiàn)

3、在變成了 6000TB,也就是需要6000塊硬盤來存放數(shù) 據(jù),而且這個數(shù)據(jù)是每天都是增加地.這個時候計算機(jī)技術(shù)中地分布 式計算開始發(fā)揮優(yōu)勢,它可以將6000臺甚至更多地計算機(jī)組合在一 起,讓它們地硬盤組合成一塊巨大地硬盤,這樣人們就不用再害怕 大數(shù)據(jù)了,大數(shù)據(jù)再大,增加計算機(jī)就可以了 實現(xiàn)分布式計算地軟 件有很多,名氣最大地,目前市場上應(yīng)用最廣地,就是hadoop技術(shù) 了,更精確地說應(yīng)該是叫hadoop框架 RTCrpUDGiThadoop框架由多種功能性軟件組成,其自身只是搭建一個和操 作系統(tǒng)打交道地平臺其中最核心地軟件有兩個,一個是hdfs分布 式文件系統(tǒng),另一個是mapreduce分布式

4、計算.hdfs分布式文件系 統(tǒng)完成地功能就是將6000臺計算機(jī)組合在一起,使它們地硬盤組合 成一塊巨大地硬盤,至于數(shù)據(jù)如何在硬盤上存放和讀取,這件事由 hadoop和hdfs共同完成,不用我們操心,這就如我們在使用一臺計 算機(jī)時只管往硬盤上存放數(shù)據(jù),而數(shù)據(jù)存放在硬盤上地哪個磁道, 我們是不用關(guān)心地 5PCzVD7HxAmapredce分布式計算則就實現(xiàn)讓6000臺計算機(jī)一起協(xié)同工作起 來,hadoop在設(shè)計mapredce時,最基本地思想就是讓分析師不用操 心程序設(shè)計問題,這些問題需要和最底層地程序打交道地,且只有 優(yōu)秀地程序員才能解決地,而是讓大數(shù)據(jù)分析師專注于業(yè)務(wù)流程進(jìn) 行簡單地mapre

5、dce程序編寫,也就是說大數(shù)據(jù)分析師只需要知道簡 單地mapreduce程序設(shè)計流程就可以了,不需要成為優(yōu)秀地JAVA、 Python程序員.hadoop框架地這種簡單地設(shè)計思想,再加上它開源 地特性,使其一開始就受到很多主流地互聯(lián)網(wǎng)公司所采用,接下來 地事情就順理成章了,它成為全球最成功地解決大數(shù)據(jù)分析地分布式計算技術(shù).jLBHrnAILg區(qū)別于小數(shù)據(jù)采集,大數(shù)據(jù)采集不再僅僅使用問卷調(diào)查、信息系統(tǒng)地數(shù)據(jù)庫取得結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)地來源有很多,主要包括使 用網(wǎng) 絡(luò)爬蟲取得地網(wǎng)頁文本數(shù)據(jù)、使用日志收集器收集地日志數(shù) 據(jù)、從關(guān)系型數(shù)據(jù)庫中取得地數(shù)據(jù)和由傳感器收集到地時空數(shù)據(jù)等 等,而一些圖像和語音數(shù)

6、據(jù)由于需要高端技術(shù)才能使其變成可以被 普通地大數(shù)據(jù)分析師所需要地數(shù)據(jù)而變得不那么親切,因此從現(xiàn)有 地應(yīng)用看可以 暫時不用考慮xHAQX74J0XCDA-hadoop大數(shù)據(jù)分析師培訓(xùn)團(tuán)隊2015年5月7日版權(quán)申明本文部分內(nèi)容,包括文字、圖片、以及設(shè)計等在網(wǎng)上搜集整理版權(quán)為個人所有This article includes some parts, including text, pictures, and design. Copyright is personal ownership LDAYtRyKfE 用戶可將本文地內(nèi)容或服務(wù)用于個人學(xué)習(xí)、研究或欣賞,以及 其他非商業(yè)性或非盈利性用途,但同時應(yīng)

7、遵守著作權(quán)法及其他相關(guān) 法律地規(guī)定,不得侵犯本網(wǎng)站及相關(guān)權(quán)利人地合法權(quán)利.除此以 外,將本文任何內(nèi)容或服務(wù)用于其他用途時,須征得本人及相關(guān)權(quán) 利人地書面許可,并支付報酬 .Zzz6ZB2LtkUsers may use the contents or services of this article for personal study, research or appreciation, and other noncommercial or non-profit purposes, but at the same time, they shall abide by the provision

8、s of copyright law and other relevant laws, and shall not infringe upon the legitimate rights of this website and its relevant obligees In addition, when any content or service of this article is used for other purposes, written permission and remuneration shall be obtained from the person concerned and the releva.nt obligee dvzfvkwMii轉(zhuǎn)載或引用本文內(nèi)容必須是以新聞性或資料性公共免費(fèi)信息為 使用目地地合理、善意引用,不得對本文內(nèi)容原意進(jìn)行曲解、修改, 并自負(fù)版權(quán)等法律責(zé)任rqynl4ZNXIReproduction or quotation of the content of this article must be reasonable and good-faith citation for the use of news or informa.tive public free information. It shall n

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論