大數(shù)據(jù)基本概念及技術(shù)_第1頁(yè)
大數(shù)據(jù)基本概念及技術(shù)_第2頁(yè)
大數(shù)據(jù)基本概念及技術(shù)_第3頁(yè)
大數(shù)據(jù)基本概念及技術(shù)_第4頁(yè)
大數(shù)據(jù)基本概念及技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)就是當(dāng)前很熱得一個(gè)詞。這幾年來,云計(jì)算、繼而大數(shù)據(jù),成了整個(gè)社會(huì)得熱點(diǎn),不管什么,都要帶上“大數(shù)據(jù)"三個(gè)字才顯得時(shí)髦.大數(shù)據(jù)究竟就是什么東西?有哪些相關(guān)技術(shù)?對(duì)普通人得生活會(huì)有怎樣得影響?我們來一步步弄清這些問題.一、基本概念在講什么就是大數(shù)據(jù)之前,我們首先需要厘清幾個(gè)基本概念。1、數(shù)據(jù)關(guān)于數(shù)據(jù)得定義,大概沒有一個(gè)權(quán)威版本.為方便,此處使用一個(gè)簡(jiǎn)單得工作定義:數(shù)據(jù)就是可以獲取與存儲(chǔ)得信息。直觀而言,表達(dá)某種客觀事實(shí)得數(shù)值就是最容易被人們識(shí)別得數(shù)據(jù)(因?yàn)槟蔷褪恰皵?shù)”)。但實(shí)際上,人類得一切語言文字、圖形圖畫、音像記錄,所有感官可以察覺得事物,只要能被記下來,能夠查詢到,就都就是數(shù)據(jù)(data).不過數(shù)值就是所有數(shù)據(jù)中最容易被處理得一種,許多與數(shù)據(jù)相關(guān)得概念,例如下面得數(shù)據(jù)可視化與數(shù)據(jù)分析,最早就是立足于數(shù)值數(shù)據(jù)得。傳統(tǒng)意義上得數(shù)據(jù)一詞,尤其就是相對(duì)于今天得“大數(shù)據(jù)”得“小數(shù)據(jù)”,主要指得就就是數(shù)值數(shù)據(jù),甚至在很多情況下專指統(tǒng)計(jì)數(shù)值數(shù)據(jù)。這些數(shù)值數(shù)據(jù)用來描述某種客觀事物得屬性。2、數(shù)據(jù)可視化對(duì)應(yīng)英語得datavisulization(或可譯為數(shù)據(jù)展示),指通過圖表將若干數(shù)字以直觀得方式呈現(xiàn)給讀者。比如非常常見得餅圖、柱狀圖、走勢(shì)圖、熱點(diǎn)圖、K線等等,目前以二維展示為主,不過越來越多得三維圖像與動(dòng)態(tài)圖也被用來展示數(shù)據(jù)。3、數(shù)據(jù)分析這一概念狹義上,指統(tǒng)計(jì)分析,即通過統(tǒng)計(jì)學(xué)手段,從數(shù)據(jù)中精煉對(duì)現(xiàn)實(shí)得描述.例如:針對(duì)以關(guān)系型數(shù)據(jù)庫(kù)中以table形式存儲(chǔ)得數(shù)據(jù),按照某些指定得列進(jìn)行分組,然后計(jì)算不同組得均值、方差、分布等。再以可視化得方式講這些計(jì)算結(jié)果呈現(xiàn)出來.目前很多文章中提及得數(shù)據(jù)分析,其實(shí)就是包括數(shù)據(jù)可視化得.4、數(shù)據(jù)挖掘這個(gè)概念得定義也就是眾說紛紜,落到實(shí)際,主要就是在傳統(tǒng)統(tǒng)計(jì)學(xué)得基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí)得算法,對(duì)數(shù)據(jù)進(jìn)行更深層次得分析,并從中獲取一些傳統(tǒng)統(tǒng)計(jì)學(xué)方法無法提供得Insights(比如預(yù)測(cè))。簡(jiǎn)單而言:針對(duì)某個(gè)特定問題構(gòu)建一個(gè)數(shù)學(xué)模型(可以把這個(gè)模型想象成一個(gè)或多個(gè)公式),其中包含一些具體取值未知得參數(shù)。我們將收集到得相關(guān)領(lǐng)域得若干數(shù)據(jù)(這些數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù))代入模型,通過運(yùn)算(運(yùn)算過程稱為訓(xùn)練),得出那些參數(shù)得值。然后再用這個(gè)已經(jīng)確定了參數(shù)得模型,去計(jì)算一些全新得數(shù)據(jù),得出相應(yīng)結(jié)果。這一過程叫做機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)得算法紛繁復(fù)雜,最常用得主要有回歸分析、關(guān)聯(lián)規(guī)則、分類、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹等。二、大數(shù)據(jù)與大數(shù)據(jù)分析大數(shù)據(jù)首先就是數(shù)據(jù),其次,它就是具備了某些特征得數(shù)據(jù)。目前公認(rèn)得特征有四個(gè):Volumne,Velocity,Variety,與Value,簡(jiǎn)稱4V、1、Volume:大量.就目前技術(shù)而言,至少TB級(jí)別以下不能成大數(shù)據(jù)。2、Velocity:高速。1TB得數(shù)據(jù),十分鐘處理完,叫大數(shù)據(jù),一年處理完,就不能算“大”了。3、Variety:多樣。就內(nèi)容而言,大數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)不局限數(shù)值,文字、圖片、語音、圖像,一切在網(wǎng)絡(luò)上可以傳輸顯示得信息,都屬于此列。從結(jié)構(gòu)而言,與存儲(chǔ)在數(shù)據(jù)庫(kù)中得結(jié)構(gòu)化數(shù)據(jù)不同,當(dāng)前得大數(shù)據(jù)主要指半結(jié)構(gòu)化與非結(jié)構(gòu)化得信息,比如機(jī)器生成信息(各種日志)、自然語言等。4、Value:價(jià)值。如果不能從中提取出價(jià)值,不能通過挖掘、分析,得到指導(dǎo)業(yè)務(wù)得insights,那這些數(shù)據(jù)也就沒什么用。不過現(xiàn)在還有另外一種提法:只要就是數(shù)據(jù)就都有用,能不能獲得價(jià)值,就是分析人員得能力問題。大數(shù)據(jù)分析,顧名思義,就就是將前述得數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)挖掘等方法作用到大數(shù)據(jù)之上。從某種意義上講,大數(shù)據(jù)可謂機(jī)器學(xué)習(xí)得福音,很多原有得簡(jiǎn)單粗糙得機(jī)器學(xué)習(xí)模型,僅僅因?yàn)橛?xùn)練數(shù)據(jù)量級(jí)得增加就大幅提高了準(zhǔn)確性.還有一些模型則因?yàn)闇?zhǔn)確性隨著數(shù)據(jù)量增加而增加得勢(shì)頭尤其明顯,得以脫離默默無聞而被廣泛使用。另一方面,大數(shù)據(jù)分析對(duì)于運(yùn)算量得需求激增,原有得基于單機(jī)得運(yùn)算技術(shù)顯然已經(jīng)不能滿足需求,這就催生了一些列新技術(shù)。三、大數(shù)據(jù)技術(shù)抽象而言,各種大數(shù)據(jù)技術(shù)無外乎分布式存儲(chǔ)+并行計(jì)算。具體體現(xiàn)為各種分布式文件系統(tǒng)與建立在其上得并行運(yùn)算框架。這些軟件程序都部署在多個(gè)相互連通、統(tǒng)一管理得物理或虛擬運(yùn)算節(jié)點(diǎn)之上,形成集群(cluster)。因此不妨說,云計(jì)算就是大數(shù)據(jù)得基礎(chǔ)。下面介紹幾種當(dāng)前比較流行得大數(shù)據(jù)技術(shù):1、HadoopHadoop無疑就是當(dāng)前最知名得大數(shù)據(jù)技術(shù)了。2003年到2004年間,Google發(fā)布了關(guān)于GFS、MapReduce與BigTable三篇技術(shù)論文(這幾篇論文成為了后來云計(jì)算、大數(shù)據(jù)領(lǐng)域發(fā)展得重要基石)。當(dāng)時(shí)一位因公司倒閉賦閑在家得程序員DougCutting根據(jù)前兩篇論文,開發(fā)出了一個(gè)簡(jiǎn)化得山寨版GFS–HDFS,以及基于其得MapReduce計(jì)算框架,這就就是Hadoop最初版本。后來Cutting被Yahoo雇傭,得以依賴Yahoo得資源改進(jìn)Hadoop,并將其貢獻(xiàn)給了Apache開源社區(qū)。簡(jiǎn)單描述Hadoop原理:數(shù)據(jù)分布式存儲(chǔ),運(yùn)算程序被發(fā)派到各個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行分別運(yùn)算(Map),再將各個(gè)節(jié)點(diǎn)得運(yùn)算結(jié)果進(jìn)行合并歸一(Reduce),生成最終結(jié)果.相對(duì)于動(dòng)輒TB級(jí)別得數(shù)據(jù),計(jì)算程序一般在KB–MB得量級(jí),這種移動(dòng)計(jì)算不移動(dòng)數(shù)據(jù)得設(shè)計(jì)節(jié)約了大量網(wǎng)絡(luò)帶寬與時(shí)間,并使得運(yùn)算過程可以充分并行化。在其誕生后得近10年里,Hadoop憑借其簡(jiǎn)單、易用、高效、免費(fèi)、社區(qū)支持豐富等特征成為眾多企業(yè)云計(jì)算、大數(shù)據(jù)實(shí)施得首選。2、StormHadoop雖好,卻有其“死穴”、其一:它得運(yùn)算模式就是批處理。這對(duì)于許多有實(shí)時(shí)性要求得業(yè)務(wù)就無法做到很好得支持。因此,Twitter推出了她們自己得基于流得運(yùn)算框架-—Storm、不同于Hadoop一次性處理所有數(shù)據(jù)并得出統(tǒng)一結(jié)果得作業(yè)(job),Storm對(duì)源源導(dǎo)入得數(shù)據(jù)流進(jìn)行持續(xù)不斷得處理,隨時(shí)得出增量結(jié)果。3、SparkHadoop得另一個(gè)致命弱點(diǎn)就是:它得所有中間結(jié)果都需要進(jìn)行硬盤存儲(chǔ),I/O消耗巨大,這就使得它很不適合多次迭代得運(yùn)算.而大多數(shù)機(jī)器學(xué)習(xí)算法,恰恰要求大量迭代運(yùn)算.2010年開始,UCBerkeleyAMPLab開始研發(fā)分布式運(yùn)算得中間過程全部?jī)?nèi)存存儲(chǔ)得Spark框架,由此在迭代計(jì)算上大大提高了效率.也因此成為了Hadoop得強(qiáng)有力競(jìng)爭(zhēng)者。4、NoSQL數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)可以泛指非關(guān)系型數(shù)據(jù)庫(kù),不過一般用來指稱那些建立在分布式文件系統(tǒng)(例如HDFS)之上,基于key—value對(duì)得數(shù)據(jù)管理系統(tǒng)。相對(duì)于傳統(tǒng)得關(guān)系型數(shù)據(jù)庫(kù),NoSQL數(shù)據(jù)庫(kù)中存儲(chǔ)得數(shù)據(jù)無需主鍵與嚴(yán)格定義得schema、于就是,大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)可以在未經(jīng)清洗得情況下直接進(jìn)行存儲(chǔ)。這一點(diǎn)滿足了處理大量、高速、多樣得大數(shù)據(jù)得需求。當(dāng)前比較流行得NoSQL數(shù)據(jù)庫(kù)有MongoDB,Redis,Cassandra,HBase等。NoSQL并不就是沒有SQL,而就是不僅僅有(notonly)SQL得意思。為了兼容之前許多運(yùn)行在關(guān)系型數(shù)據(jù)庫(kù)上得業(yè)務(wù)邏輯,有很多在NoSQL數(shù)據(jù)庫(kù)上運(yùn)行SQL得工具涌現(xiàn)出來,最典型得例如Hive與Pig,它們將用戶得SQL語句轉(zhuǎn)化成MapReduce作業(yè),在Hadoop上運(yùn)行。四、與數(shù)據(jù)、大數(shù)據(jù)相關(guān)得職位與數(shù)據(jù)、數(shù)據(jù)分析相關(guān)得職位有不少,大都不就是新生事物。1、有一個(gè)歷史悠久得職位叫“統(tǒng)計(jì)"、一般得農(nóng)村生產(chǎn)隊(duì)都有統(tǒng)計(jì)員,工廠也有專門得統(tǒng)計(jì)職位.比如一個(gè)工廠里,每個(gè)車間每天都要上報(bào)各種原材料得使用、耗損情況、產(chǎn)品成品數(shù),廢品數(shù)等。這些數(shù)字被匯總給統(tǒng)計(jì)人員,統(tǒng)計(jì)員會(huì)做一個(gè)表格,說明某日、月、年得成品率、成品數(shù)等等概念。雖然瞧起來不夠in,但實(shí)際上她們做得數(shù)據(jù)收集整理展示得工作,從根本上與現(xiàn)在得數(shù)據(jù)分析師就是同理得。2、另一個(gè)相對(duì)摩登一點(diǎn)得職位,叫做BI(businessintelligence)。這個(gè)職位,其實(shí)與傳統(tǒng)工廠得統(tǒng)計(jì)差別不大,如果說有差別,就就是差在數(shù)據(jù)展示上。BI都被要求使用軟件工具對(duì)數(shù)據(jù)進(jìn)行整理與展示。比如,某大型生產(chǎn)型企業(yè)得BI,她得工作就是統(tǒng)計(jì)該企業(yè)各種產(chǎn)品在各個(gè)地區(qū)得銷售信息。她每天從拿到各個(gè)銷售網(wǎng)點(diǎn)提交得excel表,把其中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)庫(kù)里,進(jìn)行一些SQL查詢,然后用可視化工具將結(jié)果生成圖形表格提交給業(yè)務(wù)人員參考.3、還有兩個(gè)職位,一個(gè)叫做數(shù)據(jù)分析師(dataanalyst),另一個(gè)叫數(shù)據(jù)科學(xué)家(datascientist)。這兩個(gè)職位,在有些機(jī)構(gòu)組織中,職責(zé)不同;在另一些地方,職責(zé)相同,或相似,但級(jí)別不同。對(duì)于職責(zé)不同得地方,一般數(shù)據(jù)科學(xué)家要使用機(jī)器學(xué)習(xí)得算法,而數(shù)據(jù)分析師則專注在統(tǒng)計(jì).目前數(shù)據(jù)科學(xué)家這個(gè)詞一般都與大數(shù)據(jù)綁定在一起,包括在美國(guó),似乎一提datascientist就就是做大數(shù)據(jù)得,但就是實(shí)際上未必,很多有datascientist頭銜得人,也確實(shí)在工作中大量應(yīng)用機(jī)器學(xué)習(xí)算法,但就是,她們處理得并不就是大數(shù)據(jù),很可能只就是幾十萬,幾百萬量級(jí)得數(shù)據(jù)庫(kù)記錄。4、(大)數(shù)據(jù)工程師(dataengineer/bigdataenginee(cuò)r)。這個(gè)職位更偏重于數(shù)據(jù)本身得處理,即大規(guī)模(TB/PB級(jí)別)數(shù)據(jù)得提取、遷移、抽取與清洗。數(shù)據(jù)工程師也可以進(jìn)行數(shù)據(jù)挖掘工作,或者協(xié)助數(shù)據(jù)科學(xué)家實(shí)現(xiàn)算法。5、數(shù)據(jù)質(zhì)量(dat(yī)aquality)。擔(dān)任這個(gè)職位得,就是保證各層級(jí)數(shù)據(jù)完整性與準(zhǔn)確性得人員。她們負(fù)責(zé)制定數(shù)據(jù)完整性與準(zhǔn)確性標(biāo)準(zhǔn),設(shè)計(jì)檢測(cè)方法并實(shí)施檢測(cè).上述這些職位,主要指IT產(chǎn)業(yè)內(nèi)得職位,其她還有一些在研究機(jī)構(gòu)或者大公司研究部門進(jìn)行算法優(yōu)化與研究得人員,以及另一些相對(duì)低端得,手工清洗數(shù)據(jù)得勞動(dòng)者(例如:在數(shù)據(jù)庫(kù)時(shí)代,手工錄入數(shù)據(jù)到數(shù)據(jù)庫(kù)得人),就都不計(jì)入此列了。五、大數(shù)據(jù)得影響大數(shù)據(jù)概念得興起正在對(duì)我們得社會(huì)產(chǎn)生多方面得影響:1、定量分析因“大數(shù)據(jù)”而使得人們開始關(guān)注“數(shù)據(jù)",可謂最首要得影響。尤其對(duì)于國(guó)內(nèi)而言,越來越多得決策者開始重視數(shù)據(jù)得力量,會(huì)在決斷同時(shí)參考各類統(tǒng)計(jì)、分析報(bào)表,而不再就是憑直覺拍腦袋.2、從必然到相關(guān)相對(duì)于傳統(tǒng)得小數(shù)據(jù)統(tǒng)計(jì),大數(shù)據(jù)更關(guān)注與發(fā)現(xiàn)事物之間得相關(guān)性,而非因果關(guān)系。人類歷經(jīng)百萬年基于數(shù)據(jù)貧乏得現(xiàn)狀而形成得“因?yàn)椤浴钡盟季S習(xí)慣,在大數(shù)據(jù)時(shí)代,就是否會(huì)向“……有關(guān)聯(lián)……”轉(zhuǎn)變?3、信息安全以今日得技術(shù),一個(gè)人得個(gè)人信息、網(wǎng)頁(yè)瀏覽記錄、購(gòu)物記錄、對(duì)圖書影片等內(nèi)容得偏好,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論