大數(shù)據(jù)心得體會(huì)_第1頁(yè)
大數(shù)據(jù)心得體會(huì)_第2頁(yè)
大數(shù)據(jù)心得體會(huì)_第3頁(yè)
大數(shù)據(jù)心得體會(huì)_第4頁(yè)
大數(shù)據(jù)心得體會(huì)_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

共享知識(shí) 分享快樂(lè)大數(shù)據(jù)心得體會(huì)早在2007年,人類制造的信息量有史以來(lái)第一次在理論上超過(guò)可用存儲(chǔ)空間總量,近幾年兩者的剪刀差越來(lái)越大。 2010年,全球數(shù)字規(guī)模首次達(dá)到了“ZB”(1ZB=1024TB)級(jí)別。2012年,淘寶網(wǎng)每天在線商品數(shù)超過(guò) 8億件。2013年底,中國(guó)手機(jī)網(wǎng)民超過(guò) 6億戶。隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、傳感器、物聯(lián)網(wǎng)、社交網(wǎng)站、云計(jì)算等的興起,我們這個(gè)社會(huì)的幾乎所有方面都已數(shù)字化,產(chǎn)生了大量新型、實(shí)時(shí)的數(shù)據(jù)。無(wú)疑,我們已身處在大數(shù)據(jù)的海洋。有兩個(gè)重要的趨勢(shì)使得目前的這個(gè)時(shí)代(大數(shù)據(jù)時(shí)代)與之前有顯著的差別:其一,社會(huì)生活的廣泛數(shù)字化,其產(chǎn)生數(shù)據(jù)的規(guī)模、復(fù)雜性及速度都已遠(yuǎn)遠(yuǎn)超過(guò)此前的任何時(shí)代;其二,人類的數(shù)據(jù)分析技術(shù)和工藝使得各機(jī)構(gòu)、組織和企業(yè)能夠以從前無(wú)法達(dá)到的復(fù)雜度、速度和精準(zhǔn)度從龐雜的數(shù)據(jù)中獲得史無(wú)前例的洞察力和預(yù)見(jiàn)性。大數(shù)據(jù)是技術(shù)進(jìn)步的產(chǎn)物,而其中的關(guān)鍵是云技術(shù)的進(jìn)步。在云技術(shù)中,虛擬化技術(shù)乃最基本、最核心的組成部份。計(jì)算虛擬化、存儲(chǔ)虛擬化和網(wǎng)絡(luò)虛擬化技術(shù),使得大數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)、挖掘、分析和應(yīng)用分享等方面不僅在技術(shù)上可行,在經(jīng)濟(jì)上也可接受。在人類文明史上,人類一直執(zhí)著探索我們處的世界以及人類自身,一直試圖測(cè)量、計(jì)量這個(gè)世界以及人類自身,試圖找到隱藏其中的深刻關(guān)聯(lián)、運(yùn)行規(guī)律及終極答案。大數(shù)據(jù)以其人類史上從未有過(guò)的龐大容量、極大的復(fù)雜性、快速的生產(chǎn)及經(jīng)濟(jì)可得性,使人類第一次試圖從總體而非樣本,從混雜性而非精確性,從相關(guān)關(guān)系而非因果關(guān)系來(lái)測(cè)量、計(jì)量我們這個(gè)世界。人類的思維方式、行為方式及社會(huì)生活的諸多形態(tài)(當(dāng)然包括商業(yè)活動(dòng))正在開始發(fā)生新的變化?;蛟S是一場(chǎng)革命性、顛覆性的變化。從這個(gè)意義上講,大數(shù)據(jù)不僅是一場(chǎng)技術(shù)運(yùn)動(dòng),更是一次哲學(xué)創(chuàng)新。大數(shù)據(jù)的概述1.1 大數(shù)據(jù)的概念大數(shù)據(jù)(BigData)是指那些超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫(kù)系統(tǒng)。為了獲取大數(shù)據(jù)中的價(jià)值,我們必須選擇另一種方式來(lái)處理它。共享知識(shí) 分享快樂(lè)數(shù)據(jù)中隱藏著有價(jià)值的模式和信息,在以往需要相當(dāng)?shù)臅r(shí)間和成本才能提取這些信息。如沃爾瑪或谷歌這類領(lǐng)先企業(yè)都要付高昂的代價(jià)才能從大數(shù)據(jù)中挖掘信息。而當(dāng)今的各種資源,如硬件、云架構(gòu)和開源軟件使得大數(shù)據(jù)的處理更為方便和廉價(jià)。即使是在車庫(kù)中創(chuàng)業(yè)的公司也可以用較低的價(jià)格租用云服務(wù)時(shí)間了。對(duì)于企業(yè)組織來(lái)講,大數(shù)據(jù)的價(jià)值體現(xiàn)在兩個(gè)方面:分析使用和二次開發(fā)。對(duì)大數(shù)據(jù)進(jìn)行分析能揭示隱藏其中的信息,例如零售業(yè)中對(duì)門店銷售、地理和社會(huì)信息的分析能提升對(duì)客戶的理解。對(duì)大數(shù)據(jù)的二次開發(fā)則是那些成功的網(wǎng)絡(luò)公司的長(zhǎng)項(xiàng)。例如 Facebook通過(guò)結(jié)合大量用戶信息,定制出高度個(gè)性化的用戶體驗(yàn),并創(chuàng)造出一種新的廣告模式。這種通過(guò)大數(shù)據(jù)創(chuàng)造出新產(chǎn)品和服務(wù)的商業(yè)行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數(shù)據(jù)時(shí)代的創(chuàng)新者。1.2 大數(shù)據(jù)的三層關(guān)系第一層關(guān)系:數(shù)據(jù)與機(jī)器的關(guān)系。大數(shù)據(jù)紀(jì)元?jiǎng)傞_始,產(chǎn)業(yè)界碰到的第一個(gè)核心問(wèn)題就是“大”的問(wèn)題。做了幾十年的數(shù)據(jù)倉(cāng)庫(kù)甚至海量并行處理的數(shù)據(jù)庫(kù)都不能處理那么大的數(shù)據(jù),怎么辦?需要范式切換。主要有三個(gè)方面,新型的數(shù)據(jù)與機(jī)器關(guān)系當(dāng)中的第一條就是重新考慮架構(gòu)與算法,重新考慮舍得,有舍才能得,天下沒(méi)有免費(fèi)的午餐,所以必須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型機(jī)和UNIX服務(wù)器,得到平民化的更大量的X86服務(wù)器。通過(guò)這樣一種可橫向、可水平擴(kuò)展服務(wù)器處理每?jī)赡攴臄?shù)據(jù)量的挑戰(zhàn)。第二個(gè)舍得是舍棄硬件的可靠性和可用性,得到軟件的可靠性和可用性。這也就是谷歌三大論文以及 Hadoop的核心重點(diǎn)。第三個(gè)舍得是舍棄傳統(tǒng)數(shù)據(jù)庫(kù)的強(qiáng)一致性,獲得更放松一致性、可擴(kuò)展架構(gòu),如NoSQL。第四個(gè)舍得是傳統(tǒng)算法強(qiáng)調(diào)非常嚴(yán)格的精確性,現(xiàn)在要放棄一些精確性,通過(guò)近似、采樣這種方式來(lái)獲得更好的擴(kuò)展性。最早大數(shù)據(jù)的處理范式是Mapreduce的批量處理,英特爾慢慢有其他的需求,實(shí)時(shí)的流處理、多迭代的處理、圖計(jì)算、即時(shí)查詢等等新的范式百花齊放,最后萬(wàn)法歸宗。剛才王斌老師將講的SAP的HANA本身就是數(shù)據(jù)管理和分析的融合,現(xiàn)在非常流行的Hadoop之后的SPARK,就是把前面的各種范式進(jìn)行了融合。共享知識(shí) 分享快樂(lè)存儲(chǔ)與內(nèi)存的消長(zhǎng),大數(shù)據(jù)第一個(gè)要解決把數(shù)據(jù)存儲(chǔ)下來(lái),后來(lái)發(fā)現(xiàn)要把它放到大的內(nèi)存里進(jìn)行處理,獲得實(shí)時(shí)性,接著在存儲(chǔ)和內(nèi)存之間現(xiàn)在又出現(xiàn)了閃存,有閃存化甚至全閃存的存儲(chǔ),也有閃存化的內(nèi)存,把所有的計(jì)算在閃存里面處理,已經(jīng)被微軟、Facebook等等大量使用。大家可以預(yù)期,兩年以后出現(xiàn)新的非易失性的閃存,它的速度可能要比閃存快幾百倍,和內(nèi)存相似,這又會(huì)極大地顛覆數(shù)據(jù)與機(jī)器的關(guān)系。第二層關(guān)系:數(shù)據(jù)與人的關(guān)系。主要是價(jià)值的覺(jué)醒,如果數(shù)據(jù)不能產(chǎn)生價(jià)值它可能是負(fù)面資產(chǎn)。數(shù)據(jù)怎么能夠給人帶來(lái)價(jià)值?我們介紹一下它的價(jià)值維度,把它映射到二維的時(shí)空象限里,用六個(gè)關(guān)鍵詞來(lái)描述它。第一是“Volume”,兩個(gè)關(guān)鍵詞,小數(shù)據(jù)見(jiàn)微對(duì)個(gè)人進(jìn)行刻劃,大數(shù)據(jù)知著能夠了解宏觀規(guī)律,它是空間概念,同時(shí)也是時(shí)間概念,數(shù)據(jù)剛剛產(chǎn)生的時(shí)候,它的個(gè)性化價(jià)值、見(jiàn)微的價(jià)值最大,而隨著時(shí)間的推移,它漸漸退化到只有集合價(jià)值。第二是Velocity,時(shí)間軸的原點(diǎn)是當(dāng)下實(shí)時(shí)價(jià)值,副軸是過(guò)往,正軸是預(yù)測(cè)未來(lái),如果知道知前后就能夠做到萬(wàn)物的皆明。第三是 Variety,多源異質(zhì)的數(shù)據(jù),能夠過(guò)濾噪聲、查漏補(bǔ)缺、去偽存真,就是辯訛。還有曉意,能夠從大量的非結(jié)構(gòu)化數(shù)據(jù)中獲得語(yǔ)意,從而能夠使機(jī)器窺探人的思維境界,這六個(gè)價(jià)值維度怎么去實(shí)現(xiàn)?主要是兩部分人,一是數(shù)據(jù)科學(xué)家要洞察數(shù)據(jù),另外一個(gè)是終端用戶和領(lǐng)域?qū)<乙ソ庾x數(shù)據(jù)并利用數(shù)據(jù)。首先看洞察數(shù)據(jù),數(shù)據(jù)科學(xué),人和機(jī)器作用發(fā)生了消長(zhǎng),講個(gè)例子,機(jī)器學(xué)習(xí)大家覺(jué)得是機(jī)器的問(wèn)題,其實(shí)人在里面起到很重要的作用,尤其是機(jī)器學(xué)習(xí)是模型加特征,而特征工程是一個(gè)人力工程,你要有經(jīng)驗(yàn)非常豐富的特征團(tuán)隊(duì)去死磕特征,找出更好、更多的特征,才能夠使機(jī)器學(xué)習(xí)的效果更好。但是現(xiàn)在深度學(xué)習(xí)這些新技術(shù)出來(lái),能夠用機(jī)器學(xué)習(xí)特征,能夠在大量非結(jié)構(gòu)化數(shù)據(jù)中找到豐富的信息維度用特征表達(dá)出來(lái),這遠(yuǎn)遠(yuǎn)超出了人的能力。大家知道黑客帝國(guó)描述了一個(gè)場(chǎng)景,人腦袋后面插一個(gè)插頭,給機(jī)器提供營(yíng)養(yǎng),我可能不會(huì)那么悲觀,但是像這樣的互動(dòng)關(guān)系以一種更良性的方式出現(xiàn)了,現(xiàn)在人的一言一行、社交行為、金融行為都已經(jīng)成為機(jī)器的養(yǎng)料、機(jī)器的數(shù)據(jù),使得機(jī)器獲得更好的洞察。終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數(shù)據(jù)的會(huì),基本上都是Hadoop和NoSQL現(xiàn)在大家參加大數(shù)據(jù)會(huì)可以看到清一色的分析工具和可視化工具。大數(shù)據(jù)跟各行各業(yè)的化學(xué)作用正在發(fā)生。如果共享知識(shí) 分享快樂(lè)馬化騰說(shuō)“互聯(lián)網(wǎng)+”是互聯(lián)網(wǎng)與各行各業(yè)的加法效應(yīng),那么大數(shù)據(jù)將與各行各業(yè)產(chǎn)生乘法效應(yīng)。第三個(gè)關(guān)系,數(shù)據(jù)與數(shù)據(jù)的關(guān)系?,F(xiàn)在只有海面平的數(shù)據(jù)是搜索引擎可以檢索到,深海的數(shù)據(jù)可能是黑暗的數(shù)據(jù),在政府、在企業(yè)里大家看不到。我們?cè)趺崔k呢?必須讓數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)。只有讓數(shù)據(jù)能夠發(fā)現(xiàn)數(shù)據(jù)、遇到數(shù)據(jù),才能產(chǎn)生金風(fēng)玉露一相逢、便勝卻人間無(wú)數(shù)的效果。這里有三個(gè)重要的觀念,需要法律、技術(shù)、經(jīng)濟(jì)理論和實(shí)踐上配合。法律上要明確數(shù)據(jù)的權(quán)利,數(shù)據(jù)所有權(quán),數(shù)據(jù)的隱私權(quán),什么數(shù)據(jù)不能給你看;數(shù)據(jù)的許可權(quán),什么數(shù)據(jù)是可以給你看的;數(shù)據(jù)的審計(jì)權(quán),我給你看了以后,你是不是按照許可的范圍去看;數(shù)據(jù)的分紅權(quán)。數(shù)據(jù)像原油又不同于原油,原油用完了就沒(méi)有了,數(shù)據(jù)可以反復(fù)地產(chǎn)生價(jià)值,因此數(shù)據(jù)的擁有者應(yīng)該得到分紅。我們要保證數(shù)據(jù)的開放、共享、交易。 公共數(shù)據(jù)和部分科研數(shù)據(jù)要開放,開放過(guò)程中注意保護(hù)隱私。企業(yè)之間可以進(jìn)行數(shù)據(jù)的點(diǎn)對(duì)點(diǎn)共享,最高境界是不丟失數(shù)據(jù)的所有權(quán)和隱私權(quán)的前提下共享,這里有多方安全計(jì)算的概念。1982年姚期智老先生提出了百萬(wàn)富翁的窘境的問(wèn)題,兩個(gè)百萬(wàn)富翁他們想要比誰(shuí)更富,但是誰(shuí)都不愿意說(shuō)出來(lái)自己都多少錢,在我們的數(shù)據(jù)共享當(dāng)中要通過(guò)各種各樣的技術(shù)達(dá)到這樣的效果。還有數(shù)據(jù)交易,建立多邊多邊平臺(tái)來(lái)支持?jǐn)?shù)據(jù)交易?;ヂ?lián)網(wǎng)能發(fā)展起來(lái)經(jīng)濟(jì)學(xué)理論和實(shí)踐是很重要的支撐,梅特卡夫定律決定了一個(gè)互聯(lián)網(wǎng)公司的價(jià)值,跟它用戶數(shù)的平方成正比,又比如說(shuō)谷歌請(qǐng)最好的經(jīng)濟(jì)學(xué)家,它的一個(gè)廣告業(yè)務(wù)的核心就是建立在一個(gè)非常先進(jìn)的拍賣經(jīng)濟(jì)學(xué)的模型基礎(chǔ)上。數(shù)據(jù)經(jīng)濟(jì)也需要這樣一些基礎(chǔ)的理論,比如數(shù)據(jù)定價(jià)和信息定價(jià)不一樣,信息做一個(gè)咨詢報(bào)告 5000美金賣給你,可以賣給所有人。但數(shù)據(jù)對(duì)不同的單位價(jià)值不一樣,可能我之毒藥是彼之蜜糖。另外估值,一個(gè)企業(yè)擁有大量的數(shù)據(jù),是無(wú)形資產(chǎn)的一部分,對(duì)于企業(yè)的市場(chǎng)價(jià)值帶來(lái)了多大的增長(zhǎng)。1.3 大數(shù)據(jù)的四個(gè)特性大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。這也是一個(gè)描述性的定義,在對(duì)數(shù)據(jù)描述的基礎(chǔ)上加入了處理此類數(shù)據(jù)的一些特征,用這些特征來(lái)描述大數(shù)據(jù)。當(dāng)前,較為統(tǒng)一的認(rèn)識(shí)是大數(shù)據(jù)有四個(gè)基本特征: 數(shù)據(jù)規(guī)模大共享知識(shí) 分享快樂(lè)(

Volume)

,數(shù)據(jù)種類多

(

Variety)

,數(shù)據(jù)要求處理速度快(

Velocity)

,數(shù)據(jù)價(jià)值密度低

(

Value)

,即所謂的四

V

特性。數(shù)據(jù)規(guī)模大(Volume):企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長(zhǎng)。例如,IDC最近的報(bào)告預(yù)測(cè)稱,到2020年,全球數(shù)據(jù)量將擴(kuò)大50倍。目前,大數(shù)據(jù)的規(guī)模尚是一個(gè)不斷變化的指標(biāo),單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡(jiǎn)而言之,存儲(chǔ)1PB數(shù)據(jù)將需要兩萬(wàn)臺(tái)配備50GB硬盤的個(gè)人電腦。此外,各種意想不到的來(lái)源都能產(chǎn)生數(shù)據(jù)。數(shù)據(jù)種類多( Variety) :一個(gè)普遍觀點(diǎn)認(rèn)為,人們使用互聯(lián)網(wǎng)搜索是形成數(shù)據(jù)多樣性的主要原因,這一看法部分正確。然而,數(shù)據(jù)多樣性的增加主要是由于新型多結(jié)構(gòu)數(shù)據(jù),以及包括網(wǎng)絡(luò)日志、社交媒體、互聯(lián)網(wǎng)搜索、手機(jī)通話記錄及傳感器網(wǎng)絡(luò)等數(shù)據(jù)類型造成。其中,部分傳感器安裝在火車、汽車和飛機(jī)上,每個(gè)傳感器都增加了數(shù)據(jù)的多樣性。處理速度快( Velocity) :高速描述的是數(shù)據(jù)被創(chuàng)建和移動(dòng)的速度。在高速網(wǎng)絡(luò)時(shí)代,通過(guò)基于實(shí)現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務(wù)器,創(chuàng)建實(shí)時(shí)數(shù)據(jù)流已成為流行趨勢(shì)。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實(shí)時(shí)需求。根據(jù)IMS Research關(guān)于數(shù)據(jù)創(chuàng)建速度的調(diào)查,據(jù)預(yù)測(cè),到 2020年全球?qū)碛?220億部互聯(lián)網(wǎng)連接設(shè)備。數(shù)據(jù)價(jià)值密度低( Value):大數(shù)據(jù)具有多層結(jié)構(gòu),這意味著大數(shù)據(jù)會(huì)呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),大數(shù)據(jù)存在不規(guī)則和模糊不清的特性,造成很難甚至無(wú)法使用傳統(tǒng)的應(yīng)用軟件進(jìn)行分析。傳統(tǒng)業(yè)務(wù)數(shù)據(jù)隨時(shí)間演變已擁有標(biāo)準(zhǔn)的格式,能夠被標(biāo)準(zhǔn)的商務(wù)智能軟件識(shí)別。目前,企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復(fù)雜數(shù)據(jù)中挖掘價(jià)值。1.4 大數(shù)據(jù)的三個(gè)特征除了有四個(gè)特性之外,大數(shù)據(jù)時(shí)代的數(shù)據(jù)還呈現(xiàn)出其他三個(gè)特征。第一個(gè)特征是數(shù)據(jù)類型繁多 。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求 .第二個(gè)特征是數(shù)據(jù)價(jià)值密度相對(duì)較低 。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無(wú)處不在,信息海量,但價(jià)值密度較低,如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”,是大數(shù)據(jù)時(shí)代亟待解決的難題。共享知識(shí) 分享快樂(lè)第三個(gè)特征是處理速度快,時(shí)效性要求高。 這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。大數(shù)據(jù)的技術(shù)與處理2.1 大數(shù)據(jù)的技術(shù)數(shù)據(jù)采集:ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等?;A(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。數(shù)據(jù)處理:自然語(yǔ)言處理(NLP,NaturalLanguageProcessing)是研究人與計(jì)算機(jī)交互的語(yǔ)言問(wèn)題的一門學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理解(NLU,NaturalLanguage Understanding) , 也 稱 為 計(jì) 算 語(yǔ) 言 學(xué)(Computational Linguistics 。一方面它是語(yǔ)言信息處理的一個(gè)分支,另一方面它是人工智能

(AI,

Artificial

Intelligence)

的核心課題之一。5.統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、

T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、 logistic 回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、 bootstrap 技術(shù)等等。6.數(shù)據(jù)挖掘:分類(Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)、聚類(Clustering)、描述和可視化、DescriptionandVisualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)。模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。2.2 大數(shù)據(jù)的處理采集共享知識(shí) 分享快樂(lè)大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端( Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。導(dǎo)入/預(yù)處理雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自 Twitter 的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。挖掘與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)共享知識(shí) 分享快樂(lè)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理。大數(shù)據(jù)的應(yīng)用正如諸多文獻(xiàn)所談到的,大數(shù)據(jù)對(duì)許多行業(yè)的影響和沖擊已經(jīng)呈現(xiàn)。例如,商零售、物流、醫(yī)藥、文化產(chǎn)業(yè)等。金融,作為現(xiàn)代經(jīng)濟(jì)中樞,其實(shí)也已透出了大數(shù)據(jù)金融的曙光。過(guò)去的2013年,中國(guó)金融界熱議最多的或許是互聯(lián)網(wǎng)金融,更有人指出2013年是中國(guó)互聯(lián)網(wǎng)金融元年。確實(shí),第三方支付、 P2P、網(wǎng)貸、眾籌融資、余額寶、微信支付等發(fā)展迅速。眾多傳統(tǒng)金融業(yè)者也或推出自己的電商平臺(tái),或與互聯(lián)網(wǎng)企業(yè)聯(lián)手提供相應(yīng)的金融產(chǎn)品和服務(wù)?;ヂ?lián)網(wǎng)金融,無(wú)論是業(yè)界、監(jiān)管者或理論界,都在試圖給出自己的理解和定義。但到目前為止,尚未有一個(gè)統(tǒng)一的、規(guī)范的概念。在我看來(lái),互聯(lián)網(wǎng)金融本來(lái)就是一個(gè)不確切的概念,也不可能有一個(gè)明確的定義。嚴(yán)格說(shuō)來(lái),所謂互聯(lián)網(wǎng)金融只是大數(shù)據(jù)金融的一種展現(xiàn)或形態(tài)。換言之,前者是表,后者是里。這是因?yàn)椋瑹o(wú)論是互聯(lián)網(wǎng)還是金融業(yè),其實(shí)質(zhì)都是大數(shù)據(jù)(信息)。首先,對(duì)互聯(lián)網(wǎng)企業(yè)而言,流量、客戶等數(shù)據(jù)(信息)是其涉足金融業(yè)的基石。對(duì)金融企業(yè)而言,提供中介服務(wù),撮合金融交易也是以數(shù)據(jù)(信息)為基礎(chǔ)。其次,沒(méi)有大數(shù)據(jù)技術(shù)的支撐,所謂互聯(lián)網(wǎng)金融也難以快速、持續(xù)成長(zhǎng)。20世紀(jì)90年代互聯(lián)網(wǎng)浪潮的蓬勃興起,至今已近二十年。但從世界范圍看,所謂互聯(lián)網(wǎng)金融卻發(fā)展緩慢。當(dāng)然,其中原因很多,但其主要原因則是大數(shù)據(jù)技術(shù)是近幾年才快速發(fā)展起來(lái)的。最后,從金融企業(yè)來(lái)看,在數(shù)據(jù)中心建設(shè),軟硬件系統(tǒng)建設(shè),數(shù)據(jù)(信息)挖掘、分析等方面也是做得有聲有色,其龐大的客戶數(shù)據(jù)、海量交易記錄及眾多信息源,使其在大數(shù)據(jù)應(yīng)用方面也做了許多積極探索。因此,要準(zhǔn)確反映近年新金融趨勢(shì),“大數(shù)據(jù)金融”比“互聯(lián)網(wǎng)金融”更為貼切。大數(shù)據(jù)應(yīng)用中的三大難題共享知識(shí) 分享快樂(lè)近年來(lái),大數(shù)據(jù)這個(gè)詞成為互聯(lián)網(wǎng)領(lǐng)域關(guān)注度最高的詞匯,時(shí)至今日,大數(shù)據(jù)已經(jīng)不再是IT圈的“專利”了,從去年的春晚,到剛剛過(guò)去的兩會(huì),都能見(jiàn)到它的身影,但實(shí)際上春晚與兩會(huì)的數(shù)據(jù)都只能叫做小數(shù)據(jù),它與真正的大數(shù)據(jù)還相差甚遠(yuǎn)。即便如此,數(shù)據(jù)所產(chǎn)生的價(jià)值已經(jīng)被人們所認(rèn)知。就大數(shù)據(jù)來(lái)說(shuō),它的發(fā)展可以分成三個(gè)階段,第一個(gè)階段是組織內(nèi)部的數(shù)據(jù),這些數(shù)據(jù)通常都是結(jié)構(gòu)化的數(shù)據(jù),我們一般將這些數(shù)據(jù)進(jìn)行分類、排序等操作,將相同類型的數(shù)據(jù)進(jìn)行對(duì)比、分析、挖掘,總而言之基本上都是統(tǒng)計(jì)工作。到了第二階段,數(shù)據(jù)的范圍擴(kuò)大到行業(yè)內(nèi),各種各樣的應(yīng)用數(shù)據(jù)出現(xiàn),數(shù)據(jù)量大規(guī)模增長(zhǎng),尤其是非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)。典型的像視頻、圖片這一類的數(shù)據(jù),在這一階段的特點(diǎn)就是非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)并存,且數(shù)據(jù)量巨大,要對(duì)這些數(shù)據(jù)進(jìn)行分析是我們目前現(xiàn)階段所處在的狀態(tài)。第三階段則是未來(lái)大數(shù)據(jù)發(fā)展的理想化狀態(tài),首先它一定是跨行業(yè)的,且數(shù)據(jù)的范圍是整個(gè)社會(huì)。通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析加以使用,將直接改變我們的生活方式,這也是現(xiàn)在很多企業(yè)所設(shè)想的未來(lái)交通、醫(yī)療、教育等領(lǐng)域的發(fā)展方向。大數(shù)據(jù)太大不敢用第三個(gè)階段是我們所憧憬的,但在我們所處的第二階段面對(duì)的更多是問(wèn)題。其中的一個(gè)問(wèn)題就是“大”。大數(shù)據(jù)給人最直觀的感受就是大,它所帶來(lái)的問(wèn)題不僅僅是存儲(chǔ),更多的是龐大的數(shù)據(jù)沒(méi)辦法使用,以交通為例,從2001年開始在北京的主干道上都增設(shè)了一些卡口設(shè)備,到了今天基本上大街小巷都能看到。這些設(shè)備每天所拍攝的視頻及照片產(chǎn)生的數(shù)據(jù)量是驚人的,僅照片每天就能產(chǎn)生2千萬(wàn)張,而解決這些數(shù)據(jù)的存儲(chǔ)只是最基本的任務(wù),我們更需要的是使用這些數(shù)據(jù)。例如對(duì)套牌車輛的檢查,對(duì)嫌疑車輛的監(jiān)控,當(dāng)你想要使用這些數(shù)據(jù)的時(shí)候,傳統(tǒng)的數(shù)據(jù)庫(kù)以及系統(tǒng)架構(gòu),放進(jìn)這么龐大的數(shù)據(jù),是根本跑不動(dòng)的。這一問(wèn)題導(dǎo)致很多企業(yè)對(duì)大數(shù)據(jù)望而卻步。大數(shù)據(jù)太難不會(huì)用說(shuō)到大數(shù)據(jù)的使用,自然離不開Hadoop,Hadoop本身提供了分布式系統(tǒng)中兩個(gè)最重要的東西:分布式存儲(chǔ)(HDFS)和分布式計(jì)算(Mapreduce)。這兩者解決了處理大數(shù)據(jù)面臨的計(jì)算和存儲(chǔ)問(wèn)題,但更為重要的是,為開發(fā)大數(shù)據(jù)應(yīng)用開辟了道路。Hadoop是目前解決大數(shù)據(jù)問(wèn)題最流行的一種方式,但其仍然共享知識(shí) 分享快樂(lè)有不成熟的地方,曾作為雅虎云計(jì)算以及Facebook軟件工程師的JonathanGray就表示:“Hadoop實(shí)施難度大,且復(fù)雜,如果不解決技術(shù)復(fù)雜性問(wèn)題,Hadoop將被自己終結(jié)?!闭怯捎谶@樣的原因,Gray創(chuàng)辦了自己的公司——Continuuity,這家公司的目標(biāo)就是在Hadoop和Hbase基礎(chǔ)上創(chuàng)建一個(gè)抽象層,屏蔽掉Hadoop底層技術(shù)的復(fù)雜性。由此可見(jiàn)想要用好大數(shù)據(jù)又是一大考驗(yàn)。大數(shù)據(jù)太貴用不起Hadoop的特點(diǎn)就是讓你可以使用廉價(jià)的 x86設(shè)備來(lái)完成大數(shù)據(jù)的業(yè)務(wù),但事實(shí)上如果你真想要用它來(lái)完成某些商業(yè)任務(wù)你還得是個(gè)“土豪”。在國(guó)外那些使用大數(shù)據(jù)的成功案例里,亞馬遜曾給出過(guò)這樣一組數(shù)字,NASA需要為45天的數(shù)據(jù)存儲(chǔ)服務(wù)支付超過(guò)100萬(wàn)美元。像Quant___cast這樣的數(shù)字廣告公司,同樣也是花費(fèi)了巨額的資金用在Hadoop技術(shù)上,來(lái)根據(jù)自己的需求定制系統(tǒng)。從上面兩個(gè)案例來(lái)看用于商業(yè)用途的大數(shù)據(jù)現(xiàn)階段還是很費(fèi)錢的,隨著大數(shù)據(jù)軟件環(huán)境逐漸成熟,開發(fā)工具增多,價(jià)格在未來(lái)會(huì)逐漸降低。從上面羅列的這三點(diǎn)困難,其實(shí)并不是要給大數(shù)據(jù)潑冷水,而是想說(shuō)大數(shù)據(jù)想要淘金并不簡(jiǎn)單,首先在做大數(shù)據(jù)之前,好好盤點(diǎn)一下自己擁有的資源,不僅僅是數(shù)據(jù)資源,還包括知識(shí)與技能。確定了自己的能力之后,選擇一個(gè)能夠發(fā)揮你現(xiàn)有資源最大價(jià)值的項(xiàng)目。如果你需要幫手,應(yīng)先考慮商業(yè)顧問(wèn),再考慮技術(shù)人才。為了解答一個(gè)生意上的困惑花下的錢,叫作投資,而把錢投到一個(gè)擁有特殊技能的IT人才身上,那就叫沉沒(méi)成本。當(dāng)你有了這些之后,選擇更靈活且可擴(kuò)展的工具,為以后的擴(kuò)充打好基礎(chǔ)。更重要的是——從小規(guī)模做起。大數(shù)據(jù)創(chuàng)新的驅(qū)動(dòng)力計(jì)算機(jī)科學(xué)與技術(shù)的發(fā)展使得大規(guī)模信息處理基礎(chǔ)設(shè)施產(chǎn)生重要改變。在過(guò)去的30年中,經(jīng)典的數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)在處理大規(guī)模數(shù)據(jù)方面與時(shí)俱進(jìn),在企業(yè)數(shù)據(jù)處理等方面得到廣泛應(yīng)用。數(shù)據(jù)庫(kù)研究和技術(shù)進(jìn)展主要集中在數(shù)據(jù)建模、描述性查詢語(yǔ)言、事務(wù)處理和數(shù)據(jù)庫(kù)可靠性等。在這個(gè)過(guò)程中,相關(guān)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘分析技術(shù)也成為一個(gè)熱點(diǎn)研究方向;人們認(rèn)識(shí)到數(shù)據(jù)處理過(guò)程中的信息可以被有效整理和分析來(lái)支持以數(shù)據(jù)為中心的決策支持。共享知識(shí) 分享快樂(lè)數(shù)據(jù)庫(kù)管理系統(tǒng)在目前的互聯(lián)網(wǎng)時(shí)代繼續(xù)占據(jù)了重要地位。在一個(gè)典型的互聯(lián)網(wǎng)服務(wù)系統(tǒng)架構(gòu)中,數(shù)據(jù)庫(kù)管理系統(tǒng)和 Web服務(wù)器及應(yīng)用服務(wù)共同作用,為互聯(lián)網(wǎng)用戶提供各類信息和服務(wù)。在這個(gè)系統(tǒng)架構(gòu)中,人們期望系統(tǒng)能支持無(wú)限次和高速的互聯(lián)網(wǎng)用戶訪問(wèn),這個(gè)時(shí)候數(shù)據(jù)庫(kù)層由于在硬件可擴(kuò)展性上面的不足可能成為系統(tǒng)性能瓶頸。這個(gè)挑戰(zhàn)我們稱為大數(shù)據(jù)問(wèn)題bigdataproblem)。大數(shù)據(jù)系統(tǒng)期望能對(duì)大規(guī)模異構(gòu)復(fù)雜數(shù)據(jù)建模,進(jìn)行實(shí)時(shí)分析;傳統(tǒng)的商用數(shù)據(jù)庫(kù)系統(tǒng)很難提供良好的解決方案。另一個(gè)大數(shù)據(jù)相關(guān)的挑戰(zhàn)是服務(wù)器端數(shù)據(jù)中心的數(shù)據(jù)維護(hù)及安全隱私問(wèn)題。近年來(lái)云計(jì)算技術(shù)已經(jīng)成為大數(shù)據(jù)中心的一種可靠解決方案,Google, Yahoo and Microsoft 等公司也紛紛開發(fā)自己的云計(jì)算系統(tǒng)。盡管云計(jì)算在互聯(lián)網(wǎng)應(yīng)用中已經(jīng)體現(xiàn)出很多優(yōu)越性,其在系統(tǒng)成熟性、可用性等方面還有很大提高空間。顯而易見(jiàn),大數(shù)據(jù)領(lǐng)域的大規(guī)模數(shù)據(jù)管理和復(fù)雜數(shù)據(jù)分析已經(jīng)成為新的研究前沿。目前的各類大數(shù)據(jù)應(yīng)用正是大數(shù)據(jù)研究的驅(qū)動(dòng)力,比如社會(huì)網(wǎng)絡(luò)、移動(dòng)計(jì)算、科學(xué)應(yīng)用等等。這些應(yīng)用產(chǎn)生的大數(shù)據(jù)往往具有海量、時(shí)序動(dòng)態(tài)性、多樣等特性,給數(shù)據(jù)庫(kù)領(lǐng)域的各項(xiàng)技術(shù)帶來(lái)巨大挑戰(zhàn),涵蓋包括數(shù)據(jù)獲取、組織管理、分析處理和應(yīng)用呈現(xiàn)等整個(gè)數(shù)據(jù)管理生命周期。針對(duì)數(shù)據(jù)管理和分析不同系統(tǒng)應(yīng)用,各類大數(shù)據(jù)處理技術(shù)在也不斷發(fā)展。MapReduce作為一種分布式的數(shù)據(jù)處理框架由于其靈活性、可擴(kuò)展性、高效和容錯(cuò)等特性其近年來(lái)得到了廣泛應(yīng)用。此外,也有多類其他分布式數(shù)據(jù)處理系統(tǒng)用來(lái)解決MapReduce不擅長(zhǎng)的問(wèn)題,比如交互式分析、圖計(jì)算和分析、實(shí)時(shí)和流處理、通用數(shù)據(jù)處理等等。大數(shù)據(jù)不但給數(shù)據(jù)庫(kù)研究領(lǐng)域,同時(shí)也給體系結(jié)構(gòu)、存儲(chǔ)系統(tǒng)、系統(tǒng)軟件和軟件工程等計(jì)算機(jī)多個(gè)學(xué)科帶來(lái)了很多機(jī)會(huì)和挑戰(zhàn)。大數(shù)據(jù)正是目前很多計(jì)算機(jī)科學(xué)問(wèn)題的根本,并驅(qū)動(dòng)眾多新科技的發(fā)展。大數(shù)據(jù)的發(fā)展前景大數(shù)據(jù)的概念來(lái)源于、發(fā)展于美國(guó),并向全球擴(kuò)展,必將給我國(guó)未來(lái)的科技與經(jīng)濟(jì)發(fā)展帶來(lái)深遠(yuǎn)影響。根據(jù) IDC 統(tǒng)計(jì),目前數(shù)據(jù)量在全球比例為 : 美國(guó)32%、西歐19%、中國(guó)13%,預(yù)計(jì)到2020年中國(guó)將產(chǎn)生全球21%的數(shù)據(jù),我國(guó)是僅次于美國(guó)的數(shù)據(jù)大國(guó),而我國(guó)大數(shù)據(jù)方面的研究尚處在起步階段,如共享知識(shí) 分享快樂(lè)何開發(fā)、利用保護(hù)好大數(shù)據(jù)這一重要的戰(zhàn)略資源,是我國(guó)當(dāng)前亟待解決的問(wèn)題。而大數(shù)據(jù)未來(lái)的發(fā)展趨勢(shì)則從以下幾個(gè)方面進(jìn)行:(1)開放源代碼大數(shù)據(jù)獲得動(dòng)力,關(guān)鍵在于開放源代碼,幫助分解和分析數(shù)據(jù)。 Hadoop 和NoSQL數(shù)據(jù)庫(kù)便是其中的贏家,他們讓其他技術(shù)商望而卻步、處境很被動(dòng)。畢竟,我們需要清楚怎樣創(chuàng)建一個(gè)平臺(tái),既能解開所有的數(shù)據(jù),克服數(shù)據(jù)相互獨(dú)立的障礙,又能將數(shù)據(jù)重新上鎖。2)市場(chǎng)細(xì)分當(dāng)今,許多通用的大數(shù)據(jù)分析平臺(tái)已投入市場(chǎng),人們同時(shí)期望更多平臺(tái)的出現(xiàn),可以運(yùn)用在特殊領(lǐng)域,如藥物創(chuàng)新、客戶關(guān)系管理、應(yīng)用性能的監(jiān)控和使用。若市場(chǎng)逐步成熟,在通用分析平臺(tái)之上,開發(fā)特定的垂直應(yīng)用將會(huì)實(shí)現(xiàn)。但現(xiàn)在的技術(shù)有限,除非考慮利用潛在的數(shù)據(jù)庫(kù)技術(shù)作為通用平臺(tái) ( 如Hadoop、NoSQL)。人們期望更多特定的垂直應(yīng)用出現(xiàn),把目標(biāo)定為特定領(lǐng)域的數(shù)據(jù)分析,這些特定領(lǐng)域包括航運(yùn)業(yè)、銷售業(yè)、網(wǎng)上購(gòu)物、社交媒體用戶的情緒分析等。同時(shí),其他公司正在研發(fā)小規(guī)模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數(shù)據(jù)分析做為基礎(chǔ)。3)預(yù)測(cè)分析建模、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和大數(shù)據(jù)經(jīng)常被聯(lián)系起來(lái),用以預(yù)測(cè)即將發(fā)生的事情和行為。有些事情是很容易被預(yù)測(cè)的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準(zhǔn)確預(yù)測(cè)。例如,中間選民改變投票決定的決定性因素。但是,當(dāng)數(shù)據(jù)累加時(shí),我們基本上有能力可以大規(guī)模嘗試一個(gè)連續(xù)的基礎(chǔ)。網(wǎng)上零售商重新設(shè)計(jì)購(gòu)物車,來(lái)探索何種設(shè)計(jì)方式能使銷售利潤(rùn)最大化。根據(jù)病人的飲食、家族史和每天的運(yùn)動(dòng)量,醫(yī)生有能力預(yù)測(cè)未來(lái)疾病的風(fēng)險(xiǎn)。當(dāng)然,在人類歷史的開端,我們就已經(jīng)有各種預(yù)測(cè)。但是,在過(guò)去,許多預(yù)測(cè)都是基于直覺(jué),沒(méi)有依靠完整的數(shù)據(jù)集,或者單單靠的是常識(shí)。當(dāng)然,即便有大量數(shù)據(jù)支撐你的預(yù)測(cè),也不表明那些預(yù)測(cè)都是準(zhǔn)確的。2007年和2008年,許多對(duì)沖基金經(jīng)理和華爾街買賣商分析市場(chǎng)數(shù)據(jù),認(rèn)為房地產(chǎn)泡沫將不會(huì)破滅。根據(jù)歷史的數(shù)據(jù),可以預(yù)測(cè)出房地產(chǎn)泡沫即將破裂,但是許多分析家堅(jiān)持原有的觀共享知識(shí) 分享快樂(lè)點(diǎn)。另一方面,預(yù)測(cè)分析在許多領(lǐng)域流行起來(lái),例如欺詐發(fā)現(xiàn)(比如在外省使用信用卡時(shí)會(huì)接到的詐騙電話),保險(xiǎn)公司和顧客維系的風(fēng)險(xiǎn)管理。結(jié)語(yǔ)大數(shù)據(jù)正在以不可阻攔的磅礴氣勢(shì),與當(dāng)代同樣具有革命意義的最新科技進(jìn)步(如納米技術(shù)、生物工程、全球化等 )一起,揭開人類新世紀(jì)的序幕。可以簡(jiǎn)單地說(shuō),以往人類社會(huì)基本處于蒙昧狀態(tài)中的不發(fā)展階段,即自然發(fā)展階段。現(xiàn)在,這一不發(fā)展階段隨著 2012年的所謂“世界末日”之說(shuō)而永遠(yuǎn)成為了過(guò)去。大數(shù)據(jù)宣告了 21世紀(jì)是人類自主發(fā)展的時(shí)代,是不以所謂 “上帝”的意志為轉(zhuǎn)移的時(shí)代,是“上帝”失業(yè)的時(shí)代。對(duì)于地球上每一個(gè)普通居民而言,大數(shù)據(jù)有什么應(yīng)用價(jià)值呢 ?只要看看周圍正在變化的一切,你就可以知道,大數(shù)據(jù)對(duì)每個(gè)人的重要性不亞于人類初期對(duì)火的使用。大數(shù)據(jù)讓人類對(duì)一切事物的認(rèn)識(shí)回歸本源 ;大數(shù)據(jù)通過(guò)影響經(jīng)濟(jì)生活、政治博弈、社會(huì)管理、文化教育科研、醫(yī)療保健休閑等等行業(yè),與每個(gè)人產(chǎn)生密切的聯(lián)系。大數(shù)據(jù)技術(shù)離你我都并不遙遠(yuǎn),它已經(jīng)來(lái)到我們身邊,滲透進(jìn)入我們每個(gè)人的日常生活消費(fèi)之中,時(shí)時(shí)刻刻,事事處處,我們無(wú)法逃遁,因?yàn)樗鼰o(wú)微不至:它提供了光怪陸離的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論