胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)【實(shí)用文檔】doc_第1頁(yè)
胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)【實(shí)用文檔】doc_第2頁(yè)
胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)【實(shí)用文檔】doc_第3頁(yè)
胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)【實(shí)用文檔】doc_第4頁(yè)
胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)【實(shí)用文檔】doc_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)【實(shí)用文檔】doc文檔可直接使用可編輯,歡迎下載

胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)【實(shí)用文檔】doc文檔可直接使用可編輯,歡迎下載胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)徐長(zhǎng)久(中鐵十九局集團(tuán)工程經(jīng)營(yíng)部,北京100176)摘要:胡麻嶺隧道3#,4#斜井和隧道正洞區(qū)段穿越第三系弱膠結(jié)粉細(xì)砂巖,由于地層巖性軟,地下水豐富,施工中涌水,流砂,掌子面泥化現(xiàn)象明顯,施工難度極大.介紹了施工中所采用的降水,圍巖加固,加強(qiáng)支護(hù)等措施和方法,有效保證了工期和施工質(zhì)量。施工經(jīng)驗(yàn)可供同類工程參考.關(guān)鍵詞:隧道施工;第三系粉細(xì)砂巖;二次支護(hù);水平旋噴樁;帷幕注漿中圖分類號(hào):U455。49文獻(xiàn)標(biāo)識(shí)碼:B文章編號(hào):1672—3953(2021)O6—0055—041工程概況新建蘭州至重慶鐵路LYS—1標(biāo)段胡麻嶺隧道全長(zhǎng)13611m,進(jìn),出口里程DK68+626,DK82+237,隧道最大埋深295m.除隧道進(jìn)口936。95m位于R一6000m的曲線上,洞身2106。05m位于R一5000m的曲線上及出口724。9m位于R一5000m的曲線上外,其余地段均在直線上.隧道內(nèi)線路7974m位于縱坡為8‰,2500m位于縱坡為12.8‰,2390m位于縱坡為13g0及744m位于縱坡為12。8‰的單面上坡段上.隧道洞身地表主要為第四系全新統(tǒng)沖積砂質(zhì)黃土和粗圓礫土;第四系上更新統(tǒng)風(fēng)積砂質(zhì)黃土;下伏基巖主要有上第三系砂巖,泥巖;下第三系礫巖,砂巖,泥巖;白堊系下統(tǒng)砂巖,泥巖等.其中DK75+800DK79+600長(zhǎng)3800m一段圍巖以第三系粉細(xì)砂巖為主,3#和4#斜井就處在這種地層中。這種地層巖性軟,巖質(zhì)疏松,成巖作用差,遇水易泥化,穩(wěn)定性很差,屬極軟巖.當(dāng)粉細(xì)砂巖不含水或含水率較低時(shí),圍巖級(jí)別為V級(jí)圍巖,當(dāng)?shù)叵滤l(fā)育或含水率較高時(shí),泥化現(xiàn)象明顯,粉細(xì)砂巖多呈泥狀,基底有滲水時(shí)被浸泡成淤泥,拱部及邊墻塌落掉塊均很嚴(yán)重,圍巖級(jí)別為?級(jí)圍巖。隧道洞頂山體沖溝發(fā)育,溝床縱坡較大,但匯水面積較小,雖然隧道洞身山體內(nèi)各沖溝未見有常年流水,但雨后各沖溝內(nèi)洪水都比較大。隧道地下水類型為第四系松散殘積物孑L隙潛水和基巖裂隙水,收稿日期:2021—09-09作者簡(jiǎn)介:徐長(zhǎng)久(1966一),男,高級(jí)工程師,1990年畢業(yè)于石家莊鐵道學(xué)院工業(yè)與民用建筑專業(yè),主要從事土木工程施工管理工作基巖裂隙水主要為構(gòu)造裂隙水和風(fēng)化裂隙水。預(yù)測(cè)隧道最大涌水量為Q一8951m。/d。2施工狀況及存在問(wèn)題2。1當(dāng)時(shí)施工狀況胡麻嶺隧道自2021年2月開工,截至2021年8月,全隧道僅完成2660m正洞進(jìn)尺,而位于第三系粉細(xì)砂巖段中的東古路(3#)斜井工區(qū)和歇地山(4#)斜井工區(qū),施工進(jìn)度緩慢,工期嚴(yán)重滯后,當(dāng)時(shí)兩個(gè)工區(qū)的情況如下:(1)東古路(3#)斜井工區(qū).3#斜井長(zhǎng)770m。當(dāng)洞身開挖至X5+90時(shí)拱腳開始有滲水現(xiàn)象,至X5+60時(shí)滲水范圍擴(kuò)大到拱腰,出水點(diǎn)分布不均,出水量約150~200rn。/d,掌子面前有積水,經(jīng)施工擾動(dòng)后基底泥化,圍巖變形嚴(yán)重,掌子面和側(cè)墻下部穩(wěn)定性差,施工中發(fā)生多次塌方,施工進(jìn)度緩慢。截止到2021年8月,17個(gè)月才累計(jì)掘進(jìn)了594rn,進(jìn)入第三系粉細(xì)砂巖圍巖段后,每月只能進(jìn)14~181TI.(2)歇地山(4#)斜井工區(qū)。4#斜井長(zhǎng)664m.當(dāng)洞身開挖至X2+92時(shí),掌子面開始滲水,地層受水浸泡,基底擾動(dòng)后軟化,圍巖收斂嚴(yán)重,掌子面及側(cè)墻下部穩(wěn)定性差,施工至X1+05,X0+98段地下水出水量約為150~2001TI。/d,掌子面前有積水,拱部下沉量達(dá)1。2m(見圖1),施工進(jìn)度緩慢。2.2存在問(wèn)題(1)圍巖第三系粉細(xì)砂巖地層成巖性差,遇水易軟化,掌子面泥化現(xiàn)象明顯(見圖2),基底呈稀糊狀,隧道變形大,支護(hù)破壞乃至坍塌,施工進(jìn)度緩慢,施工難度大,安全風(fēng)險(xiǎn)極高,工期嚴(yán)重滯后.(2)拱腳開挖時(shí)砂子隨著滲水流出,造成拱架背后脫空,兩側(cè)邊墻易垮塌,斜井下半部斷面拱架接腿國(guó)防交通工程與技術(shù)_201l第6期?成果與應(yīng)用?胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)徐長(zhǎng)久圖1X0+98拱部下沉圖2掌子面泥化現(xiàn)象難度極大.由于鋼架多次連接施工擾動(dòng)大,鋼架不能及時(shí)封閉.(3)斜井拱頂下沉及收斂變形較大,單車道斜井?dāng)嗝骈_挖過(guò)程中需要加設(shè)橫撐[1.和臨時(shí)仰拱來(lái)控制變形(見圖3);已支護(hù)地段變形不穩(wěn)定,伴有噴混凝土剝落,鋼架扭曲現(xiàn)象發(fā)生.一圖3斜井施作橫撐(4)受裂隙水浸泡后掌子面縱向穩(wěn)定性較差,上半斷面開挖中需要采用噴混凝土及時(shí)封閉掌子面和增設(shè)超前小導(dǎo)管等保護(hù)措施,基底開挖時(shí),需設(shè)排樁防護(hù)(見圖4)。圖4排樁防護(hù)照片3施工對(duì)策根據(jù)現(xiàn)場(chǎng)實(shí)際情況,經(jīng)各方多次研討后決定,對(duì)3#和4#斜井施工采取以下加強(qiáng)措施:(1)對(duì)斜井?dāng)嗝孢M(jìn)行優(yōu)化,采用曲墻帶仰拱斷面形式。施工過(guò)程中增大開挖預(yù)留沉降量50cm.(2)加強(qiáng)超前支護(hù)和初期支護(hù),必要時(shí)采用二次初期支護(hù)措施.(3)采取集中排水和井點(diǎn)降水的措施降低掌子面水位。(4)基底加深0.5m,用混凝土干拌料換填,并用噴混凝土快速封閉.(5)增設(shè)5號(hào)斜井(700m),6號(hào)斜井(480m),8號(hào)斜井(450m)和7號(hào)豎井,增加工作面,加快整個(gè)隧道的施工進(jìn)度.43#和4#斜井增設(shè)二次支護(hù)措施及施工方法3#和4#斜井(圍巖為V級(jí))施工中采取了增強(qiáng)二次支護(hù)等措施及施工方法:(1)超前支護(hù).拱部設(shè)置Q42mm小導(dǎo)管預(yù)注漿,長(zhǎng)4m,間距0。2m;3#斜井施工中邊墻開挖輪廓設(shè)置[—14a槽鋼插板長(zhǎng)1m,間距0.2,O。3m,其規(guī)格見圖5。4#斜井施工中,拱墻開挖輪廓線周邊及斷面中部設(shè)置樁徑為60cm的水平旋噴樁。水平旋噴樁開挖輪廓線上的樁間距為40cm,互相咬合10cm,樁長(zhǎng)15m,搭接長(zhǎng)度5m,拱部180。范圍內(nèi)外插坡度3.注入漿液為水泥漿,水灰比0。6:1,1:1,漿液注入量70L/m,旋噴壓力35MPa,旋轉(zhuǎn)速度15,20r/min,退桿速度15,30cm/min。旋噴樁體膠結(jié)硬化以后強(qiáng)度可以達(dá)到0.5,8MPa.水平旋噴樁具有梁的效應(yīng)和土體改良加強(qiáng)效應(yīng),能夠起到防流沙,抗滑移,防滲透的作用,保證隧道掘進(jìn)安全。水平旋噴樁布置詳見圖6。(2)掌子面加固采用全斷面帷幕注漿,止?jié){墻厚1.5m,施作帷幕注漿墻時(shí)應(yīng)設(shè)置泄水度為1.2,孑L。帷幕注漿掌子面加固布置見圖7。全斷面帷幕注漿參數(shù):加固范圍,開挖輪廓線外3m,擴(kuò)散半徑2m,注漿孑L直徑110mm,鉆孔深度31m。注漿材料為水泥一水玻璃雙漿液,水泥漿配合比0。6:1,水玻璃濃度為30~35。Be,體積比1:0。3,l:0。5,圖5槽鋼插板規(guī)格圖(單位:mm)國(guó)防交通工程與技術(shù)圇2o1l第6期?成果與應(yīng)用?胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)徐長(zhǎng)久【每循環(huán)開挖搭接長(zhǎng)度51—/:二次襯砌掌子面噴混凝土J盈霉日一,,旋噴樁NN(Ig/I~5cl疆麓臨時(shí)鉆機(jī)平臺(tái),磁緩臻二次襯砌并設(shè)置棧橋…,,,……暫’初期支護(hù)…………I………I……I…II噴長(zhǎng)度11Ill圖64#斜井全斷面旋噴樁布置正面和縱斷面(單位:cm)注漿固結(jié)外緣線/一線位{/顰一======,一——一—--,一—-_一?三======r一-___-一J××0C0卜t"Nj[蘭::=?!?——,——-,======-—,,,——-,L800600【600L1000圖73#和4#斜井(雙車道段)帷幕注漿正面圖和剖面圖(單位:cm)注漿速度50,110L/min,注漿終壓6,7MPa。(3)初期支護(hù).全環(huán)噴C25混凝土,厚25cm.拱部Q22mm組合中空錨桿,長(zhǎng)3m,邊墻Q22mm砂漿錨桿,長(zhǎng)3m,間距均為1.0in×1。0rn;設(shè)置8根Q42mm鎖腳錨管,長(zhǎng)4.5m;Q6mm鋼筋網(wǎng),網(wǎng)孔間距20cm×20cm;全環(huán)I20b型鋼架,間距0。5rn,設(shè)置縱向E32a槽鋼托梁,并設(shè)置35cm×35cm×15cm的混凝土墊塊;縱向連接筋為22mm螺紋鋼筋,"Z”字型連接,環(huán)向間距1。0m.(4)二次支護(hù)(必要時(shí)設(shè))。全環(huán)噴C25混凝土,厚20cm;鋼架為全環(huán)I16型鋼,間距0。5rn,設(shè)置縱向[-32a槽鋼托梁,并設(shè)置35cm×35cm×15cm的混凝土墊塊;縱向連接筋為22mm螺紋鋼筋,”Z"字型連接,環(huán)向間距1。0m.(5)仰拱部分的二次支護(hù)要在一次支護(hù)仰拱施作的同時(shí)做完,拱墻預(yù)留二次支護(hù)空間,根據(jù)變形情況及時(shí)增設(shè)二次支護(hù),并與仰拱二次支護(hù)封閉成環(huán).二次支護(hù)鋼架與初期支護(hù)鋼架交錯(cuò)布置.(6)基底擾動(dòng)段采用井點(diǎn)降水疏干基底地下水,同時(shí)采用濾網(wǎng)積水坑抽取匯集水.(7)基底換填50cm的混凝土干拌料。(8)采用臺(tái)階法施工,單工序作業(yè),快挖快支,用5cm的C25噴混凝土封閉掌子面.堅(jiān)持"管超前,強(qiáng)支護(hù),短進(jìn)尺,早封閉,勤量測(cè)"的施工原則,堅(jiān)持快挖快支,確保施工安全.5正洞支護(hù)措施及施工方法第三系粉細(xì)砂巖圍巖段正洞施工中采取了下列增強(qiáng)二次支護(hù)等支護(hù)加強(qiáng)措施及施工方法:(1)圍巖分級(jí)為V級(jí);預(yù)留變形量35cm。(2)超前支護(hù)。拱部Q89mm超前管棚,長(zhǎng)10,15rn,間距0。4ITI;拱墻設(shè)置Q42mm小導(dǎo)管預(yù)注漿,長(zhǎng)4m,間距0。4In。(3)掌子面加固采用全斷面帷幕注漿,止?jié){墻厚度為1.2,1.5rn,施作帷幕注漿墻時(shí)應(yīng)設(shè)置泄水孔.(4)初期支護(hù).全環(huán)噴33cm厚C25混凝土;系統(tǒng)錨桿拱部采用Q22mm組合中空錨桿,長(zhǎng)41TI,邊墻采用Q22mm砂漿錨桿,長(zhǎng)4m,間距1.2m×1.0m;接頭部位設(shè)置16根Q42mm鎖腳錨管,長(zhǎng)為4。5m;Q8mm鋼筋網(wǎng),網(wǎng)孔間距20cm×20cm;全環(huán)I25b型鋼架,問(wèn)距0。5In,鋼架設(shè)置縱向E32a槽鋼托梁,并設(shè)置35cm×35cm×15cm的混凝土墊塊;縱向連接筋采用Q22mm螺紋鋼筋,"Z"字型連接,環(huán)向間距1.0m.(5)二次支護(hù)(必要時(shí)設(shè))。全環(huán)噴20cm厚C25混凝土;鋼架為全環(huán)I16型,間距0.5m,設(shè)置縱向[-32a槽鋼托梁,并設(shè)置35cm×35ciTIX15cm的混凝土墊塊;縱向連接筋為Q22mm螺紋鋼筋,"Z"國(guó)防交通工程與技術(shù)囫2021第6期?成果與應(yīng)用?胡麻嶺隧道第三系粉細(xì)砂巖段施工關(guān)鍵技術(shù)徐長(zhǎng)久字型連接,環(huán)向間距1。0m.(6)基底擾動(dòng)段采用井點(diǎn)降水疏干基底地下水,同時(shí)采用濾網(wǎng)積水坑抽取匯集水。(7)基底處理采用50cm的混凝土干拌料。(8)采用臺(tái)階法施工,并輔以臨時(shí)仰拱和立柱,快挖快支,施工時(shí)應(yīng)采用5cm的C25噴混凝土封閉掌子面.6施工注意事項(xiàng)(1)隧道開挖過(guò)程中要盡量減小施工對(duì)原始巖層的干擾,減輕圍巖泥化。(2)隧道開挖后立即進(jìn)行初噴,及時(shí)封閉巖面,防止圍巖風(fēng)化.(3)鋼架接頭處是受力的薄弱環(huán)節(jié),要做好鋼架聯(lián)接和鎖腳錨管。(4)加強(qiáng)井點(diǎn)降水,加快隧道排水,盡量減小水對(duì)圍巖的影響。(5)施工中要強(qiáng)調(diào)一個(gè)"快”字,即快開挖,快支護(hù),快封閉。”快支護(hù)”要求開挖后及時(shí)封閉暴露面,盡快施作錨網(wǎng)噴等支護(hù)措施,防止砂巖長(zhǎng)時(shí)間暴露,過(guò)快泥化的情況發(fā)生。"快封閉”要求支護(hù)結(jié)構(gòu)在最短的時(shí)間發(fā)揮最有效的作用,支護(hù)盡快成環(huán),仰拱和拱墻襯砌施工緊跟.施工中要貫徹一個(gè)"快"字,不得中途停工.(6)做好監(jiān)控量測(cè)及資料的分析工作,根據(jù)變形情況及時(shí)采取措施,防止初支變形侵限.監(jiān)控量測(cè)中縱向量測(cè)斷面間距按5in?布置;每個(gè)量測(cè)斷面設(shè)拱頂沉降點(diǎn)1處,水平測(cè)線兩條,分別位于上臺(tái)階和中臺(tái)階,開挖后立即布設(shè)測(cè)點(diǎn),不允許滯后布點(diǎn);量測(cè)頻率按1,2次/d,可以根據(jù)圍巖情況適當(dāng)加密;量測(cè)數(shù)據(jù)要及時(shí)進(jìn)行整理和分析,發(fā)現(xiàn)異常立即采取果斷措施,并上報(bào)建設(shè),監(jiān)理單位.(7)施工時(shí),在基底設(shè)置舟曲泥石流搶險(xiǎn)中所用過(guò)的大型平板棧橋,以減少施工對(duì)基底的擾動(dòng).(8)施工中要加強(qiáng)開挖面的地質(zhì)素描和綜合施工超前地質(zhì)預(yù)測(cè)預(yù)報(bào)工作,根據(jù)地質(zhì),水文條件的變化及時(shí)調(diào)整施工方法和采取相應(yīng)的措施,確保施工安全。(9)胡麻嶺隧道為高風(fēng)險(xiǎn)隧道,施工時(shí)應(yīng)加強(qiáng)現(xiàn)場(chǎng)施工管理和做好應(yīng)急預(yù)案,并嚴(yán)格按照《鐵路隧道施工前線救援指導(dǎo)意見》相關(guān)要求辦理。7施工效果采取了文中所述的種種措施和方法以后,圍巖泥化現(xiàn)象大大減輕,施工安全有了保證,施工進(jìn)度大有提高.2021年初3#和4#斜井順利完工,現(xiàn)在都已進(jìn)入正洞施工.參考文獻(xiàn)[1]中華人民共和國(guó)鐵道部.TB142002鐵道隧道施工規(guī)范Es].北京:中國(guó)鐵道出版社,2002E2]鐵道部第二工程局.鐵路工程施工技術(shù)手冊(cè):隧道[M]。北京:中國(guó)鐵道出版社,1995E3]關(guān)寶樹。隧道工程施工要點(diǎn)EM]。北京:人民交通出版社,2003KeyTechniquesfortheConstructionofthe3rdSystemFine—PowderedSandyRockSectionoftheHumalingTunnelXuChan~iu(TheManagingDepartmentofthe19thBureauGroupoftheRailwayBuildingCorporationofChina,Beijing100176,China)Abstract:ThethirdandfourthobliqueshaftsandthesectionofthemainbodyoftheHumalingTunnelgothroughthethirdsystemunder-cementedfine—powderedsandyrockstratum,wheretherockofthestratumissoftandundergroundwaterisrich,owingtowhichgushofundergroundwaterandflowingsandarisehereandthere,andtheslurryingphenomenonoftheworkfaceisobvious。whichmaketheconstructionextremelydifficult.Introducedinthepaperaretechnicalmeasuresandmethodsre—latedtodrainingundergroundwater,solidifyingthesurroundingrockandstrengtheningthesupport,etc:,allofwhichhelpen-suretheconstructiondurationandquality。Theexperienceoftheprojectmayserveasausefulreferenceforotherprojectsofthesametype.Keywords:constructionoftunnels;third—systemfinesandyrock;secondarysupport;level—swivel-sprayedpile;heavy—curtainjet—ting國(guó)防交通工程與技術(shù)圇2o1l第6期4大數(shù)據(jù)參考架構(gòu)和關(guān)鍵技術(shù)4.1大數(shù)據(jù)參考架構(gòu)大數(shù)據(jù)作為一種新興技術(shù),目前尚未形成完善、達(dá)成共識(shí)的技術(shù)標(biāo)準(zhǔn)體系。本章結(jié)合NIST和JTC1/SC32的研究成果,結(jié)合我們對(duì)大數(shù)據(jù)的理解和分析,提出了大數(shù)據(jù)參考架構(gòu)(見圖5)。圖5大數(shù)據(jù)參考架構(gòu)圖大數(shù)據(jù)參考架構(gòu)總體上可以概括為“一個(gè)概念體系,二個(gè)價(jià)值鏈維度”?!耙粋€(gè)概念體系”是指它為大數(shù)據(jù)參考架構(gòu)中使用的概念提供了一個(gè)構(gòu)件層級(jí)分類體系,即“角色—活動(dòng)—功能組件”,用于描述參考架構(gòu)中的邏輯構(gòu)件及其關(guān)系;“二個(gè)價(jià)值鏈維度”分別為“IT價(jià)值鏈”和“信息價(jià)值鏈”,其中“IT價(jià)值鏈”反映的是大數(shù)據(jù)作為一種新興的數(shù)據(jù)應(yīng)用范式對(duì)IT技術(shù)產(chǎn)生的新需求所帶來(lái)的價(jià)值,“信息價(jià)值鏈”反映的是大數(shù)據(jù)作為一種數(shù)據(jù)科學(xué)方法論對(duì)數(shù)據(jù)到知識(shí)的處理過(guò)程中所實(shí)現(xiàn)的信息流價(jià)值。這些內(nèi)涵在大數(shù)據(jù)參考模型圖中得到了體現(xiàn)。大數(shù)據(jù)參考架構(gòu)是一個(gè)通用的大數(shù)據(jù)系統(tǒng)概念模型。它表示了通用的、技術(shù)無(wú)關(guān)的大數(shù)據(jù)系統(tǒng)的邏輯功能構(gòu)件及構(gòu)件之間的互操作接口,可以作為開發(fā)各種具體類型大數(shù)據(jù)應(yīng)用系統(tǒng)架構(gòu)的通用技術(shù)參考框架。其目標(biāo)是建立一個(gè)開放的大數(shù)據(jù)技術(shù)參考架構(gòu),使系統(tǒng)工程師、數(shù)據(jù)科學(xué)家、軟件開發(fā)人員、數(shù)據(jù)架構(gòu)師和高級(jí)決策者,能夠在可以互操作的大數(shù)據(jù)生態(tài)系統(tǒng)中制定一個(gè)解決方案,解決由各種大數(shù)據(jù)特征融合而帶來(lái)的需要使用多種方法的問(wèn)題。它提供了一個(gè)通用的大數(shù)據(jù)應(yīng)用系統(tǒng)框架,支持各種商業(yè)環(huán)境,包括緊密集成的企業(yè)系統(tǒng)和松散耦合的垂直行業(yè),有助于理解大數(shù)據(jù)系統(tǒng)如何補(bǔ)充并有別于已有的分析、商業(yè)智能、數(shù)據(jù)庫(kù)等傳統(tǒng)的數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)參考架構(gòu)采用構(gòu)件層級(jí)結(jié)構(gòu)來(lái)表達(dá)大數(shù)據(jù)系統(tǒng)的高層概念和通用的構(gòu)件分類法。從構(gòu)成上看,大數(shù)據(jù)參考架構(gòu)是由一系列在不同概念層級(jí)上的邏輯構(gòu)件組成的。這些邏輯構(gòu)件被劃分為三個(gè)層級(jí),從高到低依次為角色、活動(dòng)和功能組件。最頂層級(jí)的邏輯構(gòu)件是角色,包括系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、數(shù)據(jù)消費(fèi)者、安全和隱私、管理。第二層級(jí)的邏輯構(gòu)件是每個(gè)角色執(zhí)行的活動(dòng)。第三層級(jí)的邏輯構(gòu)件是執(zhí)行每個(gè)活動(dòng)需要的功能組件。大數(shù)據(jù)參考架構(gòu)圖的整體布局按照代表大數(shù)據(jù)價(jià)值鏈的兩個(gè)維度來(lái)組織,即信息價(jià)值鏈(水平軸)和IT價(jià)值鏈(垂直軸)。在信息價(jià)值鏈維度上,大數(shù)據(jù)的價(jià)值通過(guò)數(shù)據(jù)的收集、預(yù)處理、分析、可視化和訪問(wèn)等活動(dòng)來(lái)實(shí)現(xiàn)。在IT價(jià)值鏈維度上,大數(shù)據(jù)價(jià)值通過(guò)為大數(shù)據(jù)應(yīng)用提供存放和運(yùn)行大數(shù)據(jù)的網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺(tái)、應(yīng)用工具以及其他IT服務(wù)來(lái)實(shí)現(xiàn)。大數(shù)據(jù)應(yīng)用提供者處在兩個(gè)維的交叉點(diǎn)上,表明大數(shù)據(jù)分析及其實(shí)施為兩個(gè)價(jià)值鏈上的大數(shù)據(jù)利益相關(guān)者提供了價(jià)值。五個(gè)主要的模型構(gòu)件代表在每個(gè)大數(shù)據(jù)系統(tǒng)中存在的不同技術(shù)角色:系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者和數(shù)據(jù)消費(fèi)者。另外兩個(gè)非常重要的模型構(gòu)件是安全隱私與管理,代表能為大數(shù)據(jù)系統(tǒng)其他五個(gè)主要模型構(gòu)件提供服務(wù)和功能的構(gòu)件。這兩個(gè)關(guān)鍵模型構(gòu)件的功能極其重要,因此也被集成在任何大數(shù)據(jù)解決方案中。參考架構(gòu)可以用于多個(gè)大數(shù)據(jù)系統(tǒng)組成的復(fù)雜系統(tǒng)(如堆疊式或鏈?zhǔn)较到y(tǒng)),這樣其中一個(gè)系統(tǒng)的大數(shù)據(jù)使用者可以作為另外一個(gè)系統(tǒng)的大數(shù)據(jù)提供者。參考架構(gòu)邏輯構(gòu)件之間的關(guān)系用箭頭表示,包括三類關(guān)系:“數(shù)據(jù)”、“軟件”和“服務(wù)使用”。“數(shù)據(jù)”表明在系統(tǒng)主要構(gòu)件之間流動(dòng)的數(shù)據(jù),可以是實(shí)際數(shù)值或引用地址?!败浖北砻髟诖髷?shù)據(jù)處理過(guò)程中的支撐軟件工具?!胺?wù)使用”代表軟件程序接口。雖然此參考架構(gòu)主要用于描述大數(shù)據(jù)實(shí)時(shí)運(yùn)行環(huán)境,但也可用于配置階段。大數(shù)據(jù)系統(tǒng)中涉及的人工協(xié)議和人工交互沒有被包含在此參考架構(gòu)中。(1)系統(tǒng)協(xié)調(diào)者系統(tǒng)協(xié)調(diào)者角色提供系統(tǒng)必須滿足的整體要求,包括政策、治理、架構(gòu)、資源和業(yè)務(wù)需求,以及為確保系統(tǒng)符合這些需求而進(jìn)行的監(jiān)控和審計(jì)活動(dòng)。系統(tǒng)協(xié)調(diào)者角色的扮演者包括業(yè)務(wù)領(lǐng)導(dǎo)、咨詢師、數(shù)據(jù)科學(xué)家、信息架構(gòu)師、軟件架構(gòu)師、安全和隱私架構(gòu)師、網(wǎng)絡(luò)架構(gòu)師等。系統(tǒng)協(xié)調(diào)者定義和整合所需的數(shù)據(jù)應(yīng)用活動(dòng)到運(yùn)行的垂直系統(tǒng)中。系統(tǒng)協(xié)調(diào)者通常會(huì)涉及到更多具體角色,由一個(gè)或多個(gè)角色扮演者管理和協(xié)調(diào)大數(shù)據(jù)系統(tǒng)的運(yùn)行。這些角色扮演者可以是人,軟件或二者的結(jié)合。系統(tǒng)協(xié)調(diào)者的功能是配置和管理大數(shù)據(jù)架構(gòu)的其他組件,來(lái)執(zhí)行一個(gè)或多個(gè)工作負(fù)載。這些由系統(tǒng)協(xié)調(diào)者管理的工作負(fù)載,在較低層可以是把框架組件分配或調(diào)配到個(gè)別物理或虛擬節(jié)點(diǎn)上,在較高層可以是提供一個(gè)圖形用戶界面來(lái)支持連接多個(gè)應(yīng)用程序和組件的工作流規(guī)范。系統(tǒng)協(xié)調(diào)者也可以通過(guò)管理角色監(jiān)控工作負(fù)載和系統(tǒng),以確認(rèn)每個(gè)工作負(fù)載都達(dá)到了特定的服務(wù)質(zhì)量要求,還可能彈性地分配和提供額外的物理或虛擬資源,以滿足由變化/激增的數(shù)據(jù)或用戶/交易數(shù)量而帶來(lái)的工作負(fù)載需求。(2)數(shù)據(jù)提供者數(shù)據(jù)提供者角色為大數(shù)據(jù)系統(tǒng)提供可用的數(shù)據(jù)。數(shù)據(jù)提供者角色的扮演者包括企業(yè)、公共代理機(jī)構(gòu)、研究人員和科學(xué)家、搜索引擎、Web/FTP和其他應(yīng)用、網(wǎng)絡(luò)運(yùn)營(yíng)商、終端用戶等。在一個(gè)大數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)提供者的活動(dòng)通常包括采集數(shù)據(jù)、持久化數(shù)據(jù)、對(duì)敏感信息進(jìn)行轉(zhuǎn)換和清洗、創(chuàng)建數(shù)據(jù)源的元數(shù)據(jù)及訪問(wèn)策略、訪問(wèn)控制、通過(guò)軟件的可編程接口接口實(shí)現(xiàn)推或拉式的數(shù)據(jù)訪問(wèn)、發(fā)布數(shù)據(jù)可用及訪問(wèn)方法的信息等。數(shù)據(jù)提供者通常需要為各種數(shù)據(jù)源(原始數(shù)據(jù)或由其它系統(tǒng)預(yù)先轉(zhuǎn)換的數(shù)據(jù))創(chuàng)建一個(gè)抽象的數(shù)據(jù)源,通過(guò)不同的接口提供發(fā)現(xiàn)和訪問(wèn)數(shù)據(jù)功能。這些接口通常包括一個(gè)注冊(cè)表,使得大數(shù)據(jù)應(yīng)用程序能夠找到數(shù)據(jù)提供者、確定包含感興趣的數(shù)據(jù)、理解允許訪問(wèn)的類型、了解所支持的分析類型、定位數(shù)據(jù)源、確定數(shù)據(jù)訪問(wèn)方法、識(shí)別數(shù)據(jù)安全要求、識(shí)別數(shù)據(jù)保密要求以及其他相關(guān)信息。因此,該接口將提供注冊(cè)數(shù)據(jù)源、查詢注冊(cè)表、識(shí)別注冊(cè)表中包含標(biāo)準(zhǔn)數(shù)據(jù)集等功能。針對(duì)大數(shù)據(jù)的4V特性和系統(tǒng)設(shè)計(jì)方面的考慮,暴露和訪問(wèn)數(shù)據(jù)的接口需要根據(jù)變化的復(fù)雜性采用推和拉兩種軟件機(jī)制。這兩種軟件機(jī)制包括訂閱事件、監(jiān)聽數(shù)據(jù)饋送、查詢特定數(shù)據(jù)屬性或內(nèi)容,以及提交一段代碼來(lái)執(zhí)行數(shù)據(jù)處理功能。由于需要考慮大數(shù)據(jù)量跨網(wǎng)絡(luò)移動(dòng)的經(jīng)濟(jì)性,接口還可以允許提交分析請(qǐng)求(例如,執(zhí)行一段實(shí)現(xiàn)特定算法的軟件代碼),只把結(jié)果返回給請(qǐng)求者。數(shù)據(jù)訪問(wèn)可能不總是自動(dòng)進(jìn)行,可以讓人類角色登錄到系統(tǒng)提供新數(shù)據(jù)應(yīng)傳送的方式(例如,基于數(shù)據(jù)饋送建立訂閱電子郵件)。(3)大數(shù)據(jù)應(yīng)用提供者大數(shù)據(jù)應(yīng)用提供者在數(shù)據(jù)的生命周期中執(zhí)行一系列操作,以滿足系統(tǒng)協(xié)調(diào)者建立的系統(tǒng)要求及安全和隱私要求。大數(shù)據(jù)應(yīng)用提供者通過(guò)把大數(shù)據(jù)框架中的一般性資源和服務(wù)能力相結(jié)合,把業(yè)務(wù)邏輯和功能封裝成架構(gòu)組件,構(gòu)造出特定的大數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)應(yīng)用提供者角色的扮演者包括應(yīng)用程序?qū)<?、平臺(tái)專家、咨詢師等。大數(shù)據(jù)應(yīng)用提供者角色執(zhí)行的活動(dòng)包括數(shù)據(jù)的收集、預(yù)處理、分析、可視化和訪問(wèn)。大數(shù)據(jù)應(yīng)用程序提供者可以是單個(gè)實(shí)例,也可以是一組更細(xì)粒度大數(shù)據(jù)應(yīng)用提供者實(shí)例的集合,集合中的每個(gè)實(shí)例執(zhí)行數(shù)據(jù)生命周期中的不同活動(dòng)。每個(gè)大數(shù)據(jù)應(yīng)用提供者的活動(dòng)可能是由系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者或數(shù)據(jù)消費(fèi)者調(diào)用的一般服務(wù),如Web服務(wù)器、文件服務(wù)器、一個(gè)或多個(gè)應(yīng)用程序的集合或組合。每個(gè)活動(dòng)可以由多個(gè)不同實(shí)例執(zhí)行,或者單個(gè)程序也可能執(zhí)行多個(gè)活動(dòng)。每個(gè)活動(dòng)都能夠與大數(shù)據(jù)框架提供者、數(shù)據(jù)提供者以及數(shù)據(jù)消費(fèi)者交互。這些活動(dòng)可以并行執(zhí)行,也可以按照任意的數(shù)字順序執(zhí)行,活動(dòng)之間經(jīng)常需要通過(guò)大數(shù)據(jù)框架提供者的消息和通信框架進(jìn)行通信。大數(shù)據(jù)應(yīng)用提供者執(zhí)行的活動(dòng)和功能,特別是數(shù)據(jù)收集和數(shù)據(jù)訪問(wèn)活動(dòng),需要與安全和隱私角色進(jìn)行交互,執(zhí)行認(rèn)證/授權(quán)并記錄或維護(hù)數(shù)據(jù)的出處。收集活動(dòng)用于處理與數(shù)據(jù)提供者的接口。它可以是一般服務(wù),如由系統(tǒng)協(xié)調(diào)者配置的用于接收或執(zhí)行數(shù)據(jù)收集任務(wù)的文件服務(wù)器或Web服務(wù)器;也可以是特定于應(yīng)用的服務(wù),如用來(lái)從數(shù)據(jù)提供者拉數(shù)據(jù)或接收數(shù)據(jù)提供者推送數(shù)據(jù)的服務(wù)。收集活動(dòng)執(zhí)行的任務(wù)類似于ETL的抽?。╡xtraction)環(huán)節(jié)。收集活動(dòng)接收到的數(shù)據(jù)通常需要大數(shù)據(jù)框架提供者的處理框架來(lái)執(zhí)行內(nèi)存隊(duì)列緩存或其他數(shù)據(jù)持久化服務(wù)。預(yù)處理活動(dòng)執(zhí)行的任務(wù)類似于ETL的轉(zhuǎn)換(transformation)環(huán)節(jié),包括數(shù)據(jù)驗(yàn)證、清洗、去除異常值、標(biāo)準(zhǔn)化、格式化或封裝。預(yù)處理活動(dòng)也是大數(shù)據(jù)框架提供者歸檔存儲(chǔ)的數(shù)據(jù)來(lái)源,這些數(shù)據(jù)的出處信息一般也要被驗(yàn)證并附加到數(shù)據(jù)存儲(chǔ)中。預(yù)處理活動(dòng)也可能聚集來(lái)自不同的數(shù)據(jù)提供者的數(shù)據(jù),利用元數(shù)據(jù)鍵來(lái)創(chuàng)建一個(gè)擴(kuò)展的和增強(qiáng)的數(shù)據(jù)集。分析活動(dòng)的任務(wù)是實(shí)現(xiàn)從數(shù)據(jù)中提取出知識(shí)。這需要有特定的數(shù)據(jù)處理算法對(duì)數(shù)據(jù)進(jìn)行處理,以便從數(shù)據(jù)中得出能夠解決技術(shù)目標(biāo)的新洞察。分析活動(dòng)包括對(duì)大數(shù)據(jù)系統(tǒng)低級(jí)別的業(yè)務(wù)邏輯進(jìn)行編碼(更高級(jí)別的業(yè)務(wù)流程邏輯由系統(tǒng)協(xié)調(diào)者進(jìn)行編碼),它利用大數(shù)據(jù)框架提供者的處理框架來(lái)實(shí)現(xiàn)這些關(guān)聯(lián)的邏輯,通常會(huì)涉及到在批處理或流處理組件上實(shí)現(xiàn)分析邏輯的軟件。分析活動(dòng)還可以使用大數(shù)據(jù)框架提供者的消息和通信框架在應(yīng)用邏輯中傳遞數(shù)據(jù)和控制功能??梢暬顒?dòng)的任務(wù)是將分析活動(dòng)結(jié)果以最利于溝通和理解知識(shí)的方式展現(xiàn)給數(shù)據(jù)消費(fèi)者??梢暬墓δ馨ㄉ苫谖谋镜膱?bào)告或者以圖形方式渲染分析結(jié)果??梢暬慕Y(jié)果可以是靜態(tài)的,存儲(chǔ)在大數(shù)據(jù)框架提供者中供以后訪問(wèn)。更多的情況下,可視化活動(dòng)經(jīng)常要與數(shù)據(jù)消費(fèi)者、大數(shù)據(jù)分析活動(dòng)以及大數(shù)據(jù)提供者的處理框架和平臺(tái)進(jìn)行交互,這就需要基于數(shù)據(jù)消費(fèi)者設(shè)置的數(shù)據(jù)訪問(wèn)參數(shù)來(lái)提供交互式可視化手段。可視化活動(dòng)可以完全由應(yīng)用程序?qū)崿F(xiàn),也可以使用大數(shù)據(jù)框架提供者提供的專門的可視化處理框架實(shí)現(xiàn)。訪問(wèn)活動(dòng)主要集中在與數(shù)據(jù)消費(fèi)者的通信和交互。與數(shù)據(jù)收集活動(dòng)類似,訪問(wèn)活動(dòng)可以是由系統(tǒng)協(xié)調(diào)者配置的一般服務(wù),如Web服務(wù)器或應(yīng)用服務(wù)器,用于接受數(shù)據(jù)消費(fèi)者請(qǐng)求。訪問(wèn)活動(dòng)還可以作為可視化活動(dòng)、分析活動(dòng)的界面來(lái)響應(yīng)數(shù)據(jù)消費(fèi)者的請(qǐng)求,并使用大數(shù)據(jù)框架提供者的處理框架和平臺(tái)來(lái)檢索數(shù)據(jù),向數(shù)據(jù)消費(fèi)者請(qǐng)求作出響應(yīng)。此外,訪問(wèn)活動(dòng)還要確保為數(shù)據(jù)消費(fèi)者提供描述性和管理性元數(shù)據(jù),并把這些元數(shù)據(jù)作為數(shù)據(jù)傳送給數(shù)據(jù)消費(fèi)者。訪問(wèn)活動(dòng)與數(shù)據(jù)消費(fèi)者的接口可以是同步或異步的,也可以使用拉或推軟件機(jī)制進(jìn)行數(shù)據(jù)傳輸。(4)大數(shù)據(jù)框架提供者大數(shù)據(jù)框架提供者角色為大數(shù)據(jù)應(yīng)用提供者在創(chuàng)建特定的大數(shù)據(jù)應(yīng)用系統(tǒng)時(shí)提供一般資源和服務(wù)能力。大數(shù)據(jù)框架提供者的角色扮演者包括數(shù)據(jù)中心、云提供商、自建服務(wù)器集群等。大數(shù)據(jù)框架提供者執(zhí)行的活動(dòng)和功能包括提供基礎(chǔ)設(shè)施(物理資源、虛擬資源)、數(shù)據(jù)平臺(tái)(文件存儲(chǔ)、索引存儲(chǔ))、處理框架(批處理、交互、流處理)、消息和通信框架、資源管理等。基礎(chǔ)設(shè)施為其他角色執(zhí)行活動(dòng)提供存放和運(yùn)行大數(shù)據(jù)系統(tǒng)所需要的資源。通常情況下,這些資源是物理資源的某種組合,用來(lái)支持相似的虛擬資源。資源一般可以分為網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)和環(huán)境。網(wǎng)絡(luò)資源負(fù)責(zé)數(shù)據(jù)在基礎(chǔ)設(shè)施組件之間的傳送;計(jì)算資源包括物理處理器和內(nèi)存,負(fù)責(zé)執(zhí)行和保持大數(shù)據(jù)系統(tǒng)其他組件的軟件;存儲(chǔ)資源為大數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)持久化能力;環(huán)境資源是在考慮建立大數(shù)據(jù)系統(tǒng)時(shí)需要的實(shí)體工廠資源,如供電、制冷等。數(shù)據(jù)平臺(tái)通過(guò)相關(guān)的應(yīng)用編程接口(API)或其他方式,提供數(shù)據(jù)的邏輯組織和分發(fā)服務(wù)。它也可能提供數(shù)據(jù)注冊(cè)、元數(shù)據(jù)以及語(yǔ)義數(shù)據(jù)描述等服務(wù)。邏輯數(shù)據(jù)組織的范圍涵蓋從簡(jiǎn)單的分隔符平面文件到完全分布式的關(guān)系存儲(chǔ)或列存儲(chǔ)。數(shù)據(jù)訪問(wèn)方式可以是文件存取API或查詢語(yǔ)言(如SQL)。通常情況下,實(shí)現(xiàn)的大數(shù)據(jù)系統(tǒng)既能支持任何基本的文件系統(tǒng)存儲(chǔ),也支持內(nèi)存存儲(chǔ)、索引文件存儲(chǔ)等方式。處理框架提供必要的基礎(chǔ)軟件以支持實(shí)現(xiàn)的應(yīng)用能夠處理具有4V特征的大數(shù)據(jù)。處理框架定義了數(shù)據(jù)的計(jì)算和處理是如何組織的。大數(shù)據(jù)應(yīng)用依賴于各種平臺(tái)和技術(shù),以應(yīng)對(duì)可擴(kuò)展的數(shù)據(jù)處理和分析的挑戰(zhàn)。處理框架一般可以分為批處理(batch)、流處理(streaming)和交互式(interactive)三種類型。消息和通信框架為可水平伸縮的集群的結(jié)點(diǎn)之間提供可靠隊(duì)列、傳輸、數(shù)據(jù)接收等功能。它通常有2種實(shí)現(xiàn)模式,即點(diǎn)對(duì)點(diǎn)(point-to-point)模式和存儲(chǔ)-轉(zhuǎn)發(fā)(store-and-forward)模式。點(diǎn)對(duì)點(diǎn)模式不考慮消息的恢復(fù)問(wèn)題,數(shù)據(jù)直接從發(fā)送者傳送給接收者。存儲(chǔ)-轉(zhuǎn)發(fā)模式提供消息持久化和恢復(fù)機(jī)制,發(fā)送者把數(shù)據(jù)發(fā)送給中介代理,中介代理先存儲(chǔ)消息然后再轉(zhuǎn)發(fā)給接收者。資源管理活動(dòng)負(fù)責(zé)解決由于大數(shù)據(jù)的數(shù)據(jù)量和速度特征而帶來(lái)的對(duì)CPU、內(nèi)存、I/O等資源管理問(wèn)題。有兩種不同的資源管理方式,分別是框架內(nèi)(intra-framework)資源管理和框架間(inter-framework)資源管理??蚣軆?nèi)資源管理負(fù)責(zé)框架自身內(nèi)部各組件之間的資源分配,由框架負(fù)載驅(qū)動(dòng),通常會(huì)為了最小化框架整體需求或降低運(yùn)行成本而關(guān)閉不需要的資源??蚣荛g資源管理負(fù)責(zé)大數(shù)據(jù)系統(tǒng)多個(gè)存儲(chǔ)框架和處理框架之間的資源調(diào)度和優(yōu)化管理,通常包括管理框架的資源請(qǐng)求、監(jiān)控框架資源使用,以及在某些情況下對(duì)申請(qǐng)使用資源的應(yīng)用隊(duì)列進(jìn)行管理等。特別的,針對(duì)大數(shù)據(jù)系統(tǒng)負(fù)載多變、用戶多樣、規(guī)模較大的特點(diǎn),應(yīng)采用更加經(jīng)濟(jì)有效的資源構(gòu)架和管理方案。目前的大數(shù)據(jù)軟件框架,其亮點(diǎn)在于高可擴(kuò)展性,而本質(zhì)訴求仍然是如何實(shí)現(xiàn)并行化,即對(duì)數(shù)據(jù)進(jìn)行分片、并為每一個(gè)分片分配相應(yīng)的本地計(jì)算資源。因此,對(duì)于基礎(chǔ)架構(gòu)而言,為了支持大數(shù)據(jù)軟件框架,最直接的實(shí)現(xiàn)方式就是將一份計(jì)算資源和一份存儲(chǔ)資源進(jìn)行綁定,構(gòu)成一個(gè)資源單位(如,服務(wù)器),以獲得盡可能高的本地?cái)?shù)據(jù)訪問(wèn)性能。但是,這種基礎(chǔ)架構(gòu)由于計(jì)算同存儲(chǔ)之間緊耦合且比例固定,逐漸暴露出資源利用率低、重構(gòu)時(shí)靈活性差等問(wèn)題。因此,未來(lái)應(yīng)通過(guò)硬件及軟件各方面的技術(shù)創(chuàng)新,在保證本地?cái)?shù)據(jù)訪問(wèn)性能的同時(shí),實(shí)現(xiàn)計(jì)算與存儲(chǔ)資源之間的松耦合,即:可以按需調(diào)配整個(gè)大數(shù)據(jù)系統(tǒng)中的資源比例,及時(shí)適應(yīng)當(dāng)前業(yè)務(wù)對(duì)計(jì)算和存儲(chǔ)的真實(shí)需要;同時(shí),可以對(duì)系統(tǒng)的計(jì)算部分進(jìn)行快速切換,真正滿足數(shù)據(jù)技術(shù)(DT)時(shí)代對(duì)“以數(shù)據(jù)為中心、按需投入計(jì)算”的業(yè)務(wù)要求。(5)數(shù)據(jù)消費(fèi)者數(shù)據(jù)消費(fèi)者角色接收大數(shù)據(jù)系統(tǒng)的輸出。與數(shù)據(jù)提供者類似,數(shù)據(jù)消費(fèi)者可以是終端用戶或者其它應(yīng)用系統(tǒng)。數(shù)據(jù)消費(fèi)者執(zhí)行的活動(dòng)通常包括搜索/檢索、下載、本地分析、生成報(bào)告、可視化等。數(shù)據(jù)消費(fèi)者利用大數(shù)據(jù)應(yīng)用提供者提供的界面或服務(wù)訪問(wèn)他感興趣的信息,這些界面包括數(shù)據(jù)報(bào)表、數(shù)據(jù)檢索、數(shù)據(jù)渲染等。數(shù)據(jù)消費(fèi)者角色也會(huì)通過(guò)數(shù)據(jù)訪問(wèn)活動(dòng)與大數(shù)據(jù)應(yīng)用提供者交互,執(zhí)行其提供的數(shù)據(jù)分析和可視化功能。交互可以是基于需要(demand-based)的,包括交互式可視化、創(chuàng)建報(bào)告,或者利用大數(shù)據(jù)提供者提供的商務(wù)智能(BI)工具對(duì)數(shù)據(jù)進(jìn)行鉆?。╠rill-down)操作等。交互功能也可以是基于流處理(streaming-based)或推(push-based)機(jī)制的,這種情況下消費(fèi)者只需要訂閱大數(shù)據(jù)應(yīng)用系統(tǒng)的輸出即可。(6)安全和隱私在大數(shù)據(jù)參考架構(gòu)圖中,安全和隱私角色覆蓋了其它五個(gè)主要角色,即系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)框架提供者、大數(shù)據(jù)應(yīng)用提供者、數(shù)據(jù)消費(fèi)者,表明這五個(gè)主要角色的活動(dòng)都要受到安全和隱私角色的影響。安全和隱私角色處于管理角色之中,也意味著安全和隱私角色與大數(shù)據(jù)參考架構(gòu)中的全部活動(dòng)和功能都相互關(guān)聯(lián)。在安全和隱私管理模塊,通過(guò)不同的技術(shù)手段和安全措施,構(gòu)筑大數(shù)據(jù)系統(tǒng)全方位、立體的安全防護(hù)體系,同時(shí)應(yīng)提供一個(gè)合理的災(zāi)備框架,提升災(zāi)備恢復(fù)能力,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)異地容災(zāi)功能。大數(shù)據(jù)安全和隱私的詳細(xì)討論見4.3。(7)管理管理角色包括二個(gè)活動(dòng)組:系統(tǒng)管理和大數(shù)據(jù)生命周期管理。系統(tǒng)管理活動(dòng)組包括調(diào)配、配置、軟件包管理、軟件管理、備份管理、能力管理、資源管理和大數(shù)據(jù)基礎(chǔ)設(shè)施的性能管理等活動(dòng)。大數(shù)據(jù)生命周期管理涵蓋了大數(shù)據(jù)生命周期中所有的處理過(guò)程,其活動(dòng)和功能是驗(yàn)證數(shù)據(jù)在生命周期的每個(gè)過(guò)程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理。由于大數(shù)據(jù)基礎(chǔ)設(shè)施的分布式和復(fù)雜性,系統(tǒng)管理依賴于兩點(diǎn):使用標(biāo)準(zhǔn)的協(xié)議如SNMP把資源狀態(tài)和出錯(cuò)信息傳送給管理組件;通過(guò)可部署的代理或管理連接子(connector)允許管理角色監(jiān)視甚至控制大數(shù)據(jù)處理框架元素。系統(tǒng)管理的功能是監(jiān)視各種計(jì)算資源的運(yùn)行狀況,應(yīng)對(duì)出現(xiàn)的性能或故障事件,從而能夠滿足大數(shù)據(jù)應(yīng)用提供者的服務(wù)質(zhì)量(QoS)需求。在云服務(wù)提供商提供能力管理接口時(shí),通過(guò)管理連接子對(duì)云基礎(chǔ)設(shè)施提供的自助服務(wù)、自我調(diào)整、自我修復(fù)等能力進(jìn)行利用和管理。大型基礎(chǔ)設(shè)施通常包括數(shù)以千計(jì)的計(jì)算和存儲(chǔ)節(jié)點(diǎn),因此應(yīng)用程序和工具的調(diào)配應(yīng)盡可能自動(dòng)化。軟件安裝、應(yīng)用配置以及補(bǔ)丁維護(hù)也應(yīng)該以自動(dòng)的方式推送到各結(jié)點(diǎn)并實(shí)現(xiàn)自動(dòng)地跨結(jié)點(diǎn)復(fù)制。還可以利用虛擬化技術(shù)的虛擬映像,加快恢復(fù)進(jìn)程和提供有效的系統(tǒng)修補(bǔ),以最大限度地減少定期維護(hù)時(shí)的停機(jī)時(shí)間。系統(tǒng)管理模塊應(yīng)能夠提供統(tǒng)一的運(yùn)維管理,能夠?qū)Π〝?shù)據(jù)中心、基礎(chǔ)硬件、平臺(tái)軟件(存儲(chǔ)、計(jì)算)和應(yīng)用軟件進(jìn)行集中運(yùn)維、統(tǒng)一管理,實(shí)現(xiàn)安裝部署、參數(shù)配置、系統(tǒng)監(jiān)控等功能。應(yīng)提供自動(dòng)化運(yùn)維的能力,通過(guò)對(duì)多個(gè)數(shù)據(jù)中心的資源進(jìn)行統(tǒng)一管理,合理的分配和調(diào)度業(yè)務(wù)所需要的資源,做到自動(dòng)化按需分配。同時(shí)提供對(duì)多個(gè)數(shù)據(jù)中心的IT基礎(chǔ)設(shè)施進(jìn)行集中運(yùn)維的能力,自動(dòng)化監(jiān)控?cái)?shù)據(jù)中心內(nèi)各種IT設(shè)備的事件、告警、性能,實(shí)現(xiàn)從業(yè)務(wù)維度來(lái)進(jìn)行運(yùn)維的能力。大數(shù)據(jù)生命周期管理活動(dòng)負(fù)責(zé)驗(yàn)證數(shù)據(jù)在生命周期中的每個(gè)過(guò)程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理,它覆蓋了數(shù)據(jù)從數(shù)據(jù)提供者那里被攝取到系統(tǒng),一直到數(shù)據(jù)被處理或從系統(tǒng)中刪除的整個(gè)生命周期。由于大數(shù)據(jù)生命周期管理的任務(wù)可以分布在大數(shù)據(jù)計(jì)算環(huán)境中的不同組織和個(gè)體,從遵循政策、法規(guī)和安全要求的視角,大數(shù)據(jù)生命周期管理包括以下活動(dòng)或功能:政策管理(數(shù)據(jù)遷移及處置策略)、元數(shù)據(jù)管理(管理數(shù)據(jù)標(biāo)識(shí)、質(zhì)量、訪問(wèn)權(quán)限等元數(shù)據(jù)信息)、可訪問(wèn)管理(依據(jù)時(shí)間改變數(shù)據(jù)的可訪問(wèn)性)、數(shù)據(jù)恢復(fù)(災(zāi)難或系統(tǒng)出錯(cuò)時(shí)對(duì)數(shù)據(jù)進(jìn)行恢復(fù))、保護(hù)管理(維護(hù)數(shù)據(jù)完整性)。從大數(shù)據(jù)系統(tǒng)要應(yīng)對(duì)大數(shù)據(jù)的4V特征來(lái)看,大數(shù)據(jù)生命周期管理活動(dòng)和功能還包括與系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)框架提供者、大數(shù)據(jù)應(yīng)用提供者、數(shù)據(jù)消費(fèi)者以及安全和隱私角色之間的交互。4.2大數(shù)據(jù)關(guān)鍵技術(shù)4.2.1數(shù)據(jù)收集大數(shù)據(jù)時(shí)代,數(shù)據(jù)的來(lái)源極其廣泛,數(shù)據(jù)有不同的類型和格式,同時(shí)呈現(xiàn)爆發(fā)性增長(zhǎng)的態(tài)勢(shì),這些特性對(duì)數(shù)據(jù)收集技術(shù)也提出了更高的要求。數(shù)據(jù)收集需要從不同的數(shù)據(jù)源實(shí)時(shí)的或及時(shí)的收集不同類型的數(shù)據(jù)并發(fā)送給存儲(chǔ)系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進(jìn)行后續(xù)處理。數(shù)據(jù)收集一般可分為設(shè)備數(shù)據(jù)收集和Web數(shù)據(jù)爬取兩類,常常用的數(shù)據(jù)收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網(wǎng)絡(luò)爬蟲,如Heritrix、Nutch等。4.2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)的質(zhì)量對(duì)數(shù)據(jù)的價(jià)值大小有直接影響,低質(zhì)量數(shù)據(jù)將導(dǎo)致低質(zhì)量的分析和挖掘結(jié)果。廣義的數(shù)據(jù)質(zhì)量涉及許多因素,如數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性與可解釋性等。大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)通常具有一個(gè)或多個(gè)數(shù)據(jù)源,這些數(shù)據(jù)源可以包括同構(gòu)/異構(gòu)的(大)數(shù)據(jù)庫(kù)、文件系統(tǒng)、服務(wù)接口等。這些數(shù)據(jù)源中的數(shù)據(jù)來(lái)源現(xiàn)實(shí)世界,容易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失與數(shù)據(jù)沖突等的影響。此外數(shù)據(jù)處理、分析、可視化過(guò)程中的算法與實(shí)現(xiàn)技術(shù)復(fù)雜多樣,往往需要對(duì)數(shù)據(jù)的組織、數(shù)據(jù)的表達(dá)形式、數(shù)據(jù)的位置等進(jìn)行一些前置處理。數(shù)據(jù)預(yù)處理的引入,將有助于提升數(shù)據(jù)質(zhì)量,并使得后繼數(shù)據(jù)處理、分析、可視化過(guò)程更加容易、有效,有利于獲得更好的用戶體驗(yàn)。數(shù)據(jù)預(yù)處理形式上包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等階段。數(shù)據(jù)清理技術(shù)包括數(shù)據(jù)不一致性檢測(cè)技術(shù)、臟數(shù)據(jù)識(shí)別技術(shù)、數(shù)據(jù)過(guò)濾技術(shù)、數(shù)據(jù)修正技術(shù)、數(shù)據(jù)噪聲的識(shí)別與平滑技術(shù)等。數(shù)據(jù)集成把來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,縮短數(shù)據(jù)之間的物理距離,形成一個(gè)集中統(tǒng)一的(同構(gòu)/異構(gòu))數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體、數(shù)據(jù)寬表與文件等。數(shù)據(jù)歸約技術(shù)可以在不損害挖掘結(jié)果準(zhǔn)確性的前提下,降低數(shù)據(jù)集的規(guī)模,得到簡(jiǎn)化的數(shù)據(jù)集。歸約策略與技術(shù)包括維歸約技術(shù)、數(shù)值歸約技術(shù)、數(shù)據(jù)抽樣技術(shù)等。經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換處理后,數(shù)據(jù)被變換或統(tǒng)一。數(shù)據(jù)轉(zhuǎn)換不僅簡(jiǎn)化處理與分析過(guò)程、提升時(shí)效性,也使得分析挖掘的模式更容易被理解。數(shù)據(jù)轉(zhuǎn)換處理技術(shù)包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換技術(shù)、基于模型和學(xué)習(xí)的轉(zhuǎn)換技術(shù)等。4.2.3數(shù)據(jù)存儲(chǔ)分布式存儲(chǔ)與訪問(wèn)是大數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù),它具有經(jīng)濟(jì)、高效、容錯(cuò)好等特點(diǎn)。分布式存儲(chǔ)技術(shù)與數(shù)據(jù)存儲(chǔ)介質(zhì)的類型和數(shù)據(jù)的組織管理形式直接相關(guān)。目前的主要數(shù)據(jù)存儲(chǔ)介質(zhì)類型包括內(nèi)存、磁盤、磁帶等;主要數(shù)據(jù)組織管理形式包括按行組織、按列組織、按鍵值組織和按關(guān)系組織;主要數(shù)據(jù)組織管理層次包括按塊級(jí)組織、文件級(jí)組織以及數(shù)據(jù)庫(kù)級(jí)組織等。不同的存儲(chǔ)介質(zhì)和組織管理形式對(duì)應(yīng)于不同的大數(shù)據(jù)特征和應(yīng)用特點(diǎn)。(1)分布式文件系統(tǒng)分布式文件系統(tǒng)是由多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)組成的向上層應(yīng)用提供統(tǒng)一的文件服務(wù)的文件系統(tǒng)。分布式文件系統(tǒng)中的每個(gè)節(jié)點(diǎn)可以分布在不同的地點(diǎn),通過(guò)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)間的通信和數(shù)據(jù)傳輸。分布式文件系統(tǒng)中的文件在物理上可能被分散存儲(chǔ)在不同的節(jié)點(diǎn)上,在邏輯上仍然是一個(gè)完整的文件。使用分布式文件系統(tǒng)時(shí),無(wú)需關(guān)心數(shù)據(jù)存儲(chǔ)在哪個(gè)節(jié)點(diǎn)上,只需像本地文件系統(tǒng)一樣管理和存儲(chǔ)文件系統(tǒng)的數(shù)據(jù)。分布式文件系統(tǒng)的性能與成本是線性增長(zhǎng)的關(guān)系,它能夠在信息爆炸時(shí)代有的效解決數(shù)據(jù)的存儲(chǔ)和管理。分布式文件系統(tǒng)在大數(shù)據(jù)領(lǐng)域是最基礎(chǔ)的,最核心的功能組件之一,如何實(shí)現(xiàn)一個(gè)高擴(kuò)展,高性能,高可用的分布式文件系統(tǒng)是大數(shù)據(jù)領(lǐng)域最關(guān)鍵的問(wèn)題之一。目前常用的分布式磁盤文件系統(tǒng)有HDFS(Hadoop分布式文件系統(tǒng))、GFS(Goolge分布式文件系統(tǒng))、KFS(Kosmosdistributedfilesystem)等;常用的分布式內(nèi)存文件系統(tǒng)有Tachyon等。(2)文檔存儲(chǔ)文檔存儲(chǔ)支持對(duì)結(jié)構(gòu)化數(shù)據(jù)的訪問(wèn),不同于關(guān)系模型的是,文檔存儲(chǔ)沒有強(qiáng)制的架構(gòu)。事實(shí)上,文檔存儲(chǔ)以封包鍵值對(duì)的方式進(jìn)行存儲(chǔ)。在這種情況下,應(yīng)用對(duì)要檢索的封包采取一些約定,或者利用存儲(chǔ)引擎的能力將不同的文檔劃分成不同的集合,以管理數(shù)據(jù)。與關(guān)系模型不同的是,文檔存儲(chǔ)模型支持嵌套結(jié)構(gòu)。例如,文檔存儲(chǔ)模型支持XML和JSON文檔,字段的“值”又可以嵌套存儲(chǔ)其它文檔。文檔存儲(chǔ)模型也支持?jǐn)?shù)組和列值鍵。與鍵值存儲(chǔ)不同的是,文檔存儲(chǔ)關(guān)心文檔的內(nèi)部結(jié)構(gòu)。這使得存儲(chǔ)引擎可以直接支持二級(jí)索引,從而允許對(duì)任意字段進(jìn)行高效查詢。支持文檔嵌套存儲(chǔ)的能力,使得查詢語(yǔ)言具有搜索嵌套對(duì)象的能力,XQuery就是一個(gè)例子。主流的文檔數(shù)據(jù)庫(kù)有MongoDB、CouchDB、Terrastore、RavenDB等。(3)列式存儲(chǔ)列式存儲(chǔ)將數(shù)據(jù)按行排序,按列存儲(chǔ),將相同字段的數(shù)據(jù)作為一個(gè)列族來(lái)聚合存儲(chǔ)。當(dāng)只查詢少數(shù)列族數(shù)據(jù)時(shí),列式數(shù)據(jù)庫(kù)可以減少讀取數(shù)據(jù)量,減少數(shù)據(jù)裝載和讀入讀出的時(shí)間,提高數(shù)據(jù)處理效率。按列存儲(chǔ)還可以承載更大的數(shù)據(jù)量,獲得高效的垂直數(shù)據(jù)壓縮能力,降低數(shù)據(jù)存儲(chǔ)開銷。使用列式存儲(chǔ)的數(shù)據(jù)庫(kù)產(chǎn)品有傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,如SybaseIQ、InfiniDB、Vertica等,也有開源的數(shù)據(jù)庫(kù)產(chǎn)品,如HadoopHbase、Infobright等。(4)鍵值存儲(chǔ)鍵值存儲(chǔ),即Key-Value存儲(chǔ),簡(jiǎn)稱KV存儲(chǔ),它是NoSQL存儲(chǔ)的一種方式。它的數(shù)據(jù)按照鍵值對(duì)的形式進(jìn)行組織、索引和存儲(chǔ)。KV存儲(chǔ)非常適合不涉及過(guò)多數(shù)據(jù)關(guān)系和業(yè)務(wù)關(guān)系的業(yè)務(wù)數(shù)據(jù),同時(shí)能有效減少讀寫磁盤的次數(shù),比SQL數(shù)據(jù)庫(kù)存儲(chǔ)擁有更好的讀寫性能。鍵值存儲(chǔ)一般不提供事務(wù)處理機(jī)制。主流的鍵值數(shù)據(jù)庫(kù)產(chǎn)品有Redis、ApacheCassandra、GoogleBigtable等。(5)圖形數(shù)據(jù)庫(kù)圖形數(shù)據(jù)庫(kù)是主要用于存儲(chǔ)事物及事物之間的相關(guān)關(guān)系,這些事物整體上呈現(xiàn)復(fù)雜的網(wǎng)絡(luò)關(guān)系,可以簡(jiǎn)單的稱之為圖形數(shù)據(jù)。使用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)技術(shù)已經(jīng)無(wú)法很好的滿足超大量圖形數(shù)據(jù)的存儲(chǔ)、查詢等需求,比如上百萬(wàn)或上千萬(wàn)個(gè)節(jié)點(diǎn)的圖形關(guān)系,而圖形數(shù)據(jù)庫(kù)采用不同的技術(shù)來(lái)很好的解決圖形數(shù)據(jù)的查詢,遍歷,求最短路徑等需求。在圖形數(shù)據(jù)庫(kù)領(lǐng)域,有不同的圖模型來(lái)映射這些網(wǎng)絡(luò)關(guān)系,比如超圖模型,以及包含節(jié)點(diǎn)、關(guān)系及屬性信息的屬性圖模型等。圖形數(shù)據(jù)庫(kù)可用于對(duì)真實(shí)世界的各種對(duì)象進(jìn)行建模,如社交圖譜,以反應(yīng)這些事物之間的相互關(guān)系。主流的圖形數(shù)據(jù)庫(kù)有GooglePregel、Neo4j、InfiniteGraph、DEX、InfoGrid、AllegroGraph、GraphDB、HyperGraphDB等。(6)關(guān)系數(shù)據(jù)庫(kù)關(guān)系模型是最傳統(tǒng)的數(shù)據(jù)存儲(chǔ)模型,它使用記錄(由元組組成)按行進(jìn)行存儲(chǔ),記錄存儲(chǔ)在表中,表由架構(gòu)界定。表中的每個(gè)列都有名稱和類型,表中的所有記錄都要符合表的定義。SQL是專門的查詢語(yǔ)言,提供相應(yīng)的語(yǔ)法查找符合條件的記錄,如表聯(lián)接(Join)。表聯(lián)接可以基于表之間的關(guān)系在多表之間查詢記錄。表中的記錄可以被創(chuàng)建和刪除,記錄中的字段也可以單獨(dú)更新。關(guān)系模型數(shù)據(jù)庫(kù)通常提供事務(wù)處理機(jī)制,這為涉及多條記錄的自動(dòng)化處理提供了解決方案。對(duì)不同的編程語(yǔ)言而言,表可以被看成數(shù)組、記錄列表或者結(jié)構(gòu)。表可以使用B樹和哈希表進(jìn)行索引,以應(yīng)對(duì)高性能訪問(wèn)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)廠商結(jié)合其它技術(shù)改進(jìn)關(guān)系型數(shù)據(jù)庫(kù),比如分布式集群、列式存儲(chǔ),支持XML,Json等數(shù)據(jù)的存儲(chǔ)。(7)內(nèi)存存儲(chǔ)內(nèi)存存儲(chǔ)是指內(nèi)存數(shù)據(jù)庫(kù)(MMDB)將數(shù)據(jù)庫(kù)的工作版本放在內(nèi)存中,由于數(shù)據(jù)庫(kù)的操作都在內(nèi)存中進(jìn)行,從而磁盤I/O不再是性能瓶頸,內(nèi)存數(shù)據(jù)庫(kù)系統(tǒng)的設(shè)計(jì)目標(biāo)是提高數(shù)據(jù)庫(kù)的效率和存儲(chǔ)空間的利用率。內(nèi)存存儲(chǔ)的核心是內(nèi)存存儲(chǔ)管理模塊,其管理策略的優(yōu)劣直接關(guān)系到內(nèi)存數(shù)據(jù)庫(kù)系統(tǒng)的性能?;趦?nèi)存存儲(chǔ)的內(nèi)存數(shù)據(jù)庫(kù)產(chǎn)品有OracleTimesTen、Altibase、eXtremeDB、Redis、RaptorDB、MemCached等產(chǎn)品。4.2.4數(shù)據(jù)處理分布式數(shù)據(jù)處理技術(shù)一方面與分布式存儲(chǔ)形式直接相關(guān),另一方面也與業(yè)務(wù)數(shù)據(jù)的溫度類型(冷數(shù)據(jù)、熱數(shù)據(jù))相關(guān)。目前主要的數(shù)據(jù)處理計(jì)算模型包括MapReduce計(jì)算模型、DAG計(jì)算模型、BSP計(jì)算模型等。(1)MapReduce分布式計(jì)算框架MapReduce是一個(gè)高性能的批處理分布式計(jì)算框架,用于對(duì)海量數(shù)據(jù)進(jìn)行并行分析和處理。與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)和分析技術(shù)相比,MapReduce適合處理各種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且可以處理數(shù)據(jù)量為TB和PB級(jí)別的超大規(guī)模數(shù)據(jù)。MapReduce分布式計(jì)算框架將計(jì)算任務(wù)分為大量的并行Map和Reduce兩類任務(wù),并將Map任務(wù)部署到分布式集群中的不同計(jì)算機(jī)節(jié)點(diǎn)上并發(fā)運(yùn)行,然后由Reduce任務(wù)對(duì)所有Map任務(wù)的執(zhí)行結(jié)果進(jìn)行匯總,得到最后的分析結(jié)果。MapReduce分布式計(jì)算框架可動(dòng)態(tài)增加或減少計(jì)算節(jié)點(diǎn),具有很高的計(jì)算彈性,并且具備很好的任務(wù)調(diào)度能力和資源分配能力,具有很好的擴(kuò)展性和容錯(cuò)性。MapReduce分布式計(jì)算框架是大數(shù)據(jù)時(shí)代最為典型的,應(yīng)用最廣泛的分布式運(yùn)行框架之一。最流行的MapReduce分布式計(jì)算框架是由Hadoop實(shí)現(xiàn)的MapReduce框架。HadoopMapReduce基于HDFS和HBase等存儲(chǔ)技術(shù)確保數(shù)據(jù)存儲(chǔ)的有效性,計(jì)算任務(wù)會(huì)被安排在離數(shù)據(jù)最近的節(jié)點(diǎn)上運(yùn)行,減少數(shù)據(jù)在網(wǎng)絡(luò)中的傳輸開銷,同時(shí)還能夠重新運(yùn)行失敗的任務(wù)。HadoopMapReduce已經(jīng)在各個(gè)行業(yè)得到了廣泛的應(yīng)用,是最成熟和最流行的大數(shù)據(jù)處理技術(shù)。(2)分布式內(nèi)存計(jì)算系統(tǒng)使用分布式共享內(nèi)存進(jìn)行計(jì)算可以有效的減少數(shù)據(jù)讀寫和移動(dòng)的開銷,極大的提高數(shù)據(jù)處理的性能。支持基于內(nèi)存的數(shù)據(jù)計(jì)算,兼容多種分布式計(jì)算框架的通用計(jì)算平臺(tái)是大數(shù)據(jù)領(lǐng)域所必需的重要關(guān)鍵技術(shù)。除了支持內(nèi)存計(jì)算的商業(yè)工具(如SAPHANA、OracleBigDataAppliance等),Spark則是此種技術(shù)的開源實(shí)現(xiàn)代表,它是當(dāng)今大數(shù)據(jù)領(lǐng)域最熱門的基于內(nèi)存計(jì)算的分布式計(jì)算系統(tǒng)。相比傳統(tǒng)的HadoopMapReduce批量計(jì)算模型,Spark使用DAG、迭代計(jì)算和內(nèi)存計(jì)算的方式可以帶來(lái)一到兩個(gè)數(shù)量級(jí)的效率提升。(3)分布式流計(jì)算系統(tǒng)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的增長(zhǎng)速度超過(guò)了存儲(chǔ)容量的增長(zhǎng),在不遠(yuǎn)的將來(lái),人們將無(wú)法存儲(chǔ)所有的數(shù)據(jù),同時(shí),數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少,此外,很多數(shù)據(jù)涉及用戶的隱私無(wú)法進(jìn)行存儲(chǔ)。對(duì)數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理的技術(shù)獲得了人們?cè)絹?lái)越多的關(guān)注。數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)達(dá)到、速度快且規(guī)模巨大等特點(diǎn),所以需要分布式的流計(jì)算技術(shù)對(duì)數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理。數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點(diǎn)。當(dāng)前得到廣泛應(yīng)用的很多系統(tǒng)多數(shù)為支持分布式、并行處理的流計(jì)算系統(tǒng),比較代表性的商用軟件包括IBMStreamBase和InfoSphereStreams,開源系統(tǒng)則包括TwitterStorm、YahooS4、SparkStreaming等。4.2.5數(shù)據(jù)分析大數(shù)據(jù)分析技術(shù)包括已有數(shù)據(jù)信息的分布式統(tǒng)計(jì)分析技術(shù),以及未知數(shù)據(jù)信息的分布式挖掘和深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計(jì)分析技術(shù)基本都可藉由數(shù)據(jù)處理技術(shù)直接完成,分布式挖掘和深度學(xué)習(xí)技術(shù)則可以進(jìn)一步細(xì)分為:(1)聚類聚類指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程。它是一種重要的人類行為。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類是數(shù)據(jù)挖掘的主要任務(wù)之一。聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。聚類還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。聚類是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,傳統(tǒng)的聚類算法可以被分為五類:劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。傳統(tǒng)的聚類算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問(wèn)題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問(wèn)題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。數(shù)據(jù)挖掘中的聚類研究主要集中在針對(duì)海量數(shù)據(jù)的有效和實(shí)用的聚類方法上,聚類方法的可伸縮性、高維聚類分析、分類屬性數(shù)據(jù)聚類、具有混合屬性數(shù)據(jù)的聚類和非距離模糊聚類等問(wèn)題是目前數(shù)據(jù)挖掘研究人員最為感興趣的方向。(2)分類分類是指在一定的有監(jiān)督的學(xué)習(xí)前提下,將物體或抽象對(duì)象的集合分成多個(gè)類的過(guò)程。也可以認(rèn)為,分類是一種基于訓(xùn)練樣本數(shù)據(jù)(這些數(shù)據(jù)已經(jīng)被預(yù)先貼上了標(biāo)簽)區(qū)分另外的樣本數(shù)據(jù)標(biāo)簽的過(guò)程,即另外的樣本數(shù)據(jù)應(yīng)該如何貼標(biāo)簽。用于解決分類問(wèn)題的方法非常多,常用的分類方法主要有決策樹,貝葉斯,人工神經(jīng)網(wǎng)絡(luò),K-近鄰,支持向量機(jī),邏輯回歸,隨機(jī)森林等方法。決策樹是用于分類和預(yù)測(cè)的主要技術(shù)之一,決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出以決策樹表示的分類規(guī)則。構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來(lái)預(yù)測(cè)將來(lái)未知類別的記錄的類別。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,如樸素貝葉斯(NaiveBayes)算法。這些算法主要利用Bayes定理來(lái)預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(diǎn)(或稱“神經(jīng)元”,或“單元”)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即“神經(jīng)網(wǎng)絡(luò)”,以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練的過(guò)程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的過(guò)程。訓(xùn)練改變了網(wǎng)絡(luò)節(jié)點(diǎn)的連接權(quán)的值使其具有分類的功能,經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)就可用于對(duì)象的識(shí)別。目前,神經(jīng)網(wǎng)絡(luò)已有上百種不同的模型,常見的有BP網(wǎng)絡(luò)、徑向基RBF網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann機(jī))、競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。但是當(dāng)前的神經(jīng)網(wǎng)絡(luò)仍普遍存在收斂速度慢、計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng)和不可解釋等缺點(diǎn)。k-近鄰(kNN,k-NearestNeighbors)算法是一種基于實(shí)例的分類方法。該方法就是找出與未知樣本x距離最近的k個(gè)訓(xùn)練樣本,看這k個(gè)樣本中多數(shù)屬于哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學(xué)習(xí)方法,它存放樣本,直到需要分類時(shí)才進(jìn)行分類,如果樣本集比較復(fù)雜,可能會(huì)導(dǎo)致很大的計(jì)算開銷,因此無(wú)法應(yīng)用到實(shí)時(shí)性很強(qiáng)的場(chǎng)合。支持向量機(jī)(SVM,SupportVectorMachine)是Vapnik根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法,它的最大特點(diǎn)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來(lái)提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等問(wèn)題。對(duì)于分類問(wèn)題,支持向量機(jī)算法根據(jù)區(qū)域中的樣本計(jì)算該區(qū)域的決策曲面,由此確定該區(qū)域中未知樣本的類別。邏輯回歸是一種利用預(yù)測(cè)變量(數(shù)值型或離散型)來(lái)預(yù)測(cè)事件出現(xiàn)概率的模型,主要應(yīng)用于生產(chǎn)欺詐檢測(cè),廣告質(zhì)量估計(jì),以及定位產(chǎn)品預(yù)測(cè)等。(3)關(guān)聯(lián)分析關(guān)聯(lián)分析是一種簡(jiǎn)單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析在數(shù)據(jù)挖掘領(lǐng)域也稱為關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個(gè)典型例子是購(gòu)物籃分析。該過(guò)程通過(guò)發(fā)現(xiàn)顧客放人其購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)買習(xí)慣。通過(guò)了解哪些商品頻繁地被顧客同時(shí)購(gòu)買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購(gòu)買模式的顧客劃分。關(guān)聯(lián)分析的算法主要分為廣度優(yōu)先算法和深度優(yōu)先算法兩大類。應(yīng)用最廣泛的廣度優(yōu)先算法有Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(DynamicItemsetCounting)等算法。主要的深度優(yōu)先算法有FP-growth,Eclat(EquivalenceCLAssTransformation),H-Mine等算法。Apriori算法是一種廣度優(yōu)先的挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的算法,也是最著名的關(guān)聯(lián)規(guī)則挖掘算法之一。FP-growth算法是一種深度優(yōu)先的關(guān)聯(lián)分析算法,于2000年由HanJiawei等人提出,F(xiàn)P-growth算法基于頻繁模式樹(FrequentPatternTree,簡(jiǎn)稱為FP-tree)發(fā)現(xiàn)頻繁模式。(4)深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。深度學(xué)習(xí)的實(shí)質(zhì),是通過(guò)構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。深度學(xué)習(xí)(DL,DeepLearning)的概念由Hinton等人于2006年提出,是一種使用深層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型。深層神經(jīng)網(wǎng)絡(luò)是指包含很多隱層的人工神經(jīng)網(wǎng)絡(luò),它具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類。同機(jī)器學(xué)習(xí)方法一樣,深度機(jī)器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之分。不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同。例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,簡(jiǎn)稱CNNs)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)(DeepBeliefNets,簡(jiǎn)稱DBNs)就是一種無(wú)監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。當(dāng)前深度學(xué)習(xí)被用于計(jì)算機(jī)視覺,語(yǔ)音識(shí)別,自然語(yǔ)言處理等領(lǐng)域,并取得了大量突破性的成果。運(yùn)用深度學(xué)習(xí)技術(shù),我們能夠從大數(shù)據(jù)中發(fā)掘出更多有價(jià)值的信息和知識(shí)。4.2.6數(shù)據(jù)可視化數(shù)據(jù)可視化(DataVisualization)運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺及人機(jī)交互等多個(gè)技術(shù)領(lǐng)域。數(shù)據(jù)可視化概念首先來(lái)自科學(xué)計(jì)算可視化(VisualizationinScientificComputing),科學(xué)家們不僅需要通過(guò)圖形圖像來(lái)分析由計(jì)算機(jī)算出的數(shù)據(jù),而且需要了解在計(jì)算過(guò)程中數(shù)據(jù)的變化。隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)可視化概念已大大擴(kuò)展,它不僅包括科學(xué)計(jì)算數(shù)據(jù)的可視化,而且包括工程數(shù)據(jù)和測(cè)量數(shù)據(jù)的可視化。學(xué)術(shù)界常把這種空間數(shù)據(jù)的可視化稱為體視化(VolumeVisualization)技術(shù)。近年來(lái),隨著網(wǎng)絡(luò)技術(shù)和電子商務(wù)的發(fā)展,提出了信息可視化(InformationVisualization)的要求。通過(guò)數(shù)據(jù)可視化技術(shù),發(fā)現(xiàn)大量金融、通信和商業(yè)數(shù)據(jù)中隱含的規(guī)律信息,從而為決策提供依據(jù)。這已成為數(shù)據(jù)可視化技術(shù)中新的熱點(diǎn)。清晰而有效地在大數(shù)據(jù)與用戶之間傳遞和溝通信息是數(shù)據(jù)可視化的重要目標(biāo),數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。數(shù)據(jù)可視化的關(guān)鍵技術(shù)包括:(1)數(shù)據(jù)信息的符號(hào)表達(dá)技術(shù)。除了常規(guī)的文字符號(hào)和幾何圖形符號(hào),各類坐標(biāo)、圖像陣列、圖像動(dòng)畫等符號(hào)技術(shù)都可以用來(lái)表達(dá)數(shù)據(jù)信息。特別是多樣符號(hào)的綜合使用,往往能讓用戶獲得不一樣的溝通體驗(yàn)。各數(shù)據(jù)類型具體的符號(hào)表達(dá)技術(shù)形式包括各類報(bào)表、儀表盤、坐標(biāo)曲線、地圖、譜圖、圖像幀等。(2)數(shù)據(jù)渲染技術(shù)。例如各類符號(hào)到屏幕圖形陣列的2D平面渲染技術(shù)、3D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還和具體媒介相關(guān),例如等移動(dòng)終端上的渲染技術(shù)等。(3)數(shù)據(jù)交互技術(shù)。除了各類PC設(shè)備和移動(dòng)終端上的鼠標(biāo)、鍵盤與屏幕的交互技術(shù)形式,可能還包括語(yǔ)音、指紋等交互技術(shù)。(4)數(shù)據(jù)表達(dá)模型技術(shù)。數(shù)據(jù)可視化表達(dá)模型描述了數(shù)據(jù)展示給用戶所需要的語(yǔ)言文字和圖形圖像等符號(hào)信息,以及符號(hào)表達(dá)的邏輯信息和數(shù)據(jù)交互方式信息等。其中數(shù)據(jù)矢量從多維信息空間到視覺符號(hào)空間的映射與轉(zhuǎn)換關(guān)系,是表達(dá)模型最重要的內(nèi)容。此外,除了數(shù)據(jù)值的表達(dá)技術(shù),數(shù)據(jù)趨勢(shì)、數(shù)據(jù)對(duì)比、數(shù)據(jù)關(guān)系等表達(dá)技術(shù)都是表達(dá)模型中的重要內(nèi)容。大數(shù)據(jù)可視化與傳統(tǒng)數(shù)據(jù)可視化不同。傳統(tǒng)數(shù)據(jù)可視化技術(shù)和軟件工具(如BI)通常對(duì)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行抽取、歸納和組合,通過(guò)不同的展現(xiàn)方式提供給用戶,用于發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)信息。而大數(shù)據(jù)時(shí)代的數(shù)據(jù)可視化技術(shù)則需要結(jié)合大數(shù)據(jù)多類型、大體量、高速率、易變化等特征,能夠快速的收集、篩選、分析、歸納、展現(xiàn)決策者所需要的信息,支持交互式可視化分析,并根據(jù)新增的數(shù)據(jù)進(jìn)行實(shí)時(shí)更新。數(shù)據(jù)可視化技術(shù)在當(dāng)前是一個(gè)正在迅速發(fā)展的新興領(lǐng)域,已經(jīng)出現(xiàn)了眾多的數(shù)據(jù)可視化軟件和工具,如Tableau、Datawatch、Platfora、R、D3.js、Processing.js、Gephi、ECharts、大數(shù)據(jù)魔鏡等。許多商業(yè)的大數(shù)據(jù)挖掘和分析軟件也包括了數(shù)據(jù)可視化功能,如IBMSPSS、SASEnterpriseMiner等。4.3大數(shù)據(jù)安全與隱私4.3.1大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn)大數(shù)據(jù)的應(yīng)用會(huì)帶來(lái)巨大社會(huì)價(jià)值和商業(yè)利益,受價(jià)值利益驅(qū)動(dòng),大數(shù)據(jù)系統(tǒng)也必然會(huì)面臨大量而且復(fù)雜的風(fēng)險(xiǎn)。舉例來(lái)說(shuō),如果某一大數(shù)據(jù)系統(tǒng)產(chǎn)生的價(jià)值足以左右公司的發(fā)展,那么它所面臨的風(fēng)險(xiǎn)就可能是一個(gè)公司層面價(jià)值的角力,小至個(gè)人、大至國(guó)家也是如此。大數(shù)據(jù)系統(tǒng)同時(shí)是復(fù)雜的,由傳統(tǒng)的信息存儲(chǔ)檢索變?yōu)閺?fù)雜的信息技術(shù)系統(tǒng),進(jìn)而可能是龐大的社會(huì)工程,由此也帶來(lái)了諸多安全及隱私方面的挑戰(zhàn)。大數(shù)據(jù)的安全性已上升到國(guó)家戰(zhàn)略層面。在大數(shù)據(jù)時(shí)代,信息化已完全深入到國(guó)民經(jīng)濟(jì)與國(guó)防建設(shè)的方方面面,從智能家居、智慧城市甚至到智慧地球,個(gè)人、企業(yè)、團(tuán)體等的海量數(shù)據(jù)為國(guó)家建設(shè)和決策提供了宏觀的數(shù)據(jù)依據(jù),大數(shù)據(jù)的安全問(wèn)題將會(huì)越來(lái)越多地對(duì)國(guó)家戰(zhàn)略產(chǎn)生直接或間接的影響。大數(shù)據(jù)的價(jià)值體現(xiàn)是一個(gè)從隱性價(jià)值到顯性價(jià)值的動(dòng)態(tài)過(guò)程。有兩個(gè)關(guān)鍵性因素影響大數(shù)據(jù)的價(jià)值體現(xiàn):數(shù)據(jù)“由量變到質(zhì)變”的動(dòng)態(tài)演變以及相關(guān)數(shù)據(jù)處理技術(shù)的不斷升級(jí)。單個(gè)的數(shù)據(jù)記錄對(duì)大數(shù)據(jù)結(jié)果并無(wú)太大影響,只有數(shù)據(jù)記錄集合的數(shù)據(jù)量積累到一定程度時(shí),數(shù)據(jù)才有可能“被挖掘”從而體現(xiàn)其價(jià)值。隨著數(shù)據(jù)處理技術(shù)的不斷發(fā)展,當(dāng)今看似“雜亂無(wú)序”的數(shù)據(jù),將來(lái)會(huì)變成一座“金礦”?,F(xiàn)有的信息安全管理體系重點(diǎn)保護(hù)數(shù)據(jù)的顯性價(jià)值,對(duì)數(shù)據(jù)的隱形價(jià)值及動(dòng)態(tài)性管理及防護(hù)不足。大數(shù)據(jù)的信息竊取手段更加隱蔽和多元化。不法分子從大量的公開數(shù)據(jù)中通過(guò)數(shù)據(jù)關(guān)聯(lián)手段可以獲取相關(guān)個(gè)體的隱性數(shù)據(jù),從而導(dǎo)致個(gè)人的隱私泄露。通過(guò)分析金融交易數(shù)據(jù)、交通運(yùn)輸信息包含軌跡信息,可以得知一個(gè)城市或地區(qū)的經(jīng)濟(jì)活動(dòng)狀態(tài)和趨勢(shì)。大數(shù)據(jù)獨(dú)有的“數(shù)據(jù)污染”問(wèn)題會(huì)造成嚴(yán)重的社會(huì)資源浪費(fèi)。一些惡意攻擊型的“數(shù)據(jù)污染”會(huì)影響到企業(yè)、團(tuán)體乃至國(guó)家政治及經(jīng)濟(jì)方面的決策,從而導(dǎo)致嚴(yán)重的后果。4.3.2針對(duì)安全和隱私的考慮大數(shù)據(jù)的商業(yè)價(jià)值是毋庸置疑的。通過(guò)大數(shù)據(jù)挖掘,企業(yè)所表現(xiàn)出控制力量遠(yuǎn)超以往。數(shù)據(jù)開始成為企業(yè)的核心資產(chǎn),甚至企業(yè)的金礦就蘊(yùn)含在數(shù)據(jù)之中,而數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理正成為企業(yè)掘金的重要手段和工具,是企業(yè)能否把握大數(shù)據(jù)機(jī)遇的重要抓手。然而,數(shù)據(jù)質(zhì)量的提升和數(shù)據(jù)治理的優(yōu)化,又不完全取決于企業(yè)自身的努力。大數(shù)據(jù)商業(yè)價(jià)值在于不斷開發(fā),而大數(shù)據(jù)應(yīng)用作為新業(yè)態(tài)、新模式、新應(yīng)用,痛點(diǎn)和難點(diǎn)不僅在于技術(shù),更重要的是無(wú)論是數(shù)據(jù)采集、整理和挖掘,還是數(shù)據(jù)產(chǎn)品的推廣、應(yīng)用,企業(yè)都將面臨法律的天花板,而隱私問(wèn)題無(wú)疑是諸多法律問(wèn)題中的重要一環(huán)。在互聯(lián)網(wǎng)時(shí)代人們似乎是覺得自己的隱私受到了威脅,而移動(dòng)互聯(lián)網(wǎng)與大數(shù)據(jù)時(shí)代無(wú)疑加深了這種威脅。大數(shù)據(jù)時(shí)代,數(shù)據(jù)被奉為一切服務(wù)的起點(diǎn)與終點(diǎn)。人們似乎生活在一個(gè)360度無(wú)死角監(jiān)控的環(huán)境里,周邊仿佛有千萬(wàn)雙眼睛在盯著你,以全景式方式洞察著你,同時(shí)又有從四面八方涌來(lái)的信息將你完全淹沒其中。對(duì)于置身其中的用戶而言,一方面渴望大數(shù)據(jù)時(shí)代,給自己帶來(lái)更為貼心便捷的服務(wù);另一方面,又時(shí)刻擔(dān)憂著自己的隱私安全遭受侵犯。這種焦慮從前年谷歌眼鏡在發(fā)布過(guò)程中屢屢受挫就能體現(xiàn),即使谷歌眼鏡事實(shí)上什么也沒有做,還是無(wú)法阻擋人們對(duì)數(shù)據(jù)安全的擔(dān)憂。對(duì)于政府管理部門而言,一方面政府已經(jīng)意識(shí)到數(shù)據(jù)保護(hù)和隱私保護(hù)方面的制度不完善,并開始不斷強(qiáng)調(diào)個(gè)人信息和隱私保護(hù)的重要性,另一方面政府似乎仍然沒有從傳統(tǒng)社會(huì)的治理方式與管控思維中解脫出來(lái),制度上的滯后帶來(lái)的不僅是灰色地帶,還有風(fēng)險(xiǎn)。于大數(shù)據(jù)時(shí)代而言,這在本質(zhì)上,就是一場(chǎng)商家與商家之間,用戶與商家之間、政府與商家之間的隱私之戰(zhàn)。對(duì)于商家來(lái)說(shuō),誰(shuí)更靠近用戶的隱私,誰(shuí)就占據(jù)更多的機(jī)會(huì);于用戶而言,保護(hù)隱私,似乎從一開始就是個(gè)偽命題;于政府而言,安全與發(fā)展似乎總是難以抉擇。普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家阿爾文德?納拉亞南(ArvindNarayanan)稱,只要有合理的商業(yè)動(dòng)機(jī)來(lái)推動(dòng)數(shù)據(jù)挖掘的進(jìn)程,任何形式的隱私都是“算法上不可能”(algorithmicallyimpossible)的。我們無(wú)法回避這樣的事實(shí),即數(shù)據(jù)絕不是中立的,它很難保持匿名。大數(shù)據(jù)與隱私之間的關(guān)系,如何進(jìn)行平衡,如何把握尺度,這已成為各國(guó)立法、司法和執(zhí)法部門面臨的共同難題,當(dāng)然也是企業(yè)不得不思考的問(wèn)題。目前歐盟模式和美國(guó)模式是個(gè)人數(shù)據(jù)保護(hù)方面全球最有影響的兩種模式。歐盟模式是由國(guó)家主導(dǎo)的立法模式,國(guó)家通過(guò)立法確定個(gè)人數(shù)據(jù)保護(hù)的各項(xiàng)基本原則和具體法律規(guī)定。早在1981年歐盟理事會(huì)通過(guò)了《有關(guān)個(gè)人數(shù)據(jù)自動(dòng)化處理的個(gè)人保護(hù)協(xié)定》,1995年歐盟通過(guò)了《關(guān)于與個(gè)人數(shù)據(jù)處理相關(guān)的個(gè)人數(shù)據(jù)保護(hù)及此類數(shù)據(jù)自由流動(dòng)的指令》,歐盟后來(lái)又制定了一系列個(gè)人數(shù)據(jù)保護(hù)相關(guān)的法律法規(guī)。美國(guó)是行業(yè)自律模式的倡導(dǎo)者,通過(guò)行業(yè)內(nèi)部的行為規(guī)則、規(guī)范、標(biāo)準(zhǔn)和行業(yè)協(xié)會(huì)的監(jiān)督,實(shí)現(xiàn)行業(yè)內(nèi)個(gè)人數(shù)據(jù)保護(hù)的自我約束。行業(yè)自律模式是在充分保證個(gè)人數(shù)據(jù)自由流動(dòng)的基礎(chǔ)上保護(hù)個(gè)人數(shù)據(jù),從而保護(hù)行業(yè)利益。我國(guó)對(duì)于個(gè)人數(shù)據(jù)保護(hù)的立法起步較晚,目前還沒有專門的《個(gè)人信息保護(hù)法》。目前國(guó)內(nèi)關(guān)于個(gè)人數(shù)據(jù)相關(guān)的法律法規(guī)主要是2021年后頒布的三部:①2021年全國(guó)人大常委會(huì)發(fā)布的《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》;②2021年工信部發(fā)布的《信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南》(這份標(biāo)準(zhǔn)不具有法律約束力);③2021年工信部發(fā)布的《電信和互聯(lián)網(wǎng)用戶個(gè)人信息保護(hù)規(guī)定》。在立法缺位的情況下,容易出現(xiàn)“守法成本高、違法成本低”的怪相。今年國(guó)家在個(gè)人數(shù)據(jù)保護(hù)立法方面有很多新舉措,國(guó)內(nèi)個(gè)人數(shù)據(jù)保護(hù)的立法在逐步加強(qiáng)。3月15日生效的《網(wǎng)絡(luò)交易管理辦法》進(jìn)一步規(guī)定了網(wǎng)絡(luò)交易中個(gè)人信息保護(hù)的要求。3月15日生效的新《消費(fèi)者權(quán)益保費(fèi)法》授予工商部門對(duì)“侵害消費(fèi)者個(gè)人信息依法得到保護(hù)的權(quán)利”的執(zhí)法權(quán)。10月10日最高人民法院發(fā)布的《關(guān)于審理利用信息網(wǎng)絡(luò)侵害人身權(quán)益民事糾紛案件適用法律若干問(wèn)題的規(guī)定》明確了用戶個(gè)人信息及隱私被侵犯的訴權(quán)。10月27國(guó)家網(wǎng)信辦表示將出臺(tái)App應(yīng)用程序發(fā)展管理辦法,監(jiān)管移動(dòng)應(yīng)用行業(yè)的各種亂象。11月3日全國(guó)人大常委會(huì)初次審議《中華人民共和國(guó)刑法修正案(九)(草案)》,并向社會(huì)公開征求意見;《草案》包括出售、非法提供公民個(gè)人信息罪的修正案。11月4日工信部發(fā)布《通信短信息服務(wù)管理規(guī)定(征求意見稿)》向社會(huì)公開征求意見?!兑庖姼濉芬?guī)定,任何組織或者個(gè)人不得將采用人工收集、在線自動(dòng)收集、數(shù)字任意組合等手段獲得的他人的號(hào)碼用于出售、共享和交換,或者向通過(guò)上述方式獲得的號(hào)碼發(fā)送短信息。從大數(shù)據(jù)關(guān)鍵技術(shù)來(lái)看,其數(shù)據(jù)的收集、存儲(chǔ)、處理分析、可視化呈現(xiàn)等環(huán)節(jié)面臨著不同的風(fēng)險(xiǎn)、安全和隱私需求。(1)數(shù)據(jù)收集根據(jù)數(shù)據(jù)來(lái)源不同,大體可分為兩類,一是社會(huì)團(tuán)體對(duì)自身數(shù)據(jù)的采集,如企業(yè)自己的生產(chǎn)、運(yùn)營(yíng)等數(shù)據(jù);二是社會(huì)團(tuán)體對(duì)他人數(shù)據(jù)的采集,如本企業(yè)對(duì)其它企業(yè)、社會(huì)公眾、第三方系統(tǒng)等的數(shù)據(jù)采集。對(duì)于前者,企業(yè)擁有正當(dāng)?shù)夭杉?、處置?quán)利,但對(duì)于后者,牽涉到他方甚至多方,數(shù)據(jù)對(duì)企業(yè)存在潛在價(jià)值而進(jìn)行采集的同時(shí),是否會(huì)影響他方的利益應(yīng)在考慮范圍之內(nèi)。尤其在雙方不對(duì)等的情況下,如企業(yè)對(duì)個(gè)人,被采集方應(yīng)保留被告知甚至授權(quán)的權(quán)利,數(shù)據(jù)采集行為應(yīng)該接受社會(huì)公信力量(如政府、行業(yè)協(xié)會(huì)等)的監(jiān)管和公示,以保證被采集方的利益不受侵害,限制企業(yè)不收集、統(tǒng)計(jì)敏感信息以保護(hù)被采集方的隱私信息不受侵犯。同時(shí),數(shù)據(jù)收集過(guò)程中,應(yīng)注意對(duì)數(shù)據(jù)來(lái)源進(jìn)行甄別和驗(yàn)證,保證數(shù)據(jù)的真實(shí)性和有效性。(2)數(shù)據(jù)存儲(chǔ)已采集并存儲(chǔ)下來(lái)的數(shù)據(jù),是真正的價(jià)值所在,也是大數(shù)據(jù)一切行為和價(jià)值的基礎(chǔ)。對(duì)于此,可以參考傳統(tǒng)的信息安全手段,以保證數(shù)據(jù)的可用性、完整性、私密性為其目標(biāo)。當(dāng)前已有的技術(shù)手段可提供相應(yīng)的安全保障,可用性通過(guò)冗余設(shè)置,完整性有校驗(yàn)技術(shù);對(duì)于私密性,因大數(shù)據(jù)體量巨大的特性,傳統(tǒng)的加密技術(shù)會(huì)犧牲大量的計(jì)算資源,可行性較差,應(yīng)重點(diǎn)使用訪問(wèn)控制技術(shù)和安全審計(jì)功能來(lái)保障安全。由于大數(shù)據(jù)通常的體量巨大,很難被完全復(fù)制,因此可以通過(guò)可行的審計(jì)途徑及時(shí)發(fā)現(xiàn)惡意行為來(lái)提高數(shù)據(jù)的安全性。(3)數(shù)據(jù)處理分析處理分析行為直接對(duì)大數(shù)據(jù)執(zhí)行讀寫操作,應(yīng)設(shè)置完備的權(quán)限管理,進(jìn)行明確地授權(quán)后才能完成相應(yīng)操作。具體到大數(shù)據(jù)分析,不同的分析策略會(huì)產(chǎn)生不同的結(jié)果和價(jià)值,通過(guò)策略制定、執(zhí)行過(guò)程進(jìn)而獲取結(jié)果,策略的有效性直接關(guān)聯(lián)到結(jié)果的可用性,策略制定階段,應(yīng)考慮通過(guò)應(yīng)用不同的策略對(duì)結(jié)果進(jìn)行相互驗(yàn)證,以保證分析結(jié)果的正確可用。同時(shí),分析策略制定也是一個(gè)優(yōu)化的過(guò)程,通過(guò)策略的優(yōu)化以提高計(jì)算性能,可以有效降低計(jì)算成本。(4)數(shù)據(jù)可視化呈現(xiàn)大數(shù)據(jù)經(jīng)過(guò)分析處理,對(duì)結(jié)果進(jìn)行可視化呈現(xiàn)。經(jīng)大數(shù)據(jù)系統(tǒng)處理后的結(jié)果直接體現(xiàn)了數(shù)據(jù)的價(jià)值,但同時(shí)也框定了僅對(duì)特定需求存在價(jià)值,數(shù)據(jù)所有者應(yīng)當(dāng)對(duì)計(jì)算結(jié)果進(jìn)行評(píng)估,評(píng)估其有效性、可用性,如必要,進(jìn)行相應(yīng)的優(yōu)化調(diào)整。同時(shí)應(yīng)采取必要的安全策略,如訪問(wèn)控制、認(rèn)證授權(quán)等對(duì)分析結(jié)果進(jìn)行保護(hù)。綜合來(lái)說(shuō),大數(shù)據(jù)系統(tǒng)安全體系的建立是一個(gè)系統(tǒng)性的工程,需要國(guó)家從法律法規(guī)、行業(yè)規(guī)范以及技術(shù)手段等多方面對(duì)個(gè)人隱私數(shù)據(jù)進(jìn)行監(jiān)管和保護(hù)。數(shù)據(jù)所有者在法律法規(guī)框架內(nèi)擁有數(shù)據(jù)的處置權(quán)利。對(duì)于社會(huì)公共數(shù)據(jù)收集和使用,在企業(yè)成為數(shù)據(jù)的合法擁有者之前,應(yīng)需要承擔(dān)相應(yīng)的社會(huì)責(zé)任作為其成本。具體而言,以個(gè)人隱私保護(hù)為例,應(yīng)考慮是否授權(quán)企業(yè)對(duì)個(gè)人隱私內(nèi)容進(jìn)行收集和使用;大數(shù)據(jù)的收集和使用,是否可以不包含個(gè)人隱私內(nèi)容;對(duì)社會(huì)公眾行為的分析和獲益,是否需要承擔(dān)社會(huì)成本。當(dāng)前我國(guó)的法律對(duì)隱私權(quán)的保護(hù)雖然沒有做出明確直接的保護(hù)性規(guī)定,但卻間接地從其他方面對(duì)公民的隱私權(quán)不容侵犯給予了確認(rèn)。我國(guó)刑法主要是通過(guò)追究侵害隱私權(quán)行為刑事責(zé)任來(lái)實(shí)現(xiàn)對(duì)隱私權(quán)的保護(hù)。國(guó)外對(duì)個(gè)人數(shù)據(jù)的隱私權(quán)保護(hù)有統(tǒng)一專業(yè)的法律和法規(guī)。新版歐盟數(shù)據(jù)保護(hù)法規(guī)定在歐盟運(yùn)營(yíng)的企業(yè)一旦被發(fā)現(xiàn)不當(dāng)利用所掌握的包括客戶、供應(yīng)商或自己?jiǎn)T工在內(nèi)的個(gè)人信息,將面臨最嚴(yán)厲的處罰,違反該法規(guī)的公司將面臨最多相當(dāng)于其全球營(yíng)業(yè)額5%的罰款。美國(guó)除了采用網(wǎng)絡(luò)隱私權(quán)保護(hù)法律法規(guī)外,還傾向采用行業(yè)自律手段。面對(duì)大數(shù)據(jù)安全方面的復(fù)雜性,2021年美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)大數(shù)據(jù)工作組下屬安全與隱私小組針對(duì)大數(shù)據(jù)安全與隱私發(fā)布了第一版框架性草案。該草案從安全與隱私的維度對(duì)大數(shù)據(jù)的幾個(gè)關(guān)鍵特征:多樣性、規(guī)模性、真實(shí)性、高速性、有效性進(jìn)行了闡述。4.4參考架構(gòu)下的管理能力評(píng)估參考架構(gòu)以“一個(gè)概念體系,二個(gè)價(jià)值鏈維度”,描繪了大數(shù)據(jù)的整個(gè)生態(tài)體系。參考架構(gòu)為從事大數(shù)據(jù)相關(guān)應(yīng)用的每個(gè)個(gè)體組織提供了一個(gè)通用的大數(shù)據(jù)應(yīng)用系統(tǒng)框架,而檢驗(yàn)并不斷提升每個(gè)組織大數(shù)據(jù)應(yīng)用高效運(yùn)轉(zhuǎn)的一個(gè)有效方式,是建立一套遵循參考架構(gòu)的標(biāo)準(zhǔn)化的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論