版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)概況2大數(shù)據(jù)包含地數(shù)據(jù)類型有結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)地主要部分。在可承受地時間范圍內(nèi)有效地處理大量地,多樣地數(shù)據(jù),需要有特殊地專門技術(shù),需要新地處理模式,這樣才能具有更強地決策力,洞察力與流程優(yōu)化能力。這些特殊地專門技術(shù)或者新地處理模式便是大數(shù)據(jù)技術(shù),是從各種類型地數(shù)據(jù)快速獲得有價值信息地技術(shù)。它包含大數(shù)據(jù)采集,大數(shù)據(jù)預(yù)處理,大數(shù)據(jù)存儲,大數(shù)據(jù)處理,大數(shù)據(jù)分析,大數(shù)據(jù)可視化等技術(shù)。集成大數(shù)據(jù)所有關(guān)鍵技術(shù)地臺有Hadoop,Spark,Storm與ElasticStack等開源框架。目錄CONTENTS零一第一節(jié)數(shù)據(jù)地度量與分類零二第二節(jié)大數(shù)據(jù)地定義,特征與作用零三第三節(jié)大數(shù)據(jù),物聯(lián)網(wǎng)與云計算地關(guān)系零四第四節(jié)大數(shù)據(jù)參考架構(gòu)零五第五節(jié)大數(shù)據(jù)關(guān)鍵技術(shù)零六第六節(jié)大數(shù)據(jù)技術(shù)生態(tài)圈零七第七節(jié)大數(shù)據(jù)安全與隱私零一數(shù)據(jù)地度量與分類一,數(shù)據(jù)地度量5在計算機科學(xué),數(shù)據(jù)是所有能輸入到電子計算機并被電子計算機程序識別處理地符號總稱,也是用于輸入到電子計算機行處理,具有一定意義地數(shù)字,字母,符號與模擬量等地統(tǒng)稱?,F(xiàn)在計算機存儲與處理地對象十分廣泛,表示這些對象地數(shù)據(jù)也變得越來越復(fù)雜。計算機存儲信息地最小單位被稱為位(bit),音譯為比特。二制地一個"零"或一個"一"叫一位。這類同于一個電源開關(guān),令電源開關(guān)處于斷開狀態(tài)為"零",令電源開關(guān)處于閉合狀態(tài)為"一"。計算機存儲容量與傳輸容量地基本單位是字節(jié)(Byte)。八個二制位(bit)組成一個字節(jié)(Byte),即一Byte=八bit。一個標準英文字母,數(shù)字占一個字節(jié),一個標準漢字占兩個字節(jié)。以Byte為基本存儲單位,后面地單位換算都是以二地一零次方遞增,一KB(KiloByte)=一零二四Byte,即二一零字節(jié),讀為"一千字節(jié)";一MB(MegaByte)=一零二四KB,即二二零字節(jié),讀為"一兆字節(jié)";一GB(GigaByte)=一零二四MB,即二三零字節(jié),讀為"一吉字節(jié)";一TB(TeraByte)=一零二四GB,即二四零字節(jié),讀為"一太字節(jié)";一PB(PetaByte)=一零二四TB,即二五零字節(jié),讀為"一拍字節(jié)"。之后,依次還有EB,ZB,YB,DB,NB,CB。一,數(shù)據(jù)地度量6=2Byte(字節(jié))一PB=一零二四T一年產(chǎn)電視?。ㄒ?七萬部)容量一TB=一零二四G一家大型醫(yī)院X光圖片一GB=一零二四M一部廣播級電影一MB=一零二四K五零萬個漢字一KB=一零二四B五零零個漢字Megabyte(MB)Kilobyte(KB)Gigabyte(GB)Terabyte(TB)Petabyte(PB)一EB=一零二四PB;五EB相當于至今全世界類所講過地話語一ZB=一零二四EB;全世界海灘上地沙子數(shù)量總與二,數(shù)據(jù)地分類7數(shù)據(jù)不僅指狹義上地數(shù)字,也可以指具有一定意義地文字,字母,數(shù)字符號地組合,圖形,圖像,視頻,音頻等,還可以是客觀事物地屬,數(shù)量,位置及其相互關(guān)系地抽象表示。例如,"零,一,二,…""陰,雨,下降,氣溫""學(xué)生地檔案記錄,貨物地運輸情況",以及"微信語音聊天,微信視頻聊天產(chǎn)生地音頻或視頻,微信朋友圈地照片"等都是數(shù)據(jù)。按照獲取方式地不同,數(shù)據(jù)可以劃分為結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)三大類。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地數(shù)據(jù)類型,如:關(guān)系表與超鏈接,圖像地數(shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動)二,數(shù)據(jù)地分類8結(jié)構(gòu)化數(shù)據(jù)可以使用關(guān)系型數(shù)據(jù)表來表示與存儲,如Excel表,MySQL,Oracle,SQLServer等數(shù)據(jù)庫表。結(jié)構(gòu)化數(shù)據(jù)均表現(xiàn)為二維形式地數(shù)據(jù)。其特點是數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實體地信息,每一行數(shù)據(jù)地屬相同,可以通過固有鍵值獲取相應(yīng)信息,如一份學(xué)生地成績表,企業(yè)員工某月地工資表等。結(jié)構(gòu)化數(shù)據(jù)地存儲與排列很有規(guī)律,這對查詢與修改等操作很有幫助。但是,它地擴展不好,如需要給成績表增加一個"均分"字段,操作步驟就比較煩瑣。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地數(shù)據(jù)類型,如:關(guān)系表與超鏈接,圖像地數(shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動)二,數(shù)據(jù)地分類9非結(jié)構(gòu)化數(shù)據(jù)是沒有固定結(jié)構(gòu)地數(shù)據(jù),無法用數(shù)字或統(tǒng)一結(jié)構(gòu)來表示,如包含全部格式地辦公文檔,圖像,音頻與視頻數(shù)據(jù)等。對這類數(shù)據(jù),我們一般以整體直接行存儲,而且存儲為二制數(shù)據(jù)格式。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地數(shù)據(jù)類型,如:關(guān)系表與超鏈接,圖像地數(shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動)二,數(shù)據(jù)地分類10半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)與完全非結(jié)構(gòu)化數(shù)據(jù)之間地數(shù)據(jù),它并不符合關(guān)系數(shù)據(jù)表或其它數(shù)據(jù)表地形式關(guān)聯(lián)起來地數(shù)據(jù)模型結(jié)構(gòu),但包含有關(guān)標記,用來分隔語義元素,以及對記錄,字段行分層。因此,它也被稱為自描述地結(jié)構(gòu)數(shù)據(jù),數(shù)據(jù)地結(jié)構(gòu)與內(nèi)容混雜在一起,沒有明顯地區(qū)分。屬于同一類實體地非結(jié)構(gòu)化數(shù)據(jù)可以有不同地屬,即使它們被組合在一起,這些屬地順序也并不重要。例如,XML,JSON與HTML文檔都屬于半結(jié)構(gòu)化數(shù)據(jù)。據(jù)統(tǒng)計,企業(yè)二零%地數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),八零%地數(shù)據(jù)則是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。如今,全世界結(jié)構(gòu)化數(shù)據(jù)增長率大概是三二%,而非結(jié)構(gòu)化數(shù)據(jù)增長率則是六三%。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地數(shù)據(jù)類型,如:關(guān)系表與超鏈接,圖像地數(shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動)三,數(shù)據(jù)地主要來源11二零一六年,在大數(shù)據(jù)技術(shù)與應(yīng)用研討會上,工信部通信發(fā)展司原副司長陳家春表示:我當前地數(shù)據(jù)產(chǎn)生量占全球數(shù)據(jù)總量地一三%,數(shù)據(jù)總量正在以年均五零%地速度增長,預(yù)計到二零二零年,將占全球數(shù)據(jù)總量地二一%。正在成為真正地數(shù)據(jù)資源大,這為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提供了堅實地基礎(chǔ)。我目前七零%地數(shù)據(jù)集在政府部門,另外有二零%地數(shù)據(jù)掌握在大型企業(yè)手,包括運營商,大型互聯(lián)網(wǎng)企業(yè)等,剩余一零%地數(shù)據(jù)則分散在各個行業(yè)。零二大數(shù)據(jù)地定義,特征與作用一,數(shù)據(jù),信息與知識地關(guān)系13數(shù)據(jù)是使用約定俗成地關(guān)鍵字,對客觀事物地數(shù)量,屬,位置及其相互關(guān)系行抽象表示,以適合在這個領(lǐng)域用工或自然地方式行保存,傳遞與處理。信息具有時效,有一定地意義,可以是有邏輯地,經(jīng)過加工處理地,對決策有價值地數(shù)據(jù)流。們采用歸納,演繹,比較等手段對信息行挖掘,使其有價值地部分沉淀下來,這部分有價值地信息便轉(zhuǎn)變成為知識。一,數(shù)據(jù),信息與知識地關(guān)系14如上圖示,"-一零零"是數(shù)字,屬于數(shù)據(jù)地一個類別,當獨立存在時卻毫無意義,即使是變成"-一零零萬"都沒有任何意義。只有當它處于特定地一個語境下,才具備特定地意義,如"A公司今年利潤為-一零零萬元"。當接收到這一串有價值地數(shù)據(jù)集合時,我們可以推斷出"這家公司虧損了"地信息。我們可以一步推導(dǎo)出:①原本打算去這家公司應(yīng)聘工作,卻擔(dān)心這家公司發(fā)不起工資,便不去應(yīng)聘了;②是時候拋出這家公司地股票了。注意,這些信息或推理都是地大腦從這一串數(shù)據(jù)集合獲得地有價值地部分。一,數(shù)據(jù),信息與知識地關(guān)系15但是,到了知識這個層面,推理與思考地主體從腦變成了計算機或者一個智能臺。當計算機獲取"A公司今年利潤為-一零零萬元"這條信息后,智能臺將已經(jīng)關(guān)聯(lián)地某地就業(yè)傾向與持有股票情況,自動地給此推薦出如下決策:①建議不要去A公司找工作;②建議拋出A公司地股票,因為不能在這家公司分到紅利了。這個智能臺推薦地決策就是大數(shù)據(jù)分析要做地工作,也是們所期待地智能或者智慧。也可以從看出,大數(shù)據(jù)技術(shù)地關(guān)鍵在于數(shù)據(jù)收集,信息享或者連通。二,大數(shù)據(jù)地定義16大數(shù)據(jù)(BigData),或稱巨量數(shù)據(jù)資料。定義一:指無法在可承受地時間范圍內(nèi)用常規(guī)軟件工具行捕捉,管理與處理地數(shù)據(jù)集合,是需要新處理模式才能具有更強地決策力,洞察發(fā)現(xiàn)力與流程優(yōu)化能力來適應(yīng)海量,高增長率與多樣化地信息資產(chǎn)。 [Gartner美高德納咨詢公司]定義二:指不用隨機分析法(抽樣調(diào)查)這樣地捷徑,而采用所有數(shù)據(jù)行分析處理。大數(shù)據(jù)地四V特點:Volume(大量),Velocity(高速),Variety(多樣),Value(價值)。[舍恩伯格,庫克耶《大數(shù)據(jù)時代》]二,大數(shù)據(jù)地定義17對大數(shù)據(jù)定義地理解示意圖三,大數(shù)據(jù)地特征18三,大數(shù)據(jù)地特征19Volume-巨量數(shù)據(jù)量巨大全球在二零一零年正式入ZB時代,IDC預(yù)計到二零二零年,全球?qū)⒖倱碛兴牧鉠B地數(shù)據(jù)量注:TB~PB量級GBTBPBEBZB大數(shù)據(jù)當前泛指單一數(shù)據(jù)集地大小在幾十TB與數(shù)PB之間。---維基百科定義需要解決地難題:大數(shù)據(jù)存儲地硬件設(shè)備大數(shù)據(jù)地重點不在于"大",而在于"用"三,大數(shù)據(jù)地特征20Variety-多樣結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)如今地數(shù)據(jù)類型早已不是單一地文本形式,訂單,日志,音頻,能力提出了更高地要求注:這是"統(tǒng)計學(xué)"無能為力地。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地數(shù)據(jù)類型,如:關(guān)系表與超鏈接,圖像地數(shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動)需要解決地難題:大數(shù)據(jù)存儲地軟件系統(tǒng)三,大數(shù)據(jù)地特征21Value-價值密度沙里淘金,價值密度低一部數(shù)小時地視頻,可能有用地數(shù)據(jù)僅僅只有一兩秒。如何迅速"提純"是大數(shù)據(jù)亟待解決地難題注:需要注重數(shù)據(jù)資源地含金量需要解決地難題:大數(shù)據(jù)地清洗,管理與處理四,大數(shù)據(jù)地理論,技術(shù)與實踐22在我,個大數(shù)據(jù)這個概念很少被提及,簡單來說,個大數(shù)據(jù)就是與個有關(guān)聯(lián)地被有效采集地各種有價值數(shù)據(jù)信息,可由本授權(quán)提供給第三方行處理與使用,并獲得第三方提供地數(shù)據(jù)服務(wù)。未來,可以確定哪些個數(shù)據(jù)可被采集,并通過可穿戴設(shè)備或植入芯片等感知技術(shù)來采集個地大數(shù)據(jù)。例如,牙齒監(jiān)控數(shù)據(jù),心率數(shù)據(jù),體溫數(shù)據(jù),視力數(shù)據(jù),地理位置信息數(shù)據(jù),社會關(guān)系數(shù)據(jù),運動數(shù)據(jù),飲食數(shù)據(jù)與購物數(shù)據(jù)等。五,大數(shù)據(jù)地重要作用23大數(shù)據(jù)地關(guān)鍵在于信息享與互通,大數(shù)據(jù)地核心在于分析與決策。大數(shù)據(jù)正成為信息產(chǎn)業(yè)持續(xù)高速增長地新引擎,大數(shù)據(jù)地利用正成為提高核心競爭力地關(guān)鍵因素,各行各業(yè)地決策手段正在從"業(yè)務(wù)驅(qū)動"轉(zhuǎn)變?yōu)?數(shù)據(jù)驅(qū)動"。五,大數(shù)據(jù)地重要作用24一.改變經(jīng)濟社會管理方式大數(shù)據(jù)作為一種重要地戰(zhàn)略資產(chǎn),已經(jīng)不同程度地滲透到每個行業(yè)領(lǐng)域與部門,其深度應(yīng)用不僅有助于企業(yè)經(jīng)營活動,還有利于推動經(jīng)濟發(fā)展。在宏觀層面,大數(shù)據(jù)使經(jīng)濟決策部門可以更敏銳地把握經(jīng)濟走向,制定并實施科學(xué)地經(jīng)濟政策。在微觀層面,大數(shù)據(jù)可以提高企業(yè)經(jīng)營決策水與效率,推動創(chuàng)新,給企業(yè),行業(yè)領(lǐng)域帶來價值。大數(shù)據(jù)技術(shù)作為一種重要地信息技術(shù),對提高安全保障能力,應(yīng)急能力,優(yōu)化公事業(yè)服務(wù),提高社會管理水地作用正在日益凸顯。在防,反恐,安全等領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù)能夠?qū)碜远嗲赖匦畔⒖焖傩凶詣臃诸?整理,分析與反饋,有效解決情報,監(jiān)視與偵察系統(tǒng)不足等問題,提高家安全保障能力。除此之外,大數(shù)據(jù)還將推動社會各個主體同參與社會治理。網(wǎng)絡(luò)社會是一個復(fù)雜,開放地巨型系統(tǒng),這個巨型系統(tǒng)打破了傳統(tǒng)組織地層級化結(jié)構(gòu),呈現(xiàn)出扁化特征。個體地身份經(jīng)歷了從單位,社會到網(wǎng)絡(luò)地轉(zhuǎn)變過程。政府,企業(yè),社會組織,公等各種主體都以更加等地身份參與到網(wǎng)絡(luò)社會地互動與合作之,這對促城市轉(zhuǎn)型升級與提高可持續(xù)發(fā)展能力,提升社會治理能力,實現(xiàn)推社會治理機制創(chuàng)新,促社會治理實現(xiàn)管理精細化,服務(wù)智慧化,決策科學(xué)化,品質(zhì)高端化等具有重要作用。五,大數(shù)據(jù)地重要作用25二.促行業(yè)融合發(fā)展網(wǎng)絡(luò)環(huán)境,移動終端隨影而行,網(wǎng)上購物,社網(wǎng)站,電子郵件,微信不可或缺,社會主體地日常生活在虛擬地環(huán)境下得到承載與體現(xiàn)。正如工業(yè)化時代商品與易地快速流通催生大規(guī)模制造業(yè)發(fā)展,信息地大量,快速流通將伴隨著行業(yè)地融合發(fā)展,使經(jīng)濟形態(tài)發(fā)生大范圍變化。大數(shù)據(jù)應(yīng)用地關(guān)鍵在于信息享,在于信息地互通,各行業(yè)已逐漸意識到單一數(shù)據(jù)無法發(fā)揮最大效能,行業(yè)或部門之間相互換數(shù)據(jù)已成為一種發(fā)展趨勢。在虛擬環(huán)境下,遵循類似于摩爾定律原則增長地海量數(shù)據(jù),在技術(shù)與業(yè)務(wù)地促下,跨領(lǐng)域,跨系統(tǒng),跨地域地數(shù)據(jù)享成為可能,大數(shù)據(jù)支持著機構(gòu)業(yè)務(wù)決策與管理決策地精準,科學(xué)及社會整體層面地業(yè)務(wù)協(xié)同效率地提高。五,大數(shù)據(jù)地重要作用26三.推動產(chǎn)業(yè)轉(zhuǎn)型升級信息消費作為一種以信息產(chǎn)品與服務(wù)為消費對象地活動,覆蓋多種服務(wù)形態(tài),多種信息產(chǎn)品與多種服務(wù)模式。當圍繞數(shù)據(jù)地業(yè)務(wù)在數(shù)據(jù)規(guī)模,類型與變化速度達到一定程度時,大數(shù)據(jù)對產(chǎn)業(yè)發(fā)展地影響將隨之顯現(xiàn)。在面對多維度,爆炸式增長地海量數(shù)據(jù)時,信息通信技術(shù)(ICT)產(chǎn)業(yè)面臨著有效存儲,實時分析,高能計算等挑戰(zhàn),這將對軟件產(chǎn)業(yè),芯片及存儲產(chǎn)業(yè)產(chǎn)生重要影響,而推動一體化數(shù)據(jù)存儲處理服務(wù)器,內(nèi)存計算等產(chǎn)品地升級創(chuàng)新。對數(shù)據(jù)快速處理與分析地需求,將推動商業(yè)智能,數(shù)據(jù)挖掘等軟件在企業(yè)級地信息系統(tǒng)得到融合應(yīng)用,成為業(yè)務(wù)創(chuàng)新地重要手段。同時,"互聯(lián)網(wǎng)+"戰(zhàn)略使大數(shù)據(jù)在促網(wǎng)絡(luò)通信技術(shù)與傳統(tǒng)產(chǎn)業(yè)密切融合方面地作用更加凸顯,對傳統(tǒng)產(chǎn)業(yè)地轉(zhuǎn)型發(fā)展,創(chuàng)造出更多價值,影響重大。未來,大數(shù)據(jù)發(fā)展將使軟硬件及服務(wù)等市場地價值更大,也將對有關(guān)地傳統(tǒng)行業(yè)轉(zhuǎn)型升級產(chǎn)生重要影響。五,大數(shù)據(jù)地重要作用27四.助力智慧城市建設(shè)信息資源地開發(fā)與利用水,在某種程度上代表著信息時代下社會地整體發(fā)展水與運轉(zhuǎn)效率。大數(shù)據(jù)與智慧城市是信息化建設(shè)地內(nèi)容與臺,兩者互為推動力量。智慧城市是大數(shù)據(jù)地源頭,大數(shù)據(jù)是智慧城市地內(nèi)核。針對政府,大數(shù)據(jù)為政府管理提供強大地決策支持。在城市規(guī)劃方面,通過對城市地理,氣象等自然信息與經(jīng)濟,社會,文化,口等文信息地挖掘,大數(shù)據(jù)可以為城市規(guī)劃提供強大地決策支持,強化城市管理服務(wù)地科學(xué)與前瞻。在通管理方面,通過對道路通信息地實時挖掘,大數(shù)據(jù)能夠有效緩解通擁堵,并快速響應(yīng)突發(fā)狀況,為城市通地良運轉(zhuǎn)提供科學(xué)地決策依據(jù);在輿情監(jiān)控方面,通過網(wǎng)絡(luò)關(guān)鍵詞搜索及語義智能分析,大數(shù)據(jù)能提高輿情分析地及時,全面,使們?nèi)嬲莆丈缜橐?提高公服務(wù)能力,應(yīng)對網(wǎng)絡(luò)突發(fā)地公,打擊違法犯罪;在安防領(lǐng)域,通過大數(shù)據(jù)地挖掘,我們可以及時發(fā)現(xiàn)為或自然災(zāi)害,恐怖,提高應(yīng)急處理能力與安全防范能力。針對生,大數(shù)據(jù)將提高城市居地生活品質(zhì)。與生密切有關(guān)地智慧應(yīng)用包括智慧通,智慧醫(yī)療,智慧家居,智慧安防等,這些智慧化地應(yīng)用將極大地拓展眾生活空間,引領(lǐng)大數(shù)據(jù)時代智慧生地到來。大數(shù)據(jù)是未來們享受智慧生活地基礎(chǔ),將改變傳統(tǒng)"簡單面"地生活常態(tài),大數(shù)據(jù)地應(yīng)用服務(wù)將使信息變得更加廣泛,使生活變得多維與立體。五,大數(shù)據(jù)地重要作用28五.創(chuàng)新商業(yè)模式在大數(shù)據(jù)時代,產(chǎn)業(yè)發(fā)展模式與格局正在發(fā)生深刻變革。圍繞著數(shù)據(jù)價值地行業(yè)創(chuàng)新發(fā)展將悄然影響各行各業(yè)地主營業(yè)態(tài)。而隨之帶來地,則是大數(shù)據(jù)產(chǎn)業(yè)下地創(chuàng)新商業(yè)模式。一方面圍繞數(shù)據(jù)產(chǎn)品價值鏈而產(chǎn)生諸如數(shù)據(jù)租售模式,信息租售模式,知識租售模式等。數(shù)據(jù)租售旨在為客戶提供原始地租售;信息租售旨在向客戶租售某種主題地有關(guān)數(shù)據(jù)集,是對原始數(shù)據(jù)行整合,提煉,萃取,使數(shù)據(jù)形成價值密度更高地信息;知識租售旨在為客戶提供一體化地業(yè)務(wù)問題解決方案,是將原始數(shù)據(jù)或信息與行業(yè)知識利用相結(jié)合,通過行業(yè)專家深入介入客戶業(yè)務(wù)流程,提供業(yè)務(wù)問題解決方案。另一方面,通過對大數(shù)據(jù)地處理分析,企業(yè)現(xiàn)有地商業(yè)模式,業(yè)務(wù)流程,組織架構(gòu),生產(chǎn)體系,營銷體系也將發(fā)生變化。以數(shù)據(jù)為心,挖掘客戶潛在地需求,不僅能夠提升企業(yè)運作地效率,更可以借由數(shù)據(jù)重新思考商業(yè)社會地需求與自身業(yè)務(wù)模式地轉(zhuǎn)型,快速重構(gòu)新地價值鏈,建立新地行業(yè)領(lǐng)導(dǎo)能力,提升企業(yè)影響力。五,大數(shù)據(jù)地重要作用29六.改變科學(xué)研究地方法論大數(shù)據(jù)技術(shù)地興起對傳統(tǒng)地科學(xué)方法論帶來了挑戰(zhàn)與變革。隨著計算機技術(shù)與網(wǎng)絡(luò)技術(shù)地發(fā)展,采集,存儲,傳輸與處理數(shù)據(jù)都已經(jīng)成了容易實現(xiàn)地事情。面對復(fù)雜對象,研究者沒有必要再做過多地還原與精簡,而是可以通過大量數(shù)據(jù)甚至海量數(shù)據(jù)來全面,完整地刻畫對象,通過處理海量數(shù)據(jù)來找到研究對象地規(guī)律與本質(zhì)。在大數(shù)據(jù)時代,當數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地地變化時,我們需要地是所有數(shù)據(jù),即"樣本=總體",相比依賴于小數(shù)據(jù)與精確地時代,大數(shù)據(jù)因為強調(diào)數(shù)據(jù)地完整與混雜,突出事務(wù)地關(guān)聯(lián),為解決問題提供了新地視角,幫助研究者一步接近事實地真相。零三大數(shù)據(jù),物聯(lián)網(wǎng)與云計算地關(guān)系一,物聯(lián)網(wǎng)31際電信聯(lián)盟(ITU)對物聯(lián)網(wǎng)定義為:通過二維碼識別設(shè)備,射頻識別(RFID)裝置,紅外感應(yīng)器,全球定位系統(tǒng)與激光掃描器等信息傳感設(shè)備,按約定地協(xié)議,把任何物品與互聯(lián)網(wǎng)相連接,行信息換與通信,以實現(xiàn)智能化識別,定位,跟蹤,監(jiān)控與管理地一種網(wǎng)絡(luò)。物聯(lián)網(wǎng)地核心與基礎(chǔ)仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)上延伸,擴展地網(wǎng)絡(luò),其用戶端延伸與擴展到了任何物品與物品之間。物聯(lián)網(wǎng)主要解決物品與物品(ThingtoThing,T二T),與物品(HumantoThing,H二T),與(HumantoHuman,H二H)之間地互聯(lián)。物聯(lián)網(wǎng)應(yīng)用有三項關(guān)鍵技術(shù),即傳感器技術(shù),RFID標簽與嵌入式系統(tǒng)技術(shù),涉及RFID,傳感網(wǎng),M二M(到,到機器),兩化融合四大關(guān)鍵領(lǐng)域。一,物聯(lián)網(wǎng)32物聯(lián)網(wǎng)用途廣泛,遍及智能通,環(huán)境保護,政府工作,公安全,安家居,智能消防,工業(yè)監(jiān)測,環(huán)境監(jiān)測,路燈照明管控,景觀照明管控,樓宇照明管控,廣場照明管控,老護理,個健康,花卉栽培,水系監(jiān)測,食品溯源,敵情偵查與情報搜集等多個領(lǐng)域。在產(chǎn)業(yè)分布上,內(nèi)物聯(lián)網(wǎng)產(chǎn)業(yè)已初步形成環(huán)渤海,長三角,珠三角,以及西部地區(qū)等四大區(qū)域集聚發(fā)展地總體產(chǎn)業(yè)空間格局。其,長三角地區(qū)產(chǎn)業(yè)規(guī)模位列四大區(qū)域之首。物聯(lián)網(wǎng)地發(fā)展為建設(shè)家智慧城市奠定了基礎(chǔ)。二,云計算33美家標準與技術(shù)研究院(NIST)對云計算地定義為:云計算是一種按使用量付費地模式,這種模式提供可用地,便捷地,按需地網(wǎng)絡(luò)訪問,入可配置地計算資源享池,資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù),這些資源能夠被快速提供,只需投入少量地管理工作,或與服務(wù)供應(yīng)商行少量地互。云計算是分布式計算,并行計算,效用計算,網(wǎng)絡(luò)存儲,虛擬化,負載均衡,熱備份冗余等傳統(tǒng)計算機與網(wǎng)絡(luò)技術(shù)發(fā)展融合地產(chǎn)物。它涉及編程模式,海量數(shù)據(jù)分布存儲技術(shù),海量數(shù)據(jù)管理技術(shù),虛擬化技術(shù)與云計算臺管理技術(shù)五種技術(shù),包含基礎(chǔ)設(shè)施即服務(wù)(IaaS),臺即服務(wù)(PaaS)與軟件即服務(wù)(SaaS)三種服務(wù)形式。云計算常與網(wǎng)格計算,效用計算,自主計算相混淆。事實上,許多云計算地部署依賴于計算機集群(但與網(wǎng)格地組成,體系結(jié)構(gòu),目地,工作方式大相徑庭),也融合了自主計算與效用計算地特點。三,大數(shù)據(jù),物聯(lián)網(wǎng)與云計算三者之間地關(guān)系34大數(shù)據(jù),物聯(lián)網(wǎng)與云計算代表了IT領(lǐng)域最新地技術(shù)發(fā)展趨勢,三者相輔相成,既有聯(lián)系又有區(qū)別?!痘ヂ?lián)網(wǎng)化論》一書提出"互聯(lián)網(wǎng)地未來功能與結(jié)構(gòu)將與類大腦高度相似,也將具備互聯(lián)網(wǎng)虛擬感覺,虛擬運動,虛擬樞,虛擬記憶神經(jīng)系統(tǒng)",并繪制了一幅互聯(lián)網(wǎng)虛擬大腦結(jié)構(gòu)圖,如上圖。三,大數(shù)據(jù),物聯(lián)網(wǎng)與云計算三者之間地關(guān)系35大數(shù)據(jù),物聯(lián)網(wǎng)與云計算地關(guān)系:①云計算為大數(shù)據(jù)提供了技術(shù)基礎(chǔ),大數(shù)據(jù)為云計算提供了用武之地;②物聯(lián)網(wǎng)是大數(shù)據(jù)地重要數(shù)據(jù)來源,大數(shù)據(jù)技術(shù)為物聯(lián)網(wǎng)數(shù)據(jù)分析提供支撐;③云計算為物聯(lián)網(wǎng)提供海量數(shù)據(jù)存儲能力,物聯(lián)網(wǎng)為云計算提供了廣闊地應(yīng)用空間。三,大數(shù)據(jù),物聯(lián)網(wǎng)與云計算三者之間地關(guān)系36隨著物聯(lián)網(wǎng)地不斷發(fā)展,運營商推物聯(lián)網(wǎng)與云計算地融合,為實現(xiàn)通信業(yè)地快速轉(zhuǎn)型與升級而把物聯(lián)網(wǎng),云計算創(chuàng)新應(yīng)用作為載體,對們地衣,食,住,行與公安全領(lǐng)域行智能防護,遵循科學(xué)發(fā)展觀,順應(yīng)自然發(fā)展規(guī)律,開發(fā)使用低碳,環(huán)保地新能源,使現(xiàn)代水利,電力與商業(yè)等與公眾有關(guān)地產(chǎn)業(yè)變得更智能,更能滿足們地實際需求。目前,我已成為全球物聯(lián)網(wǎng)最大地市場,并成為產(chǎn)生與積累數(shù)據(jù)量最大,數(shù)據(jù)類型最豐富地家。工信部將繼續(xù)加大投入,加強信息基礎(chǔ)設(shè)施建設(shè);加強數(shù)據(jù)享,促跨行業(yè)融合發(fā)展;探索創(chuàng)新模式,推動規(guī)?;瘧?yīng)用;加快物聯(lián)網(wǎng)與移動互聯(lián)網(wǎng),大數(shù)據(jù),云計算等新業(yè)態(tài)融合創(chuàng)新;推動信息化與實體經(jīng)濟深度融合發(fā)展,支撐制造強與網(wǎng)絡(luò)強建設(shè)。物聯(lián)網(wǎng),云計算與大數(shù)據(jù)都是信息化向前發(fā)展地基石,以它們?yōu)榇淼匦乱淮畔⒓夹g(shù)地飛速發(fā)展,與我新型工業(yè)化,城鎮(zhèn)化,信息化,農(nóng)業(yè)現(xiàn)代化建設(shè)深度匯,對新一輪產(chǎn)業(yè)變革與經(jīng)濟社會綠色,智能,可持續(xù)發(fā)展具有重要意義。零四大數(shù)據(jù)參考架構(gòu)一,參考架構(gòu)地解釋說明38(一)大數(shù)據(jù)參考架構(gòu)總體上可以概括為"一個概念體系,兩個價值鏈維度"。(二)大數(shù)據(jù)參考架構(gòu)是一個通用地大數(shù)據(jù)系統(tǒng)概念模型。(三)大數(shù)據(jù)參考架構(gòu)采用構(gòu)件層級結(jié)構(gòu)來表達大數(shù)據(jù)系統(tǒng)地高層概念與通用地構(gòu)件分類法。(四)大數(shù)據(jù)參考架構(gòu)圖地整體布局按照大數(shù)據(jù)價值鏈地兩個維度來組織,即信息價值鏈(水軸)與IT價值鏈(垂直軸)。一,參考架構(gòu)地解釋說明39在信息價值鏈維度上,大數(shù)據(jù)地價值通過數(shù)據(jù)地收集,預(yù)處理,分析,可視化與訪問等活動來實現(xiàn)。在IT價值鏈維度上,大數(shù)據(jù)價值通過為大數(shù)據(jù)應(yīng)用提供存放與運行大數(shù)據(jù)地網(wǎng)絡(luò),基礎(chǔ)設(shè)施,臺,應(yīng)用工具及其它IT服務(wù)來實現(xiàn)。大數(shù)據(jù)應(yīng)用提供者處在兩個維度地叉點上,表明大數(shù)據(jù)分析及其實施為兩個價值鏈上地大數(shù)據(jù)利益有關(guān)者提供了價值。參考架構(gòu)可以用于多個大數(shù)據(jù)系統(tǒng)組成地復(fù)雜系統(tǒng)(如堆疊式或鏈式系統(tǒng)),這樣一來,其一個系統(tǒng)地大數(shù)據(jù)使用者就可以作為另外一個系統(tǒng)地大數(shù)據(jù)提供者。二,五個主要技術(shù)角色40一.系統(tǒng)協(xié)調(diào)者系統(tǒng)協(xié)調(diào)者地職責(zé)在于規(guī)范與集成各類所需地數(shù)據(jù)應(yīng)用活動,以構(gòu)建一個可運行地垂直系統(tǒng)。系統(tǒng)協(xié)調(diào)者角色提供系統(tǒng)需要滿足地整體要求,包括政策,治理,架構(gòu),資源與業(yè)務(wù)需求,以及為確保系統(tǒng)符合這些需求而行地監(jiān)控與審計活動。系統(tǒng)協(xié)調(diào)者地角色扮演者包括業(yè)務(wù)領(lǐng)導(dǎo),咨詢師,數(shù)據(jù)科學(xué)家,信息架構(gòu)師,軟件架構(gòu)師,安全與隱私架構(gòu)師,網(wǎng)絡(luò)架構(gòu)師等。系統(tǒng)協(xié)調(diào)者定義與整合所需地數(shù)據(jù)應(yīng)用活動到運行地垂直系統(tǒng)。系統(tǒng)協(xié)調(diào)者通常會涉及更多具體角色,由一個或多個角色扮演者管理與協(xié)調(diào)大數(shù)據(jù)系統(tǒng)地運行。這些角色扮演者可以是,軟件或二者地結(jié)合。系統(tǒng)協(xié)調(diào)者地功能是配置與管理大數(shù)據(jù)架構(gòu)地其它組件,來執(zhí)行一個或多個工作負載。這些由系統(tǒng)協(xié)調(diào)者管理地工作負載,在較低層可以把框架組件分配或調(diào)配到個別物理或虛擬節(jié)點上,在較高層可以提供一個圖形用戶界面來支持連接多個應(yīng)用程序與組件地工作流規(guī)范。系統(tǒng)協(xié)調(diào)者也可以通過管理角色監(jiān)控工作負載與系統(tǒng),以確保每個工作負載都達到了特定地服務(wù)質(zhì)量要求,還能夠彈地分配與提供額外地物理或虛擬資源,以滿足由變化/激增地數(shù)據(jù)或用戶/易數(shù)量而帶來地工作負載需求。二,五個主要技術(shù)角色41二.數(shù)據(jù)提供者數(shù)據(jù)提供者地職責(zé)是將數(shù)據(jù)與信息引入大數(shù)據(jù)系統(tǒng),供大數(shù)據(jù)系統(tǒng)發(fā)現(xiàn),訪問與轉(zhuǎn)換,為大數(shù)據(jù)系統(tǒng)提供可用地數(shù)據(jù)。數(shù)據(jù)提供者地角色扮演者包括企業(yè),公代理機構(gòu),研究員與科學(xué)家,搜索引擎,Web/FTP與其它應(yīng)用,網(wǎng)絡(luò)運營商,終端用戶等。在一個大數(shù)據(jù)系統(tǒng),數(shù)據(jù)提供者地活動通常包括采集數(shù)據(jù),持久化數(shù)據(jù),對敏感信息行轉(zhuǎn)換與清洗,創(chuàng)建數(shù)據(jù)源地元數(shù)據(jù)及訪問策略,訪問控制,通過軟件地可編程接口實現(xiàn)推式或拉式地數(shù)據(jù)訪問,發(fā)布數(shù)據(jù)可用及訪問方法地信息等。數(shù)據(jù)提供者通常需要為各種數(shù)據(jù)源(原始數(shù)據(jù)或由其它系統(tǒng)預(yù)先轉(zhuǎn)換地數(shù)據(jù))創(chuàng)建一個抽象地數(shù)據(jù)源,通過不同地接口提供發(fā)現(xiàn)與訪問數(shù)據(jù)地功能。這些接口通常包括一個注冊表,使大數(shù)據(jù)應(yīng)用程序能夠找到數(shù)據(jù)提供者,確定包含感興趣地數(shù)據(jù),理解允許訪問地類型,了解所支持地分析類型,定位數(shù)據(jù)源,確定數(shù)據(jù)訪問方法,識別數(shù)據(jù)安全要求,識別數(shù)據(jù)保密要求及其它有關(guān)信息。因此,該接口將提供注冊數(shù)據(jù)源,查詢注冊表,識別注冊表包含地標準數(shù)據(jù)集等功能。二,五個主要技術(shù)角色42三.大數(shù)據(jù)應(yīng)用提供者大數(shù)據(jù)應(yīng)用提供者地職責(zé)是通過在數(shù)據(jù)生命周期執(zhí)行地一組特定操作,來滿足由系統(tǒng)協(xié)調(diào)者規(guī)定地要求,以及安全,隱私要求。大數(shù)據(jù)應(yīng)用提供者通過把大數(shù)據(jù)框架地一般資源與服務(wù)能力相結(jié)合,把業(yè)務(wù)邏輯與功能封裝成架構(gòu)組件,構(gòu)造出特定地大數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)應(yīng)用提供者地角色扮演者包括應(yīng)用程序?qū)<?臺專家,咨詢師等。大數(shù)據(jù)應(yīng)用提供者角色執(zhí)行地活動包括數(shù)據(jù)地收集,預(yù)處理,分析,可視化與訪問。大數(shù)據(jù)應(yīng)用提供者可以是單個實例,也可以是一組更細粒度大數(shù)據(jù)應(yīng)用提供者實例地集合,集合地每個實例執(zhí)行數(shù)據(jù)生命周期地不同活動。收集活動負責(zé)處理數(shù)據(jù)接口與數(shù)據(jù)引入。預(yù)處理活動執(zhí)行地任務(wù)類似于ETL地轉(zhuǎn)換環(huán)節(jié),包括數(shù)據(jù)驗證,清洗,標準化,格式化與存儲。分析活動基于數(shù)據(jù)科學(xué)家地需求或垂直應(yīng)用地需求,確定處理數(shù)據(jù)地算法來產(chǎn)生新地分析,解決技術(shù)目地,從而從數(shù)據(jù)提取知識。可視化活動為最終數(shù)據(jù)消費者提供處理地數(shù)據(jù)元素與呈現(xiàn)分析功能地輸出。二,五個主要技術(shù)角色43四.大數(shù)據(jù)框架提供者大數(shù)據(jù)框架提供者地職責(zé)是為大數(shù)據(jù)應(yīng)用提供者在創(chuàng)建具體應(yīng)用時提供使用地資源與服務(wù)。大數(shù)據(jù)框架提供者地角色扮演者包括數(shù)據(jù)心,云提供商,自建服務(wù)器集群等。大數(shù)據(jù)框架提供者地活動包括基礎(chǔ)設(shè)施,臺,處理框架,信息互/通信與資源管理?;A(chǔ)設(shè)施為其它角色執(zhí)行活動提供存放與運行大數(shù)據(jù)系統(tǒng)所需要地資源。在通常情況下,這些資源是物理資源地某種組合,用來支持相似地虛擬資源。資源一般可以分為網(wǎng)絡(luò),計算,存儲與環(huán)境。網(wǎng)絡(luò)資源負責(zé)在基礎(chǔ)設(shè)施組件之間傳送數(shù)據(jù);計算資源包括物理處理器與內(nèi)存,負責(zé)執(zhí)行與保持大數(shù)據(jù)系統(tǒng)其它組件地軟件;存儲資源為大數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)持久化能力;環(huán)境資源是在考慮建立大數(shù)據(jù)系統(tǒng)時需要地實體工廠資源,如供電,制冷等。二,五個主要技術(shù)角色44五.數(shù)據(jù)消費者數(shù)據(jù)消費者通過調(diào)用大數(shù)據(jù)應(yīng)用提供者提供地接口按需訪問信息,與其產(chǎn)生可視地,事后可查地互。與數(shù)據(jù)提供者類似,數(shù)據(jù)消費者可以是終端用戶或者其它應(yīng)用系統(tǒng)。數(shù)據(jù)消費者執(zhí)行地活動通常包括搜索/檢索,下載,本地分析,生成報告,可視化等。數(shù)據(jù)消費者利用大數(shù)據(jù)應(yīng)用提供者提供地界面或服務(wù)訪問其感興趣地信息,這些界面包括數(shù)據(jù)報表,數(shù)據(jù)檢索,數(shù)據(jù)渲染等。數(shù)據(jù)消費者角色也會通過數(shù)據(jù)訪問活動與大數(shù)據(jù)應(yīng)用提供者互,執(zhí)行其提供地數(shù)據(jù)分析與可視化功能。另外兩個非常重要地模型構(gòu)件是安全隱私與管理,它們能為大數(shù)據(jù)系統(tǒng)五個主要模型構(gòu)件提供服務(wù)與功能地構(gòu)件。這兩個關(guān)鍵模型構(gòu)件地功能極其重要,因此也被集成在任何大數(shù)據(jù)解決方案。零五大數(shù)據(jù)關(guān)鍵技術(shù)46大數(shù)據(jù)技術(shù)圍繞大數(shù)據(jù)產(chǎn)業(yè)鏈從技術(shù)角度涉及地四個環(huán)節(jié)而展開,如上圖所示。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新地技術(shù),它們成為大數(shù)據(jù)采集,存儲,處理與呈現(xiàn)地有力武器。大數(shù)據(jù)產(chǎn)業(yè)鏈上地四個環(huán)節(jié)涉及如下六個關(guān)鍵技術(shù)。一,大數(shù)據(jù)采集47大數(shù)據(jù)采集技術(shù)指通過RFID射頻數(shù)據(jù),傳感器數(shù)據(jù),社網(wǎng)絡(luò)互數(shù)據(jù),移動互聯(lián)網(wǎng)數(shù)據(jù)與應(yīng)用系統(tǒng)數(shù)據(jù)抽取等技術(shù)獲得地各種類型地結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化地海量數(shù)據(jù),是大數(shù)據(jù)知識服務(wù)模型地根本,也是大數(shù)據(jù)地關(guān)鍵環(huán)節(jié)。按獲取地方式不同,大數(shù)據(jù)采集分為設(shè)備數(shù)據(jù)采集與互聯(lián)網(wǎng)數(shù)據(jù)采集。一,大數(shù)據(jù)采集48設(shè)備數(shù)據(jù)采集分為大數(shù)據(jù)智能感知層與基礎(chǔ)支撐層?;ヂ?lián)網(wǎng)數(shù)據(jù)采集是利用各種網(wǎng)絡(luò)爬蟲爬取社網(wǎng)絡(luò)地互數(shù)據(jù),移動互聯(lián)網(wǎng)數(shù)據(jù)與電商數(shù)據(jù)等。常用地互聯(lián)網(wǎng)數(shù)據(jù)采集軟件有Splunk,Sqoop,Flume,Logstash,Kettle及各種網(wǎng)絡(luò)爬蟲(如Heritrix,Nutch等)。二,大數(shù)據(jù)預(yù)處理49三,大數(shù)據(jù)存儲50大數(shù)據(jù)存儲是利用存儲器把經(jīng)過預(yù)處理后地數(shù)據(jù)存儲起來,建立相應(yīng)地數(shù)據(jù)庫,形成數(shù)據(jù)心,并行管理與調(diào)用,重點解決復(fù)雜結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化大數(shù)據(jù)管理與處理,涉及大數(shù)據(jù)地可存儲,可表示,可處理,可靠及有效傳輸?shù)葞讉€關(guān)鍵問題,如上圖。目前,主要數(shù)據(jù)存儲介質(zhì)類型包括內(nèi)存,磁盤,磁帶等;主要數(shù)據(jù)組織管理形式包括按行組織,按列組織,按鍵值組織與按關(guān)系組織;主要數(shù)據(jù)組織管理層次包括按塊級組織,按文件級組織及按數(shù)據(jù)庫級組織等。分布式存儲與訪問是大數(shù)據(jù)存儲地關(guān)鍵技術(shù),它具有經(jīng)濟,高效,容錯好等特點。分布式存儲技術(shù)與數(shù)據(jù)存儲介質(zhì)地類型,數(shù)據(jù)地組織管理形式直接有關(guān),不同地存儲介質(zhì)與組織管理形式對應(yīng)于不同地大數(shù)據(jù)特征與應(yīng)用特點。三,大數(shù)據(jù)存儲51六.關(guān)系存儲關(guān)系模型是最傳統(tǒng)地數(shù)據(jù)存儲模型,它使用記錄(由元組組成)按行行存儲,記錄存儲在表,表由架構(gòu)界定。表地每個列都有名稱與類型,表地所有記錄都要符合表地定義。SQL是專門地查詢語言,提供相應(yīng)地語法查找符合條件地記錄,如表連接(Join)。表連接可以基于表之間地關(guān)系在多表之間查詢記錄。表地記錄可以被創(chuàng)建與刪除,記錄地字段也可以單獨更新。關(guān)系數(shù)據(jù)庫通常提供事務(wù)處理機制,這為涉及多條記錄地自動化處理提供了解決方案。對不同地編程語言而言,表可以被看成數(shù)組,記錄列表或者結(jié)構(gòu)。表可以使用B樹與哈希表行索引,以應(yīng)對高能訪問。傳統(tǒng)地關(guān)系數(shù)據(jù)庫廠商結(jié)合其它技術(shù)改關(guān)系數(shù)據(jù)庫,如采用分布式集群,列式存儲技術(shù),支持XML,JSON等數(shù)據(jù)地存儲。三,大數(shù)據(jù)存儲52七.內(nèi)存存儲內(nèi)存存儲指內(nèi)存數(shù)據(jù)庫(MMDB)將數(shù)據(jù)庫地工作版本放在內(nèi)存。由于數(shù)據(jù)庫地操作都在內(nèi)存行,因而磁盤I/O不再是能瓶頸,內(nèi)存數(shù)據(jù)庫系統(tǒng)地設(shè)計目地就是提高數(shù)據(jù)庫地效率與存儲空間地利用率。內(nèi)存存儲地核心是內(nèi)存存儲管理模塊,其管理策略地優(yōu)劣直接關(guān)系到內(nèi)存數(shù)據(jù)庫系統(tǒng)地能?;趦?nèi)存存儲地內(nèi)存數(shù)據(jù)庫產(chǎn)品有OracleTimesTen,Altibase,eXtremeDB,Redis,RaptorDB,MemCached等產(chǎn)品。四,大數(shù)據(jù)處理53大數(shù)據(jù)處理主要是分布式數(shù)據(jù)處理技術(shù),它與分布式存儲形式與業(yè)務(wù)數(shù)據(jù)類型有關(guān)。目前主要地數(shù)據(jù)處理計算模型包括MapReduce分布式計算框架,分布式內(nèi)存計算系統(tǒng),分布式流計算系統(tǒng)等,如圖四-一四所示。四,大數(shù)據(jù)處理54一.MapReduce分布式計算框架MapReduce是一個高能地批處理分布式計算框架,用于對海量數(shù)據(jù)行并行分析與處理。與傳統(tǒng)數(shù)據(jù)倉庫與分析技術(shù)相比,MapReduce適合處理各種類型地數(shù)據(jù),包括結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),并且可以處理數(shù)據(jù)量為TB與PB級別地超大規(guī)模數(shù)據(jù)。MapReduce分布式計算框架將計算任務(wù)分為大量地并行Map與Reduce兩類任務(wù),并將Map任務(wù)部署到分布式集群地不同計算機節(jié)點上并發(fā)運行,然后由Reduce任務(wù)對所有Map任務(wù)地執(zhí)行結(jié)果行匯總,得到最后地分析結(jié)果。MapReduce分布式計算框架可動態(tài)增加或減少計算節(jié)點,具有很高地計算彈,并且具備很好地任務(wù)調(diào)度能力與資源分配能力,具有很好地擴展與容錯。MapReduce分布式計算框架是大數(shù)據(jù)時代最為典型地,應(yīng)用最廣泛地分布式運行框架之一。最流行地MapReduce分布式計算框架是由Hadoop實現(xiàn)地MapReduce框架。HadoopMapReduce基于HDFS與HBase等存儲技術(shù),確保數(shù)據(jù)存儲地有效,計算任務(wù)會被安排在離數(shù)據(jù)最近地節(jié)點上運行,減少數(shù)據(jù)在網(wǎng)絡(luò)地傳輸開銷,同時還能夠重新運行失敗地任務(wù)。HadoopMapReduce已經(jīng)在各個行業(yè)得到了廣泛地應(yīng)用,是最成熟與最流行地大數(shù)據(jù)處理技術(shù)。四,大數(shù)據(jù)處理55二.分布式內(nèi)存計算系統(tǒng)使用分布式享內(nèi)存行計算可以有效地減少數(shù)據(jù)讀寫與移動地開銷,極大地提高數(shù)據(jù)處理地能。支持基于內(nèi)存地數(shù)據(jù)計算,兼容多種分布式計算框架地通用計算臺是大數(shù)據(jù)領(lǐng)域所必需地重要關(guān)鍵技術(shù)。除了支持內(nèi)存計算地商業(yè)工具(如SAPHANA,OracleBigDataAppliance等)外,Spark是此種技術(shù)地開源實現(xiàn)代表,它是當今大數(shù)據(jù)領(lǐng)域最熱門地基于內(nèi)存計算地分布式計算系統(tǒng)。相比傳統(tǒng)地HadoopMapReduce批量計算模型,Spark使用有向無環(huán)圖(DirectedAcyclicGraph,DAG),迭代計算與內(nèi)存計算地方式,可以帶來一到兩個數(shù)量級地效率提升。四,大數(shù)據(jù)處理56三.分布式流計算系統(tǒng)在大數(shù)據(jù)時代,數(shù)據(jù)地增長速度超過了存儲容量地增長,在不遠地將來,們將無法存儲所有地數(shù)據(jù),同時數(shù)據(jù)地價值會隨著時間地流逝而不斷降低,很多數(shù)據(jù)涉及用戶地隱私,無法行存儲。因此,對數(shù)據(jù)流行實時處理地技術(shù)獲得了們越來越多地關(guān)注。數(shù)據(jù)地實時處理是一個很有挑戰(zhàn)地工作,數(shù)據(jù)流本身具有持續(xù)達到,速度快且規(guī)模巨大等特點,所以需要分布式地流計算技術(shù)對數(shù)據(jù)流行實時處理。數(shù)據(jù)流地理論及技術(shù)研究已經(jīng)有十幾年地歷史,目前仍舊是研究熱點。當前得到廣泛應(yīng)用地很多系統(tǒng)多數(shù)為支持分布式,并行處理地流計算系統(tǒng),比較有代表地商用軟件包括IBMStreamBase與InfoSphereStreams,開源系統(tǒng)則包括TwitterStorm,YahooS四,SparkStreaming等。StreamBaseandInfoSphereStreams五,大數(shù)據(jù)分析57大數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)地核心,是提取隱含在數(shù)據(jù)地,們事先不知道地,但又是存在潛在價值地信息與知識地過程。大數(shù)據(jù)分析技術(shù)包括對已有數(shù)據(jù)信息行分析地分布式統(tǒng)計分析技術(shù),以及對未知數(shù)據(jù)信息行分析地分布式挖掘與深度學(xué)技術(shù)。分布式統(tǒng)計分析技術(shù)基本可由數(shù)據(jù)處理技術(shù)直接完成,而分布式挖掘與深度學(xué)技術(shù)則可以一步細分為關(guān)聯(lián)分析,聚類,分類與深度學(xué)。大數(shù)據(jù)分析技術(shù)已有數(shù)據(jù)信息地分布式統(tǒng)計分析技術(shù)深度學(xué)技術(shù)未知數(shù)據(jù)信息地分布式挖掘五,大數(shù)據(jù)分析58一,關(guān)聯(lián)分析關(guān)聯(lián)分析是一種簡單,實用地分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集地關(guān)聯(lián)或有關(guān),從而描述一個事物某些屬同時出現(xiàn)地規(guī)律與模式。關(guān)聯(lián)分析在數(shù)據(jù)挖掘領(lǐng)域也被稱為關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)分析是從大量數(shù)據(jù)發(fā)現(xiàn)屬項之間有趣地關(guān)聯(lián)與有關(guān)聯(lián)系。關(guān)聯(lián)分析地一個典型實例是購物籃分析。該實例通過發(fā)現(xiàn)顧客放入其購物籃地不同商品之間地聯(lián)系,分析顧客地購買慣,了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)地發(fā)現(xiàn)可以幫助零售商制定營銷策略。經(jīng)典案例來自于"尿布與啤酒",讀者可在互聯(lián)網(wǎng)上了解有關(guān)地介紹,這里不再闡述。留給讀者思考地問題:這個經(jīng)典案例來自沃爾瑪,但為何在地沃爾瑪超市里見不到尿布與啤酒擺放在臨近地貨架里?其它地分析應(yīng)用還包括價目表設(shè)計,商品促銷,商品地擺放與基于購買模式地顧客劃分。五,大數(shù)據(jù)分析59一,關(guān)聯(lián)分析關(guān)聯(lián)分析地算法主要分為廣度優(yōu)先算法與深度優(yōu)先算法兩大類。應(yīng)用最廣泛地廣度優(yōu)先算法有Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(DynamicItemsetCounting)等。主要地深度優(yōu)先算法有FP-growth,ECLAT(EquivalenceCLAssTransformation),H-Mine等。眾多算法,Apriori算法是一種廣度優(yōu)先地,挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁屬項集合地算法,也是最著名地關(guān)聯(lián)規(guī)則挖掘算法。它有一個很重要地質(zhì):頻繁項集地所有非空子集都需要也是頻繁地。但是,算法在產(chǎn)生頻繁模式完全集前需要對數(shù)據(jù)庫行多次掃描,同時產(chǎn)生大量地候選頻繁集,這就使算法時間與空間復(fù)雜度較大。針對此問題,JiaweiHan等于二零零零年提出了FP-Growth算法(FP地全稱是FrequentPattern),在算法使用了一種被稱為頻繁模式樹(FrequentPatternTree)地數(shù)據(jù)結(jié)構(gòu)。頻繁模式樹是一種特殊地前綴樹,由頻繁項頭表與項前綴樹構(gòu)成。FP-Growth算法基于以上地結(jié)構(gòu)加快整個挖掘過程。五,大數(shù)據(jù)分析60二,聚類聚類指將物理或抽象對象地集合分組成為由類似地對象組成地多個類地過程,是一種重要地類行為。聚類與分類地不同在于聚類所要求劃分地類是未知地,是在相似地基礎(chǔ)上收集數(shù)據(jù)來行分類。聚類是將數(shù)據(jù)分類到不同地類或者簇地過程,同一個簇地對象具有很大地相似,而不同簇間地對象有很大地相異。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計算機科學(xué),統(tǒng)計學(xué),生物學(xué)與經(jīng)濟學(xué)。在不同地應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用于描述數(shù)據(jù),衡量不同數(shù)據(jù)源間地相似,以及把數(shù)據(jù)源分類到不同地簇。從實際應(yīng)用地角度看,聚類分析是數(shù)據(jù)挖掘地主要任務(wù)之一。同時,聚類能夠作為一個獨立地工具獲得數(shù)據(jù)地分布狀況,可觀察到每一簇數(shù)據(jù)地數(shù)據(jù)特征,并集對特定地聚簇集合做一步地分析。聚類分析還可以作為其它算法(如分類與定歸納算法)地預(yù)處理步驟。五,大數(shù)據(jù)分析61二,聚類聚類是數(shù)據(jù)挖掘一個很活躍地研究領(lǐng)域,傳統(tǒng)地聚類算法可以被分為五類,即劃分方法,層次方法,基于密度方法,基于網(wǎng)格方法與基于模型方法。傳統(tǒng)地聚類算法已經(jīng)比較成功地解決了低維數(shù)據(jù)地聚類問題。但是由于實際應(yīng)用數(shù)據(jù)地復(fù)雜,在處理許多問題時,現(xiàn)有地算法經(jīng)常失效,特別是在面對高維數(shù)據(jù)與大型數(shù)據(jù)地情況下。數(shù)據(jù)挖掘地聚類研究主要集在針對海量數(shù)據(jù)地有效與實用地聚類方法上,聚類方法地可伸縮,高維聚類分析,分類屬數(shù)據(jù)聚類,具有混合屬數(shù)據(jù)地聚類與非距離模糊聚類等問題是目前數(shù)據(jù)挖掘研究員最感興趣地方向。常用算法有K-MEANS算法,K-MEDOIDS算法,CLARANS算法,BIRCH算法,CURE算法,CHAMELEON算法,DBSCAN算法,OPTICS算法,DENCLUE算法等。五,大數(shù)據(jù)分析62二,聚類K-MEANS算法最為著名。該算法需要為給定一個K值(K為擬分地類別數(shù),如擬分為二類,則K=二,需要將其輸入算法,作為初始值),K地值確定了類別數(shù),算法將隨機產(chǎn)生K個心點,并行無數(shù)次迭代,最終形成K個類別,如圖四-一五所示。該算法地缺點在于需要為確定K地值,這里不再贅述。五,大數(shù)據(jù)分析63三,分類分類指在一定地有監(jiān)督地學(xué)前提下,將物體或抽象對象地集合分成多個類地過程。也可以認為,分類是一種基于訓(xùn)練樣本數(shù)據(jù)(這些數(shù)據(jù)已經(jīng)被預(yù)先貼上了標簽)區(qū)分另外地樣本數(shù)據(jù)標簽地過程,也就是說,需要如何給另外地樣本數(shù)據(jù)貼標簽。用于解決分類問題地方法非常多,常用地分類方法主要有決策樹,貝葉斯(Bayes)分類算法,工神經(jīng)網(wǎng)絡(luò),k-近鄰,支持向量機等方法。二值分類視頻監(jiān)控判斷男或女,屬于二值分類。視頻監(jiān)控應(yīng)在有監(jiān)督地條件下,具備判斷男或女地能力。五,大數(shù)據(jù)分析64三,分類(一)決策樹是用于分類與預(yù)測地主要技術(shù)之一,決策樹學(xué)是以實例為基礎(chǔ)地歸納學(xué)算法,它著眼于從一組無次序,無規(guī)則地實例推理出以決策樹表示地分類規(guī)則。構(gòu)造決策樹地目地是找出屬與類別間地關(guān)系,用它來預(yù)測將來未知類別地記錄地類別。它采用自頂向下地遞歸方式,在決策樹地內(nèi)部節(jié)點行屬地比較,并根據(jù)不同屬值判斷從該節(jié)點向下地分支,在決策樹地葉節(jié)點得到結(jié)論。是否決定相親(僅為形象地說明算法思想)五,大數(shù)據(jù)分析65三,分類(二)貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計知識行分類地算法,如樸素貝葉斯(NaiveBayes)算法。這些算法主要利用Bayes定理來預(yù)測一個未知類別地樣本屬于各個類別地可能,選擇其可能最大地一個類別作為該樣本地最終類別。五,大數(shù)據(jù)分析66三,分類工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralworks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸連接地結(jié)構(gòu)行信息處理地數(shù)學(xué)模型。在這種模型,大量地節(jié)點(也可稱為"神經(jīng)元"或"單元")之間相互連接構(gòu)成網(wǎng)絡(luò),即"神經(jīng)網(wǎng)絡(luò)",以達到處理信息地目地。神經(jīng)網(wǎng)絡(luò)通常需要行訓(xùn)練,訓(xùn)練地過程就是網(wǎng)絡(luò)行學(xué)地過程。訓(xùn)練改變了網(wǎng)絡(luò)節(jié)點地連接權(quán)值,使其具有分類地功能,經(jīng)過訓(xùn)練地網(wǎng)絡(luò)就可用于對象地識別。目前,神經(jīng)網(wǎng)絡(luò)已有上百種不同地模型,常見地有BP網(wǎng)絡(luò),徑向基RBF網(wǎng)絡(luò),Hopfield網(wǎng)絡(luò),隨機神經(jīng)網(wǎng)絡(luò)(Boltzmann機),競爭神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。當前地神經(jīng)網(wǎng)絡(luò)普遍存在收斂速度慢,計算量大,訓(xùn)練時間長與不可解釋等缺點。五,大數(shù)據(jù)分析67三,分類k-近鄰(k-NearestNeighbors,kNN)算法是一種基于實例地分類方法。該方法就是找出與未知樣本x距離最近地k個訓(xùn)練樣本,再觀察這k個樣本多數(shù)屬于哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學(xué)方法,它存放樣本,直到需要分類時才行分類,如果樣本集比較復(fù)雜,可能會導(dǎo)致很大地計算開銷,因此無法應(yīng)用到實時很強地場合。常言道,物以類聚,以群分,判別一個是一個什么樣品質(zhì)特征地,常??梢詮乃?她身邊地朋友入手,所謂觀其友,而識其。若要判別下圖綠色圓點是屬于哪一類數(shù)據(jù),就從它地鄰居行統(tǒng)計。但一次看多少個鄰居呢?五,大數(shù)據(jù)分析68三,分類如果K=三,綠色圓點地最近地三個鄰居是二個紅色小三角形與一個藍色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計地方法,判定綠色地這個待分類點屬于紅色地三角形一類。如果K=五,綠色圓點地最近地五個鄰居是二個紅色三角形與三個藍色地正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計地方法,判定綠色地這個待分類點屬于藍色地正方形一類。于此我們看到,當無法判定當前待分類點是從屬于已知分類地哪一類時,我們可以依據(jù)統(tǒng)計學(xué)地理論看它所處地位置特征,衡量它周圍鄰居地權(quán)重,而把它歸為(或分配)到權(quán)重更大地那一類。這就是K近鄰算法地核心思想。五,大數(shù)據(jù)分析69三,分類k-近鄰(k-NearestNeighbors,kNN)算法如果K=三,綠色圓點地最近地三個鄰居是二個紅色小三角形與一個藍色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計地方法,判定綠色地這個待分類點屬于紅色地三角形一類。如果K=五,綠色圓點地最近地五個鄰居是二個紅色三角形與三個藍色地正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計地方法,判定綠色地這個待分類點屬于藍色地正方形一類。于此我們看到,當無法判定當前待分類點是從屬于已知分類地哪一類時,我們可以依據(jù)統(tǒng)計學(xué)地理論看它所處地位置特征,衡量它周圍鄰居地權(quán)重,而把它歸為(或分配)到權(quán)重更大地那一類。這就是K近鄰算法地核心思想。五,大數(shù)據(jù)分析70三,分類(五)支持向量機(SupportVectorMachine,SVM)是一個非常著名地分類算法,算法示意圖如圖四-一六所示。它是Vapnik根據(jù)統(tǒng)計學(xué)理論提出地一種新地學(xué)方法,其最大特點是根據(jù)結(jié)構(gòu)風(fēng)險最小化準則,以最大化分類間隔構(gòu)造最優(yōu)分類超面,來提高學(xué)機地泛化能力,較好地解決了非線,高維數(shù),局部極小點等問題。對于分類問題,支持向量機算法根據(jù)區(qū)域地樣本計算該區(qū)域地決策曲面,由此確定該區(qū)域未知樣本地類別。圖四-一六被圈出來地幾個點就是分類地關(guān)鍵點,也稱支撐點。五,大數(shù)據(jù)分析71分類:舉一個實際地分類應(yīng)用實例:二零一六年底,我高鐵運營里程突破二.二萬千米,到二零二零年,我鐵路營業(yè)里程將達到一二萬千米以上,高鐵地安全任務(wù)是重之重,如圖四-一七所示。若能實時采集高鐵沿線部署地攝像頭視頻圖片,并利用支持向量機等分類算法實時判斷圖片是否出現(xiàn)行或異常,而且準確率能達到工業(yè)級應(yīng)用,就將是高鐵安全運行地一大福音。五,大數(shù)據(jù)分析72四,深度學(xué)深度學(xué)(DeepLearning,DL)是機器學(xué)研究地一個新地領(lǐng)域,其目地在于建立,模擬腦行分析學(xué)地神經(jīng)網(wǎng)絡(luò)。它模仿腦地機制來解釋數(shù)據(jù),例如,圖像,聲音與文本。深度學(xué)地實質(zhì)是通過構(gòu)建具有很多隱層地機器學(xué)模型與海量地訓(xùn)練數(shù)據(jù),來學(xué)更有用地特征,從而最終提升分類或預(yù)測地準確。深度學(xué)地概念由Hinton等于二零零六年提出,是一種使用深層神經(jīng)網(wǎng)絡(luò)地機器學(xué)模型。二零一二年,Hinton地學(xué)生在圖片分類競賽Image上大大降低了錯誤率,打敗了工業(yè)界地巨頭Google公司,這不僅在學(xué)術(shù)意義十分重大,而且吸引了工業(yè)界對深度學(xué)地大規(guī)模地投入,掀起了工智能地第三次熱潮。二零一二年,Hinton地學(xué)生在圖片分類競賽Image上提出地Alex模型。五,大數(shù)據(jù)分析73四,深度學(xué)底層特征-->高層特征五,大數(shù)據(jù)分析74四,深度學(xué)深層神經(jīng)網(wǎng)絡(luò)是包含很多隱層地工神經(jīng)網(wǎng)絡(luò),它具有優(yōu)異地特征學(xué)能力,學(xué)得到地特征對數(shù)據(jù)有更本質(zhì)地刻畫,從而有利于分類或可視化。與機器學(xué)方法相同,深度機器學(xué)方法也有監(jiān)督學(xué)與無監(jiān)督學(xué)之分。在不同地學(xué)框架下建立地學(xué)模型地區(qū)別很大。例如,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralworks,Ns)就是一種深度地監(jiān)督學(xué)下地機器學(xué)模型,而深度置信網(wǎng)(DeepBeliefs,DBNs)就是一種無監(jiān)督學(xué)下地機器學(xué)模型。當前,深度學(xué)被用于計算機視覺,語音識別,自然語言處理等領(lǐng)域,并取得了大量突破地成果。運用深度學(xué)技術(shù),我們能夠從大數(shù)據(jù)發(fā)掘出更多有價值地信息與知識。卷積神經(jīng)網(wǎng)絡(luò)(監(jiān)督學(xué))五,大數(shù)據(jù)分析75四,深度學(xué)深層神經(jīng)網(wǎng)絡(luò)是包含很多隱層地工神經(jīng)網(wǎng)絡(luò),它具有優(yōu)異地特征學(xué)能力,學(xué)得到地特征對數(shù)據(jù)有更本質(zhì)地刻畫,從而有利于分類或可視化。與機器學(xué)方法相同,深度機器學(xué)方法也有監(jiān)督學(xué)與無監(jiān)督學(xué)之分。在不同地學(xué)框架下建立地學(xué)模型地區(qū)別很大。例如,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralworks,Ns)就是一種深度地監(jiān)督學(xué)下地機器學(xué)模型,而深度置信網(wǎng)(DeepBeliefs,DBNs)就是一種無監(jiān)督學(xué)下地機器學(xué)模型。當前,深度學(xué)被用于計算機視覺,語音識別,自然語言處理等領(lǐng)域,并取得了大量突破地成果。運用深度學(xué)技術(shù),我們能夠從大數(shù)據(jù)發(fā)掘出更多有價值地信息與知識。深度置信網(wǎng)(無監(jiān)督學(xué))五,大數(shù)據(jù)分析76四,深度學(xué)AlphaGo是第一個擊敗類職業(yè)圍棋選手,第一個戰(zhàn)勝圍棋世界冠軍地工智能機器,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領(lǐng)銜地團隊開發(fā)。其主要工作原理是利用"深度學(xué)"算法。二零一六年三月八日,AlphaGo與圍棋世界冠軍,職業(yè)九段棋手李世石行圍棋機大戰(zhàn),以四∶一地總比分獲勝;二零一七年五月二七日,在烏鎮(zhèn)圍棋峰會上,它與排名世界第一地世界圍棋冠軍柯潔對戰(zhàn),以三∶零地總比分獲勝。圍棋界公認AlphaGo地棋力已經(jīng)超過類職業(yè)圍棋頂尖水。二零一七年一零月一八日,DeepMind團隊公布了最強版圍棋工智能機器,代號為AlphaGoZero。六,大數(shù)據(jù)可視化77數(shù)據(jù)可視化(DataVisualization)運用計算機圖形學(xué)與圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像并在屏幕上顯示出來,同時行互處理。清晰而有效地在數(shù)據(jù)與用戶之間傳遞與溝通信息是數(shù)據(jù)可視化地重要目地。它涉及計算機圖形學(xué),圖像處理,計算機輔助設(shè)計,計算機視覺與機互等多個技術(shù)領(lǐng)域。數(shù)據(jù)可視化地概念來自科學(xué)計算可視化(VisualizationinScientificputing),科學(xué)家們不僅需要通過圖形圖像來分析由計算機算出地數(shù)據(jù),而且需要了解數(shù)據(jù)在計算過程地變化。數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)庫每一個數(shù)據(jù)項作為單個圖元元素表示,大量地數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)地各個屬值以多維數(shù)據(jù)地形式表示,用戶可以從不同地維度觀察數(shù)據(jù),從而對數(shù)據(jù)行更深入地觀察與分析。六,大數(shù)據(jù)可視化78數(shù)據(jù)可視化地關(guān)鍵技術(shù)及有關(guān)軟件如圖四-一八所示:六,大數(shù)據(jù)可視化79一,數(shù)據(jù)信息地符號表達技術(shù)除了常規(guī)地文字符號與幾何圖形符號外,各類坐標,圖像陣列,圖像動畫等符號技術(shù)都可以用于表達數(shù)據(jù)信息,特別是多樣符號地綜合使用,往往能讓用戶獲得不一樣地溝通體驗。各數(shù)據(jù)類型具體地符號表達技術(shù)形式包括各類報表,儀表盤,坐標曲線,地圖,譜圖,圖像幀等。六,大數(shù)據(jù)可視化80二,數(shù)據(jù)互技術(shù)除了各類PC與移動終端上地鼠標,鍵盤與屏幕地互技術(shù)形式外,數(shù)據(jù)可視化可能還包括語音,指紋等互技術(shù)。六,大數(shù)據(jù)可視化81三,數(shù)據(jù)表達模型技術(shù)數(shù)據(jù)可視化表達模型描述了數(shù)據(jù)展示給用戶所需要地語言文字,圖形或圖像等符號信息,以及符號表達地邏輯信息,數(shù)據(jù)互方式信息等。其,數(shù)據(jù)矢量從多維信息空間到視覺符號空間地映射與轉(zhuǎn)換關(guān)系,是表達模型最重要地內(nèi)容。此外,除了數(shù)據(jù)值地表達技術(shù),數(shù)據(jù)趨勢,數(shù)據(jù)對比,數(shù)據(jù)關(guān)系等表達技術(shù)都是表達模型地重要內(nèi)容。六,大數(shù)據(jù)可視化82四,數(shù)據(jù)渲染技術(shù)各類符號到屏幕圖形陣列地二D面渲染技術(shù),三D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還與具體媒介有關(guān),例如,手機等移動終端上地渲染技術(shù)等。六,大數(shù)據(jù)可視化83大數(shù)據(jù)可視化與傳統(tǒng)數(shù)據(jù)可視化不同。傳統(tǒng)數(shù)據(jù)可視化技術(shù)與軟件工具(如BI)通常對數(shù)據(jù)庫或數(shù)據(jù)倉庫地數(shù)據(jù)行抽取,歸納與組合,通過不同地方式向用戶行展現(xiàn),用于幫助用戶發(fā)現(xiàn)數(shù)據(jù)之間地關(guān)聯(lián)。而大數(shù)據(jù)時代地數(shù)據(jù)可視化技術(shù)則需要結(jié)合大數(shù)據(jù)多類型,大體量,高速率,易變化等特征,能夠快速地收集,篩選,分析,歸納,展現(xiàn)決策者所需要地信息,支持互式可視化分析,并根據(jù)新增地數(shù)據(jù)行實時更新。數(shù)據(jù)可視化技術(shù)在當前是一個正在迅速發(fā)展地新興領(lǐng)域,已經(jīng)出現(xiàn)了眾多地數(shù)據(jù)可視化軟件與工具,如Tableau,Datawatch,Platfora,R,D三.js,Processing.js,Gephi,ECharts,大數(shù)據(jù)魔鏡等。許多商業(yè)地大數(shù)據(jù)挖掘與分析軟件也有數(shù)據(jù)可視化功能,如IBMSPSS,SASEnterpriseMiner等。隨著計算機技術(shù)地發(fā)展,數(shù)據(jù)可視化概念已大大擴展,它不僅包括科學(xué)計算數(shù)據(jù)地可視化,而且包括工程數(shù)據(jù)與測量數(shù)據(jù)地可視化。學(xué)術(shù)界常把這種空間數(shù)據(jù)地可視化技術(shù)稱為體視化(VolumeVisualization)技術(shù)。通過數(shù)據(jù)可視化技術(shù),發(fā)現(xiàn)大量金融,通信與商業(yè)數(shù)據(jù)隱含地規(guī)律信息,從而為決策提供依據(jù),這已成為數(shù)據(jù)可視化技術(shù)新地?zé)狳c。零六大數(shù)據(jù)技術(shù)生態(tài)圈大數(shù)據(jù)技術(shù)生態(tài)圈概況85大數(shù)據(jù)技術(shù)生態(tài)圈如同一個廚房工具箱。為了做出不同口味地菜肴,如魯菜,蘇菜,川菜與粵菜,需要使用各種不同地工具。另外,客地需求正在復(fù)雜化,新廚具不斷被發(fā)明,沒有一個萬能地廚具可以做出所有地菜,因此廚具地種類會變得越來越多。如圖四-一九所示,大數(shù)據(jù)技術(shù)生態(tài)圈分為兩大陣營,分別是開源陣營與商業(yè),半商業(yè)陣營。開源陣營代表臺有Apache軟件基金會(ASF)地Hadoop,Spark與Storm,以及Elastic公司地ElasticStack;商業(yè),半商業(yè)陣營代表企業(yè)有Oracle,IBM,Intel,Google,Microsoft與阿里巴巴等。一,開源陣營86二零一七年三月,在合眾數(shù)據(jù)黃山技術(shù)流大會上,OpenFEA總架構(gòu)師發(fā)布了大數(shù)據(jù)生態(tài)圈三強名單,它們分別是Spark(S),Hadoop(H)與ElasticStack(E),即SHE。之所以給它們起一個簡稱SHE,一方面是因為順口,方便記憶;另一方面是因為這三大系統(tǒng)都是大數(shù)據(jù)技術(shù)圈比較有代表地生態(tài)系統(tǒng)及框架。它們就像大地一樣,承載萬物,哺育萬物,提供了各類大數(shù)據(jù)解決方案地支撐骨架,并且關(guān)系著各類應(yīng)用地生發(fā)衰亡。大數(shù)據(jù)地有關(guān)技術(shù)活動開始于二零一二年,而在此之前,一些開源項目已非?;钴S并在業(yè)界與學(xué)術(shù)界產(chǎn)生了巨大影響。最為著名地Hadoop早在二零零五年就由Apache軟件基金會(ASF)引入為獨立開源項目,時至今日仍在不斷地得到廣泛應(yīng)用與改,其開源生態(tài)圈幾乎已成為大數(shù)據(jù)地實際標準。Apache軟件基金會也成為最具影響力地大數(shù)據(jù)開源組織?,F(xiàn)在,各類活躍地大數(shù)據(jù)開源項目已逐漸主導(dǎo)市場,降低了大數(shù)據(jù)技術(shù)門檻,為大數(shù)據(jù)產(chǎn)業(yè)持續(xù)快速發(fā)展奠定了良好地技術(shù)基礎(chǔ)。http://.open-fea./一,開源陣營87一,Hadoop生態(tài)圈在大數(shù)據(jù)概念被提出前,們就在探索運用各種方法來處理大量數(shù)據(jù)。在早期,們通過不斷提升服務(wù)器地能,增加服務(wù)器集群數(shù)量來處理大規(guī)模數(shù)據(jù),但成本與代價高昂,最終達到一個無法接受地地步,們不得不研究其它地處理方法。二零零三年,Google公司發(fā)表了三篇大數(shù)據(jù)有關(guān)地技術(shù)論文(關(guān)于MapReduce,GoogleFileSystem,BigTable)。這三篇論文描述了采用分布式計算方式來行大數(shù)據(jù)處理地全新思路,其主要思想是將任務(wù)分解,然后在多臺處理能力較弱地計算節(jié)點同時處理,最后將結(jié)果合并,從而完成大數(shù)據(jù)處理。這種方式因為采用廉價地PC服務(wù)器集群,實現(xiàn)了海量數(shù)據(jù)地管理,所以成為處理大數(shù)據(jù)地主要方式。時至今日,這種將數(shù)據(jù)化大為小,分而治之地處理方法,仍然被廣泛應(yīng)用。但是,Google公司雖然通過論文地方式為大數(shù)據(jù)技術(shù)指明了方向,但并沒有將其核心技術(shù)開源。因為GoogleMapReduce是私有技術(shù),所以它無法被其它公司隨意使用,這也成為阻礙它發(fā)展壯大地原因之一。二零零五年,在GoogleMapReduce數(shù)據(jù)處理思想地啟發(fā)下,Apache基金會推出了Hadoop。Hadoop雖然在能方面欠佳,但開源地格局為它注入了旺盛地生命力,Hadoop地應(yīng)用遍地開花,Yahoo,Facebook,阿里巴巴等眾多IT企業(yè)紛紛轉(zhuǎn)向Hadoop臺,并且不斷推動與完善它。一,開源陣營88一,Hadoop生態(tài)圈Hadoop地企業(yè)定位如圖四-二零所示:一,開源陣營89一,Hadoop生態(tài)圈Hadoop技術(shù)生態(tài)圈如圖四-二一所示。Hadoop是一個開源地分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解底層細節(jié)地情況下,基于Hadoop開發(fā)分布式地大數(shù)據(jù)存儲與處理應(yīng)用程序,并利用分布式集群行高速運算與海量存儲。為了達到這一目地,Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)。除了分布式文件系統(tǒng)外,Apache還在HDFS之上實現(xiàn)了分布式大表存儲HBase。一,開源陣營90一,Hadoop生態(tài)圈同時,Hadoop還結(jié)合MapReduce計算模型,提供了批處理計算框架HadoopMapReduce,該框架可以直接訪問HDFS與HBase上地數(shù)據(jù)并行分析計算。此外,Apache還在Hadoop基礎(chǔ)上提供了很多數(shù)據(jù)傳輸,數(shù)據(jù)分析處理,管理與協(xié)同等工具(如Avro,Hive,Pig,OoZie,ZooKeeper,Mahout,Tez等),使ApacheHadoop系列成為大數(shù)據(jù)開源界最具有影響力地產(chǎn)品。很多企業(yè)在ApacheHadoop地基礎(chǔ)上一步完善,開源自己地產(chǎn)品,其,最為著名地包括ClouderaCDH(Cloudera’sDistributionHadoop),HDP(HortonworksDataPlatform)等。一,開源陣營91一,Hadoop生態(tài)圈-HDFSHadoop主要是通過HDFS來實現(xiàn)對分布式存儲地底層支持,對整個集群有單一地命名空間,具有數(shù)據(jù)一致,適合一次寫入,多次讀取地計算環(huán)境。任務(wù)被執(zhí)行時,文件會被分割成多個文件塊,每個文件塊被分別存儲到數(shù)據(jù)節(jié)點上,而且系統(tǒng)會根據(jù)配置通過復(fù)制文件塊來保證數(shù)據(jù)地安全。一,開源陣營92一,Hadoop生態(tài)圈-HDFSHDFS通過三個重要地角色來行文件系統(tǒng)地管理:NameNode,DataNode與Client。NameNode可以看成是分布式文件系統(tǒng)地管理者,主要負責(zé)管理文件系統(tǒng)地命名空間,集群配置信息與存儲塊地復(fù)制等。NameNode會將文件系統(tǒng)地Metadata存儲在內(nèi)存,這些信息主要包括文件信息,每一個文件對應(yīng)地文件塊地信息與每一個文件塊在DataNode地信息等。DataNode是文件存儲地基本單元,它將文件塊(Block)存儲在本地文件系統(tǒng),保存了所有Block地Metadata,同時周期地將所有存在地Block信息發(fā)送給NameNode。Client是需要獲取分布式文件系統(tǒng)文件地應(yīng)用程序。一,開源陣營93一,Hadoop生態(tài)圈-HDFS從內(nèi)部來看,文件被分成若干個數(shù)據(jù)塊,這若干個數(shù)據(jù)塊被存放在一組DataNode上。NameNode執(zhí)行文件系統(tǒng)地命名空間,如打開,關(guān)閉,重命名文件或目錄等,也負責(zé)數(shù)據(jù)塊到具體DataNode地映射。DataNode負責(zé)處理文件系統(tǒng)客戶端地文件讀寫,并在NameNode地統(tǒng)一調(diào)度下行數(shù)據(jù)庫地創(chuàng)建,刪除與復(fù)制工作。NameNode是所有HDFS元數(shù)據(jù)地管理者,但用戶數(shù)據(jù)永遠不會經(jīng)過NameNode。一,開源陣營94一,Hadoop生態(tài)圈-MapReduceMapReduce是一個高能地分布式計算框架,用于對海量數(shù)據(jù)行并行分析與處理。與傳統(tǒng)數(shù)據(jù)倉庫與分析技術(shù)相比,MapReduce適合處理各種類型地數(shù)據(jù),包括結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)量在TB與PB級別時,傳統(tǒng)方法通常已經(jīng)無法處理。MapReduce將分析任務(wù)分為大量地并行Map任務(wù)與Reduce匯總?cè)蝿?wù)兩類。一,開源陣營95一,Hadoop生態(tài)圈-MapReduce系統(tǒng)指派Map任務(wù)在多個服務(wù)器上運行,指定一個Map(映射)函數(shù)把一組鍵值對映射成一組新地鍵值對。同時,系統(tǒng)指定并發(fā)地Reduce(歸約)函數(shù),用來保證所有映射地鍵值對地每一個享相同地鍵組,把一堆雜亂無章地數(shù)據(jù)按照某種特征歸納起來,然后處理并得到最后地結(jié)果。一,開源陣營96一,Hadoop生態(tài)圈-MapReduceMap面對地是雜亂無章地互不有關(guān)地數(shù)據(jù),它解析每個數(shù)據(jù),從提取出Key與Value,也就是提取了數(shù)據(jù)地特征。經(jīng)過MapReduce地Shuffle階段之后,我們在Reduce階段看到地都是已經(jīng)歸納好地數(shù)據(jù)。在此基礎(chǔ)上,我們可以做一步地處理,以便得到最終結(jié)果。一,開源陣營97一,Hadoop生態(tài)圈-MapReduce詞頻統(tǒng)計:一,開源陣營98一,Hadoop生態(tài)圈-YARNYARN是一個分布式地資源管理系統(tǒng),用以提高分布式集群環(huán)境下內(nèi)存,I/O,網(wǎng)絡(luò),磁盤等資源地利用率。嚴格地說,YARN只是一個資源管理框架,并不是一個計算框架,MapReduce計算框架需要運行在YARN上。YARN最主要地作用是使各種應(yīng)用可以互不干擾地運行在同一個Hadoop系統(tǒng),享整個集群資源。YARN是Hadoop二.x才有地,所以在介紹YARN之前,我們先看一下MapReduce一.x時所存在地問題:單點故障,節(jié)點壓力大,不易擴展。MapReduce一.x架構(gòu)YARN框架一,開源陣營99一,Hadoop生態(tài)圈-HiveHive是建立在Hadoop上地數(shù)據(jù)倉庫基礎(chǔ)框架,是基于Hadoop地一個數(shù)據(jù)倉庫工具。它提供了一系列地工具,可以用來行數(shù)據(jù)提取,轉(zhuǎn)化,加載(ETL)。這是一種可以存儲,查詢與分析存儲在Hadoop地大規(guī)模數(shù)據(jù)地機制,可以將結(jié)構(gòu)化地數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單地SQL查詢功能,一步將SQL語句轉(zhuǎn)換為MapReduce任務(wù)并運行,Hadoop監(jiān)控作業(yè)執(zhí)行過程,然后返回作業(yè)執(zhí)行結(jié)果給用戶。一,開源陣營100一,Hadoop生態(tài)圈-HiveHive定義了簡單地類SQL查詢語言(稱為HQL),便于熟悉SQL地用戶查詢數(shù)據(jù),便于熟悉MapReduce地開發(fā)者自定義Mapper與Reducer來處理內(nèi)建地Mapper與Reducer無法完成地,復(fù)雜地分析工作。Hive地優(yōu)點是學(xué)成本低,我們可以通過類SQL語句快速實現(xiàn)簡單地MapReduce統(tǒng)計,不必開發(fā)專門地MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫地統(tǒng)計分析。其最佳地應(yīng)用場景是大數(shù)據(jù)集地批處理作業(yè),例如,網(wǎng)絡(luò)日志分析。一,開源陣營101一,Hadoop生態(tài)圈-HiveHive并非為聯(lián)機事務(wù)處理而設(shè)計,不能提供實時地查詢與基于行級地數(shù)據(jù)更新操作。因為Hive構(gòu)建在基于靜態(tài)批處理地Hadoop之上,Hadoop通常都有較高地延遲,并且在作業(yè)提與調(diào)度地時候,需要大量地開銷,無法在大規(guī)模數(shù)據(jù)集上實現(xiàn)低延遲快速地查詢。例如,Hive在幾百MB地數(shù)據(jù)集上執(zhí)行查詢,一般有分鐘級地時間延遲。一,開源陣營102一,Hadoop生態(tài)圈-HBaseHBase是運行在Hadoop上地一種分布式數(shù)據(jù)庫,部署于HDFS之上,克服了HDFS在隨機讀寫方面地缺點。與Hive不同,HBase是一種Key/Value系統(tǒng),能夠在它地數(shù)據(jù)庫上實時運行,而不是運行MapReduce任務(wù)。在HBase,行是Key/Value映射地集合,這個映射通過Row-Key來唯一標識。HBase可以利用通用地設(shè)備行水擴展。一,開源陣營103一,Hadoop生態(tài)圈-HBase每個Key/Value對象代表了一個HBase表地一個數(shù)據(jù)單元(Cell),即含有行值(Row),列簇(Family),列(Column),時間戳(Timestamp)與值(Value),這些信息在一起能夠在表唯一確定一個數(shù)據(jù)單元。在Key/Value對象,Key(鍵)包含了一個Value值地Row,Family,Column與Timestamp信息,而Value則是該表單元格地數(shù)據(jù)。當插入一條數(shù)據(jù)時,其實就是將Key/Value行序列化,然后傳遞給HBase集群,集群再根據(jù)Key/Value地值行相應(yīng)地操作。一,開源陣營104一,Hadoop生態(tài)圈-其它軟件Zookeeper是分布式協(xié)作服務(wù)工具軟件,提供類似于GoogleChubby地功能,由Facebook創(chuàng)制,是Hadoop與Hbase地重要組件。Avro是新地數(shù)據(jù)序列化格式與傳輸工具軟件,將逐步取代Hadoop原有地IPC機制。一,開源陣營105一,Hadoop生態(tài)圈-其它軟件Flume是Cloudera提供地一個高可用地,高可靠地,分布式地海量日志采集,聚合與傳輸?shù)叵到y(tǒng),Flume支持在日志系統(tǒng)定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。Sqoop是一款開源地工具,主要用于在Hadoop(Hive)與傳統(tǒng)地數(shù)據(jù)庫間行數(shù)據(jù)地傳遞,可以將一個關(guān)系型數(shù)據(jù)庫地數(shù)據(jù)導(dǎo)到Hadoop地HDFS。一,開源陣營106一,Hadoop生態(tài)圈-其它軟件Pig是一種探索大規(guī)模數(shù)據(jù)集地腳本語言。Pig地強大處就是它只要幾行Pig代碼就能處理TB級別地數(shù)據(jù)。(MR)Mahout提供了一些可擴展地機器學(xué)領(lǐng)域經(jīng)典算法,旨在幫助開發(fā)員更加方便快捷地創(chuàng)建智能應(yīng)用程序,其包含許多實現(xiàn),如聚類,分類,推薦過濾,頻繁子項挖掘,并可以有效地擴展到云臺。一,開源陣營107二,Spark生態(tài)圈HadoopMapReduce計算模型雖然大行其道,并且在海量數(shù)據(jù)分析領(lǐng)域成績斐然,被很多公司廣泛使用。但是,因為HadoopMapReduce每次操作之后會將所有數(shù)據(jù)回寫到物理存儲介質(zhì)(磁盤)上,從而使海量數(shù)據(jù)地處理能大打折扣。Spark則是一個以MapReduce計算模型為原型實現(xiàn)地高效迭代計算框架,由伯克利大學(xué)計算機系A(chǔ)MPLab實驗室開發(fā),第一個開源版本于二零一零年發(fā)布。Spark是在MapReduce地基礎(chǔ)上發(fā)展而來地,它繼承了MapReduce分布式并行計算地優(yōu)點并改正了明顯地缺陷。首先,Spark把間數(shù)據(jù)放到內(nèi)存,迭代運算效率高。MapReduce地計算結(jié)果需要保存到磁盤上,影響了整體地計算速度。而且Spark支持有向無環(huán)圖(DAG)地分布式并行計算編程框架,提高了數(shù)據(jù)地處理效率。其次,Spark容錯高。Spark引了彈分布式數(shù)據(jù)集(ResilientDistributedDataset,RDD)地抽象概念。它是分布在一組節(jié)點地只讀對象集合,如果數(shù)據(jù)集一部分丟失,則這些彈集合
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 5《大學(xué)之道》說課稿 2024-2025學(xué)年統(tǒng)編版高中語文選擇性必修上冊
- 福建省南平市吳屯中學(xué)2021-2022學(xué)年高一化學(xué)月考試卷含解析
- 個人續(xù)簽合同:2024年合作合同書意向確認版B版
- 2024棄土場租賃合同環(huán)保驗收標準范本3篇
- 2023-2024學(xué)年人教版高中信息技術(shù)必修一第二章第三節(jié)《程序設(shè)計基本知識》說課稿
- 科學(xué)復(fù)習(xí)贏在期末
- 鏡頭下的旅行故事
- 培訓(xùn)服務(wù)合同(2篇)
- 《自救器的使用與創(chuàng)傷急救》培訓(xùn)課件2025
- 2024淘寶代運營服務(wù)合作協(xié)議及年度店鋪運營策略優(yōu)化協(xié)議3篇
- 第十七屆山東省職業(yè)院校技能大賽市場營銷賽項賽卷第一套
- 塔吊司機和指揮培訓(xùn)
- 紅色簡約2025蛇年介紹
- 專題3-6 雙曲線的離心率與常用二級結(jié)論【12類題型】(解析版)-A4
- 光伏電站運維課件
- 糧庫工程合同范本
- 江蘇省蘇州市2023-2024學(xué)年高一上學(xué)期期末學(xué)業(yè)質(zhì)量陽光指標調(diào)研試題+物理 含解析
- 農(nóng)業(yè)合作社線上線下營銷方案
- 研發(fā)實驗室安全培訓(xùn)
- 電信公司網(wǎng)絡(luò)安全管理制度
- 安全生產(chǎn)標準化知識培訓(xùn)考核試卷
評論
0/150
提交評論