




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
《信息技術導論》課程教案課題:第一章云計算教學目的:1.了解云計算的概述;2.正確理解云技術架構(gòu)及其技術;3.掌握云計算系統(tǒng)的使能技術;4.掌握。課型:新授課課時:本章安排5個課時。教學重點:重點:掌握云計算系統(tǒng)的使能技術。教學難點:難點:掌握。教學過程:教學形式:講授課,教學組織采用課堂整體講授和分組演示。教學媒體:采用啟發(fā)式教學、案例教學等教學方法。教學手段采用多媒體課件、視頻等媒體技術。板書設計:本課標題云計算課次3授課方式理論課□討論課□習題課□其他□課時安排5學分共2分授課對象企業(yè)管理人員的培訓任課教師教材及參考資料1.《信息技術導論》;電子工業(yè)出版社。2.本教材配套視頻教程及學習檢查等資源。3.與本課程相關的其他資源。教學基本內(nèi)容教學方法及教學手段引導案例什么是云計算?美國國家標準與技術研究院對此有這樣一個權威和經(jīng)典的定義:“所謂云計算,就是這樣一種模式,該模式允許用戶通過無所不在的、便捷的、按需獲得的網(wǎng)絡接入到一個可動態(tài)配置的共享計算資源池(包括網(wǎng)絡設備、服務器、存儲、應用及業(yè)務),并且以最小的管理代價或業(yè)務提供者交互復雜度即可實現(xiàn)這些可配置計算資源的快速發(fā)放與發(fā)布。”云計算的目標是將計算和存儲簡化為像水和電一樣易用的資源,用戶只要連上網(wǎng)絡即可方便地使用,按量付費。云計算具有靈活的計算能力并提供了高效的海量數(shù)據(jù)分析方法,企業(yè)不需要構(gòu)建專用的數(shù)據(jù)中心就可以在云平臺上運行各種各樣的業(yè)務系統(tǒng),這種計算模式和商業(yè)模式吸引了產(chǎn)業(yè)界和學術界的廣泛關注。虛擬化是云計算的基石,是云計算重要的支撐技術。參考以下形式:1.銜接導入2.懸念導入3.情景導入4.激疑導入5.演示導入6.實例導入7.其他形式本章基本知識匯總第一節(jié)云計算概述一、云計算的產(chǎn)生與發(fā)展20世紀60年代只有大型機,20世紀70年代計算機的操作系統(tǒng)以UNIX為主導,小型機開始成為主流。個人計算機(PC)時代到來的標志是原來昂貴的、只在特殊行業(yè)使用的大型機發(fā)展成為每個人都能負擔得起、每個人都會使用的個人計算機。個人計算機時代的到來提高了個人的工作效率和企業(yè)的生產(chǎn)效率?;ヂ?lián)網(wǎng)時代的到來使數(shù)億計的單個信息孤島匯集成龐大的信息網(wǎng)絡,方便了信息的發(fā)布、收集、檢索和共享,極大地提高了人類溝通、共享和協(xié)作的效率,提高了社會生產(chǎn)力,豐富了人們的社交和娛樂活動??梢哉f,當前絕大多數(shù)企業(yè)、學校的日常工作都依賴于互聯(lián)網(wǎng)。1959年6月,ChristopherStrachey發(fā)表關于虛擬化技術的論文,虛擬化技術是云計算基礎架構(gòu)的基石。1962年,J.C.R.Licklider提出“星際計算機網(wǎng)絡”設想。1984年,Sun公司的聯(lián)合創(chuàng)始人JohnGage提出了“網(wǎng)絡就是計算機”的名言,用于描述分布式計算技術帶來的新世界,今天的云計算正在將這一理念變成現(xiàn)實。1997年,南加州大學教授RamnathK.Chellappa提出云計算的第一個學術定義:“計算的邊界可以不是技術局限,而是經(jīng)濟合理性?!?998年,VMware公司成立并首次引入x86的虛擬化技術。1999年,MarcAndreessen創(chuàng)建了LoudCloud,LoudCloud是第一個商業(yè)化的IaaS平臺。同年公司成立,宣布“軟件終結(jié)”革命開始。2000年,SaaS興起。2006年3月,亞馬遜推出彈性計算云(ElasticComputeCloud)服務。2006年8月,谷歌首席執(zhí)行官埃里克·施密特在搜索引擎大會首次提出“云計算”(CloudComputing)的概念。2008年2月,IBM宣布將在中國無錫太湖新城科教產(chǎn)業(yè)園為中國的軟件公司建立全球第一個云計算中心。2010年,阿里巴巴旗下的“阿里云”正式對外提供云計算商業(yè)服務。2013年9月,華為面向企業(yè)和運營商客戶推出云操作系統(tǒng)FusionSphere3.0。2015年3月,第十二屆全國人民代表大會第三次會議提出制定“互聯(lián)網(wǎng)+”行動計劃,推動移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合,促進電子商務、工業(yè)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融健康發(fā)展,引導互聯(lián)網(wǎng)企業(yè)拓展國際市場。2015年10月,教育部頒布《普通高等學校高等職業(yè)教育(專科)專業(yè)目錄(2015年)》,“云計算技術與應用”列入新的專業(yè)目錄。2016年9月,教育部頒布《普通高等學校高等職業(yè)教育(??疲I(yè)目錄(2016年)》,“大數(shù)據(jù)技術與應用”列入新的專業(yè)目錄。據(jù)中國信息通信研究院發(fā)布的《云計算白皮書(2020)》,2019年我國公有云市場規(guī)模首次超過私有云。2019年我國云計算整體市場規(guī)模達1334億元,增速38.6%。其中公有云市場規(guī)模達689億元,相比2018年增長57.6%,2020—2022年仍處于快速增長階段,到2023年市場規(guī)模將超過2300億元。云計算的內(nèi)涵與特性云計算有狹義和廣義之分。狹義的云計算是指IT基礎設施的交付和使用模式;廣義的云計算是指服務的交付和使用模式,這種服務可以是和軟件、互聯(lián)網(wǎng)相關的,也可以是任意的其他服務。云計算具有如下特性。(1)計算資源集成提高設備計算能力。云計算把大量計算資源集中到一個公共資源池中,通過多主租用的方式共享計算資源。雖然單個用戶在云計算平臺獲得的服務水平會受到網(wǎng)絡帶寬等因素的影響,但是從整個社會資源的角度而言,整體的資源調(diào)控降低了部分地區(qū)資源的峰值荷載,提高了部分荒廢主機的運行率,從而提高了資源利用率。(2)分布式數(shù)據(jù)中心保證系統(tǒng)容災能力。分布式數(shù)據(jù)中心可以將云端的用戶信息備份到地理上相互隔離的數(shù)據(jù)庫主機中,甚至用戶自己也無法判斷信息的確切備份地點。該特點不僅提供了數(shù)據(jù)恢復的依據(jù),也使得網(wǎng)絡病毒和網(wǎng)絡黑客的攻擊失去目的性,大大提高了系統(tǒng)的安全性和容災能力。(3)軟硬件相互隔離減少設備依賴性。虛擬化層將云平臺上方的應用軟件和下方的基礎設備隔離開來。設備的維護者無法看到設備中運行的具體應用。同時對于軟件層的用戶而言,基礎設備層是透明的,用戶只能看到虛擬化層中虛擬出來的各類設備。這種架構(gòu)既減少了對設備的依賴性,也為動態(tài)的資源配置提供了可能。(4)平臺模塊化設計體現(xiàn)高可擴展性。目前主流的云計算平臺均根據(jù)SPI架構(gòu)在各層集成了功能各異的軟硬件設備和中間件軟件。大量中間件軟件能夠提供針對該平臺的通用接口,允許用戶添加本層的擴展設備。部分云與云之間提供的接口,允許用戶在不同云之間進行數(shù)據(jù)遷移。類似的功能更大程度上滿足了用戶需求,集成了計算資源,是未來云計算的發(fā)展方向之一。(5)虛擬資源池為用戶提供彈性服務。云計算平臺管理軟件將整合的計算資源根據(jù)應用訪問的具體情況進行動態(tài)調(diào)整,包括增大資源的要求和減少資源的要求。云計算對于非恒定需求,如對需求波動很大、階段性需求等,具有非常好的應用效果。在云計算環(huán)境中,既可以對規(guī)律性需求通過事先預測事先分配,也可以根據(jù)事先設定的規(guī)則進行實時調(diào)整。彈性的云計算服務可以幫助用戶在任意時間得到滿足需求的計算資源。(6)按需付費降低使用成本。作為云計算的代表,按需提供服務和按需付費是目前各類云計算服務中不可或缺的一部分。對于用戶而言,云計算不僅省去了基礎設備的購置和運維費用,而且能根據(jù)企業(yè)成長的需要不斷擴展訂購服務,提高了資金的利用率。云計算的發(fā)展目標、任務與價值云計算作為一種技術手段和實現(xiàn)模式,使得計算資源成為向大眾提供服務的社會基礎設施,將對信息技術本身及其應用產(chǎn)生深刻影響。美國的微軟、亞馬遜、IBM等大牌廠商,都將云計算列為自己的核心戰(zhàn)略,國內(nèi)的百度、阿里巴巴、騰訊、華為、浪潮等主流IT企業(yè)也都已經(jīng)在云計算領域各顯神通。據(jù)統(tǒng)計,2015年我國云計算產(chǎn)業(yè)規(guī)模已達1500億元,產(chǎn)業(yè)發(fā)展勢頭迅猛、創(chuàng)新能力顯著增強、服務能力大幅提升、應用范疇不斷拓展,已成為提升信息化發(fā)展水平、打造數(shù)字經(jīng)濟新動能的重要支撐。據(jù)業(yè)界預測,到2025年,80%的企業(yè)應用將運行在云中,100%的應用將在云中開發(fā),軟件的開發(fā)、測試、部署、運維都將在云中進行,軟件開發(fā)工具本身也將服務化和云化,并將和企業(yè)云平臺進行集成。云計算的任務具體體現(xiàn)在:發(fā)展新技術,提升處理能力;提供新模式,實現(xiàn)按需服務;形成新業(yè)態(tài),拓寬應用范疇。第二節(jié)云計算系統(tǒng)的架構(gòu)一、云計算系統(tǒng)架構(gòu)的參考模型云計算系統(tǒng)的業(yè)務模型業(yè)務系統(tǒng)是商業(yè)模式的核心,云計算作為一種服務的商業(yè)模式,高效運營的業(yè)務系統(tǒng)是云計算企業(yè)重要的競爭優(yōu)勢之一。水、電服務是將水、電作為資源提供給用戶,云計算服務提供則是提供IT資源,如云主機、云存儲、VPC、網(wǎng)盤等,用戶可以根據(jù)自己的需要通過自助、付費的方式按需獲取這些資源,從而得到服務。隨著近幾年云計算市場的發(fā)展,云計算服務已經(jīng)隨處可見,通常將這些服務歸為基礎設施即服務(InfrastructureasaService,IaaS)、平臺即服務(PlatformasaService,PaaS)、數(shù)據(jù)即服務(DataasaService,DaaS)、軟件即服務(SoftwareasaService,SaaS)四大類,如圖1-3所示。除了這四類服務,根據(jù)用戶的需求,云計算服務也衍生出了其他一些服務類型,如容器即服務(ContainerasaService,CaaS)、數(shù)據(jù)庫即服務(DatabaseasaService,DBaaS)等。借助這些云服務,用戶可以像用水用電一樣便捷地獲取和使用計算、存儲、網(wǎng)絡、大數(shù)據(jù)、數(shù)據(jù)庫等IT資源。云計算系統(tǒng)的部署模型根據(jù)IT資源部署的方式,以及面向服務對象的不同,可以把云服務分為公有云、私有云和混合云三類,這三類云服務部署模型的特點見表1-1。1.公有云(PublicCloud)公有云也稱公共云,是指云服務提供商通過互聯(lián)網(wǎng)提供的計算服務面向希望使用或購買的任何組織和個人。公有云可以免費或按需出售,允許用戶根據(jù)CPU內(nèi)存、存儲、帶寬等使用量支付費用。公有云具有以下特點:(1)快速獲取IT資源。用戶可以通過互聯(lián)網(wǎng)獲取所需的計算、存儲、網(wǎng)絡等資源,免去了自建系統(tǒng)漫長的周期與高昂的成本。(2)按需使用,按量付費。用戶根據(jù)業(yè)務需求訂購所需的資源配置與數(shù)量,用多少買多少,不需要考慮預留資源,節(jié)約了成本。(3)彈性伸縮,在訪問量突發(fā)增長的時候,系統(tǒng)可以根據(jù)策略動態(tài)增加相應的資源,以保證業(yè)務可用性;當訪問量回落之后,系統(tǒng)可以釋放相應的資源,避免浪費。(4)安全可靠。公有云服務提供商通過多個可用區(qū)和區(qū)域的架構(gòu)設計,保證了系統(tǒng)整體的健壯性;用戶數(shù)據(jù)有多個副本,有嚴格的訪問控制,用戶不用擔心數(shù)據(jù)丟失、病毒侵擾等問題。目前比較知名的公有云服務提供商有亞馬遜的AWS、微軟的Azure及國內(nèi)的阿里云、騰訊云、移動云、電信云等。2.私有云(PrivateCloud)私有云也稱專用云,部署在企業(yè)數(shù)據(jù)中心或安全的主機托管場所,是為企業(yè)單獨使用而構(gòu)建的專有資源,一般不直接連接外部網(wǎng)絡私有云具有以下特點:(1)安全可控。私有云一般會在網(wǎng)絡出口位置部署防火墻、抗分布式拒絕服務(DistributedDenialofServiceAttack,DDoS)設備、入侵檢測系統(tǒng)(IntrusionDetectionSystem,IDS)、入侵防御系統(tǒng)(IntrusionPreventionSystem,IPS)、Web應用防護系統(tǒng)(WebApplicationFirewall,WAF)等設備保證私有云網(wǎng)絡的安全。業(yè)務數(shù)據(jù)是企業(yè)的核心資產(chǎn),所以用戶操作行為都會被記錄和審計,數(shù)據(jù)在私有云內(nèi)部可以得到嚴格的控制。(2)服務質(zhì)量保證。部署在企業(yè)數(shù)據(jù)中心的私有云可以提供高速、穩(wěn)定的業(yè)務訪問體驗,不會受到網(wǎng)絡不穩(wěn)定、斷網(wǎng)、黑客攻擊等的影響。(3)良好的兼容性。企業(yè)的一些系統(tǒng),因為架構(gòu)和性能的要求,并不一定適合部署在公有云上,而私有云可以兼容原有系統(tǒng),并且對原有IT資源也可以實現(xiàn)統(tǒng)一管理,保護企業(yè)投資。3.混合云(HybridCloud)混合云是公有云和私有云的融合,通過專線或VPN將企業(yè)私有云和公有云連通,實現(xiàn)私有云的延伸,是近年來云計算的主要模式和發(fā)展方向?;旌显凭哂幸韵绿攸c:(1)安全擴展。私有云的安全性超越公有云,但公有云的海量資源又是私有云無法企及的。混合云可以較好地解決這個問題,既可以將內(nèi)部的重要數(shù)據(jù)保存在私有云中,同時也可以使用公有云的計算資源,從而更高效地完成工作。(2)成本控制。私有云配置的容量一般只能滿足企業(yè)業(yè)務的近期需求,往往不會預留太多資源,在業(yè)務高峰時期會出現(xiàn)資源不足的情況,而如果為了短暫的高峰時期購買大量資源就會造成投資回報率低的問題?;旌显瓶梢跃徑膺@個難題,即在業(yè)務高峰時期將訪問引導到公有云上,以緩解私有云上的訪問壓力。(3)新技術引入。私有云追求的是系統(tǒng)整體的安全穩(wěn)定,公有云上產(chǎn)品和服務的豐富程度遠超私有云,同時還在不斷更新和上線新的產(chǎn)品和服務;混合云突破了私有云的限制,讓企業(yè)可以迅速體驗新產(chǎn)品,在引入私有云之前進行充分測試,降低了企業(yè)引入新服務的成本。第三節(jié)云計算系統(tǒng)的使能技術一、分布式技術加強云計算服務平臺建設、構(gòu)建下一代信息基礎設施是IT技術演進的重要方向。如何在云中對大規(guī)模數(shù)據(jù)進行高效的計算和存儲成為發(fā)展中的關鍵問題,前者是在前端對外部應用進行計算,后者是在后臺對應用數(shù)據(jù)進行存儲。分布式系統(tǒng)既是計算機系統(tǒng),特別是云化的計算機系統(tǒng)的核心思想之一,也是分布式計算和分布式存儲的支撐主體。理解分布式系統(tǒng)的概念,首先要了解集中式系統(tǒng)。集中式系統(tǒng)是指一個主機帶多個終端的系統(tǒng),整個系統(tǒng)的數(shù)據(jù)存儲、控制與處理完全交由主機處理,每個終端沒有數(shù)據(jù)處理能力,僅僅負責數(shù)據(jù)的輸入和輸出。集中式系統(tǒng)最大的特點就是部署結(jié)構(gòu)簡單,但是,由于采用單節(jié)點部署,很可能帶來系統(tǒng)過大而難以維護、發(fā)生單點故障等問題。為了解決集中式系統(tǒng)面臨的挑戰(zhàn),分布式系統(tǒng)應運而生。所謂分布式,就是一件事分給多臺機器,所有機器一起完成任務。分布式意味著采用多臺普通計算機組成分布式集群對外提供服務。計算機越多,計算的資源也就越多,能夠處理的并發(fā)訪問量與數(shù)據(jù)量也就越大。分布式系統(tǒng)通常定義為,一組通過網(wǎng)絡進行通信,為了完成共同的任務而協(xié)調(diào)工作的計算機節(jié)點組成的系統(tǒng)。虛擬化技術云計算的核心技術之一是虛擬化技術,虛擬化技術是云計算體系架構(gòu)中虛擬化池層的主要支撐技術。所謂虛擬化,是指通過虛擬化技術將一臺計算機虛擬為多臺邏輯計算機。在一臺計算機上同時運行多個邏輯計算機,每個邏輯計算機可運行不同的操作系統(tǒng),并且應用程序可以在相互獨立的空間內(nèi)運行而互不影響,從而顯著提高計算機的工作效率。虛擬化技術源于大型機的虛擬分區(qū)技術。早在20世紀60年代,IBM公司就發(fā)明了一種操作系統(tǒng)虛擬機技術,即在一臺主機上運行多個操作系統(tǒng),以使用戶盡可能地充分利用昂貴的大型機資源。隨著技術的發(fā)展,大型機的相關技術開始向小型機移植,但真正使用大型機和小型機的用戶畢竟還是少數(shù)。虛擬化技術不僅僅是一種技術,還反映出一種服務化的思想。服務器、存儲架構(gòu)、數(shù)據(jù)庫等所有硬件或軟件資源都被抽象成一種便于重組、聚合、配置的“服務”,形成一個可以被用戶靈活調(diào)用的資源池,從而實現(xiàn)外部用戶業(yè)務系統(tǒng)和IT軟件和硬件環(huán)境的解耦。這意味著外部用戶業(yè)務系統(tǒng)無須了解軟件和硬件的實現(xiàn)細節(jié),就能方便地使用各式各樣的軟件和硬件資源。云平臺技術云計算的本質(zhì)就是將計算能力作為一種較小粒度的服務提供給用戶,按需使用和付費,具有經(jīng)濟、快捷、柔性等特性。云平臺技術是支撐云計算的基礎技術,云平臺技術主要有四種:服務計算技術、多租戶技術、容器技術和邊緣計算技術。1.服務計算技術設想一個基于云服務的手機游戲開發(fā)場景,游戲創(chuàng)業(yè)團隊最大的優(yōu)勢是內(nèi)容上的創(chuàng)新,但是技術能力上的不足會嚴重影響他們的創(chuàng)新,如自主部署服務器的運行環(huán)境至少需要3個月的時間。本來自己擁有一個好的創(chuàng)意,卻因為開發(fā)周期過長,導致這個創(chuàng)意被別人搶先一步發(fā)布,這對創(chuàng)業(yè)者的打擊是十分沉重的。那么,如何大大縮短游戲創(chuàng)業(yè)團隊的開發(fā)周期?答案是利用服務計算技術支撐該業(yè)務要求。隨著網(wǎng)絡技術的發(fā)展,出現(xiàn)了一種利用網(wǎng)絡進行應用集成的解決方案——Web服務(WebService)。Web服務是一個用統(tǒng)一資源標識(UniformResourceIdentifier,URI)的軟件實體,其接口和綁定可以用XML協(xié)議定義、描述和發(fā)現(xiàn)。Web服務具有以下優(yōu)點:(1)良好的封裝性。(2)標準協(xié)議性。(3)松散耦合性。(4)高度集成性。2.多租戶技術設想一個政務云辦公權限分配的場景,近兩年政務云的發(fā)展非常迅速,從許多地方政府披露的信息來看,政務云已拓展到鄉(xiāng)鎮(zhèn)一級,這為提高電子政務效率、惠及于民打下堅實的基礎。政務云迅猛發(fā)展的同時,也出現(xiàn)了新的問題,那就是不少地方的政務云只追求快速上線,而忽視數(shù)據(jù)安全保障體系的構(gòu)建,特別是權限設置。例如,如何在政務云中做好不同權限的人員獲取不同級別的數(shù)據(jù)呢?多租戶技術可以解決這個問題。多租戶技術(Multi-tenancyTechnology)實際是一種軟件架構(gòu)技術,它是在探討與實現(xiàn)如何在多用戶的環(huán)境下共用相同的系統(tǒng)或程序組件,并且仍可以確保各用戶的數(shù)據(jù)隔離且業(yè)務互不影響。其主要研究內(nèi)容為在共用的數(shù)據(jù)中心內(nèi)如何以單一系統(tǒng)架構(gòu)與服務提供多數(shù)客戶端相同甚至可定制化的服務,并且仍然可以隔離用戶數(shù)據(jù)。3.容器技術設想一個平臺虛擬化管理的場景,某公司的平臺上,一臺16核32GB內(nèi)存的虛擬機上,需要跑500個以上用戶的應用,在一臺機器上開500個虛擬機,雖然可以在資源隔離方面做得很好,但這種虛擬化本身帶來的資源消耗太嚴重。那么,如何在平臺上,進行虛擬化的有效管理呢?容器技術可以解決該問題。虛擬化技術已經(jīng)成為一種被大家廣泛認可的服務器資源共享方式,但是虛擬化技術仍然存在一些性能和資源使用效率方面的局限。一方面,每個虛擬機都是一個完整的操作系統(tǒng),所以需要給其分配物理資源,當虛擬機數(shù)量增多時,操作系統(tǒng)本身消耗的資源勢必增多;另一方面,開發(fā)環(huán)境和線上環(huán)境通常存在區(qū)別,所以開發(fā)環(huán)境與線上環(huán)境之間無法達到很好的橋接,在部署線上應用時,依舊需要花時間去處理環(huán)境不兼容的問題。因此出現(xiàn)了一種稱為容器(Container)的新型虛擬化技術來幫助解決這些問題。容器可以把開發(fā)環(huán)境及應用整個打包帶走,打包好的容器可以在任何環(huán)境下運行,這樣就可以解決開發(fā)環(huán)境與線上環(huán)境不一致的問題了。4.邊緣計算技術設想一個安全城市的場景,某城市計劃安裝上百萬個攝像頭,以提升社會公共安全。例如,通過監(jiān)視共享車輛服務中司機的駕駛行為來觸發(fā)報警,由于攝像頭很少具備計算功能,因此大量的視頻數(shù)據(jù)不得不通過網(wǎng)絡傳輸至云計算數(shù)據(jù)中心來處理。然而,這將導致大量的網(wǎng)絡帶寬消粍,并影響安全事件的響應時間。因此,就需要邊緣計算技術來解決這個問題。邊緣計算技術針對云計算模型的集中式服務所導致的網(wǎng)絡傳輸開銷大、用戶需求響應速度慢等缺點,通過在用戶側(cè)的網(wǎng)絡邊緣就近提供計算、存儲、網(wǎng)絡等服務,來縮短數(shù)據(jù)傳輸路徑以減少帶寬消耗,并高效響應用戶的業(yè)務需求。在實際使用中,云計算通常會融入邊緣計算技術,實現(xiàn)“云邊協(xié)同”架構(gòu),以對不同的用戶需求予以靈活部署。第四節(jié)云計算系統(tǒng)的管理與服務一、云計算系統(tǒng)的硬件管理1.云設備選型及供應鏈管理21世紀初,云計算服務的早期,各個云計算廠商通過硬件的管理實踐總結(jié)出經(jīng)驗,不約而同對云計算的硬件發(fā)展方向達成了通用性、低成本的共識,主要滿足用戶四點核心需求。(1)云計算應該是低成本的。無論是企業(yè)用戶還是個人用戶,使用云計算服務的首要原因都是云計算服務比自己實施要便宜。對于企業(yè)用戶,通過云計算服務可以大幅削減服務器采購、網(wǎng)絡構(gòu)建、應用部署等支出。個人用戶對價格更加敏感,常用的構(gòu)建個人網(wǎng)站、存儲個人數(shù)據(jù)等,其價格必須比個人使用PC及一般網(wǎng)絡接入的成本更低。(2)云計算應該是通用的。業(yè)務邏輯和業(yè)務數(shù)據(jù)分析涉及商業(yè)秘密和個人隱私,用戶通常會選擇自行研發(fā)或采購專業(yè)的軟件服務。因此,云計算服務商所提供的服務或產(chǎn)品必須與現(xiàn)有的操作系統(tǒng)接口、硬件驅(qū)動軟件等完全兼容,并且應該盡量涵蓋所有主流操作系統(tǒng)環(huán)境、軟件開發(fā)和運行環(huán)境。(3)云計算應該是可持續(xù)的。用戶對云計算服務商的要求是,其必須能夠長時間、穩(wěn)定、高質(zhì)量地提供基礎設施與系統(tǒng)軟件服務,并且投入足夠的資源跟進軟件和硬件的升級,以及解決用戶的穩(wěn)定性問題。(4)云計算應該是開放的。由于對云計算有需求的用戶的差異性極大,從專業(yè)的軟件和硬件研發(fā)人員,到普通IT從業(yè)者,再到每個公司各自的業(yè)務人員,涉及面非常廣。用戶這樣的組成模式,需要云計算廠商有能夠適應各類用戶的開放性接口,因此云計算應該是開放的。2.針對云存儲需求的云原生存儲設備隨著云上人工智能、大數(shù)據(jù)需求的迅猛發(fā)展,數(shù)據(jù)中心對存儲產(chǎn)品的要求正在發(fā)生深刻變化。過去以標準SSD固態(tài)硬盤為基礎的傳統(tǒng)架構(gòu),在性能、成本、靈活性、供應及服務響應等諸多方面,都越來越無法滿足下一代數(shù)據(jù)中心的需求。針對這些問題,云計算服務商需要提供更加先進和多樣的存儲硬件來滿足海量云上用戶的差異性需求。云計算系統(tǒng)的軟件研發(fā)管理 1.傳統(tǒng)軟件生命周期管理簡述軟件的生命周期包括七個階段:(1)問題定義。軟件開發(fā)者和用戶討論階段,旨在明確軟件的開發(fā)目標并論證其可行性。(2)需求分析。將軟件的開發(fā)目標細化成體系的功能和性能需求。傳統(tǒng)的軟件研發(fā)思路對這一階段非常重視,軟件生命周期中大量的時間會消耗在這一階段。(3)系統(tǒng)設計。根據(jù)需求分析的結(jié)果設計整個軟件系統(tǒng),包括系統(tǒng)框架設計、數(shù)據(jù)庫設計、用戶界面設計等。(4)編碼。將系統(tǒng)設計方案轉(zhuǎn)換成計算機代碼和可執(zhí)行程序。(5)測試。編碼結(jié)束后,需要通過測試環(huán)節(jié)驗證軟件的功能指標、性能指標,以及編碼質(zhì)量。測試通常包括白盒測試和黑盒測試。(6)部署。將軟件上線運行。(7)維護。軟件投入使用后的可用性維護,以及根據(jù)用戶、運行環(huán)境需求做的小規(guī)模調(diào)整等工作。2.基于敏捷開發(fā)原則的云軟件生命周期管理敏捷開發(fā)與傳統(tǒng)的軟件生命周期模型并不是割裂的,只是更加強調(diào)簡潔、研發(fā)流程的疊加、提升開發(fā)效率和響應時間。云計算系統(tǒng)的軟件開發(fā),以不斷變化的市場需求和用戶需求為核心,將設計、開發(fā)、測試、上線、文檔撰寫等工作高度交叉和疊加,其目的是最快速地滿足市場需求,執(zhí)行過程中需要關注以下四個方面:(1)快速迭代。通常以小版本的快速迭代為主。(2)架構(gòu)師、開發(fā)人員、測試人員共同參與需求討論。不限線上線下形式的研討組,所有人在任何時間都可以實現(xiàn)信息同步,保持不間斷溝通。(3)需求文檔從用戶工作案例出發(fā)。使用用戶的實際工作場景編寫需求文檔,而不是系統(tǒng)性的解決方法和實施技術。(4)借助用戶的力量。利用好用戶測試的機會,在產(chǎn)品正式上線收費前,得到第一手的用戶真實需求資料售后服務體系由于公有云的公共基礎平臺屬性,其用戶的差異性很大,因此在傳統(tǒng)的電話售后的基礎之上,云售后服務還應根據(jù)不同用戶的能力和特點,給出定制的服務。除此之外,云計算廠商在培訓認證、技術生態(tài)方面也需要投入,如此才能構(gòu)建一個良好的云技術環(huán)境。下面分別詳述云用戶的分類服務、開發(fā)人員的培訓服務,以及技術生態(tài)構(gòu)建方面的情況。1.用戶分類服務體系云上用戶可以分為以下三類:(1)普通用戶。為自己的網(wǎng)站、數(shù)據(jù)、計算需求尋找便宜可靠的供應商。(2)開發(fā)人員。有開發(fā)能力的人員,如受雇于技術公司、利用云資源為企業(yè)搭建業(yè)務系統(tǒng)的人員。(3)企業(yè)。將生產(chǎn)系統(tǒng)部署在云上的企業(yè),云系統(tǒng)故障會對這類企業(yè)產(chǎn)生重大影響。云計算廠商對如上三類用戶應當靈活給出不同的服務模式,配備經(jīng)驗豐富的技術支持工程師,服務內(nèi)容涵蓋技術、產(chǎn)品、解決方案及架構(gòu),支持方式包括網(wǎng)站、即時通信工具、郵箱、電話等,應全天候為用戶提供支持,幫助用戶基于云計算廠商提供的產(chǎn)品和功能進行產(chǎn)品使用、設計、應用開發(fā)及數(shù)據(jù)管理等。2.培訓認證體系對于企業(yè)用戶而言,使用云基礎設施開發(fā)項目、發(fā)布服務,需要有云上開發(fā)知識和背景的專業(yè)人才。一方面,需要有人梳理云上的知識經(jīng)驗,將其系統(tǒng)化為基礎課程和專業(yè)應用課程的課程體系;另一方面,也需要有全面的人才能力認證制度,讓企業(yè)在招聘的時候能夠快速評判潛在的員工。3.技術生態(tài)與技術體系各個主流云計算廠商均有官方的技術交流社區(qū),這里介紹幾個典型社區(qū)。(1)云棲社區(qū)。為阿里云經(jīng)營的云技術交流平臺,廣大開發(fā)者通過這個官方社區(qū)提供的平臺發(fā)布技術帖,并通過互動功能討論技術問題。社區(qū)的組織者還經(jīng)常組織線下活動,進一步促進開發(fā)者形成良性的互相學習交流機制。(2)亞馬遜AWS技術社區(qū)。AWS的中文技術社區(qū)活躍于CSDN的AWS頻道,其組織頻道包括博客、論壇、技術視頻、應用案例等常見形式。(3)微軟Azure技術社區(qū)。微軟Azure社區(qū)是微軟官方的技術支持網(wǎng)站,其組織形式與門戶網(wǎng)站有些類似,一方面集成了自有的解決方案、文檔、培訓頻道,另一方面還將MSDN技術論壇、StackOverflow技術問答中關于Azure的技術文章整合在了一起。(4)華為云社區(qū)。華為云社區(qū)為華為云的官方技術資料分享平臺,內(nèi)設博客、論壇、問答、專題、云市場熱點等頻道,以及幫助用戶學習使用華為云服務產(chǎn)品的視頻課程。(5)其他第三方云計算技術社區(qū)。網(wǎng)絡上還有多家涉及云計算技術的第三方技術交流平臺,包括開源中國社區(qū)、CSDN等。云計算系統(tǒng)的運維1.產(chǎn)品設計運維準入對于一個動輒數(shù)百萬個用戶可見的產(chǎn)品,以及支撐這些用戶產(chǎn)品的大量的后臺軟件所組成的云計算平臺,運維的主要工作不是在產(chǎn)品上線后,而是必須要在產(chǎn)品的設計開發(fā)階段就將其作為核心任務來考慮。產(chǎn)品在設計時需要滿足以下幾點:(1)熱升級。云產(chǎn)品必須支持熱升級,升級過程中對業(yè)務的影響要小于一個極小的比例,并且要能正確處理錯誤客戶端。(2)模塊服務冗余。產(chǎn)品相關模塊不存在單點故障,所有模塊均要有冗余,并且單臺機器故障(包括宕機、網(wǎng)絡不通、磁盤故障、磁盤滿等)不能影響服務的正常使用。(3)數(shù)據(jù)容災。單臺機器故障(包括宕機、網(wǎng)絡不通、磁盤故障、磁盤滿等)不能導致數(shù)據(jù)丟失,關鍵數(shù)據(jù)應支持多機房或異地災備。(4)過載保護。云產(chǎn)品必須設計過載保護,不能因為壓力過大而導致服務不可用。過載保護包括每秒訪問次數(shù)和每秒訪問次數(shù)限制等。(5)安全防攻擊。對公有云提供服務的業(yè)務,都必須考慮接入安全防攻擊體系。2.產(chǎn)品線上的監(jiān)控級運維工具云產(chǎn)品在上線時,需要接入基礎監(jiān)控及應用級的監(jiān)控。(1)基礎監(jiān)控。包括系統(tǒng)級別的CPU、內(nèi)存、網(wǎng)卡、負載等,具體報警閾值由各個產(chǎn)品的特點來定;還必須包括進程、端口、JVM(Java虛擬機)等的監(jiān)控。(2)應用級的監(jiān)控。包括整體應用的工作狀態(tài)、負載情況監(jiān)控等,其具體的監(jiān)控實現(xiàn)方式包括運行日志關鍵字類型的監(jiān)控等。監(jiān)控添加完畢,必須驗證監(jiān)控的可用性。3.數(shù)據(jù)中心自動化運維數(shù)據(jù)中心是云計算的基礎設施,服務器資源分配、帶寬分配、業(yè)務支撐能力、流量防護和清洗能力,都是基于數(shù)據(jù)中心的大小和其帶寬的容量,數(shù)據(jù)中心分布在不同的核心城市并輻射到周邊城市提供基礎支撐。云計算系統(tǒng)的數(shù)據(jù)中心運維策略,就是要在數(shù)據(jù)中心的基礎上找到盡量高效利用云資源的方法。數(shù)據(jù)中心運維自動化是一組將靜態(tài)的設備結(jié)構(gòu)轉(zhuǎn)化為根據(jù)數(shù)據(jù)中心服務需求動態(tài)彈性響應的策略,目的就是實現(xiàn)數(shù)據(jù)中心運維的質(zhì)量,降低成本。可以說自動化一定是數(shù)據(jù)中心運維最重要的屬性之一,并且需要與之配套一系列軟件和硬件平臺環(huán)境及體系。1.教學以學生學習教材的基本內(nèi)容為主,系統(tǒng)全面地學習稅收制度的構(gòu)成要素的基本內(nèi)容。2.整個教學過程中,各教學點可根據(jù)實際情況,進行拓展知識的講解。本章小結(jié):本章以云計算架構(gòu)技術為核心,圍繞云計算架構(gòu)涉及的核心技術和商業(yè)實踐展開,包括云計算概述、云計算系統(tǒng)的架構(gòu)、云計算系統(tǒng)的使能技術、云計算系統(tǒng)的管理與服務等內(nèi)容,涵蓋了云計算的發(fā)展趨勢、原理、特性與實踐。云計算誕生至今已有十幾年,這十幾年來,云計算的技術條件、行業(yè)和市場環(huán)境均發(fā)生了巨大變化,人們對云計算的認知需求也從粗淺概念階段發(fā)展到深度探索階段。同時,云計算的未來發(fā)展前景也十分廣闊,尤其與人工智能、大數(shù)據(jù)、邊緣計算等技術的深度融合,將進一步提高云計算的智能化、高效化、安全化程度。未來云計算的發(fā)展主要體現(xiàn)在以下幾個方面:1.云計算與人工智能的融合:青云科技等公司已經(jīng)開始探索將云計算與AI技術結(jié)合,推出AI智算平臺,實現(xiàn)對多元算力的統(tǒng)一調(diào)度和管理,這代表了云計算未來的發(fā)展方向。2.邊緣計算的發(fā)展**:隨著物聯(lián)網(wǎng)設備的廣泛應用,邊緣計算技術得到了快速發(fā)展,云計算將與其他計算模式如邊緣計算、分布式計算等結(jié)合,提供更加強大的計算能力。3.云安全的發(fā)展:隨著云計算在各領域的廣泛應用,云安全的重要性日益凸顯,加密計算、隱私計算等技術的發(fā)展將進一步提高云的安全性。4.云服務的個性化和差異化:云計算服務的個性化和差異化將成為趨勢,企業(yè)可以根據(jù)自身需求選擇更加靈活、個性化的云服務。5.云平臺的開放和互聯(lián):未來云平臺將更加開放和互聯(lián),實現(xiàn)不同云平臺、不同云服務之間的無縫對接??傮w來說,云計算將會在未來進一步深度融合各類先進技術,提升自身的能力和效率,為各行業(yè)提供更加智能、高效、安全的云服務。《信息技術導論》課程教案課題:第二章大數(shù)據(jù)教學目的:1.了解大數(shù)據(jù)的內(nèi)涵;2.明確大數(shù)據(jù)技術的地位;3.掌握大數(shù)據(jù)的來源、采集以及治理方式;4.熟練掌握數(shù)據(jù)的儲存與管理;5.掌握數(shù)據(jù)安全保護的策略;6.了解大數(shù)據(jù)現(xiàn)實中的應用實例。課型:新授課課時:本章安排11個課時。教學重點:重點:大數(shù)據(jù)的來源、采集以及治理方式。教學難點:難點:數(shù)據(jù)安全保護的策略。教學過程:教學形式:講授課,教學組織采用課堂整體講授和分組演示。教學媒體:采用啟發(fā)式教學、案例教學等教學方法。教學手段采用多媒體課件、視頻等媒體技術。板書設計:本課標題大數(shù)據(jù)課次6授課方式理論課□討論課□習題課□其他□課時安排11學分共2分授課對象企業(yè)管理人員的培訓任課教師教材及參考資料1.《信息技術導論》;電子工業(yè)出版社。2.本教材配套視頻教程及學習檢查等資源。3.與本課程相關的其他資源。教學基本內(nèi)容教學方法及教學手段引導案例社交媒體已成為現(xiàn)代政治變革的重要工具。以阿拉伯之春為例,2010年底,突尼斯爆發(fā)抗議活動,隨后蔓延至埃及、利比亞等國家。社交媒體在這場變革中發(fā)揮了至關重要的作用。當時,突尼斯和埃及的互聯(lián)網(wǎng)使用率分別達到23.5%和28.5%,許多年輕人通過Facebook、Twitter等平臺傳播信息、組織抗議活動,成功地引起了國際社會的關注。大數(shù)據(jù)在分析社交媒體數(shù)據(jù)方面具有重要意義。通過對社交媒體上的帖子、評論、圖片等數(shù)據(jù)進行挖掘和分析,可以了解民眾的意見、情緒和行為趨勢。在政治變革中,這種分析有助于政策制定者和企業(yè)了解民情、預判風險,為決策提供有力支持。以我國為例,政府在應對突發(fā)事件和輿論監(jiān)督方面已開始利用大數(shù)據(jù)技術。通過分析社交媒體上的熱點話題和民眾情緒,政府可以及時掌握社會動態(tài),采取有效措施化解危機。同時,企業(yè)也可以借助大數(shù)據(jù)分析,了解消費者需求和市場趨勢,調(diào)整經(jīng)營策略。然而,在利用社交媒體數(shù)據(jù)進行分析時,也需要關注倫理和隱私問題。如何在保護用戶隱私的前提下,合理利用大數(shù)據(jù)為用戶提供更好的服務,是當前社交媒體平臺和企業(yè)需要面臨的挑戰(zhàn)。此外,大數(shù)據(jù)分析結(jié)果可能存在偏差,如何確保分析結(jié)果的準確性和可靠性,也是需要關注的問題。參考以下形式:1.銜接導入2.懸念導入3.情景導入4.激疑導入5.演示導入6.實例導入7.其他形式本章基本知識匯總第一節(jié)大數(shù)據(jù)概述一、大數(shù)據(jù)的內(nèi)涵和外延大數(shù)據(jù)(BigData),這個如今耳熟能詳?shù)拿质窃凇蹲匀弧罚∟ature)雜志2008年的專輯BigData中首次提出來的,Google公司在推動世界范圍內(nèi)信息整合的過程中,極大地推動了大數(shù)據(jù)技術的創(chuàng)新和發(fā)展。然而,何為大數(shù)據(jù)的內(nèi)涵和外延呢?由于大數(shù)據(jù)是新衍生出來的概念,它的內(nèi)涵和外延也在不斷拓展和變化,目前還沒有一個被業(yè)界廣泛采納的明確定義。2011年5月,麥肯錫全球研究院(MGI)在報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》中這樣描述:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集。幾乎同時,IDC(InternationalDataCorporation)在編制的年度數(shù)字宇宙研究報告《從混沌中提取價值》中給大數(shù)據(jù)下了一個定義:一般涉及兩種或兩種以上數(shù)據(jù)形式;數(shù)據(jù)量超過100TB并且是高速、實時的數(shù)據(jù)流。大數(shù)據(jù)的“4V”特性:(1)Volume:數(shù)據(jù)量巨大。數(shù)據(jù)量巨大是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特征。一般關系型數(shù)據(jù)庫處理的數(shù)據(jù)量為TB級,大數(shù)據(jù)的數(shù)據(jù)量通常是PB級或更高級。(2)Variety:數(shù)據(jù)類型多。大數(shù)據(jù)的數(shù)據(jù)類型早已不是單一的文本形式或結(jié)構(gòu)化數(shù)據(jù)庫中的表,它包括訂單、日志、微博、音頻、視頻等復雜結(jié)構(gòu)的數(shù)據(jù)。(3)Velocity:數(shù)據(jù)流動快。速度是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的重要特征。例如,對PB級大數(shù)據(jù)進行一次復雜查詢,傳統(tǒng)結(jié)構(gòu)化查詢語言(SQL)技術可能需要幾個小時,基于大數(shù)據(jù)技術的平臺正在將這個時延逐步降低到分鐘級、秒級、毫秒級,甚至完全實時。(4)Value:數(shù)據(jù)潛在價值大。在研究和技術開發(fā)領域,上述三個特征已經(jīng)足夠表示大數(shù)據(jù)的特征。但在商業(yè)應用領域,該特征就顯得非常關鍵。投入如此巨大的研究和技術開發(fā),就是因為大家都洞察到了大數(shù)據(jù)潛在的巨大價值。如何通過強大的機器學習和高級分析更迅速地完成數(shù)據(jù)價值的“提純”,挖掘出大數(shù)據(jù)的潛在價值,是目前在大數(shù)據(jù)應用背景下亟待解決的難題。數(shù)據(jù)量的大小是用計算機存儲容量的單位來度量的,基本單位是字節(jié),如下所示。(1)1Byte(B),相當于一個英文字母;(2)1KiloByte(KB)=1024B,相當于一則短篇故事的內(nèi)容;(3)1MegaByte(MB)=1024KB,相當于一則短篇小說的內(nèi)容;(4)1GigaByte(GB)=1024MB,相當于貝多芬第五樂章交響曲的樂譜內(nèi)容;(5)1TeraByte(TB)=1024GB,相當于一家大型醫(yī)院中所有X光片的內(nèi)容;(6)1PetaByte(PB)=1024TB,相當于美國學術研究圖書館藏書內(nèi)容的50%;(7)1ExaByte(EB)=1024PB,5EB相當于至今全世界人類所講過的話語;(8)1ZettByte(ZB)=1024EB,相當于全世界海灘上沙子數(shù)量的總和;(9)1YottaByte(YB)=1024ZB,相當于1024個地球一樣的星球上沙子數(shù)量的總和。二、大數(shù)據(jù)技術的影響和科學意義我們正處于一個信息化的時代,根據(jù)IBM前首席執(zhí)行官路易斯·郭士納的觀點,IT領域每隔十五年就會迎來一次重大變革,時至今日已經(jīng)發(fā)生了三次信息化革命浪潮,并且發(fā)生的間隔越來越短,如表2-1所示。1.大數(shù)據(jù)技術的影響(1)在科學研究方面,大數(shù)據(jù)使得人類的科學研究在經(jīng)歷了實驗、理論、計算三種范式之后,迎來了第四種范式——數(shù)據(jù)。(2)在思維方式方面,大數(shù)據(jù)具有“全樣而非抽樣、效率而非精確、相關而非因果”等顯著特征,完全顛覆了傳統(tǒng)的思維方式。(3)在社會發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應用有力地促進了信息技術與各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大地推動了新技術和新應用的不斷涌現(xiàn)。(4)在就業(yè)市場方面,大數(shù)據(jù)的興起使得數(shù)據(jù)分析師成為熱門職業(yè)。(5)在人才培養(yǎng)方面,大數(shù)據(jù)的興起將在很大程度上改變中國高校信息技術相關專業(yè)的現(xiàn)有教學和科研體制。2.大數(shù)據(jù)技術的科學意義大數(shù)據(jù)技術的科學意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,以及通過“加工”實現(xiàn)數(shù)據(jù)的“增值”應用。經(jīng)調(diào)研,大數(shù)據(jù)在中國的發(fā)展前景非常廣闊。在行業(yè)方面,2012年,大數(shù)據(jù)應用已經(jīng)從電子商務/互聯(lián)網(wǎng)、快消品等行業(yè)向金融、政府/公共事業(yè)、能源、交通等行業(yè)擴展;在應用場景方面,已經(jīng)從用戶上網(wǎng)行為分析拓展到電力安全監(jiān)控系統(tǒng)、輿情監(jiān)測等;在行業(yè)需求方面,大數(shù)據(jù)需求主要集中在金融行業(yè)中的數(shù)據(jù)模型分析、電子商務行業(yè)中的用戶行為分析、政府部門中的城市監(jiān)控,以及能源行業(yè)中的能源勘探等。第二節(jié)數(shù)據(jù)采集與治理一、大數(shù)據(jù)的來源與多源數(shù)據(jù)采集方式1.大數(shù)據(jù)的來源如果將Web2.0和智能手機移動設備產(chǎn)生數(shù)據(jù)的階段合稱為用戶原創(chuàng)內(nèi)容階段,那么可以將這四個變化劃分為三個數(shù)據(jù)產(chǎn)生階段,分別是運營式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段、感知式系統(tǒng)階段,如圖2-1所示圖2-1數(shù)據(jù)產(chǎn)生的三個階段2.多源數(shù)據(jù)采集方式多源數(shù)據(jù)采集方式有多種,主要分為以下四種。(1)離線搜集。工具:ETL(Extract-Transform-Load)。在數(shù)據(jù)倉庫的語境下,ETL基本上是數(shù)據(jù)搜集的代表,包括數(shù)據(jù)的提取(Extract)、轉(zhuǎn)換(Transform)和加載(Load)。在轉(zhuǎn)換的過程中,需要針對具體的事務場景對數(shù)據(jù)進行治理,如不合法數(shù)據(jù)的監(jiān)測與過濾、格式轉(zhuǎn)換與數(shù)據(jù)規(guī)范化、數(shù)據(jù)替換、保證數(shù)據(jù)完整性等。(2)實時搜集。工具:Flume/Kafka。實時搜集首先用在考慮流處理的事務場景中,如網(wǎng)絡監(jiān)控的流量辦理、金融運用的股票記賬和Web服務器記錄的用戶訪問行為等。在流處理場景中,數(shù)據(jù)搜集會成為Kafka的顧客,Kafka像水壩一樣將源源不斷的數(shù)據(jù)攔截,然后依據(jù)事務場景做對應的處理(如去重、去噪、中心核算等),然后寫入對應的數(shù)據(jù)存儲中。(3)互聯(lián)網(wǎng)搜集。工具:Crawler、DPI、其他爬蟲工具等。Scribe被稱為網(wǎng)頁蜘蛛、網(wǎng)絡機器人,是一種按照一定的規(guī)則,自動抓取萬維網(wǎng)信息的程序或腳本,它支持圖片、音頻、視頻等文件或附件的搜集。(4)其他數(shù)據(jù)搜集方法。關于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)上的客戶數(shù)據(jù)、財務數(shù)據(jù)等對保密性要求較高的數(shù)據(jù),可以通過與數(shù)據(jù)技術服務商合作,運用特定體系接口等相關方式搜集數(shù)據(jù)。二、大數(shù)據(jù)治理與Hadoop解決方案1.大數(shù)據(jù)治理大數(shù)據(jù)治理是指充分運用大數(shù)據(jù)、云計算、人工智能等先進技術,實現(xiàn)治理手段的智能化。大數(shù)據(jù),一般指符合4V特征的數(shù)據(jù),包括社交數(shù)據(jù)、機器數(shù)據(jù)等。在政策/流程上,大數(shù)據(jù)治理應覆蓋大數(shù)據(jù)的獲取、處理、存儲、安全等環(huán)節(jié),需要為大數(shù)據(jù)設置數(shù)據(jù)管理專員制度;需要考慮大數(shù)據(jù)與主數(shù)據(jù)管理能力的集成,需要對大數(shù)據(jù)做定義,統(tǒng)一主數(shù)據(jù)標準;在數(shù)據(jù)生命周期管理各階段,如數(shù)據(jù)存儲、保留、歸檔、處置時,要考慮大數(shù)據(jù)保存時間與存儲空間的平衡,應識別對業(yè)務有關鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量。2.大數(shù)據(jù)的Hadoop解決方案(1)Hadoop的特性及其由來與發(fā)展Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,其主要由HDFS(分布式文件系統(tǒng))、MapReduce(分布式計算框架)和HBase(分布式數(shù)據(jù)庫系統(tǒng))等組成,如圖2-2所示是Hadoop的Logo。Hadoop面向的應用環(huán)境是大量低成本計算構(gòu)成的分布式運算環(huán)境,它假設計算節(jié)點和存儲節(jié)點會經(jīng)常發(fā)生故障,因此設計了數(shù)據(jù)副本機制,確保能夠在出現(xiàn)故障節(jié)點的情況下重新分配任務。同時,Hadoop以并行的方式工作,通過并行處理加快處理速度,具有高效的處理能力。在設計之初,Hadoop就為支持可能面對的PB級大數(shù)據(jù)環(huán)境進行了特殊的設計,具有優(yōu)秀的可擴展性。可靠、高效、可擴展這三大特性,加上Hadoop開源、免費的特性,使Hadoop技術得到了迅猛發(fā)展。(2)Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)的特點:源代碼開源;社區(qū)活躍,參與者眾多;涉及分布式存儲和計算的方方面面;已得到企業(yè)界驗證。如圖2-3所示是Hadoop生態(tài)系統(tǒng)的2.0時代,除HDFS、MapReduce和HBase外,Hadoop2.0時代的組成還增加了YARN(分布式計算框架)等。第三節(jié)數(shù)據(jù)存儲與管理一、分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem,DFS)指文件系統(tǒng)管理的物理存儲資源不用直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡與節(jié)點(可簡單理解為一臺計算機)相連;或者是若干個不同的邏輯磁盤分區(qū)或卷標組合在一起而形成的完整的有層次的文件系統(tǒng)。下面以HDFS(HadoopDistributedFileSystem)為例進行介紹。(1)HDFS存儲實現(xiàn)過程一個HDFS基本集群包括兩部分,分別為NameNode和DataNode,用于將管理與工作分離。NameNode是一個集群的主服務器,主要用于對HDFS中的所有文件及數(shù)據(jù)進行維護,不斷讀取和記錄集群中DataNode的主機情況與工作狀態(tài),并且通過寫入鏡像日志文件的方式進行存儲。DataNode主要用于在HDFS集群中執(zhí)行具體任務,是整個集群的工作節(jié)點。如圖2-4所示是HDFS存儲實現(xiàn)過程圖示,文件被分成若干個相同大小的數(shù)據(jù)塊,分別存儲于若干個DataNode中,DataNode定時向集群中的NameNode發(fā)送自己的運行狀態(tài)與存儲內(nèi)容,并且根據(jù)NameNode發(fā)送的指令進行工作。(2)HDFS的命令行的操作對HDFS來說,fs命令用于啟動命令行,該命令主要用于提供一系列子命令,一般形式為hadoopfs-cmd<args>例如,將指定路徑下的文件輸出到屏幕上:hadoopfs-cathdfs://host1:port1/file(3)HDFS的接口(API)使用HDFS通過命令行提供了大量操作命令,可以對HDFS中的數(shù)據(jù)進行操作。例如,基本的數(shù)據(jù)讀取命令,常用的增、刪、改、查命令等。此外,Hadoop提供了一整套FileSystemAPI用于對HDFS中的數(shù)據(jù)進行操作。二、關系數(shù)據(jù)庫關系數(shù)據(jù)庫(RelationalDataBase)是建立在關系數(shù)據(jù)庫模型基礎上的數(shù)據(jù)庫,借助集合代數(shù)等概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù),同時也是一組具有正式描述特性的表格,該表格是裝載著數(shù)據(jù)項的特殊收集體,這些表格中的數(shù)據(jù)能以多種不同的方式被存取或重新召集而不需要重新組織數(shù)據(jù)庫表格。主流的關系數(shù)據(jù)庫有Oracle、DB2、SQLServer、Sybase、MySQL等。下面對關系數(shù)據(jù)庫的模型結(jié)構(gòu)進行介紹。(1)單一的數(shù)據(jù)結(jié)構(gòu)。關系數(shù)據(jù)庫的表采用二維表格來存儲數(shù)據(jù),是一種按行與列排列的具有相關信息的邏輯組,它類似于Excel工作表。一個數(shù)據(jù)庫可以包含多個數(shù)據(jù)表。(2)元組(記錄)。表中的一行即為一個元組,或者稱為一條記錄。例如,表2-2第一行元組的值是:成都_A101張三1000.00。(3)屬性(字段)。表中的一列稱為一個字段,表是由其包含的各種字段定義的,每個字段描述了它所包含的數(shù)據(jù)的意義。創(chuàng)建表時需要為每個字段分配一個數(shù)據(jù)類型,定義它們的數(shù)據(jù)長度和其他屬性。字段可以包含各種字符、數(shù)字,甚至圖形。(4)屬性值。行和列的交叉位置表示某個屬性值,如“張三”就是顧客名的屬性值。(5)主碼。主碼(也稱主鍵或主關鍵字)是表中用于唯一確定一個元組的數(shù)據(jù)。主關鍵字用來確保表中記錄的唯一性,可以是一個字段或多個字段,常用作一個表的索引字段。如賬號列字段就是主關鍵字。(6)域。屬性的取值范圍。(7)關系模式。對關系的描述稱為關系模式,一般表示為:關系名(屬性1,屬性2,…,屬性n)。例如,上面的關系可以描述為:余額表(分行名、賬號、顧客名、余額)。SQL(StructQueryLanguage,結(jié)構(gòu)查詢語言)是1974年由Boyce和Chamberlin提出的,由于它使用方便、功能豐富、語言簡單易學,因此很快得到了推廣和應用。SQL語法如下:(1)數(shù)據(jù)查詢:選擇(SELECT)、投影、連接、除、并、交、差。(2)數(shù)據(jù)操縱:創(chuàng)建(CREATE)、刪除(DROP)。(3)數(shù)據(jù)更新:插入(INSERT)、刪除(DELETE)、修改(UPDATE)。(4)數(shù)據(jù)控制:授權(GRANT)、回收(REVOKE)三、NoSQL數(shù)據(jù)庫1.NoSQL數(shù)據(jù)庫的改進與興起隨著近幾年互聯(lián)網(wǎng)技術的應用及發(fā)展,數(shù)據(jù)處理需要面對的數(shù)據(jù)量、數(shù)據(jù)特征及處理需求都發(fā)生了很大的變化。這些變化給之前在數(shù)據(jù)庫領域占據(jù)統(tǒng)治地位的傳統(tǒng)關系型數(shù)據(jù)庫帶來了極大挑戰(zhàn),主要體現(xiàn)在無法適應多變的數(shù)據(jù)結(jié)構(gòu)、無法處理高并發(fā)的寫操作、無法應對業(yè)務量的快速增長(Web2.0PB級甚至ZB級)和業(yè)務類型的快速變化等方面。在這樣的大環(huán)境中,數(shù)據(jù)庫領域興起了一股新的技術流派——NoSQL。需要注意的是,NoSQL并沒有摒棄傳統(tǒng)關系型數(shù)據(jù)庫及SQL,其含義是NotonlySQL,即超越傳統(tǒng)的關系型數(shù)據(jù)庫。NoSQL的主要思路是在阻礙關系型數(shù)據(jù)庫適應新需求的兩個主要方面進行改進。(1)放松事務一致性要求。(2)改變固定的表結(jié)構(gòu)。2.NoSQL數(shù)據(jù)庫的四大分類如表2-3所示是NoSQL數(shù)據(jù)庫的四大分類。3.NoSQL數(shù)據(jù)庫的三大基石1987年,JimGray與GianfrancoPutzolu發(fā)表了I/O的五分鐘法則,簡而言之,如果一條記錄頻繁被訪問,就應該將其存儲于內(nèi)存中,否則應該將其存儲于硬盤中,并且按需要訪問,這個臨界點就是五分鐘。在CAP理論中,C(Consistency)表示一致性,是指任意一個讀操作總是能夠讀取之前完成的寫操作的結(jié)果;A(Availability)表示可用性,是指快速獲取數(shù)據(jù),可以在確定的時間內(nèi)返回操作結(jié)果;P(ToleranceofNetworkPartition)表示分區(qū)容錯性,是指當出現(xiàn)網(wǎng)絡分區(qū)的情況時(系統(tǒng)中的一部分節(jié)點無法和其他節(jié)點進行通信),分離的系統(tǒng)能夠正常運行。CAP理論說明,一個分布式系統(tǒng)不可能同時滿足一致性、可用性和分區(qū)容錯性這三個需求,最多只能同時滿足兩個。四、多模態(tài)數(shù)據(jù)管理1.多模態(tài)數(shù)據(jù)不同的存在形式或信息來源均可被稱為一種模態(tài),由兩種或兩種以上模態(tài)組成的數(shù)據(jù)稱為多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)是指對于同一個描述對象,通過不同領域或視角獲取的數(shù)據(jù),一般把描述這些數(shù)據(jù)的每個領域或視角叫作一個模態(tài)。多模態(tài)數(shù)據(jù)管理主要是對多模態(tài)數(shù)據(jù)進行融合。2.多模態(tài)數(shù)據(jù)融合及分類法多模態(tài)數(shù)據(jù)融合負責將多個模態(tài)的信息進行有效的整合,汲取不同模態(tài)的優(yōu)點,完成對信息的整合。目前,多模態(tài)數(shù)據(jù)融合主要有三種方式:前端融合(early-fusion)或數(shù)據(jù)水平融合(data-levelfusion)、后端融合(late-fusion)或決策水平融合(decision-levelfusion)、中間融合(intermediate-fusion)。前端融合將多個獨立的數(shù)據(jù)集融合成一個單一的特征向量,然后輸?到機器學習分類器中。由于多模態(tài)數(shù)據(jù)的前端融合往往無法充分利用多個模態(tài)數(shù)據(jù)間的互補性,并且前端融合的原始數(shù)據(jù)通常包含大量的冗余信息。后端融合則是將不同模態(tài)數(shù)據(jù)分別訓練好的分類器輸出打分(決策)進行融合。這樣做的好處是,融合模型的錯誤來自不同的分類器,而來自不同分類器的錯誤往往互不相關、互不影響,不會造成錯誤的進一步累加。中間融合先將不同的模態(tài)數(shù)據(jù)轉(zhuǎn)換成高維特征表達,再于模型的中間層進行融合。以神經(jīng)網(wǎng)絡為例,中間融合先利用神經(jīng)網(wǎng)絡將原始數(shù)據(jù)轉(zhuǎn)換成高維特征表達,再獲取不同模態(tài)數(shù)據(jù)在高維空間上的共性。中間融合方法的一大優(yōu)勢是可以靈活選擇融合的位置。第四節(jié)大數(shù)據(jù)處理平臺一、批處理計算1.大數(shù)據(jù)批處理計算MapReduce是最適合用于進行大數(shù)據(jù)批處理的計算模式之一,它是一個單輸入、兩階段(Map和Reduce)的數(shù)據(jù)處理過程。首先,MapReduce對具有簡單數(shù)據(jù)關系、易于劃分的大規(guī)模數(shù)據(jù)采用“分而治之”的并行處理思想;其次,將大量重復的數(shù)據(jù)處理過程總結(jié)成Map和Reduce兩個抽象操作;最后,MapReduce提供了一個統(tǒng)一的并行計算框架,將并行計算涉及的多個系統(tǒng)層交給計算框架,大大簡化了程序員進行并行化程序設計的工作。在開源社區(qū)的努力下,開源的Hadoop系統(tǒng)目前已成為較成熟的大數(shù)據(jù)處理平臺,并且發(fā)展成一個包括眾多數(shù)據(jù)處理工具和環(huán)境的完整的生態(tài)系統(tǒng)。目前,國內(nèi)外的大部分IT企業(yè)都使用Hadoop平臺進行企業(yè)內(nèi)大數(shù)據(jù)的計算處理。此外,Spark也具備進行批處理的能力,Spark代替的是Hadoop中的MapReduce,是一個計算框架。Spark繼承了MapReduce的一些核心設計思想,并且對其進行了改進,Spark避免了MapReduce的一些缺陷,Spark不僅有Map函數(shù)和Reduce函數(shù),還提供了更多比較靈活的數(shù)據(jù)操作類型,如filter、sort、groupby等,因此Spark編程模型更靈活,表達能力也更強。Spark有完整的架構(gòu),其中,SparkStreaming是構(gòu)建在Spark基礎上的流式大數(shù)據(jù)處理框架。Spark可以用Scala、Python、Java、R語言進行開發(fā),其中首選Scala語言,因為Spark是用Scala語言開發(fā)的,所以用Scala語言開發(fā)的應用程序是最高效的應用程序。因此,將Hadoop與Spark結(jié)合是很好的大數(shù)據(jù)處理方案。2.MapReduce分布式計算(1)什么是MapReduce?MapReduce是什么,怎么理解MapReduce?下面通過一個例子進行說明。如果要統(tǒng)計圖書館中所有的書,那么應該怎么辦?非常簡單,你統(tǒng)計1號書架上的書,我統(tǒng)計2號書架上的書,人越多,統(tǒng)計書的速度越快,每個人統(tǒng)計的數(shù)是Map。然后將所有人統(tǒng)計的數(shù)加在一起,就是Reduce。這個例子就是MapReduce的一個基本模型,當然實際的MapReduce并非如此簡單。在正式介紹MapReduce之前,除了前面介紹的一些基本概念,還需要了解一些專業(yè)術語。(2)架構(gòu)與執(zhí)行過程。MapReduce的任務稱為Job。通常使用Job將輸入的數(shù)據(jù)集切分成若干個獨立的數(shù)據(jù)塊,并且將其分布在不同的節(jié)點上。完整的MapReduce流程圖如圖2-5所示。在圖2-5中,Hadoop為每個創(chuàng)建的Map任務分配輸入文件的一部分,這部分被稱為split,然后由每個分配的split運行用戶自定義的Map,從而根據(jù)用戶的需要處理每個split中的內(nèi)容。split存儲于Block中。一般情況下,一次Map任務的執(zhí)行過程分成兩個階段:(1)Map讀取split中的內(nèi)容后,將其解析成鍵/值對(Key/Value),并且將Map定義的算法應用于每條內(nèi)容,內(nèi)容范圍可以由用戶自定義確定。(2)在Map中定義的算法處理完split中的內(nèi)容后,Map會向TaskTracker報告,然后通知JobTracker任務執(zhí)行完畢,可以接受新的任務。(3)在HBase上運行MapReduce,作為與Hadoop架構(gòu)無縫集成的數(shù)據(jù)庫系統(tǒng),HBase可以很方便地支持以MapReduce編程模式開發(fā)的數(shù)據(jù)處理應用。HBase提供了與Hadoop包中Mapper和Reducer基礎類相近的幾個類,這些類將HBase的實現(xiàn)和使用細節(jié)進行了很好的屏蔽,方便開發(fā)者使用。這些類與Hadoop基礎類的關系見表2-4。二、流計算1.無界數(shù)據(jù)及流數(shù)據(jù)可以將數(shù)據(jù)分為兩種類型的數(shù)據(jù)集,一種是有界數(shù)據(jù)集,另一種是無界數(shù)據(jù)集(見圖2-6)。(1)有界數(shù)據(jù)集有界數(shù)據(jù)集具有時間邊界,在處理過程中數(shù)據(jù)一定會在某個時間范圍內(nèi)起始和結(jié)束,有可能是一分鐘,也有可能是一天。對有界數(shù)據(jù)集的數(shù)據(jù)處理方式被稱為批數(shù)據(jù)處理(BatchDataProcessing),也可稱為批量計算,即將數(shù)據(jù)從RDBMS(關系數(shù)據(jù)庫管理系統(tǒng))或文件系統(tǒng)中讀取出來,然后在分布式系統(tǒng)內(nèi)處理,最后將處理結(jié)果寫入存儲介質(zhì)中。(2)無界數(shù)據(jù)集對于無界數(shù)據(jù)集,數(shù)據(jù)從生成開始就一直持續(xù)不斷地產(chǎn)生新的數(shù)據(jù),因此數(shù)據(jù)是沒有邊界的,如服務器的日志、傳感器信號數(shù)據(jù)等。與批數(shù)據(jù)處理對應,對無界數(shù)據(jù)集的數(shù)據(jù)處理方式被稱為流式數(shù)據(jù)處理(StreamingDataProcessing),也可稱為流計算。(3)統(tǒng)一數(shù)據(jù)處理有界數(shù)據(jù)集和無界數(shù)據(jù)集只是一個相對的概念,主要根據(jù)時間范圍確定,可以認為一段時間內(nèi)的無界數(shù)據(jù)集其實就是有界數(shù)據(jù)集,同時有界數(shù)據(jù)集也可以通過一些方法轉(zhuǎn)換為無界數(shù)據(jù)集。如系統(tǒng)一年的訂單交易數(shù)據(jù),其本質(zhì)應該是有界數(shù)據(jù)集,可是當把它一條一條按照產(chǎn)生的順序發(fā)送到流式系統(tǒng)進行處理后,可以認為數(shù)據(jù)是相對無界的。對于無界數(shù)據(jù)集也可以拆分成有界數(shù)據(jù)集進行處理,如將系統(tǒng)產(chǎn)生的數(shù)據(jù)輸入存儲系統(tǒng),按照年或月切分成不同時間長度的有界數(shù)據(jù)集,然后就可以通過批處理方式對數(shù)據(jù)進行處理。從以上分析可以得出結(jié)論:有界數(shù)據(jù)集和無界數(shù)據(jù)集其實是可以相互轉(zhuǎn)換的。2.流計算的概念(1)什么是流計算流計算是指對數(shù)據(jù)流進行處理,實時獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過實時分析處理,獲得有價值的信息的實時計算方式。流計算系統(tǒng)應該滿足如下需求。高性能:處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬條數(shù)據(jù)。海量式:支持TB級甚至是PB級的數(shù)據(jù)規(guī)模。實時性:保證較低的延遲時間,達到秒級別,甚至是毫秒級別。分布式:支持大數(shù)據(jù)的基本架構(gòu),必須能夠平滑擴展。易用性:能夠快速進行開發(fā)和部署??煽啃裕耗軌蚩煽康靥幚砹鲾?shù)據(jù)。(2)流計算與批量計算的區(qū)別流計算與批量計算的區(qū)別主要體現(xiàn)在以下幾個方面。數(shù)據(jù)時效性不同:流計算實時、低延遲,批量計算非實時、高延遲。數(shù)據(jù)特征不同:流計算的數(shù)據(jù)一般是動態(tài)的、沒有邊界的,批量計算的數(shù)據(jù)一般是靜態(tài)的、有邊界的。應用場景不同:流計算主要應用于實時場景,如實時推薦、業(yè)務監(jiān)控等;批量計算主要應用于對實時性要求不高、可以離線計算的場景,如數(shù)據(jù)分析、離線報表等。運行方式不同:流計算的任務是持續(xù)進行的,批量計算的任務是一次性完成的。3.流計算框架(1)流計算框架的匯總大數(shù)據(jù)計算引擎的第一代是MapReduce,第二代是基于有向無環(huán)圖的Tez,第三代是基于內(nèi)存計算的Spark,第四代是Flink。Storm是比較早的流計算框架,后來出現(xiàn)了Trident和SparkStreaming,以及實時計算框架Flink。這幾種流計算框架如表2-5所示。(2)流計算框架的對比這幾種流計算框架的詳細對比如下。模型:Storm和Flink會逐條處理數(shù)據(jù);Trident(Storm的封裝框架)和SparkStreaming會進行小型批量計算,一次處理一批數(shù)據(jù)(小批量)。API:Storm和Trident都使用基礎API進行開發(fā),如實現(xiàn)一個簡單的求和操作;SparkStreaming和Flink都會提供封裝后的高階函數(shù),可以直接使用,比較方便。保證次數(shù):在數(shù)據(jù)處理方面,Storm可以實現(xiàn)至少處理一次,但不能保證僅處理一次,容易導致數(shù)據(jù)重復處理的問題,所以針對計數(shù)類的需求,可能會產(chǎn)生一些誤差;Trident可以保證對數(shù)據(jù)只進行一次處理,SparkStreaming和Flink也是如此。容錯機制:Storm和Trident可以通過ACK機制實現(xiàn)數(shù)據(jù)的容錯,而SparkStreaming和Flink可以通過CheckPoint機制實現(xiàn)數(shù)據(jù)的容錯。狀態(tài)管理:Storm沒有實現(xiàn)狀態(tài)管理,SparkStreaming實現(xiàn)了基于DStream的狀態(tài)管理,Trident和Flink實現(xiàn)了基于操作的狀態(tài)管理。延時:表示數(shù)據(jù)處理的延時情況,Storm和Flink接收到一條數(shù)據(jù)就處理一條數(shù)據(jù),其數(shù)據(jù)處理的延時性很低;Trident和SparkStreaming會對數(shù)據(jù)進行小型批量計算,它們的數(shù)據(jù)處理延時性相對較高。吞吐量:Storm的吞吐量其實不低,但與其他幾種流計算框架的吞吐量相比,Storm的吞吐量較低;Trident的吞吐量中等;SparkStreaming和Flink的吞吐量較高。4.開源流計算框架Flink(1)Flink簡介Flink是什么。Flink是通過實現(xiàn)GoogleDataflow流計算模型,從而實現(xiàn)高吞吐量、高性能的開源流計算框架。Flink支持高度容錯的狀態(tài)管理,可以防止狀態(tài)在計算過程中因為系統(tǒng)異常而丟失。Flink的具體優(yōu)勢。Flink支持事件時間(EventTime)概念,可以保證事件原本產(chǎn)生時的時序。Flink支持有狀態(tài)計算。Flink支持高度靈活的窗口(Windows)操作。(2)Flink的基本架構(gòu)Flink的基本架構(gòu)如圖2-7所示。Flink系統(tǒng)主要由兩個組件組成,分別為JobManager和TaskManager。三、圖計算1.大數(shù)據(jù)的圖計算概述大數(shù)據(jù)的圖計算是大數(shù)據(jù)處理中的一類典型運算,目前有兩類圖計算方式。一類是使用基于MapReduce計算模型的SparkGraphX圖計算;另一類是在MapReduce之外參考其他并行圖計算模型設計新的計算方法,其中比較成功的有Google的Pregel,其借鑒了整體同步并行計算(BulkSynchronousParallel,BSP)模型。BSP模型是2010年圖靈獎得主Valiant在1990年提出來的一種基于消息通信的并行計算模型。BSP模型中定義的計算過程如圖2-8所示。2.GooglePregel計算框架Pregel是Google借鑒BSP模型的思想構(gòu)建的分布式圖計算框架,可以視為繼MapReduce之后的又一大分布式計算利器,其主要目的是支持實現(xiàn)對大規(guī)模圖數(shù)據(jù)進行計算的各類圖算法,是高效、實用的并行圖處理系統(tǒng)。Pregel的核心思想可以簡要理解為“像節(jié)點一樣思考”,即算法設計和編程實現(xiàn)都以圖的節(jié)點為核心展開。Pregel的系統(tǒng)架構(gòu)主要包括三類節(jié)點,分別為Client、Master和Worker,如圖2-9所示。第五節(jié)數(shù)據(jù)分析計算一、查詢分析概述雖然Hadoop提供了MapReduce編程模式及HBase基礎數(shù)據(jù)庫。但要真正高效完成數(shù)便于理解的數(shù)據(jù)抽象能力;簡潔易用的操作方式;高效穩(wěn)定的編譯執(zhí)行環(huán)境。為了滿足以上條件,Hadoop開源社區(qū)的開發(fā)者為用戶提供了幾種解決方案。(1)Hive在Hadoop中相當于傳統(tǒng)數(shù)據(jù)分析環(huán)境中的數(shù)據(jù)倉庫,主要用于存儲和處理海量結(jié)構(gòu)化數(shù)據(jù)。Hive將大數(shù)據(jù)存儲于HDFS中,并且為數(shù)據(jù)分析師提供了一套類似于數(shù)據(jù)庫的數(shù)據(jù)存儲和訪問機制。(2)允許數(shù)據(jù)分析師使用他們熟悉的類似于SQL的語言對數(shù)據(jù)進行操作。(3)Pig是MapReduce的一個抽象。它是一個工具,用于分析較大的數(shù)據(jù)集,并將其表示為數(shù)據(jù)流,常與Hadoop一起使用,可以使用Pig在Hadoop中執(zhí)行所有的數(shù)據(jù)處理操作。Pig提供了一種可表示數(shù)據(jù)流的腳本語言PigLatin,以及支持此語言執(zhí)行的環(huán)境,它簡化了Hadoop常見的數(shù)據(jù)分析任務,可以方便地加載數(shù)據(jù)、表達數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)等。二、Dremel技術Google的Dremel是一個用于分析只讀嵌套型數(shù)據(jù)的可擴展交互式動態(tài)查詢系統(tǒng),其作用是在秒級時間內(nèi)完成萬億行級別的大數(shù)據(jù)聚合查詢。完成如此高難度的任務,Dremel主要依靠兩個核心機制:多層執(zhí)行樹和列狀數(shù)據(jù)結(jié)構(gòu)。第六節(jié)數(shù)據(jù)可視化一、數(shù)據(jù)可視化的主要技術數(shù)據(jù)可視化是指將數(shù)據(jù)以圖形或圖像的形式表示,并利用數(shù)據(jù)分析和開發(fā)工具,發(fā)現(xiàn)其中未知信息的處理過程??梢暬夹g分為兩類,一類是可視化報表,另一類是可視化分析??梢暬瘓蟊碛脠D表描述業(yè)務績效,通常使用度量和時間系列信息定義。常見的統(tǒng)計圖表如表2-6所示。二、數(shù)據(jù)可視化案例R軟件是開源的統(tǒng)計繪圖軟件,通過將R和Hadoop進行深度集成可以使Hadoop獲得強大的深度分析能力。R語言是一種腳本語言,有大量的程序包可以用。R語言中的向量、列表、數(shù)組、函數(shù)等都是對象,可以方便地查詢和引用,并且可以進行條件篩選。R語言具有精確的繪圖功能,生成的圖可以以多種格式存儲。在使用R語言編寫函數(shù)時,無須聲明變量類型,通過循環(huán)語句、條件語句可以控制程序的流程。下面介紹如何使用R語言繪制基本圖形,如直方圖等??梢灾苯邮褂胔elp(funciton)查找R語言標準畫圖代碼,實例數(shù)據(jù)基本都來自內(nèi)置包的數(shù)據(jù)。繪制直方圖的標準代碼如下:hist(x,...)三、可視化工具和軟件主要的可視化工具和軟件如下。1.入門級工具Excel的圖形化功能并不強大,但作為一個入門級工具,Excel是快速分析數(shù)據(jù)的理想工具,也能創(chuàng)建供內(nèi)部使用的數(shù)據(jù)。2.信息圖表工具(1)GoogleChartAPI工具集主要用于提供動態(tài)圖表工具,功能豐富,能夠在所有支持SVG\Canvas和VML的瀏覽器中使用。(2)ECharts是一個純JavaScript的圖表庫,可以流暢地運行在PC和移動設備上。(3)D3(Data-DrivenDocmuments),又稱數(shù)據(jù)驅(qū)動文檔,是一個Java庫,主要用于創(chuàng)建數(shù)據(jù)可視化圖形。作為一款網(wǎng)頁前端數(shù)據(jù)可視化工具,其將數(shù)據(jù)在網(wǎng)頁端映射出來,并表現(xiàn)為我們需要的圖形,大部分情況下D3都能滿足我們的需求。(4)Visual.ly是繪制信息圖的首選工具,它提供了大量的信息圖模板。3.地圖工具(1)Google發(fā)布的MapsAPI讓所有的開發(fā)者都能在自己的網(wǎng)站中植入地圖功能。(2)ModestMaps提供了一套查看衛(wèi)星地圖的API。(3)Leaflet是為移動設備建設互動地圖而開發(fā)的現(xiàn)代的、開源的JavaScript庫。(4)GoogleFusionTables(數(shù)據(jù)融合表)。4.可視化設計工具Processing是專業(yè)的可視化設計工具,可以在大部分的平臺上運行,用于產(chǎn)生圖像、動畫和進行交互。5.專家級可視化分析工具(1)R語言和Python語言等是開源大數(shù)據(jù)平臺上的理想的分析和可視化工具。(2)Weka是根據(jù)特征做分類分析和聚類分析的數(shù)據(jù)挖掘軟件工具。(3)Gephi是社交圖譜數(shù)據(jù)可視化分析的工具。第七節(jié)數(shù)據(jù)安全與隱私保護一、數(shù)據(jù)安全與傳統(tǒng)信息安全的關系與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)本身的特性給其帶來了更高的風險,如大數(shù)據(jù)更容易成為黑客攻擊的首選目標、涉及國家安全、大數(shù)據(jù)加大隱私泄露風險等。對于大數(shù)據(jù)的安全,如果單純從這些特性本身來看,只是對現(xiàn)有數(shù)據(jù)安全手段的可擴展性提出了更高的要求,并沒有改變對現(xiàn)有數(shù)據(jù)安全功能的要求。但現(xiàn)實并非如此,原因是大數(shù)據(jù)存在的目的與傳統(tǒng)數(shù)據(jù)有巨大的差別,這就是數(shù)據(jù)的共享,而共享的背后則是數(shù)據(jù)角色發(fā)生的巨大變化——從IT領域中的一個信息元素上升為與土地、勞動力、資本和技術同等重要的國民經(jīng)濟核心生產(chǎn)要素。2020年3月30日中共中央、國務院明確將數(shù)據(jù)作為新型生產(chǎn)要素寫入政策文件。培育發(fā)展數(shù)據(jù)要素市場,釋放數(shù)據(jù)紅利,已成為推動經(jīng)濟高質(zhì)量發(fā)展的新動能。數(shù)據(jù)作為數(shù)字化時代的一種核心生產(chǎn)要素,只有在廣泛的使用中才能最大限度地發(fā)揮數(shù)據(jù)資產(chǎn)的價值,而最大程度的資源利用就是從獨享走向共享。二、數(shù)據(jù)安全及隱私保護支撐技術1.數(shù)據(jù)安全為流動的大數(shù)據(jù)保駕護航的手段包括數(shù)據(jù)監(jiān)控、數(shù)據(jù)溯源、違規(guī)告警、全息網(wǎng)御。(1)數(shù)據(jù)監(jiān)控。數(shù)據(jù)監(jiān)控即流動數(shù)據(jù)的可視化,實時捕獲、監(jiān)測并能夠展示網(wǎng)絡中各種流動的數(shù)據(jù),尤其是敏感數(shù)據(jù)及其使用者、與之相關的應用、所涉及的設備、來自哪里、去往哪里等。(2)數(shù)據(jù)溯源??苫厮莺蛯徲嬋我鈺r間段內(nèi)的數(shù)據(jù)行為,可對任何流動數(shù)據(jù)的當前狀況和歷史狀況進行追溯,還原數(shù)據(jù)流轉(zhuǎn)路徑及流轉(zhuǎn)范圍,提供完整的數(shù)據(jù)軌跡和證據(jù)鏈。(3)違規(guī)告警。遵守國家關于大數(shù)據(jù)和信息安全的法律,通過自定義各種場景,實時監(jiān)測、發(fā)現(xiàn)和告警各種數(shù)據(jù)違規(guī)。從用戶、應用、業(yè)務敏感性、設備、IP地址、時間、地點等角度靈活應用各種策略,精確發(fā)現(xiàn)數(shù)據(jù)脫敏、用戶違規(guī)訪問、賬號違規(guī)共享、數(shù)據(jù)違規(guī)流轉(zhuǎn)等行為。(4)全息網(wǎng)御。全息網(wǎng)御是行為數(shù)據(jù)驅(qū)動信息安全的領航者,通過其特有的專利技術系統(tǒng)性融合了NG-DLP、UEBA、NG-SIEM、CASB四項先進技術,結(jié)合機器學習,發(fā)現(xiàn)并實時重構(gòu)網(wǎng)絡中不可見的“用戶—設備—數(shù)據(jù)”互動關系,提供以數(shù)據(jù)為核心的數(shù)據(jù)安全風險感知平臺,為企業(yè)的信息安全管理提供無感知、無死角的智能追溯服務,使企業(yè)能夠高效精準地審計過去、監(jiān)控現(xiàn)在、防患未來,極大提高了IT安全運維、安全人員響應事故、抓取證據(jù)鏈和恢復IT系統(tǒng)的效率。2.隱私保護支撐技術以下是六種主要的用于數(shù)據(jù)安全與隱私保護的關鍵技術。(1)數(shù)據(jù)發(fā)布匿名技術。使攻擊者無法追溯消息發(fā)布者的個人信息。(2)社交網(wǎng)絡匿名保護技術。即在數(shù)據(jù)發(fā)布時隱藏用戶的標識、屬性信息及與其他用戶之間的關系。(3)數(shù)據(jù)水印技術。指將標識信息以難以察覺的方式嵌入數(shù)據(jù)載體內(nèi)部且不影響其使用的方法,多用于多媒體數(shù)據(jù)的版權保護。(4)數(shù)據(jù)溯源技術。由于數(shù)據(jù)來源的多樣化,有必要記錄數(shù)據(jù)的來源及其傳播過程和計算過程,為后期的挖掘與決策提供輔助支持。(5)角色挖掘。即基于角色的訪問控制。通過為用戶指派角色、將角色關聯(lián)至權限集合,實現(xiàn)用戶授權、簡化權限管理。(6)風險自適應的訪問控制。第八節(jié)社會網(wǎng)絡大數(shù)據(jù)一、社會網(wǎng)絡大數(shù)據(jù)面臨的挑戰(zhàn)社會網(wǎng)絡(SocialNetwork)是以人或人的群體為結(jié)點構(gòu)成的集合,這些結(jié)點之間具有某種接觸或相互作用模式,如朋友關系、親屬關系、同事關系或科研合作關系等。社會網(wǎng)絡是以人物為節(jié)點,以人際關系為邊,將人物節(jié)點連接起來構(gòu)成的網(wǎng)絡,具有平均路徑長度短、聚集系數(shù)高等特點。社會網(wǎng)絡大數(shù)據(jù)不僅為社會治理領域帶來了新的契機,也對數(shù)據(jù)處理技術提出了巨大的挑戰(zhàn)。于是人們構(gòu)建了諸如社會焦點透視鏡這類系統(tǒng),結(jié)合新浪微博數(shù)據(jù),不僅能夠?qū)崟r提供每日的焦點事件供輿情分析部門進行檢測,還能夠深層剖析焦點事件的情感分布原因和人群分布,協(xié)助社會治理領域提出應對引導策略或改進工作的措施。二、社會網(wǎng)絡中的用戶影響力用戶影響力是用戶能夠直接或間接作用于其他用戶的能力,在社會網(wǎng)絡中各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國鹽業(yè)市場十三五規(guī)劃與投資戰(zhàn)略研究報告
- 呂梁師范高等??茖W校《軟件項目研發(fā)實踐》2023-2024學年第二學期期末試卷
- 浙大寧波理工學院《食品分析與檢驗》2023-2024學年第二學期期末試卷
- 中北大學《計算機網(wǎng)絡》2023-2024學年第二學期期末試卷
- 2025重慶市安全員-B證考試題庫及答案
- 江蘇農(nóng)牧科技職業(yè)學院《計量經(jīng)濟學B》2023-2024學年第二學期期末試卷
- 遼東學院《巖石力學》2023-2024學年第二學期期末試卷
- 2025年云南省建筑安全員知識題庫及答案
- 北京政法職業(yè)學院《健身一》2023-2024學年第二學期期末試卷
- 貴州盛華職業(yè)學院《三維影像設計Ⅰ》2023-2024學年第二學期期末試卷
- 反比例函數(shù)函數(shù)K的幾何意義市公開課一等獎省賽課獲獎課件
- 職業(yè)技術學?!峨娏ν蟿优cPLC》課程標準
- DL∕T 1094-2018 電力變壓器用絕緣油選用導則
- 【我國農(nóng)村數(shù)字普惠金融的發(fā)展問題及完善策略12000字(論文)】
- DL-T-5115-2016混凝土面板堆石壩接縫止水技術規(guī)范
- 全國川教版信息技術八年級下冊第二單元第1節(jié)《設計文創(chuàng)作品》教學設計
- 危貨押運員考試答案(題庫版)
- QCT267-2023汽車切削加工零件未注公差尺寸的極限偏差
- 2022-2023學年浙江省紹興市高一(下)期末數(shù)學試卷含答案
- 租房協(xié)議書 租房協(xié)議書范本
- GB/T 43646-2024陸生野生動物廊道設計要求
評論
0/150
提交評論