大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第1頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第2頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第3頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第4頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1.3大數(shù)據(jù)全生命周期大數(shù)據(jù)全生命周期環(huán)節(jié)全生命周期是指從產(chǎn)生到消亡的整個(gè)過(guò)程。大數(shù)據(jù)是一種特殊的信息資源,也有其自身的生命周期。大數(shù)據(jù)全生命周期環(huán)節(jié)數(shù)據(jù)收集數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲(chǔ)數(shù)據(jù)分析數(shù)據(jù)可視化數(shù)據(jù)遷移數(shù)據(jù)歸檔數(shù)據(jù)銷毀大數(shù)據(jù)的全生命周期數(shù)據(jù)收集比較項(xiàng)目傳統(tǒng)的數(shù)據(jù)收集大數(shù)據(jù)的數(shù)據(jù)收集數(shù)據(jù)來(lái)源數(shù)據(jù)來(lái)源單一數(shù)據(jù)來(lái)源廣泛數(shù)據(jù)量數(shù)據(jù)量相對(duì)較小數(shù)據(jù)量巨大數(shù)據(jù)類型結(jié)構(gòu)單一結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)使用數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)和并行數(shù)據(jù)庫(kù)分布式數(shù)據(jù)庫(kù)在大數(shù)據(jù)的收集過(guò)程中,其面臨的主要挑戰(zhàn)是成千上萬(wàn)的用戶同時(shí)進(jìn)行訪問(wèn)和操作而引起的高并發(fā)數(shù)。12306火車票售票網(wǎng)站在2020年春運(yùn)火車票售賣的最高峰時(shí),網(wǎng)絡(luò)點(diǎn)擊量高達(dá)1495億次。數(shù)據(jù)收集是大數(shù)據(jù)全生命周期的第一個(gè)環(huán)節(jié),是在確定用戶目標(biāo)的基礎(chǔ)上,針對(duì)該范圍內(nèi)所有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的采集。數(shù)據(jù)收集商業(yè)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)……大數(shù)據(jù)主要來(lái)源系統(tǒng)日志采集方法。采用分布式架構(gòu),能滿足高可用、高可靠和可擴(kuò)展的日志數(shù)據(jù)采集和傳輸系統(tǒng)的需求。網(wǎng)絡(luò)數(shù)據(jù)采集方法。將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。感知設(shè)備數(shù)據(jù)采集方法。通過(guò)傳感器、攝像頭和其他智能終端自動(dòng)采集信號(hào)、圖片或錄像來(lái)獲取數(shù)據(jù)。數(shù)據(jù)收集方法數(shù)據(jù)預(yù)處理數(shù)據(jù)缺失包括數(shù)據(jù)記錄缺失和記錄中部分屬性值缺失。數(shù)據(jù)重復(fù)多重?cái)?shù)據(jù)結(jié)構(gòu)、名稱拼寫錯(cuò)誤、不通用的別名等。數(shù)據(jù)不一致數(shù)據(jù)記錄規(guī)范的不一致和數(shù)據(jù)邏輯的不一致。數(shù)據(jù)噪聲不正確的屬性值,出現(xiàn)錯(cuò)誤或存在偏離預(yù)期的離群值。在數(shù)據(jù)采集環(huán)節(jié)可能產(chǎn)生數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)不一致和數(shù)據(jù)噪聲等問(wèn)題,因此需要檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪聲數(shù)據(jù)進(jìn)行平滑,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ),對(duì)重復(fù)的數(shù)據(jù)進(jìn)行消除等。數(shù)據(jù)預(yù)處理對(duì)缺失值的填補(bǔ)。常用的方法包括刪除對(duì)象方法、數(shù)據(jù)補(bǔ)齊方法和基于k-NN近鄰缺失數(shù)據(jù)的填充算法。不完整數(shù)據(jù)清洗數(shù)據(jù)來(lái)源于不同的類、自然變異、數(shù)據(jù)測(cè)量和收集誤差。異常值檢測(cè)方法包括統(tǒng)計(jì)方法和基于鄰近度的方法。異常數(shù)據(jù)清洗對(duì)重復(fù)性事物和概念,通過(guò)規(guī)范、規(guī)程和制度達(dá)到統(tǒng)一,以獲得最佳秩序和效益。常用的數(shù)據(jù)規(guī)范化方法有:最小—最大規(guī)范化方法、z分?jǐn)?shù)規(guī)范化方法和小數(shù)定標(biāo)規(guī)范化方法。數(shù)據(jù)規(guī)范化用更抽象(更高層次)的概念來(lái)取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象。例如,將屬性值為“地鐵”、“出租車”和“公共汽車”的數(shù)據(jù)統(tǒng)一使用“交通工具”來(lái)代替。數(shù)據(jù)泛化處理數(shù)據(jù)預(yù)處理方法數(shù)據(jù)預(yù)處理數(shù)據(jù)去重。重復(fù)的數(shù)據(jù)是冗余數(shù)據(jù),對(duì)于這一類數(shù)據(jù)應(yīng)刪除其冗余部分。重復(fù)數(shù)據(jù)清洗數(shù)據(jù)中存在某變量的隨機(jī)誤差或異常的數(shù)據(jù)。常用的技術(shù)包括分箱技術(shù)、回歸方法等。

噪聲數(shù)據(jù)處理在盡可能保持?jǐn)?shù)據(jù)原始特性的前提下,最大規(guī)模地精簡(jiǎn)數(shù)據(jù)量。特征約簡(jiǎn)、樣本約簡(jiǎn)、數(shù)據(jù)立方體聚集、維約簡(jiǎn)等。

數(shù)據(jù)約簡(jiǎn)利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換等手段將原數(shù)據(jù)集壓縮為一個(gè)較小規(guī)模的數(shù)據(jù)集。常用的兩種數(shù)據(jù)壓縮方法為小波變換和主成分分析都屬于有損壓縮。數(shù)據(jù)壓縮數(shù)據(jù)預(yù)處理方法數(shù)據(jù)存儲(chǔ)直接鏈接存儲(chǔ)中間環(huán)節(jié)少,磁盤的利用率高,成本也比較低。網(wǎng)絡(luò)連接存儲(chǔ)響應(yīng)速度快,數(shù)據(jù)傳輸速率高。存儲(chǔ)域網(wǎng)絡(luò)存儲(chǔ)傳輸速率和傳輸效率都非常高,適合大數(shù)據(jù)量高帶寬的傳輸要求。關(guān)系型數(shù)據(jù)結(jié)構(gòu)非關(guān)系型數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)MBGBPBZB數(shù)據(jù)量增長(zhǎng)大數(shù)據(jù)存儲(chǔ)是將收集的數(shù)據(jù)集持久化到計(jì)算機(jī)存儲(chǔ)系統(tǒng)中。數(shù)據(jù)分析大數(shù)據(jù)分析是指用準(zhǔn)確適宜的分析方法和工具來(lái)分析經(jīng)過(guò)預(yù)處理后的大數(shù)據(jù),提取具有價(jià)值的信息,進(jìn)而形成有效的結(jié)論并通過(guò)可視化技術(shù)展現(xiàn)出來(lái)的過(guò)程。探索性數(shù)據(jù)分析以靈活的方式探究數(shù)據(jù)分布情況。證實(shí)性數(shù)據(jù)分析評(píng)估觀察到的模式或效應(yīng)的再現(xiàn)性。定性數(shù)據(jù)分析分析非數(shù)值型數(shù)據(jù),總結(jié)對(duì)象特點(diǎn)。離線數(shù)據(jù)分析將數(shù)據(jù)存儲(chǔ)于磁盤,然后進(jìn)行分析。在線數(shù)據(jù)分析實(shí)時(shí)處理在線請(qǐng)求,響應(yīng)時(shí)間要求高。交互式分析快速數(shù)據(jù)分析,強(qiáng)調(diào)快速的數(shù)據(jù)探索。數(shù)據(jù)分析以分析結(jié)果分類以分析的方式分類數(shù)據(jù)分析數(shù)據(jù)挖掘是大數(shù)據(jù)分析的核心,占有重要的地位。數(shù)據(jù)挖掘是通過(guò)鍵名和構(gòu)造算法來(lái)獲取信息和知識(shí)。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、知識(shí)工程、面向?qū)ο蠓椒?、信息檢索、云計(jì)算、高性能計(jì)算以及數(shù)據(jù)可視化等最新技術(shù)的研究成果。樣本學(xué)習(xí)模型建立交叉驗(yàn)證模型測(cè)試關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)集中聯(lián)系規(guī)則分類方法:從數(shù)據(jù)集中提取分類模型聚類方法:自動(dòng)對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類時(shí)間序列挖掘:發(fā)現(xiàn)趨勢(shì)性與周期性數(shù)據(jù)可視化可視化旨在利用計(jì)算機(jī)自動(dòng)化分析能力的同時(shí),充分挖掘人對(duì)于可視化信息的認(rèn)知能力優(yōu)勢(shì),將人、機(jī)的各自強(qiáng)項(xiàng)進(jìn)行有機(jī)融合,借助人機(jī)交互式分析方法和交互技術(shù),輔助人們更為直觀和高效地洞悉大數(shù)據(jù)背后的信息、知識(shí)與智慧。結(jié)構(gòu)化主要是統(tǒng)計(jì)圖表注重?cái)?shù)據(jù)及其結(jié)構(gòu)關(guān)系大數(shù)據(jù)可視化結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多種表現(xiàn)形式發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律特征數(shù)據(jù)可視化數(shù)據(jù)可視化文本可視化網(wǎng)絡(luò)可視化時(shí)空數(shù)據(jù)可視化數(shù)據(jù)可視化可視分析是通過(guò)交互可視界面來(lái)進(jìn)行的分析、推理和決策??梢暦治雠c各個(gè)領(lǐng)域的數(shù)據(jù)形態(tài)、大小及其應(yīng)用密切相關(guān)??梢暦治鍪且环N通過(guò)交互式可視化界面來(lái)輔助用戶對(duì)大規(guī)模復(fù)雜數(shù)據(jù)集進(jìn)行分析與推理的技術(shù)。雷達(dá)圖氣泡圖熱力圖樹形圖數(shù)據(jù)遷移按照遷移條件分類全表遷移條件遷移自動(dòng)遷移按照遷移模式分類覆蓋追加按照數(shù)據(jù)來(lái)源分類文本源數(shù)據(jù)源遷移模塊架構(gòu)任務(wù)調(diào)度模塊Sqoop架構(gòu)日志管理數(shù)據(jù)遷移指的是在不同存儲(chǔ)格式、數(shù)據(jù)類型以及硬業(yè)件設(shè)備之間的數(shù)據(jù)移動(dòng)過(guò)程。數(shù)據(jù)遷移支持任意存儲(chǔ)系統(tǒng)之間的遷移,且成功率較高,支持聯(lián)機(jī)遷移。基于主機(jī)的遷移方式可以有效縮短停機(jī)時(shí)間窗口,一旦備份完成,其數(shù)據(jù)的遷移過(guò)程完全不會(huì)影響生產(chǎn)系統(tǒng)。備份恢復(fù)的方式兼容主流存儲(chǔ)設(shè)備,支持不同廠商不同品牌間的數(shù)據(jù)遷移和容災(zāi),適合于頻繁遷移數(shù)據(jù)的大型企業(yè)?;诖鎯?chǔ)的方式完全依賴于應(yīng)用軟件自身,與具體的主機(jī)、存儲(chǔ)種類則關(guān)系不大。應(yīng)用軟件提供的方式數(shù)據(jù)遷移方法的選擇是建立在對(duì)系統(tǒng)軟硬件以及業(yè)務(wù)系統(tǒng)的各環(huán)節(jié)的具體分析基礎(chǔ)之上。數(shù)據(jù)歸檔數(shù)據(jù)歸檔是將不經(jīng)常使用的數(shù)據(jù)移動(dòng)到單獨(dú)的存儲(chǔ)設(shè)備進(jìn)行長(zhǎng)期存儲(chǔ)的過(guò)程。數(shù)據(jù)歸檔具有索引和搜索功能,因此可以很容易地找到文件。數(shù)據(jù)對(duì)象主要是長(zhǎng)期積累的業(yè)務(wù)數(shù)據(jù)。對(duì)數(shù)據(jù)進(jìn)行定時(shí)的數(shù)據(jù)歸檔操作。定期數(shù)據(jù)歸檔數(shù)據(jù)對(duì)象主要是應(yīng)用系統(tǒng)中數(shù)據(jù)量較大的數(shù)據(jù),或者使用非常頻繁的數(shù)據(jù)。采用不定期的集中化數(shù)據(jù)歸檔,以保證對(duì)系統(tǒng)和應(yīng)用資源的影響最小。不定期數(shù)據(jù)歸檔形成一套規(guī)范、一項(xiàng)制度,將數(shù)據(jù)歸檔納入日常操作,使數(shù)據(jù)清理自動(dòng)化、規(guī)范化、量化,成為一套完整的數(shù)據(jù)清理和歸檔規(guī)范系統(tǒng)。數(shù)據(jù)銷毀數(shù)據(jù)銷毀是指通過(guò)一定手段將指定的待刪除數(shù)據(jù)進(jìn)行有效刪除,使其被恢復(fù)的可能性足夠小甚至是不可被恢復(fù)?,F(xiàn)有的數(shù)據(jù)銷毀方法主要分為硬銷毀和軟銷毀。通常用于保密等級(jí)比較高的場(chǎng)合。如國(guó)家機(jī)密、軍事要?jiǎng)?wù)等。硬銷毀通常用于保密等級(jí)不是很高的場(chǎng)合。如一般的企業(yè)、個(gè)人文件等,存儲(chǔ)空間可以重復(fù)使用。軟銷毀數(shù)據(jù)銷毀不管是物理破壞方法還是化學(xué)破壞方法,被銷毀的存儲(chǔ)介質(zhì)不能重復(fù)使用,造成了一定的浪費(fèi),并且有著一定的污染,所有基本上沒有得到廣泛地應(yīng)用。運(yùn)用化學(xué)試劑噴灑磁性存儲(chǔ)介質(zhì)的磁表面,腐蝕破壞其磁性結(jié)構(gòu)?;瘜W(xué)破壞方法焚燒、粉碎等,但是磁盤的碎片仍然可以被惡意用戶所利用,而且物理破壞方法需要特定的環(huán)境和設(shè)備。物理破壞方法數(shù)據(jù)硬銷毀是指采用物理、化學(xué)方法直接銷毀存儲(chǔ)介質(zhì),從而徹底銷毀存儲(chǔ)在其中的用戶數(shù)據(jù)。數(shù)據(jù)硬銷毀數(shù)據(jù)銷毀數(shù)據(jù)軟銷毀即邏輯銷毀,是向準(zhǔn)備銷毀的數(shù)據(jù)塊區(qū)中反復(fù)寫入無(wú)意義的隨機(jī)數(shù)據(jù)。刪除與格式化操作是計(jì)算機(jī)用戶最常用的兩種清除數(shù)據(jù)的方式,但其實(shí)它們都不是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論