大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 習(xí)題及答案 第3、4章_第1頁
大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 習(xí)題及答案 第3、4章_第2頁
大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 習(xí)題及答案 第3、4章_第3頁
大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 習(xí)題及答案 第3、4章_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第3章1)請闡述數(shù)據(jù)采集有哪些方法?(1)系統(tǒng)日志采集許多公司的平臺每天會產(chǎn)生大量的日志(一般為流式數(shù)據(jù),如搜索引擎的pv,查詢等),處理這些日志需要特定的日志系統(tǒng)。因此日志采集系統(tǒng)的主要工作就是收集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。這種大數(shù)據(jù)采集方式可以高效地收集、聚合和移動大量的日志數(shù)據(jù),并且能提供可靠的容錯性能。高可用性、高可靠性和可擴(kuò)展性是日志采集系統(tǒng)的基本特征。目前常用的開源日志采集平臺包含有:ApacheFlume、Fluentd、Logstash、Chukwa、Scribe以及SplunkForwarder等。這些采集平臺大部分采用的是分布式架構(gòu),以滿足大規(guī)模日志采集的需要。具體的日志采集平臺在下一節(jié)會介紹。(2)網(wǎng)絡(luò)數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)實現(xiàn)有針對性、行業(yè)性、精準(zhǔn)性的數(shù)據(jù)抓取,并按照一定規(guī)則和篩選標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)歸類,并形成數(shù)據(jù)庫文件的一個過程。目前網(wǎng)絡(luò)數(shù)據(jù)采集采用的技術(shù)基本上是利用垂直搜索引擎技術(shù)的網(wǎng)絡(luò)蜘蛛(或數(shù)據(jù)采集機(jī)器人)、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等技術(shù)進(jìn)行綜合運用而完成,并且隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和網(wǎng)絡(luò)海量信息的增長,對信息的獲取與分揀會成為一種越來越大的需求。目前常用的網(wǎng)頁爬蟲系統(tǒng)有ApacheNutch、Crawler4j、Scrapy等框架。由于采用多個系統(tǒng)并行抓取數(shù)據(jù),這種方式能充分利用機(jī)器的計算資源和存儲能力,大大提高系統(tǒng)抓取數(shù)據(jù)的能力,同時大大降低了開發(fā)人員的開發(fā)速率,使得開發(fā)人員可以很快的完成一個數(shù)據(jù)系統(tǒng)的開發(fā)。(3)數(shù)據(jù)庫采集數(shù)據(jù)庫采集是將實時產(chǎn)生的數(shù)據(jù)以記錄的形式直接寫入到企業(yè)的數(shù)據(jù)庫中,然后使用特定的數(shù)據(jù)處理系統(tǒng)進(jìn)行進(jìn)一步分析。目前比較常見的數(shù)據(jù)庫采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。這種方法通常在采集端部署大量數(shù)據(jù)庫,并對如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片進(jìn)行深入的思考和設(shè)計。2)數(shù)據(jù)采集平臺有哪些?Flume、Fluentd、Logstash、Chukwa、Scribe、Kafka3)為什么要進(jìn)行數(shù)據(jù)清洗?數(shù)據(jù)的不斷劇增是大數(shù)據(jù)時代的顯著特征,大數(shù)據(jù)必須經(jīng)過清洗、分析、建模、可視化才能體現(xiàn)其潛在的價值。然而在眾多數(shù)據(jù)中總是存在著許多“臟”數(shù)據(jù),即不完整、不規(guī)范、不準(zhǔn)確的數(shù)據(jù),因此數(shù)據(jù)清洗就是指把“臟數(shù)據(jù)”徹底洗掉,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等,從而提高數(shù)據(jù)質(zhì)量。在實際的工作中,數(shù)據(jù)清洗通常占開發(fā)過程的50%-70%左右的時間。4)數(shù)據(jù)清洗有哪些流程?(1)數(shù)據(jù)清洗-預(yù)處理(2)數(shù)據(jù)清洗-缺省值清洗(3)數(shù)據(jù)清洗-格式與內(nèi)容清洗(4)數(shù)據(jù)清洗-邏輯錯誤清洗(5)數(shù)據(jù)清洗-多余的數(shù)據(jù)清洗(6)數(shù)據(jù)清洗-關(guān)聯(lián)性驗證5)什么是數(shù)據(jù)標(biāo)準(zhǔn)化?數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入到一個小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級等特征屬性的差異,將其轉(zhuǎn)化為一個無量綱的相對數(shù)值。因此標(biāo)準(zhǔn)化數(shù)值是使各指標(biāo)的數(shù)值都處于同一個數(shù)量級別上,從而便于不同單位或數(shù)量級的指標(biāo)能夠進(jìn)行綜合分析和比較。6)請闡述什么是數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,它研究和解決從數(shù)據(jù)庫中獲取信息的問題,并為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。7)實施ETL有哪些常見工具?目前在市場上常見的ETL工具包含有:(1)TalendTalend是第一家針對的數(shù)據(jù)集成工具市場的ETL開源軟件供應(yīng)商。Talend以它的技術(shù)和商業(yè)雙重模式為ETL服務(wù)提供了一個全新的遠(yuǎn)景。它打破了傳統(tǒng)的獨有封閉服務(wù),提供了一個針對所有規(guī)模的公司的公開的,創(chuàng)新的,強(qiáng)大的靈活的軟件解決方案。(2)DataStageDataStage是IBM公司的商業(yè)軟件,是一種數(shù)據(jù)集成軟件平臺,能夠幫助企業(yè)從散布在各個系統(tǒng)中的復(fù)雜異構(gòu)信息獲得更多價值。DataStage

支持對數(shù)據(jù)結(jié)構(gòu)從簡單到高度復(fù)雜的大量數(shù)據(jù)進(jìn)行收集、變換和分發(fā)操作。并且Datastage全部的操作在同一個界面中,不用切換界面,能夠看到數(shù)據(jù)的來源,整個job的情況。(3)KettleKettle中文名稱叫水壺,是一款國外開源的ETL工具,純java編寫,可以在Windows、Linux、Unix上運行,數(shù)據(jù)抽取高效穩(wěn)定。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job則完成整個工作流的控制。(4)InformaticaPowerCenterInformaticaPowerCenter是一款非常強(qiáng)大的ETL工具,支持各種數(shù)據(jù)源之間的數(shù)據(jù)抽取、轉(zhuǎn)換、加載等數(shù)據(jù)傳輸,多用于大數(shù)據(jù)和商業(yè)智能等領(lǐng)域。一般應(yīng)用企業(yè)根據(jù)自己的業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)倉庫,在業(yè)務(wù)數(shù)據(jù)和數(shù)據(jù)倉庫間進(jìn)行ETL操作。第4章1)請闡述大數(shù)據(jù)存儲的定義。大數(shù)據(jù)存儲通常是指將那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集持久化到計算機(jī)中。在進(jìn)行大數(shù)據(jù)分析之前,首先的步驟就是要將海量的數(shù)據(jù)存儲起來,以便今后的使用。因此,大數(shù)據(jù)的存儲是數(shù)據(jù)分析與應(yīng)用的前提。2)文件存儲和對象存儲有什么區(qū)別?文件存儲(NAS)相對塊存儲來說更能兼顧多個應(yīng)用和更多用戶訪問,同時提供方便的數(shù)據(jù)共享手段。對象存儲是一種新的網(wǎng)絡(luò)存儲架構(gòu)。存儲標(biāo)準(zhǔn)化組織SINA早在2004年就給出了對象存儲的定義,但早期多出現(xiàn)在超大規(guī)模系統(tǒng)中,所以并不為大眾所熟知,相關(guān)產(chǎn)品一直也不溫不火。一直到云計算和大數(shù)據(jù)的概念全民強(qiáng)推,才慢慢進(jìn)入公眾視野。對象存儲的優(yōu)勢是互聯(lián)網(wǎng)或者公網(wǎng),主要解決海量數(shù)據(jù),海量并發(fā)訪問的需求??傮w上講,對象存儲同時兼具SAN高級直接訪問磁盤特點及NAS的分布式共享特點。它的核心是將數(shù)據(jù)通路(數(shù)據(jù)讀或?qū)?和控制通路(元數(shù)據(jù))分離,并且基于對象存儲設(shè)備(OSD),構(gòu)建存儲系統(tǒng),每個對象存儲設(shè)備具備一定的職能,能夠自動管理其上的數(shù)據(jù)分布。3)什么是NoSQL,有什么特點?NoSQL數(shù)據(jù)庫又叫作非關(guān)系數(shù)據(jù)庫,它是英文“NotOnlySQL”的簡寫,即“不僅僅是SQL”。和數(shù)據(jù)庫管理系統(tǒng)(RDBMS)相比,NoSQL不使用SQL作為查詢語言,其存儲也可以不需要固定的表模式,用戶操作NoSQL時通常會避免使用RDBMS的JION操作。NoSQL數(shù)據(jù)庫一般都具備水平可擴(kuò)展的特性,并且可以支持超大規(guī)模數(shù)據(jù)存儲,靈活的數(shù)據(jù)模型也可以很好地支持Web2.0應(yīng)用,此外還具有強(qiáng)大的橫向擴(kuò)展能力。典型的NoSQL數(shù)據(jù)庫包含以下幾種:鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫。值得注意的是:每種類型的數(shù)據(jù)庫都能夠解決傳統(tǒng)關(guān)系數(shù)據(jù)庫無法解決的問題。4)什么是NewSQL,有什么特點?NewSQL數(shù)據(jù)庫是對各種新的可擴(kuò)展/高性能數(shù)據(jù)庫的簡稱,它是一種相對較新的形式,旨在使用現(xiàn)有的編程語言和以前不可用的技術(shù)來結(jié)合SQL和NoSQL中最好的部分。這類數(shù)據(jù)庫不僅具有NoSQL對海量數(shù)據(jù)的存儲管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫支持ACID和SQL等特性。因此,NewSQL數(shù)據(jù)庫也被定義為下一代數(shù)據(jù)庫的發(fā)展方向。作為一種相對較新的形式,NewSQL旨在使用現(xiàn)有的編程語言和以前不可用的技術(shù)來結(jié)合SQL和NoSQL中最好的部分,它的目標(biāo)是將SQL的ACID保證與NoSQL的可擴(kuò)展性和高性能相結(jié)合。NewSQL數(shù)據(jù)庫改變了數(shù)據(jù)的定義范圍。它不再是原始的數(shù)據(jù)類型,如整數(shù)、浮點,它的數(shù)據(jù)可能是整個文件。此外,NewSQL數(shù)據(jù)庫是非關(guān)系的、水平可擴(kuò)展、分布式并且是開源的。5)什么是云數(shù)據(jù)庫?云數(shù)據(jù)庫是指被優(yōu)化或部署到一個虛擬計算環(huán)境中的數(shù)據(jù)庫,是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法,它極大地增強(qiáng)了數(shù)據(jù)庫的存儲能力,消除了人員、硬件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論