下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章作業(yè):《大數(shù)據(jù)處理的基本思想架構(gòu)》班級:學號:姓名:1.大數(shù)據(jù)處理的分治思想分治就是把一個復(fù)雜的問題分成兩個或更多相同或相似的,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。2.大數(shù)據(jù)處理類型(1)靜態(tài)數(shù)據(jù):在處理時已收集完成、在計算時的數(shù)據(jù),一般采用進行處理。(2):不間斷地、持續(xù)地到達的實時數(shù)據(jù),隨著時間的流逝,數(shù)據(jù)的價值也隨之降低,可采用________進行實時分析。(3)圖數(shù)據(jù):現(xiàn)實世界中的許多數(shù)據(jù),如社交網(wǎng)絡(luò)、道路交通等數(shù)據(jù),可采用進行處理。3.批處理計算Hadoop是一個可運行于大規(guī)模計算機集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于的批處理計算。Hadoop計算平臺主要包括Common公共庫、、、______________________等多個模塊。(1)HDFS將大規(guī)模海量數(shù)據(jù)以________的形式、用多個副本保存在不同的存儲節(jié)點中,并用分布式系統(tǒng)進行管理。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。(2)HBase建立在HDFS提供的底層存儲基礎(chǔ)上,采用基于列的存儲方式,主要用來存儲和___________________,可管理PB級的大數(shù)據(jù)。(3)MapReduce:MapReduce能夠處理大規(guī)模數(shù)據(jù)集的并行運算,主要由和2個函數(shù)構(gòu)成。其核心處理思想是將任務(wù)分解并分發(fā)到多個節(jié)點上進行處理,最后匯總輸出。4.流計算流計算系統(tǒng)可以簡單、高效、可靠地實現(xiàn)實時數(shù)據(jù)的獲取、傳輸和存儲,在與數(shù)據(jù)庫、Hadoop、編程語言等整合后可開發(fā)出功能強大的實時計算與分析應(yīng)用。5.圖計算現(xiàn)實世界中的很多數(shù)據(jù)是以圖的形式呈現(xiàn)的,或者是可以轉(zhuǎn)換為圖以后再進行分析的,如社交網(wǎng)絡(luò)、網(wǎng)絡(luò)瀏覽與購買行為、傳染病的傳播路徑等。基礎(chǔ)訓練下列關(guān)于流數(shù)據(jù)的描述,不正確的是()A.數(shù)據(jù)必須采集完成后處理B.數(shù)據(jù)價值隨著時間的流逝降低C.可以采用流計算進行實時分析D.實時分析流數(shù)據(jù)可以得到更有價值的結(jié)果2.下列應(yīng)用中涉及流數(shù)據(jù)處理的是()A.統(tǒng)計店鋪的月交易量B.實時更新導航線路C.查詢歷史話費賬單D.分析上年的地鐵客流數(shù)據(jù)3.下列選項中,屬于分布式文件系統(tǒng)的是()A.HDFSB.FAT32C.NTFSD.Ext44.下列關(guān)于分布式數(shù)據(jù)庫HBase的理解,不正確的是()A.HBase是谷歌BigTable數(shù)據(jù)庫的開源實現(xiàn)B.建立在HDFS提供的底層存儲基礎(chǔ)上C.采用基于行的存儲方式,可管理PB級的大數(shù)據(jù)D.主要用于存儲非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)5.下列屬于圖數(shù)據(jù)處理軟件的是()A.MapReduceB.TwitterStormC.Yahoo!S4D.GooglePregel6.實時處理與批處理整合的優(yōu)勢有()①增加了系統(tǒng)開銷②有利于降低使用成本③可以在同一個平臺做批處理計算和流計算④縮短了批處理計算和流計算之間的切換延時A.①②③B.①②④C.①③④D.②③④7.下列關(guān)于數(shù)據(jù)和信息的說法,正確的是()A.數(shù)據(jù)的表現(xiàn)形式只能是文字和圖像B.同一信息對所有人而言其價值是相同的C.計算機中保存的數(shù)據(jù)可以是未經(jīng)數(shù)字化的D.信息是數(shù)據(jù)經(jīng)分析、解釋后得到的8.下列關(guān)于大數(shù)據(jù)的說法,不正確的是
(
)A.Windows和Linux文件系統(tǒng)均不能滿足分布式文件的管理需求B.Hadoop分布式文件系統(tǒng)是谷歌文件系統(tǒng)的開源實現(xiàn)C.Twitter開源了其大數(shù)據(jù)處理系統(tǒng)Summingbird,該系統(tǒng)實現(xiàn)了批處理和圖計算在一個平臺架構(gòu)下的整合D.MapReduce分布并行計算的思想是將任務(wù)分解并分發(fā)到多個節(jié)點上進行處理,最后匯總輸出9.淘寶所使用的銀河流數(shù)據(jù)處理平臺,可以不間斷、持續(xù)到達的、具有時效性的給平臺提供數(shù)據(jù)參考,已知的實時更新的導航系統(tǒng)也具備同樣的特征,可以推測這兩種平臺實現(xiàn)上述功能采用的是()A.對流數(shù)據(jù)的流計算 B.對靜態(tài)數(shù)據(jù)的批處理計算C.對圖數(shù)據(jù)的圖計算 D.對靜態(tài)數(shù)據(jù)的圖計算10.下列屬于Hadoop計算平臺包括的模塊的是()①分布式并行計算模型MapReduce
②TwitterStorm軟件系統(tǒng)
③分布式文件系統(tǒng)HDFS
④分布式數(shù)據(jù)庫HBase
⑤GooglePregel系統(tǒng)A.②④ B.①②③ C.①③④ D.④⑤11.下列應(yīng)用中的數(shù)據(jù)不屬于圖計算處理的是
(
)A.社交網(wǎng)絡(luò)圖 B.傳染病的傳播途徑C.實時更新的天氣預(yù)報信息 D.臺風的移動軌跡12.下列關(guān)于大數(shù)據(jù)處理方法和特征的說法,不正確的是(
)A.圖數(shù)據(jù)的處理方式為圖計算B.流數(shù)據(jù)具有不間斷、持續(xù)到達的、具有時效性的特點C.圖數(shù)據(jù)的處理平臺有Hadoop、Pregel等D.靜態(tài)數(shù)據(jù)在處理時已收集完成,在計算時不會發(fā)生改變,處理平臺包括Spark等13.應(yīng)用“分治”思想,從某大型搜索引擎網(wǎng)站某天的訪問日志數(shù)據(jù)文件(大數(shù)據(jù)集)中提取出訪問該網(wǎng)站次數(shù)最多的IP。(1)IP地址是一個32位的二進制數(shù),通常被分割為4個“8位二進制數(shù)”。IP地址通常用“點分十進制”表示成a.b.c.d的形式,其中a,b,c,d均為0~255之間的十進制整數(shù)。如:點分十進制IP地址100.4.5.6,實際上是32位二進制數(shù)01100100.00000100.00000101.00000110。IP地址最多有種取值。(2)IP日志數(shù)據(jù)量非常大,不能完全加載到內(nèi)存中處理??梢圆捎谩胺种巍彼枷?,把IP日志數(shù)據(jù)分別存儲到1024個小文件中,則每個小文件最多包含個IP地址的數(shù)據(jù)。(3)同時統(tǒng)計每個小文件中出現(xiàn)次數(shù)最多的IP地址和出現(xiàn)次數(shù)。若小文件中IP地址數(shù)據(jù)格式如圖4-7所示,統(tǒng)計小文件中出現(xiàn)次數(shù)最多的IP地址的Python代碼如下,在方框中補充合適代碼,完善程序。file=open('1.log')ips=[]forlineinfile:ip=line.split()[0]#split()分割后,返回的列表中第一個值就是IP地址ips.append(ip)defshowmax(list):#返回一個列表中出現(xiàn)次數(shù)最多的元素及其出現(xiàn)次數(shù)print(showmax(ips))(4)匯總每個小文件中出現(xiàn)次數(shù)最多的IP地址和出現(xiàn)次數(shù)數(shù)據(jù),可以得到至少個IP地址。對這些IP地址按出現(xiàn)次數(shù)排序或求最大值,最終得到總體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版鍋爐設(shè)備維護保養(yǎng)與能源審計合同范本3篇
- 2025版內(nèi)河水路危險品運輸合同及應(yīng)急救援協(xié)議3篇
- 二零二五年度挖機操作技能競賽贊助合同
- 1 如何合理選擇抗凝藥物
- 二零二五版民房建筑項目施工合同履約監(jiān)督協(xié)議范本4篇
- 2018年稅務(wù)稽查風險防范及企業(yè)應(yīng)對策略
- 2025年度個人房屋買賣價格調(diào)整及支付合同2篇
- 二零二五年度戶外廣告牌發(fā)布與社區(qū)宣傳合作合同范本3篇
- 2025年度農(nóng)用土地托管服務(wù)與機械租賃合同4篇
- 2025年度個人二手房買賣協(xié)議書范本:房屋交易環(huán)保評估合同2篇
- 2025貴州貴陽市屬事業(yè)單位招聘筆試和高頻重點提升(共500題)附帶答案詳解
- 2024年住院醫(yī)師規(guī)范化培訓師資培訓理論考試試題
- 期末綜合測試卷(試題)-2024-2025學年五年級上冊數(shù)學人教版
- 招標采購基礎(chǔ)知識培訓
- 2024年廣東省公務(wù)員錄用考試《行測》試題及答案解析
- 五年級口算題卡每天100題帶答案
- 結(jié)構(gòu)力學本構(gòu)模型:斷裂力學模型:斷裂力學實驗技術(shù)教程
- 2024年貴州省中考理科綜合試卷(含答案)
- 無人機技術(shù)與遙感
- PDCA提高臥床患者踝泵運動的執(zhí)行率
- 黑色素的合成與美白產(chǎn)品的研究進展
評論
0/150
提交評論