版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
教案(首頁)課程名稱云計算與大數(shù)據(jù)技術(shù)總課時32周課時2課程性質(zhì)專業(yè)課學(xué)分2理論課:16課時實(shí)踐課:16課時任課教師程顯毅授課對象計算機(jī)相關(guān)專業(yè)基本教材和主要參考資料教材:大數(shù)據(jù)導(dǎo)論,程顯毅主編,機(jī)械工業(yè)出版社,2019.4參考書:大數(shù)據(jù)技術(shù)基礎(chǔ)李春芳,石民勇著機(jī)械工業(yè)出版社,2021.6課程目標(biāo)和要求1.知識目標(biāo)1)了解大數(shù)據(jù)的主要來源,掌握大數(shù)據(jù)的特點(diǎn)和大數(shù)據(jù)的處理流程。2)樹立正確的大數(shù)據(jù)思維觀。3)了解Hadoop主要核心模塊HDFS和MapReduce,并了解其他模塊的功能。4)通過詞頻統(tǒng)計案例了解Hadoop的工作機(jī)制。5)掌握Hive基本操作。6)掌握Hbase基本操作。7)了解經(jīng)典大數(shù)據(jù)應(yīng)用場景:醫(yī)療大數(shù)據(jù)、交通大數(shù)據(jù)、教育大數(shù)據(jù)、電商大數(shù)據(jù)。2.能力目標(biāo)1)具備良好的編程能力。2)掌握大數(shù)據(jù)基本技術(shù)與應(yīng)用,使大數(shù)據(jù)能夠?yàn)槲宜谩?)具有云計算運(yùn)維能力4)具有自主學(xué)習(xí)、自我發(fā)展的基本能力,能夠適應(yīng)不斷變化的未來大數(shù)據(jù)技術(shù)發(fā)展的需求。5)分析和解決問題的能力。?6)獲得適應(yīng)未來崗位轉(zhuǎn)變的遷移能力。3.思政目標(biāo)1)理解全量思維源自量變到質(zhì)變,大事業(yè)都是從點(diǎn)滴小事情積累起來的。2)理解相關(guān)思維是善于抓機(jī)遇,良機(jī)只有一次,錯過就不再來。3)理解容錯思維源理解和大度,學(xué)習(xí)別人的優(yōu)點(diǎn),完善自身。4)理解數(shù)據(jù)分析源自發(fā)現(xiàn)人生價值,在有限生命中實(shí)現(xiàn)無限價值的人生。5)理解數(shù)據(jù)敏感源自用數(shù)據(jù)講故事,用數(shù)據(jù)展現(xiàn)祖國的發(fā)展,感受祖國的強(qiáng)大。6)理解分布式處理源自協(xié)作,合作可以充實(shí)你的人生。7)理解數(shù)據(jù)清洗源自質(zhì)量第一,保證在激烈競爭中利于不敗之地。8)理解業(yè)務(wù)理解源自知己知彼,莫愁前路無知己,天下誰人不識君。9)理解數(shù)據(jù)安全源自責(zé)任重于泰山,少年智則國智,少年強(qiáng)則國強(qiáng)。教學(xué)重點(diǎn)和難點(diǎn)重點(diǎn):hadoop,hbase,hive,flume,spark,zookeeper安裝;HDFS,MapReduce,HBase,Hive操作。hadoop,hbase,hive,flume,spark,zookeeper基本結(jié)構(gòu)和工作原理;數(shù)據(jù)分析全過程:數(shù)據(jù)清洗,數(shù)據(jù)變換,數(shù)據(jù)建模,模型評估,分析報告撰寫等。難點(diǎn):JAVA編程,數(shù)據(jù)分析報告撰寫。授課周次第1周授課時間2021年9月2日課程章節(jié)模塊1:大數(shù)據(jù)概論1.1揭秘大數(shù)據(jù)教學(xué)目的1、了解大數(shù)據(jù)技術(shù)產(chǎn)生的歷史必然;2、理解大數(shù)據(jù)的特征;3、理解大數(shù)據(jù)處理流程;4、理解大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)之間的相互關(guān)系;5、理解大數(shù)據(jù)思維的基本原理;內(nèi)容提要及板書設(shè)計自我介紹、點(diǎn)名認(rèn)識學(xué)生;課程介紹、對學(xué)生的要求。1.揭秘大數(shù)據(jù)2.大數(shù)據(jù)產(chǎn)生的歷史必然3.大數(shù)據(jù)的概念及特征、4.大數(shù)據(jù)帶來的變革5.大數(shù)據(jù)思維重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):大數(shù)據(jù)4V特征,八大變革,四種科學(xué)研究范式難點(diǎn):大數(shù)據(jù)思維教學(xué)內(nèi)容時間分配序號第1次教學(xué)環(huán)節(jié)時間分配1課程導(dǎo)入(三國故事)1521.1大數(shù)據(jù)產(chǎn)生2031.2大數(shù)據(jù)特征2041.3大數(shù)據(jù)思維305小結(jié)5教學(xué)手段理論教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)作業(yè)完成方式書面(√)電子()教學(xué)后記全量思維源自量變到質(zhì)變,大事業(yè)都是從點(diǎn)滴小事情積累起來的。容錯思維源自理解和大度,學(xué)習(xí)別人的優(yōu)點(diǎn),完善自身。相關(guān)思維源自善于抓機(jī)遇,良機(jī)只有一次,錯過就不再來。大數(shù)據(jù)讓社會變得透明,折射出的哲理:想要了解世界,先要了解自己注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計填寫在附頁中。附頁:(第1次)序號具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計)授課改進(jìn)意見及實(shí)時教學(xué)效果記錄新課導(dǎo)入(15’)一、自我介紹、點(diǎn)名認(rèn)識學(xué)生;二、課程介紹、對學(xué)生的要求:1、課程定位搭建起通向“大數(shù)據(jù)知識空間”的橋梁和紐帶構(gòu)建大數(shù)據(jù)知識體系、闡明大數(shù)據(jù)基本原理引導(dǎo)大數(shù)據(jù)初級實(shí)踐、了解大數(shù)據(jù)相關(guān)應(yīng)用2學(xué)分32學(xué)時,理論實(shí)踐比2:1。2、課程內(nèi)容理論7個模塊模塊1:大數(shù)據(jù)概述模塊2:大數(shù)據(jù)生態(tài)系統(tǒng)模塊3:大數(shù)據(jù)存儲模塊4:大數(shù)據(jù)分析模塊5:大數(shù)據(jù)可視化模塊6:大數(shù)據(jù)應(yīng)用模塊7:大數(shù)據(jù)安全實(shí)踐4個模塊(4章)模塊1:Hadoop安裝與操作模塊2:Hbase安裝與操作模塊3:基于R語言數(shù)據(jù)分析模塊4:基于R語言數(shù)據(jù)可視化3、考核方式考察,以學(xué)生動手考核作為評價依據(jù)。學(xué)生期末總評成績:平日成績30%+期末考試成績70%平日成績考核因素:出勤率、上課紀(jì)律、回答問題情況、作業(yè)情況等;根據(jù)多元化評價原則,作業(yè)完成情況采用個人自評、小組互評、教師點(diǎn)評等方式。期末考試(半開卷)4、課堂組織通過分組,每次上課按組就座,這樣在授課或者考勤過程中,都以小組為單位進(jìn)行。5、上課要求課堂上要注意聽課,禁止說話、睡覺、玩手機(jī)等與學(xué)習(xí)無關(guān)的事情;要攜帶教材、筆;杜絕遲到、早退、曠課等現(xiàn)象,有事情要請假(辦理好對應(yīng)手續(xù)),缺課超過1/3課時的學(xué)生將取消考試資格;及時上交作業(yè)等等。課程學(xué)習(xí)(70’)模塊1:大數(shù)據(jù)概述1.1大數(shù)據(jù)讓社會變得透明【看視頻披薩服務(wù)】通過這個視頻,大家看到,本來是一個很小的事件,訂購披薩,牽涉到用戶的銀行卡信息、醫(yī)療信息、通話信息、定位信息、訂酒店信息、家庭信息等。結(jié)論:大數(shù)據(jù)讓所有與之相關(guān)的數(shù)據(jù)進(jìn)行關(guān)聯(lián),大數(shù)據(jù)讓社會變得透明、讓人變得透明。折射出的哲理,想要了解世界,先要了解自己,越是了解自己的個性和需要,就越不容易被外界影響。了解自己則更能找到自己合適的位置。1.2七次信息革命和三次信息浪潮第七次信息革命不是在技術(shù)上、機(jī)器設(shè)備上、軟件上或速度上的一場革命,而是一場“概念”上的革命。以往50年信息技術(shù)的重點(diǎn)在“技術(shù)”上,目的在于提升信息傳播范圍、傳播能力和傳播效率。而新的信息革命的重點(diǎn)將會在“信息”上。第一次浪潮,信息處理;第二次浪潮,信息傳輸?shù)谌卫顺?,信息爆?.數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨數(shù)據(jù)庫網(wǎng)絡(luò)傳感器2.云計算是大數(shù)據(jù)誕生的前提和必要條件大型機(jī)客戶服務(wù)模式Web模式云IaaS—>PaaS—>SaaS云關(guān)鍵技術(shù):分布式計算、分布式存儲、多租戶、虛擬化云計算本質(zhì):從架構(gòu)到資源全面彈性。1.3
大數(shù)據(jù)的概念及特征一、大數(shù)據(jù)畫像1、大數(shù)據(jù)不一定大,強(qiáng)調(diào)關(guān)聯(lián)2、強(qiáng)調(diào)時效性3、跨領(lǐng)域的數(shù)據(jù)融合(外賣的例子)二、大數(shù)據(jù)描述大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間和空間超過可容忍程度的數(shù)據(jù)集。三、大數(shù)據(jù)4V特點(diǎn)價值:約翰.奈斯比特在他的成名作《大趨勢》中層提到:人類正在被信息淹沒,缺饑渴于知識。1.4大數(shù)據(jù)帶來的變革一、傳圖思維與大數(shù)據(jù)思維二、思維變革(1)全量思維:全量思維源自量變到質(zhì)變,大事業(yè)都是從點(diǎn)滴小事情積累起來的。(2)容錯思維容錯思維源自理解和大度,學(xué)習(xí)別人的優(yōu)點(diǎn),完善自身。(3)相關(guān)思維相關(guān)思維源自善于抓機(jī)遇,良機(jī)只有一次,錯過就不再來??偨Y(jié)(5’)1、大數(shù)據(jù)的本質(zhì)還不在于“大”,強(qiáng)調(diào)的是數(shù)據(jù)之間的關(guān)聯(lián)。2、大數(shù)據(jù)讓社會變得透明,折射出的哲理:想要了解世界,先要了解自己3、大數(shù)據(jù)思維的轉(zhuǎn)變。約翰.奈斯比特在他的成名作《大趨勢》中層提到:人類正在被信息淹沒,缺饑渴于知識。當(dāng)我們借助手機(jī)讓世界的每一個角落變得觸手可及、讓溝通變得毫無障礙、讓生活變得五彩繽紛的時候,我們必須承擔(dān)為此付出的代價——讓你以一種赤裸甚至透明的狀態(tài)呈現(xiàn)在世界面前。舉個例子,你早晨八點(diǎn)從A地打車到B地,中午再點(diǎn)個外賣,下午六點(diǎn)再打車回到A地。簡單的一天生活,你的信息已經(jīng)被大數(shù)據(jù)掌握,根據(jù)你出行的時間和地點(diǎn)以及生活習(xí)慣整理推斷出你家的位置,你公司的位置,你喜歡吃什么。包括你在互聯(lián)網(wǎng)上瀏覽過搜索過的一些資訊,都會在電子商務(wù)平臺上給你推送相關(guān)的商品。很多視頻網(wǎng)站的會員,甚至通過判斷你手機(jī)的型號,給你推送的不一樣的會員價格。比方說同一個愛奇藝年費(fèi)會員,用普通的安卓手機(jī)充值就是198元,使用蘋果手機(jī)充值就變成了268元。這種通過大數(shù)據(jù)進(jìn)行的價格歧視,需要互聯(lián)網(wǎng)的監(jiān)管部門對其進(jìn)行監(jiān)管。使用音樂軟件聽音樂,一首非常冷門的免費(fèi)音樂,單曲循環(huán)多次,一段時間后你就發(fā)現(xiàn)這首歌曲竟然開始收費(fèi)了,或者需要充值會員才可以繼續(xù)聽。要想改變這一狀況,唯一的辦法就是返璞歸真,不用手機(jī),但是,你愿意嗎?可以說,在大數(shù)據(jù)時代,一切事物都是透明的。哪怕是信息時代留給人們的遮羞布,也被大數(shù)據(jù)時代下手機(jī)的“出賣”無情剝奪了,人成為名副其實(shí)的“透明人”。目前大數(shù)據(jù)的發(fā)展依然存在諸多挑戰(zhàn),包括七大方面的挑戰(zhàn):業(yè)務(wù)部門沒有清晰的大數(shù)據(jù)需求導(dǎo)致數(shù)據(jù)資產(chǎn)逐漸流失;企業(yè)內(nèi)部數(shù)據(jù)孤島嚴(yán)重,導(dǎo)致數(shù)據(jù)價值不能充分挖掘;數(shù)據(jù)可用性低,數(shù)據(jù)質(zhì)量差,導(dǎo)致數(shù)據(jù)無法利用;數(shù)據(jù)相關(guān)管理技術(shù)和架構(gòu)落后,導(dǎo)致不具備大數(shù)據(jù)處理能力;數(shù)據(jù)安全能力和防范意識差,導(dǎo)致數(shù)據(jù)泄露;大數(shù)據(jù)人才缺乏導(dǎo)致大數(shù)據(jù)工作難以開展;大數(shù)據(jù)越開放越有價值,但缺乏大數(shù)據(jù)相關(guān)的政策法規(guī),導(dǎo)致數(shù)據(jù)開放和隱私之間難以平衡,也難以更好的開放。但是像可樂貸這樣的互聯(lián)網(wǎng)金融平臺,走在行業(yè)的前沿,緊跟大數(shù)據(jù)步伐,才是真正的好平臺。
討論,理解大數(shù)據(jù)讓社會變得透明大數(shù)據(jù)的本質(zhì)還不在于“大”,而是以嶄新的思維和技術(shù)去分析海量數(shù)據(jù),揭示其中隱藏的人類行為等模式,由此創(chuàng)造新產(chǎn)品和服務(wù),或是預(yù)測未來趨勢。大數(shù)據(jù)思維的轉(zhuǎn)變授課周次第2周授課時間2021年9月9日課程章節(jié)第2次課:第1章概論1.2
Linux系統(tǒng)概述教學(xué)目的第2次課:1、熟練掌握基本的Linux操作命令內(nèi)容提要及板書設(shè)計第2次課:1.2Linux系統(tǒng)概述:Linux版本、Linux系統(tǒng)目錄、Linux命令重點(diǎn)、難點(diǎn)及解決方案第2次課:重點(diǎn):Linux常用命令難點(diǎn):tar命令,權(quán)限設(shè)置命令chmod教學(xué)內(nèi)容時間分配序號第2次教學(xué)環(huán)節(jié)時間分配1Linux簡介152Linux目錄結(jié)構(gòu)203Linux常用命令204實(shí)驗(yàn)報告1305小結(jié)5教學(xué)手段第1次課:理論第2次課:上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)第2次課:實(shí)驗(yàn)報告1作業(yè)完成方式書面(√)電子()教學(xué)后記正視問題需要勇氣,需要肚量,需要實(shí)事求是的態(tài)度,說到底是一種責(zé)任。Windows系統(tǒng)的高普及率,帶動了我國信息化技術(shù)發(fā)展,人民出行、溝通交流變得更加方便。但是,在這些“更加便利”的背后,也給我們種下了可怕的信息炸彈。這顆“炸彈”覆蓋程度是前所未有的,世界局勢一旦發(fā)生變化,爆發(fā)信息戰(zhàn)爭對我國的打擊將是難以想象的。試想,系統(tǒng)被入侵后工廠設(shè)備突然癱瘓無法生產(chǎn);供電設(shè)施停機(jī)大面積停電,影響地面所有通信設(shè)施;醫(yī)院掛號排隊、繳費(fèi)終端癱瘓導(dǎo)致病人無法得到及時的救治等等。這些信息攻擊案例在國外其實(shí)已經(jīng)發(fā)生過,而且在某一程度上容易造成社會恐慌。所以,在信息系統(tǒng)領(lǐng)域我們急需解決操作系統(tǒng)的依賴性,或盡可能擺脫單一系統(tǒng)的壟斷性。注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計填寫在附頁中。附頁:(第2次)序號具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計)授課改進(jìn)意見及實(shí)時教學(xué)效果記錄導(dǎo)入新課【播放國產(chǎn)操作的未來發(fā)展視頻】Linux是一種操作系統(tǒng),操作系統(tǒng)在計算機(jī)應(yīng)用起著重要作用,目前多數(shù)人還是在使用windows。國產(chǎn)操作系統(tǒng)主要有中興新?點(diǎn),麒麟,統(tǒng)信等,但是市場實(shí)際占有率?常低。影響?個操作系統(tǒng)市場占有率的重要原因??就是操作系統(tǒng)的?態(tài)問題,在國產(chǎn)操作系統(tǒng)上很難找到適配的專業(yè)性軟件。舉個簡單的例?,例如需要使??業(yè)設(shè)計等專業(yè)領(lǐng)域軟件的?戶因?yàn)閲a(chǎn)操作系統(tǒng)缺乏此類軟件從?選擇棄?國產(chǎn)系統(tǒng),?國產(chǎn)操作系統(tǒng)?戶較少?導(dǎo)致軟件?商不太愿意投??量資?去研發(fā)軟件。畢竟軟件?商也是要需要盈利的。所以如果沒有?個健康良好,能夠讓雙?互惠互利的?態(tài)環(huán)境,相信國產(chǎn)操作系統(tǒng)會很難?的下去。國家現(xiàn)在也逐漸出臺?些政策來扶持我們的國產(chǎn)操作系統(tǒng)發(fā)展,要求?些黨政企單位使?國產(chǎn)操作系統(tǒng),提??戶量,吸引更多軟件?商去研發(fā)適配軟件,逐步替代windows和蘋果等系統(tǒng)。由于Linux是開源,可以二次開發(fā),我們學(xué)習(xí)Linux的目的就是為國產(chǎn)操作系統(tǒng)的研發(fā)儲備人才。新課講解模塊1:大數(shù)據(jù)概述1.6Linux(1)Linux版本在Linux系統(tǒng)各個發(fā)行版中,CentOS系統(tǒng)和Ubuntu系統(tǒng)在服務(wù)端和桌面端使用占比最高,網(wǎng)絡(luò)上資料最是齊全,所以我們建議使用CentOS6.4系統(tǒng)或UbuntuLTS14.04。一般來說,如果要做服務(wù)器,我們選擇CentOS或者UbuntuServer;如果做桌面系統(tǒng),我們選擇UbuntuDesktop。但是在學(xué)習(xí)Hadoop方面,雖然兩個系統(tǒng)沒有多大區(qū)別,但是我們強(qiáng)烈推薦新手讀者使用CentOS操作系統(tǒng)。虛擬機(jī)安裝:/sw-search-sp/soft/08/15321/VirtualBox_061_104061_Win.1448355141.exe(2)Linux目錄結(jié)構(gòu)
(3)文本編輯器vi(4)Linux系統(tǒng)常用命令命令含義cd/home/hadoop把/home/hadoop設(shè)置為當(dāng)前目錄cd..返回上一級目錄cd~或cd返回登錄目錄cd/把用戶帶到整個目錄的根目錄cd/root把用戶帶到根用戶或超級用戶的主目錄;只有根用戶才能訪問該目錄ls查看當(dāng)前目錄中的文件ls-l或ll或ls–l文件名查看文件和目錄的權(quán)限信息ls-a顯示隱藏文件mkdirinput在當(dāng)前目錄下創(chuàng)建input子目錄mkdir-psrc/main/scala在當(dāng)前目錄下,創(chuàng)建多級子目錄src/main/scalacat/proc/version查看Linux系統(tǒng)內(nèi)核版本信息catword.txt把word.txt這個文件全部內(nèi)容顯示到屏幕上head-5word.txt把word.txt文件中的前5行內(nèi)容顯示到屏幕上cpword.txt/usr/local/把word.txt文件復(fù)制到“/usr/local”目錄下rm./word.txt刪除當(dāng)前目錄下的word.txt文件rm–rf./test刪除當(dāng)前目錄下的test目錄及其下面的所有文件rm–rtest*刪除當(dāng)面目錄下所有以test開頭的目錄和文件tar-zxvf*.tgz-C/usr/local/把*.tgz這個壓縮文件解壓到/usr/local目錄下tar-zxvf*.tar.gz把*.gz這個壓縮文件解壓到當(dāng)前目錄下tar-cfall.tar*.jpg將*.jpg文件打包成all.tarmvspark-2.1.0spark把spark-2.1.0目錄重新命名為sparkchown-Rhadoop:hadoop./sparkhadoop是當(dāng)前登錄Linux系統(tǒng)的用戶名,把當(dāng)前目錄下的spark子目錄的所有權(quán)限,賦予給用戶hadoopifconfig查看本機(jī)IP地址信息exit退出并關(guān)閉Linux終端echo$HOSTNAME顯示HOSTNAME環(huán)境變量的值pwd查看當(dāng)前目錄manls獲取ls幫助,獲取其它命令幫助同理,等價于ls--helpuseradd–d/usr/sa-msa創(chuàng)建了一個用戶sapasswdsa為用戶sa設(shè)置密碼susa切換到用戶sajps查看進(jìn)程chmod777file修改file權(quán)限為777ifconfig或ipadr查看當(dāng)前節(jié)點(diǎn)的IPclear或reset或ctrl+l清屏sudo命令用超級用戶執(zhí)行“命令”./當(dāng)前目錄人在旅途中,在特定的生產(chǎn)、工作、學(xué)習(xí)、生活等實(shí)踐中,往往會遇到有形或無形、巨大或一般、一種或多種、短時間或長時期等方面的困難。這是正常的、必然的。但是,我們必須以積極的心態(tài)了解它、認(rèn)識它、正視它。困難既有有利的一面,也有不利的一面。不利的一面是,它常常制約、阻礙著人們或事物向良性方向、成功目標(biāo)發(fā)展。困難的出現(xiàn)或存在,往往會使人們的事業(yè)或人生遭受不同程度的挫折,增加成功的難度。這是人們熟知的一面。然而,困難也有有利的一面,這一點(diǎn)卻常常被人們所忽視。首先,困難可以使人們冷靜頭腦,清醒認(rèn)識。因?yàn)?,一直身處順境,往往會?dǎo)致盲目自信,甚至產(chǎn)生驕傲自滿情緒,而“驕兵必敗”是必然的。其次,困難可以使我們早日發(fā)現(xiàn)問題。人們之所以身處困難或困境之中,往往是因?yàn)槌霈F(xiàn)了或存在著許多問題。此時,問題充分暴露,便于自我發(fā)現(xiàn),并有助于想出對策加以解決。再次,困難可以檢驗(yàn)一個人的品質(zhì)。如果一個人敢于直面困難,積極主動地尋求解決問題的辦法,那么他或遲或早,總會成功。如果一個人被困難嚇倒,灰心喪氣,無所作為,那么即使困難消除,他也不會走出失敗的陰影。人生成功者尤其是那些杰出成功者,從來都是以積極的心態(tài)正視困難,樂觀地面對困難的。多一些快樂,少一些煩惱,你會驚奇地發(fā)現(xiàn),這不僅會使你的工作與努力充滿樂趣,還會讓你獲得幸福。它把憂慮變?yōu)榭鞓?,?qū)除工作中的痛苦,讓生活充滿驚喜。你會發(fā)現(xiàn),自己成了一個更優(yōu)秀,更完美的人。你用充滿陽光的心靈輕松地面對困難,保持著自己心靈的和諧。而有的人卻因?yàn)檫@些困難而痛苦,失去了心靈的和諧。授課周次第3周授課時間2021年9月16日課程章節(jié)模塊2:大數(shù)據(jù)生態(tài)系統(tǒng)2.1認(rèn)識Hadoop2.2HDFS教學(xué)目的認(rèn)識Hadoop理解大數(shù)據(jù)生態(tài)環(huán)境:兩個核心技術(shù)理解HDFS結(jié)構(gòu)及讀寫原理內(nèi)容提要及板書設(shè)計2.1認(rèn)識Hadoop1、設(shè)計理念(1)處理的數(shù)據(jù)量巨大;(2)構(gòu)造成本特低;(3)結(jié)構(gòu)彈性特好;兩高:容錯、可靠2、Hadoop基礎(chǔ)架構(gòu):(1)兩大核心技術(shù)(2)四種計算模式:批處理、流模式、圖模式和交互模式2.2HDFS1、HDFS結(jié)構(gòu)2、HDFS讀寫原理3、HDFS操作重點(diǎn)、難點(diǎn)及解決方案第3次課:重點(diǎn):HDFS操作難點(diǎn):HDFS結(jié)構(gòu)教學(xué)內(nèi)容時間分配序號第3次教學(xué)環(huán)節(jié)時間1課程導(dǎo)入5’2一、Hadoop10’3二、核心組件10’一、HDFS結(jié)構(gòu)25’4二、HDFS操作35’4小結(jié)5’教學(xué)手段第3次課:理論+上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)第3次課:P25:一、二作業(yè)完成方式書面(√)電子()教學(xué)后記1.??優(yōu)秀的團(tuán)隊,塑造出優(yōu)秀團(tuán)隊?化,?個優(yōu)秀的團(tuán)隊?化,釀造出優(yōu)秀的?。2.??強(qiáng),不是強(qiáng),再強(qiáng)也是?只?。團(tuán)隊強(qiáng),才是強(qiáng),團(tuán)結(jié)起來就是狼。3.?個?要想成功,除了??要有較?的素質(zhì),還必須要有能夠同別?合作的精神。4.只有團(tuán)結(jié)才有強(qiáng)?的能量,凝聚在?起才是團(tuán)隊!5.凝聚團(tuán)隊,聚焦?標(biāo),為夢想創(chuàng)造?限可能。6.能?眾?,則?敵于天下矣;能?眾智,則?畏于圣?矣。7.?往?處使叫團(tuán)隊,?往?處使叫團(tuán)伙。注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計填寫在附頁中。附頁:(第3次)序號具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計)授課改進(jìn)意見及實(shí)時教學(xué)效果記錄第3次課:導(dǎo)入新課【播放合作精神視頻】從剛才的視頻我們明白一個道理,團(tuán)結(jié)就是力量,合作精神,對在當(dāng)今時代生存發(fā)展尤為重要。今天要學(xué)習(xí)的大數(shù)據(jù)生態(tài)Hadoop是一個分布式集群,只有集群各個節(jié)點(diǎn)各盡其責(zé),才能協(xié)作處理更大的數(shù)據(jù),分布式計算的思維源自分工合作精神,通過課程的學(xué)習(xí)體會和感悟合作精神。新課講解1.3大數(shù)據(jù)生態(tài)系統(tǒng)Hadoop一、Hadoop的由來1、小數(shù)據(jù)時代上網(wǎng)過程用戶從客戶端發(fā)出請求,服務(wù)端接受請求并訪問數(shù)據(jù)庫,將查詢或處理的結(jié)果反饋到客戶端。2、大數(shù)據(jù)時代上網(wǎng)過程但當(dāng)客戶端的請求量劇增,服務(wù)端的響應(yīng)能力急劇下降,有些數(shù)據(jù)無法及時處理,要么就丟棄,要么就等待,造成網(wǎng)絡(luò)服務(wù)無法滿足用戶的需求,此時就需要一種特別的機(jī)制解決這個問題。這個機(jī)制就是,將請求通過Flume推送到消息隊列Kafka,同時把與請求相關(guān)的業(yè)務(wù)數(shù)據(jù)通過sqoop推送到消息隊列Kafka,Kafka根據(jù)任務(wù)的輕重緩急,將任務(wù)劃分為實(shí)時計算任務(wù)(推送到Spark)和離線計算任務(wù)(推送到HDFS).Flume、Kafka、sqoop、Spark、HBase、HDFS、MapReduce...組成了Hadoop生態(tài)系統(tǒng),生態(tài)系統(tǒng)各個組件由Zookeeper進(jìn)行協(xié)調(diào),形成團(tuán)隊合作模式。二、Hadoop生態(tài)系統(tǒng)谷歌三駕馬車:HDFS,MapReduce,HBase2、主要模塊說明(如果把Hadoop生態(tài)比作廚房)采購員:Flume,Sqoop倉庫:HDFS冰箱:HBase廚師長:Zookeeper廚具:MapReduce、Spark半成品:YARN成品菜肴:hive菜單:Oozie食者:AmbariHDFSHDFS:HDFS(HadoopDistributedFileSystem)是一個Hadoop分布式文件存儲系統(tǒng),簡稱分布式文件系統(tǒng)。HDFS本身也是個集群,由一個namenode,多個datanode,一個secondarynamenode組成,適合需要處理海量數(shù)據(jù)集的應(yīng)用程序。HDFS特征低成本:兼容廉價的硬件設(shè)備。處理大規(guī)模數(shù)據(jù):典型文件大小GB-TB級別;關(guān)注橫向擴(kuò)展。批量數(shù)據(jù)訪問:批量讀而非隨機(jī)讀;關(guān)注吞吐量而非相應(yīng)時間。高容錯:副本冗余機(jī)制。HDFS體系結(jié)構(gòu)四、HDFS存儲原理1、存儲策略第一個副本:放置在上傳文件的數(shù)據(jù)節(jié)點(diǎn);如果是集群外提交,則隨機(jī)挑選一臺磁盤不太滿、CPU不太忙的節(jié)點(diǎn)第二個副本:放置在與第一個副本不同的機(jī)架的節(jié)點(diǎn)上第三個副本:與第一個副本相同機(jī)架的其他節(jié)點(diǎn)上更多副本:隨機(jī)節(jié)點(diǎn)2、數(shù)據(jù)錯誤與恢復(fù)(1)當(dāng)名稱節(jié)點(diǎn)出錯時,就可以根據(jù)備份服務(wù)器SecondaryNameNode中的FsImage和Editlog數(shù)據(jù)進(jìn)行恢復(fù)。(2)每個數(shù)據(jù)節(jié)點(diǎn)會定期向名稱節(jié)點(diǎn)發(fā)送“心跳”信息,向名稱節(jié)點(diǎn)報告自己的狀態(tài),名稱節(jié)點(diǎn)會定期檢查這種情況,一旦發(fā)現(xiàn)某個數(shù)據(jù)塊的副本數(shù)量小于冗余因子,就會啟動數(shù)據(jù)冗余復(fù)制,為它生成新的副本。五、HDFS編程實(shí)踐1、列出hdfs文件系統(tǒng)——ls命令hdfsdfs-ls/#列出hdfs文件系統(tǒng)根目錄下的目錄和文件hdfsdfs-ls-R/#列出hdfs文件系統(tǒng)所有的目錄和文件2、創(chuàng)建兩個任意本地文本文件用于實(shí)驗(yàn)echo"helloworld">local.txtecho"hellohadoop">text.txt3、創(chuàng)建用戶工作目錄——mkdir命令hdfsdfs-mkdir<hdfspath>#只能一級一級的建目錄例如:hdfsdfs–mkdir/hdfsdirhdfsdfs-mkdir-p<hdfspath>多級創(chuàng)建的目錄如果父目錄不存在就創(chuàng)建該父目錄例如:hdfsdfs-mkdir-p/user/當(dāng)前用戶名4、檢查文件是否存在hdfsdfs-text/user/56789/text.txthdfsdfs-text<hdsffile>#將文本文件或某些格式的非文本文件通過文本格式輸出5、上傳本地文件到HDFS系統(tǒng)——put命令hdfsdfs-put<localfile/path><hdfspath>hdfsfile的父目錄一定要存在,否則命令不會執(zhí)行6、查看HDFS文件的內(nèi)容——cat命令hdfsdfs-cattext.txt等價于hdfsdfs-testtext.txt7、拷貝HDFS文件到本地——get命令hdfsdfs-get<hdfspath/file><localpath>例如:hdfsdfs–get/hdfsdir/README.txt/opt/localdir8、rm命令hdfsdfs-rm<hdfsfile>...hdfsdfs-rm-r<hdfsdir>...每次可以刪除多個文件或目錄9、getmerge命令hdfsdfs-getmerge<hdfsdir><localfile>將hdfs指定目錄下所有文件排序后合并到local指定的文件中,文件不存在時會自動創(chuàng)建,文件存在時會覆蓋里面的內(nèi)容10、拷貝文件——cp命令hdfsdfs-cp<hdfsfile><hdfsfile>hdfsdfs-cp<hdfsfileordir>...<hdfsdir>11、文件改名——mv命令hdfsdfs-mv<hdfsfile><hdfsfile>hdfsdfs-mv<hdfsfileordir>...<hdfsdir>注意:跨文件系統(tǒng)的移動(local到hdfs或者反過來)都是不允許的12、du命令hdfsdfs-du<hdsfpath>顯示hdfs對應(yīng)路徑下每個文件夾和文件的大小13、tail命令hdfsdfs-tail<hdfsfile>在標(biāo)準(zhǔn)輸出中顯示文件末尾的1KB數(shù)據(jù)14、balancer命令hdfsbalancer如果管理員發(fā)現(xiàn)某些DataNode保存數(shù)據(jù)過多,某些DataNode保存數(shù)據(jù)相對較少,可以使用上述命令手動啟動內(nèi)部的均衡過程15、dfsadmin命令hdfsdfsadmin-help管理員可以通過dfsadmin管理HDFShdfsdfsadmin-report顯示文件系統(tǒng)的基本數(shù)據(jù)六、HBase編程實(shí)踐(1)create:創(chuàng)建表(2)list:列出HBase中所有的表信息例1:創(chuàng)建名稱為tempTable的表,包含3個列族f1,f2和f3(3)put:向表、行、列指定的單元格添加數(shù)據(jù)一次只能為一個表的一行數(shù)據(jù)的一個列添加一個數(shù)據(jù)(4)scan:瀏覽表的相關(guān)信息(5)get:獲得單元格的值(通過表名、行、列、時間戳、時間范圍和版本號來)例2:向tempTable中的第r1行、第“f1:c1”列,添加數(shù)據(jù)值為“hello,dblab”例3:(1)從tempTable中,獲取第r1行、第“f1:c1”列的值(2)從tempTable中,獲取第r1行、第“f1:c3”列的值(6)enable/disable:使表有效或無效(7)drop:刪除表七、總結(jié)1個生態(tài)系統(tǒng):Hadoop1個核心價值:數(shù)據(jù)分析2個關(guān)鍵技術(shù):分布式存儲技術(shù)、分布式處理技術(shù)3個思維轉(zhuǎn)變:整體思維、容錯思維、相關(guān)思維3種云的服務(wù)方式:SaaS,PaaS,IaaS3駕馬車(谷歌Hadoop):GFS、MapReduce和BigTable4個特征:Volume、Variety、Veracity、Value4種計算模式:批處理計算、流計算、圖計算、查詢分析計算4種科學(xué)研究范式:實(shí)驗(yàn)、理論、計算、數(shù)據(jù)4種分析技術(shù):數(shù)據(jù)預(yù)處理、特征工程、數(shù)據(jù)認(rèn)知、數(shù)據(jù)建模5個核心組件:HDFS、HBase、MapReduce、Spark、NoSQL5大數(shù)據(jù)科學(xué)知識體系:云計算、物聯(lián)網(wǎng)、可視化、數(shù)據(jù)思維、領(lǐng)域知識5種大數(shù)據(jù)相關(guān)崗位:平臺運(yùn)維、數(shù)據(jù)分析、算法設(shè)計、產(chǎn)品開發(fā)、數(shù)據(jù)科學(xué)家分布式系統(tǒng)的核心思想是分而治之,用一組計算機(jī)集群通過計算機(jī)網(wǎng)絡(luò)協(xié)作,共同完成任務(wù)。根據(jù)傳統(tǒng)思路,處理復(fù)雜問題的方式是不斷提升計算機(jī)性能,研發(fā)一代更比一代強(qiáng)的“超級計算機(jī)”。而分布式系統(tǒng)則另辟蹊徑,解決問題的方式從“一夫當(dāng)關(guān)、萬夫莫開”演變?yōu)椤叭撕?zhàn)術(shù)”,用一組計算機(jī)集群替換大型機(jī),集群中的每臺機(jī)器處理原問題的一個子集,通過成百上千普通計算機(jī)協(xié)作,實(shí)現(xiàn)與大型機(jī)相同甚至更佳的效果。理解四大大數(shù)據(jù)技術(shù):數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)可視化授課周次第4周授課時間2021年9月23日課程章節(jié)模塊2:大數(shù)據(jù)生態(tài)系統(tǒng)2.2MapReduce編程教學(xué)目的掌握MapReduce編程模型理解HadoopMapReduce原理;理解Yarn/MapReduce內(nèi)容提要及板書設(shè)計2.2MapReduce編程1、MapReduce邏輯結(jié)構(gòu)2、Map與Reduce執(zhí)行3、WordCountMapReduce編程重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):MapReduce邏輯結(jié)構(gòu)難點(diǎn):Map與Reduce執(zhí)行教學(xué)內(nèi)容時間分配序號第4次課教學(xué)后記時間分配1課程導(dǎo)入10′2MapReduce邏輯結(jié)構(gòu)35′3Map與Reduce執(zhí)行30′4WordCountMapReduce編程15′5小結(jié)5′教學(xué)手段第4次課:理論教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)第4次課:P27,一、二作業(yè)完成方式書面()電子(√)教學(xué)后記第4次課:注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計填寫在附頁中。附頁:(第4次)序號具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計)授課改進(jìn)意見及實(shí)時教學(xué)效果記錄新課導(dǎo)入MapReduce是一種分布式計算模型,由兩個階段組成:Map和Reduce,用戶只需實(shí)現(xiàn)map()和reduce()兩個函數(shù),即可實(shí)現(xiàn)分布式計算。比如數(shù)一下圖書館中的所有書。你數(shù)1號書架,我數(shù)2號書架。這就是“Map”。人越多,數(shù)得就越快。把所有人的統(tǒng)計數(shù)加在一起。這就是“Reduce”。新課講解一、MapReduce邏輯結(jié)構(gòu)二、Map與Reduce執(zhí)行三、WordCount本案例為統(tǒng)計readme.txt文檔中詞頻。第一步:準(zhǔn)備文件#hadoopfs-ls/#hadoopfs-mkdir/input#hadoopfs-put/opt/hadoop-2.1.0/README.txt/input#hadoopfs-mv/input/README.txt/input/readme.txt#hadoopfs-ls/input第二步:執(zhí)行mapreduce統(tǒng)計詞頻例子#hadoopjar/opt/hadoop-2.1.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.1.0.jarwordcount/input/outputjar包執(zhí)行成功第三步:輸出經(jīng)過計算后的結(jié)果#hadoopfs-ls/outputFound2items-rw-r--r--3rootsupergroup02018-04-1000:02/output/_SUCCESS-rw-r--r--3rootsupergroup13062018-04-1000:02/output/part-r-00000#hadoopfs-cat/output/part-r-00000readme.txt文檔內(nèi)容不同,可能顯示的信息不同。第四步:將計算結(jié)果導(dǎo)出到本地系統(tǒng)#hadoopfs-get/output/part-r-00000/home/#ls/home/第5次課:新課導(dǎo)入//FlowCountMap類packagecom.ntuedu.log1;publicclassFlowCountMapextendsMapper<LongWritable,Text,Text,FlowBean>{@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringline=value.toString();//讀一行字符串String[]fields=line.split("\t");//分割字段StringphoneNr=fields[1];//獲取電話號碼intlen=fields.length;//獲取字段個數(shù)longupFlow=Long.parseLong(fields[len-3]);//獲取上行流量longdfFolw=Long.parseLong(fields[len-2]);//獲取下行流量context.write(newText(phoneNr),newFlowBean(upFlow,dfFolw));//Map輸出}}publicclassFlowCountReduceextendsReducer<Text,FlowBean,Text,FlowBean>{@Overrideprotectedvoidreduce(Textkey,Iterable<FlowBean>values,Contextcontext)throwsIOException,InterruptedException{//合并相同手機(jī)號longupFlow_sum=0;//初始化上行流量總和longdfFlow_sum=0;//初始化下行流量總和for(FlowBeanv:values){upFlow_sum+=v.getUpFlow();//計算上行流量總和dfFlow_sum+=v.getDfFlow();//計算下行流量總和}FlowBeanrsSum=newFlowBean(upFlow_sum,dfFlow_sum);//獲取想要的字段context.write(key,rsSum);//輸出:手機(jī)號,上行流量,下行流量,總流量}}//FlowBean類publicclassFlowBeanimplementsWritable{privateLongupFlow;privateLongdfFlow;privateLongsumFlow;publicFlowBean(){}publicFlowBean(LongupFlow,LongdfFlow){this.upFlow=upFlow;this.dfFlow=dfFlow;this.sumFlow=upFlow+dfFlow;}publicLonggetUpFlow(){returnupFlow;}publicvoidsetUpFlow(LongupFlow){this.upFlow=upFlow;}publicLonggetDfFlow(){returndfFlow;}publicvoidsetDfFlow(LongdfFlow){this.dfFlow=dfFlow;}publicLonggetSumFlow(){returnsumFlow;}publicvoidsetSumFlow(LongsumFlow){this.sumFlow=sumFlow;}publicvoidwrite(DataOutputout)throwsIOException{out.writeLong(upFlow);out.writeLong(dfFlow);out.writeLong(sumFlow);}publicvoidreadFields(DataInputin)throwsIOException{upFlow=in.readLong();dfFlow=in.readLong();sumFlow=in.readLong();}publicStringtoString(){returnupFlow+"\t"+dfFlow+"\t"+sumFlow;}}//驅(qū)動類FlowCountDrive publicclassFlowCountDrive{publicstaticvoidmain(String[]args)throwsIOException,ClassNotFoundException,InterruptedException{Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf);job.setJarByClass(FlowCountDrive.class);//關(guān)聯(lián)驅(qū)動類job.setMapperClass(FlowCountMap.class);//關(guān)聯(lián)Map類job.setReducerClass(FlowCountReduce.class);//關(guān)聯(lián)Reduce類job.setMapOutputKeyClass(Text.class);//Map輸出類型job.setMapOutputValueClass(FlowBean.class);job.setOutputKeyClass(Text.class);//ReducE輸出類型job.setOutputValueClass(FlowBean.class);//job.setPartitionerClass(PhonePartation.class);//關(guān)聯(lián)分區(qū)類//job.setNumReduceTasks(5);//指定分區(qū)個數(shù)FileInputFormat.setInputPaths(job,newPath("/usr/flow/in"));//輸入文件路徑FileOutputFormat.setOutputPath(job,newPath("/usr/flow/out1"));//輸出文件路徑booleanrs=job.waitForCompletion(true);//成功/失敗標(biāo)志System.exit(rs?0:1);}}授課周次第5周授課時間2021年9月30日課程章節(jié)模塊3:大數(shù)據(jù)采集與預(yù)處理3.1數(shù)據(jù)3.2數(shù)據(jù)采集3.3數(shù)據(jù)清洗教學(xué)目的1、了解數(shù)據(jù)類型;2、了解數(shù)據(jù)采集分類3、掌握數(shù)據(jù)清洗的方法;4、掌握數(shù)據(jù)變換常用方法1第7次課:第3章大數(shù)據(jù)采集與預(yù)處理3.1數(shù)據(jù)1、數(shù)據(jù)定義、分類、度量3.2數(shù)據(jù)采集2、數(shù)據(jù)采集分類、方法、工具3.3數(shù)據(jù)清洗1、數(shù)據(jù)清洗任務(wù);2、數(shù)據(jù)清洗過程;3、基于R的數(shù)據(jù)清洗重點(diǎn)、難點(diǎn)及解決方案第5次課:重點(diǎn):數(shù)據(jù)清洗概念難點(diǎn):數(shù)據(jù)清洗操作教學(xué)內(nèi)容時間分配序號第5次教學(xué)環(huán)節(jié)時間分配1課程導(dǎo)入52數(shù)據(jù)定義、分類、度量303數(shù)據(jù)采集分類、方法、工具254缺失值、異常值、重復(fù)值處理255小結(jié)5教學(xué)手段第5次課:上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)()作業(yè)第5次課:p39:二作業(yè)完成方式書面(√)電子(√)教學(xué)后記第5次課:注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計填寫在附頁中。附頁:(第5次)序號具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計)授課改進(jìn)意見及實(shí)時教學(xué)效果記錄第5次課:導(dǎo)入新課大數(shù)據(jù)采集與預(yù)處理是大數(shù)據(jù)處理流程第一步,主要指網(wǎng)絡(luò)爬蟲和ETL技術(shù)。ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。在ETL三個部分中,花費(fèi)時間最長的是“T”(Transform,清洗、轉(zhuǎn)換)的部分,一般情況下,這部分工作量是整個ETL的2/3。ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后,進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘提供決策支持的數(shù)據(jù)。新課講解一、數(shù)據(jù)定義數(shù)據(jù)不僅僅是數(shù)字,它描繪了現(xiàn)實(shí)的世界,與照片捕捉了瞬間的情景一樣,數(shù)據(jù)是現(xiàn)實(shí)世界的一個快照。數(shù)據(jù)是對我們所研究現(xiàn)象的屬性和特征的具體描述。二、數(shù)據(jù)分類類型含義本質(zhì)舉例技術(shù)結(jié)構(gòu)化數(shù)據(jù)直接可以用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)先有結(jié)構(gòu),后有管理數(shù)字、符號、表格SQL非結(jié)構(gòu)化數(shù)據(jù)無法用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)難以發(fā)現(xiàn)同一的結(jié)構(gòu)語音、圖像、文本NOsql,NewSql,云技術(shù)半結(jié)構(gòu)化數(shù)據(jù)經(jīng)過轉(zhuǎn)換用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)先有數(shù)據(jù),后有結(jié)構(gòu)HTML、XMLRDF、OWL三、度量和維度(1)維度和度量是可以轉(zhuǎn)換的。比如要看“年齡”的平均數(shù),這里的“年齡”就是度量,要看19歲用戶的訂單情況,這里的“年齡”就是維度。對于一個數(shù)據(jù)項而言,到底它是維度還是度量,是根據(jù)用戶的需求而定的。(2)維度可以衍生出新的維度和度量,比如用“地區(qū)”維度衍生出一個大區(qū)維度,“北京”、“天津”都對應(yīng)“華北大區(qū)”,或者用“年齡”維度衍生出一個年齡范圍維度,20到29歲=“青年人”,30到39歲=“中年人”,40到49歲=“資深中年人”。再比如上述的平均年齡,就是用“年齡”維度衍生出一個度量。(3)度量也可以衍生出新的維度和度量,比如用“訂單金額”度量衍生出一個金額范圍維度,100元以下對應(yīng)“小額訂單”,500元以上對應(yīng)“大額訂單”等等。再比如用“收入”度量和“成本”度量相減,可以得到一個“利潤”度量。四、數(shù)據(jù)采集分類數(shù)據(jù)采集(DAQ),又稱數(shù)據(jù)獲取,是指從傳感器、網(wǎng)站和其它待測設(shè)備等模擬和數(shù)字被測單元中自動采集信息的過程。(1)按采集頻率分:靜態(tài)數(shù)據(jù)采集、低頻數(shù)據(jù)采集、高頻數(shù)據(jù)采集。(2)按采集結(jié)構(gòu)分:結(jié)構(gòu)化數(shù)據(jù)采集、半結(jié)構(gòu)化數(shù)據(jù)采集、非結(jié)構(gòu)化數(shù)據(jù)采集。(3)按采集方式分:定時采集、實(shí)時采集。五、數(shù)據(jù)采集方法(1)系統(tǒng)日志采集方法?(2)網(wǎng)絡(luò)數(shù)據(jù)采集方法??(3)數(shù)據(jù)庫采集系統(tǒng)六、數(shù)據(jù)采集工具??(1)Flume?(2)Kafka(3)Sqoop七、數(shù)據(jù)清洗任務(wù)數(shù)據(jù)清理主要任務(wù)是通過識別缺失值、噪聲數(shù)據(jù)、不一致數(shù)據(jù)和重復(fù)數(shù)據(jù)來“清理臟數(shù)據(jù)”,通過數(shù)據(jù)清洗為大數(shù)據(jù)分析接下來的步驟提供高質(zhì)量的數(shù)據(jù),使分析結(jié)果更客觀、更可靠。八、數(shù)據(jù)清洗過程九、R語言十、基于R語言的數(shù)據(jù)清洗授課周次第6周授課時間2021年10月6日課程章節(jié)模塊3:大數(shù)據(jù)管理3.1NoSQL3.2HBase教學(xué)目的理解NoSQL的四種類型內(nèi)容提要及板書設(shè)計1、NoSQL概述2、鍵值對3、四種NoSQL重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):列式數(shù)據(jù)庫難點(diǎn):NoSQL教學(xué)內(nèi)容時間分配序號時間分配1課程導(dǎo)入5′2NoSQL概述153鍵值對254四種NoSQL405小結(jié)5教學(xué)手段理論上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)()理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)自擬作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計填寫在附頁中。附頁:(第6次)序號具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計)授課改進(jìn)意見及實(shí)時教學(xué)效果記錄新課導(dǎo)入HDFS存儲的數(shù)據(jù)是沒有結(jié)構(gòu)的,但實(shí)際應(yīng)用需要把無結(jié)構(gòu)的數(shù)據(jù)轉(zhuǎn)換為有結(jié)構(gòu)的。今天講的HBase就是一種針對大數(shù)據(jù)設(shè)計的有結(jié)構(gòu)的NoSQL數(shù)據(jù)庫。新課講解一、NoSQL概述1、NoSQL數(shù)據(jù)庫特點(diǎn):(1)靈活的可擴(kuò)展性(2)與云計算緊密融合2、NoSQL3、常見NoSQL數(shù)據(jù)庫DynamoDBDynamoDB(3)I/O設(shè)備接口授課周次第7周授課時間2021年10月13日課程章節(jié)模塊3:大數(shù)據(jù)管理3.2HBase教學(xué)目的掌握HBase基本操作內(nèi)容提要及板書設(shè)計1、HBase結(jié)構(gòu)2、HBase工作原理3、HBase表操作重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):HBase操作難點(diǎn):Hbase結(jié)構(gòu)教學(xué)內(nèi)容時間分配序號時間分配時間分配1課程導(dǎo)入5′2HBase結(jié)構(gòu)103HBase工作原理204HBase基本操作505小結(jié)5教學(xué)手段理論上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)實(shí)驗(yàn)報告4作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計填寫在附頁中。附頁:(第7次)序號具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計)授課改進(jìn)意見及實(shí)時教學(xué)效果記錄一、HBase1、對三駕馬車的改造2、HBase描述HBase是一個高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫,是谷歌BigTable的開源實(shí)現(xiàn),主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 武漢城市學(xué)院《含油氣盆地沉積學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度ktv包間租賃與經(jīng)營管理合同3篇
- 二零二五年度智慧醫(yī)療信息化建設(shè)合同6篇
- 二零二五年度校園內(nèi)快遞配送單位食品安全快速檢測設(shè)備升級合同3篇
- E省教育局辦公室復(fù)印紙直采協(xié)議(2024版)版B版
- 2024甲乙雙方關(guān)于新能源技術(shù)研發(fā)的獨(dú)家委托合同
- 二零二五年度物流配送監(jiān)事聘任與效率優(yōu)化合同3篇
- 天津城建大學(xué)《東西智慧與管理實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 太原城市職業(yè)技術(shù)學(xué)院《機(jī)電系統(tǒng)動力學(xué)建模與仿真》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度純凈飲用水品牌重塑與營銷推廣合同3篇
- 浙江省安全員C證考試題庫及答案(推薦)
- 《文化苦旅》讀書分享 PPT
- 氧化鋁生產(chǎn)工藝教學(xué)拜耳法
- 2023年十八項醫(yī)療核心制度考試題與答案
- 氣管切開患者氣道濕化的護(hù)理進(jìn)展資料 氣管切開患者氣道濕化
- 管理模板:某跨境電商企業(yè)組織結(jié)構(gòu)及部門職責(zé)
- 底架總組裝工藝指導(dǎo)書
- 簡單臨時工勞動合同模板(3篇)
- 聚酯合成反應(yīng)動力學(xué)
- 上海科技大學(xué),面試
- 《五年級奧數(shù)總復(fù)習(xí)》精編課件
評論
0/150
提交評論