《應用多元統(tǒng)計分析》課程教學大綱_第1頁
《應用多元統(tǒng)計分析》課程教學大綱_第2頁
《應用多元統(tǒng)計分析》課程教學大綱_第3頁
《應用多元統(tǒng)計分析》課程教學大綱_第4頁
《應用多元統(tǒng)計分析》課程教學大綱_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《應用多元統(tǒng)計分析》教學大綱課程名稱:應用多元統(tǒng)計分析課程編號:F094092621英文名稱:Appliedmultivariatestatisticalanalysis學時:48學時 學分:3學分開課學期:第5學期適用專業(yè):數據科學與大數據專業(yè)課程類別:理論課課程性質:專業(yè)核心課先修課程:高等數學、線性代數、數據科學與大數據技術導論、數據采集與清洗、Python程序設計、概率論基礎、數理統(tǒng)計一、課程的性質及任務《應用多元統(tǒng)計分析》課程是數據科學與大數據技術專業(yè)學生的一門專業(yè)核心課,是培養(yǎng)大數據科學技術人才整體知識結構的重要組成部分。通過本課程的學習,使學生能夠了解多元統(tǒng)計分析在數據分析結構中的地位與作用;了解常見的數據類型;了解常見的數據分布與統(tǒng)計檢驗方法;能夠理解多元正態(tài)分布中均值向量、協方差矩陣的意義,并掌握參數估計的計算方法;能夠理解有監(jiān)督學習與無監(jiān)督學習的區(qū)別;能夠應用線性降維方法對多指標數據進行降維,并進行后續(xù)的分類、評價等分析;能夠應用對應分析方法對調查數據中的產品作定位分析、客戶畫像分析等;能夠應用回歸分析對影響因素重要性作分析,對研究問題的未來趨勢作預測并為決策提供理論依據;具備綜合應用多元統(tǒng)計分析中的分類方法、降維方法、相關方法等分析、解決各種多指標數據問題的能力。依據河北工程大學數據科學與大數據專業(yè)培養(yǎng)計劃,本課程需要培養(yǎng)學生的能力是:能夠基于數據科學與大數據技術原理,通過文獻研究或相關方法,調研和分析大數據應用領域復雜工程問題的解決方案(畢業(yè)要求指標4-1)能夠主動與其他學科背景的成員合作開展工作(畢業(yè)要求指標9-2)能及時跟蹤大數據及相關行業(yè)發(fā)展狀況,并就當前的熱點問題發(fā)表自己的見解(畢業(yè)要求指標10-1)具有良好的表達能力和專業(yè)的描述方式,能夠與業(yè)界同行及社會公眾進行準確、高效的溝通和交流(畢業(yè)要求指標10-2)能夠在大數據工程實踐和研究活動中根據需要撰寫工作報告、設計文檔,以及口頭匯報、演講、談判等(畢業(yè)要求指標10-4)二、課程目標與要求2.1課程目標培養(yǎng)學生正確的人生觀、價值觀,厚置學生愛國情懷。能理解數據類型,理解數據分布形態(tài)。能理解多元正態(tài)分布中總體參數的定義、幾何意義、計算方法。能理解統(tǒng)計檢驗的思想,掌握統(tǒng)計檢驗的方法。掌握常用的多元統(tǒng)計分析方法的基本理論和實現方法,能夠利用所學的統(tǒng)計分析方法分析實際經濟社會、工程管理等領域案例,為其就業(yè)與繼續(xù)深造打下必要而有用的基礎。突出專業(yè)能力培養(yǎng)要求,使學生熟練掌握多元統(tǒng)計分析的常用方法,使學生具備一定的分析數據,處理數據和分析寫作能力,為今后從事數據分析相關的工作打下良好的專業(yè)基礎。提升學生的數據分析的科學素養(yǎng),培養(yǎng)學生實事求是、科學創(chuàng)新、團結協作及吃苦耐勞的精神,奠定學生從事統(tǒng)計相關專業(yè)可持續(xù)發(fā)展的基礎。提升學生實際動手能力,培養(yǎng)學生分析問題,解決問題,算法設計,科學創(chuàng)新精神,適應大數據時代和數字經濟時代對人才的需求。

應用多元統(tǒng)計分析課程教學大綱PAGE16PAGE152.2課程目標與畢業(yè)要求對應關系課程目標畢業(yè)要求二級指標畢業(yè)要求12345678●●●●4-2能夠針對智能信息系統(tǒng)設計、大數據技術應用等大數據應用領域的復雜工程問題設計實驗方案、構建實驗系統(tǒng)和測試平臺、獲得實驗結果4.工程技術研究能力:能夠基于數據科學與大數據技術原理并采用科學方法對大數據應用領域的復雜工程問題進行研究,包括設計實驗、分析與解釋數據、并通過信息綜合得到合理有效的結論。●●9-2能夠主動與其他學科背景的成員合作開展工作9.個人和團隊:具有健康的體魄和良好的綜合素質,能夠正確理解多學科背景下團隊中個體、團隊成員以及負責人的角色,并承擔其責任與義務●10-1能及時跟蹤大數據及相關行業(yè)發(fā)展狀況,并就當前的熱點問題發(fā)表自己的見解10.溝通與交流:具有溝通的能力、方法和技巧,能夠就大數據應用領域的復雜工程問題與業(yè)界同行及社會公眾進行有效溝通和交流,包括撰寫報告及設計文稿,清晰表達和答辯;并具備一定的國際視野,能夠在跨文化背景下進行溝通和交流?!瘛瘛?0-2具有良好的表達能力和專業(yè)的描述方式,能夠與業(yè)界同行及社會公眾進行準確、高效的溝通和交流●10-4能夠在大數據工程實踐和研究活動中根據需要撰寫工作報告、設計文檔,以及口頭匯報、演講、談判等2.3課程目標與培養(yǎng)環(huán)節(jié)對應矩陣序號課程目標理論教學課內實驗課后作業(yè)1培養(yǎng)學生正確的人生觀、價值觀,厚置學生愛國情懷。H2能理解數據類型,理解數據分布形態(tài)。HL3能理解多元正態(tài)分布中總體參數的定義、幾何意義、計算方法。HL4能理解統(tǒng)計檢驗的思想,掌握統(tǒng)計檢驗的方法。HL5掌握常用的多元統(tǒng)計分析方法的基本理論和實現方法,能夠利用所學的統(tǒng)計分析方法分析實際經濟社會、工程管理等領域案例,為其就業(yè)與繼續(xù)深造打下必要而有用的基礎。HML6突出專業(yè)能力培養(yǎng)要求,使學生熟練掌握多元統(tǒng)計分析的常用方法,使學生具備一定的分析數據,處理數據和分析寫作能力,為今后從事數據分析相關的工作打下良好的專業(yè)基礎。HMM7提升學生的數據分析科學素養(yǎng),培養(yǎng)學生實事求是、科學創(chuàng)新、團結協作及吃苦耐勞的精神,奠定學生從事統(tǒng)計相關專業(yè)可持續(xù)發(fā)展的基礎。HMM8提升學生實際動手能力,培養(yǎng)學生分析問題,解決問題,算法設計,科學創(chuàng)新精神,適應大數據時代和數字經濟時代對人才的需求。HHL注:H表示該能力的在此環(huán)節(jié)重點培養(yǎng);M表示該能力在此環(huán)節(jié)有應用要求;L表示該能力在此環(huán)節(jié)有所涉及。分布式存儲與計算課程教學大綱PAGE2PAGE12.4目標達成度的評價課程目標1主要通過教師的言傳身教,在學生日常行為中有所涉及。主要通過課堂討論、課后交流、實驗報告的進行考核。目標達成綜合以上內容進行評價。課程目標2、3、4、5主要通過理論教學環(huán)節(jié)進行培養(yǎng),在課后作業(yè)中有所涉及。主要通過課堂測試、課后作業(yè)和期末考試中概念性、原理性題目進行考核。目標達成綜合以上內容進行評價。課程目標6主要通過理論教學環(huán)節(jié)、課后作業(yè)進行培養(yǎng),在課后作業(yè)和課內實驗中有應用要求。主要通過課堂測試,課后作業(yè)和期末考試中對多元數據分析原理、思想、數學模型、算法設計等進行考核,在實驗中體現為能根據實驗目的對實驗數據進行綜合分析。目標達成綜合以上內容進行評價。課程目標7主要通過理論教學環(huán)節(jié)進行培養(yǎng),在課后作業(yè)和課內實驗中有應用要求。主要通過課堂測試、課后作業(yè)中參數計算、性質分析等題目進行考核,在實驗報告中體現為能給出符合要求的數值化結果、圖形化表示等。目標達成綜合以上內容進行評價。課程目標8主要通過課內實驗培養(yǎng),在課后作業(yè)中有所涉及。在課后作業(yè)中體現為能夠按照要求完成算法設計;在實驗報告中要對實驗過程進行描述、對實驗數據的處理與解釋、對實驗結果的評價結論。目標達成綜合以上內容進行評價。三、教學方法及手段理論教學以課堂講授為主,面向基礎知識的準確、扎實掌握,突出對原理的分析、對方法的總結以及理論體系的完整建立;理論教學強調將各種數據分析方法與工程管理中的實際情況緊密聯系,面向知識的實際應用;理論教學注重本課程與線性代數、數據科學與大數據技術導論、數據采集與清洗、Python程序設計、概率論基礎、數理統(tǒng)計等先修課程的聯系,以工程管理中的數據問題作為本課程知識的應用背景,結合多元數據分析原理的相關理論解釋本課程的有關概念和原理,基于數據分析的基礎知識掌握多元數據分析、算法設計與實驗設計。理論教學與課內練習相結合,進行多元數據分析的應用與訓練。課程強調學生的自主學習,強調通過自學的方式消化、吸收課程的龐大知識量,并在此基礎上舉一反三。四、課程的基本內容與教學要求第1章緒論[教學目的與要求]:了解多元統(tǒng)計學的發(fā)展過程和現狀,了解多元統(tǒng)計分析的學習內容及應用背景,掌握常見的數據類型及其分類依據,掌握常見的數據預處理方法,掌握矩陣特征值、特征向量的計算方法及其幾何意義。[本章主要內容]:1.1多元統(tǒng)計學(支撐課程目標1)1.2數據預處理(支撐課程目標2)1.3矩陣譜理論(支撐課程目標1)[本章重點]:數據類型及分類依據。數據預處理方法。矩陣特征值、特征向量。[本章難點]:數據類型的分類及轉化。第2章多元正態(tài)分布[教學目的與要求]:了解數據分布類型及其意義,掌握多元正態(tài)分布的概念、參數性質、參數幾何意義、參數的估計方法。[本章主要內容]:2.1正態(tài)分布(支撐課程目標3)2.2總體參數性質(支撐課程目標3)2.3參數估計(支撐課程目標3)[本章重點]:多指標問題、統(tǒng)計向量。多元數據分布類型。多元正態(tài)分布定義。均值向量、協方差、協方差矩陣、相關系數。獨立性與相關性??傮w均值、總體方差、相關矩陣的性質及計算。總體參數估計。協方差、相關系數的幾何意義與應用。多元數據預處理方法。[本章難點]:協方差的計算與幾何意義。相關系數的計算與幾何意義。相關與獨立的關系。第3章分布與檢驗[教學目的與要求]:了解常見的統(tǒng)計量分布類型,掌握假設檢驗的思想和方法,掌握均值向量的假設檢驗思想和方法,掌握協方差矩陣的假設檢驗思想和方法,掌握常見統(tǒng)計檢驗方法,能夠根據數據類型選擇檢驗方法。[本章主要內容]:3.1抽樣分布(支撐課程目標4)3.2均值向量的檢驗(支撐課程目標4)3.3協方差矩陣的檢驗(支撐課程目標4)3.4統(tǒng)計檢驗(支撐課程目標4)[本章重點]:統(tǒng)計量的分布。假設檢驗的思想。假設檢驗的步驟。假設檢驗的解讀。均值向量檢驗。協方差矩陣檢驗。統(tǒng)計檢驗。[本章難點]:統(tǒng)計分布。統(tǒng)計檢驗。第4章聚類分析[教學目的與要求]:了解聚類分析的思想、原理、背景及應用領域,了解聚類分析的研究目的和分析方法,掌握樣品距離和指標距離的判定方法及異同點,掌握歐式距離與馬氏距離的異同,掌握5種類間距的定義,掌握樹狀圖與冰柱圖的含義,掌握系統(tǒng)聚類法、K-均值聚類法的原理與方法。[本章主要內容]:4.1聚類分析(支撐課程目標1、5)4.2距離和相似性度量(支撐課程目標5、6、7)4.3系統(tǒng)聚類法(支撐課程目標5、6、7、8)4.4K-均值聚類法(支撐課程目標5、6、7、8)[本章重點]:距離和相似度。歐氏距離與馬氏距離。Pearson相關、Spearman相關、Kendall相關。樹狀圖和冰柱圖。五種類間距。六種聚類法。系統(tǒng)聚類法。K-均值聚類法。[本章難點]:樣品距離和類間距離。距離和相似性。系統(tǒng)聚類。第5章判別分析[教學目的與要求]:了解有監(jiān)督學習與無監(jiān)督學習,了解有監(jiān)督判別與無監(jiān)督判別,了解常用的判別分析方法,了解常見的機器學習算法,掌握距離判別法、貝葉斯判別法、Fisher判別法、線性判別法。[本章主要內容]:5.1距離判別(支撐課程目標5、6、7、8)5.2貝葉斯判別(支撐課程目標5、6、7、8)5.3Fisher判別(支撐課程目標5、6、7、8)5.4線性判別(支撐課程目標5、6、7、8)[本章重點]:監(jiān)督判別與無監(jiān)督判別。距離判別。Bayes最大后驗準則。Bayes最小誤判準則。Fisher判別。線性判別。[本章難點]:Bayes最大后驗準則。Bayes最小誤判準則。Fisher判別。第6章主成份分析[教學目的與要求]:了解主成份分析的思想、數學原理,掌握由協方差矩陣、相關矩陣求主成份的數學模型,掌握主成份分析的性質,掌握主成份評價的方法。[本章主要內容]:6.1主成份模型(支撐課程目標5、6、7、8)6.2主成份性質(支撐課程目標5、6、7、8)6.3主成份評價(支撐課程目標5、6、7、8)[本章重點]:主成份分析思想。主成份分析數學原理。主成份分析數學模型。主成份分析性質。主成份評價。[本章難點]:數學原理。數學模型。性質及應用。第7章因子分析[教學目的與要求]:了解因子分析的思想、數學原理,掌握因子分析的數學模型,掌握因子分析的性質,掌握因子評價的方法。[本章主要內容]:6.1因子分析模型(支撐課程目標5、6、7、8)6.2因子分析步驟(支撐課程目標5、6、7、8)[本章重點]:1.因子分析與主成份分析異同。2.因子分析數學原理。3.因子分析數學模型。4.影響分析性質。5.因子評價。[本章難點]:1.數學原理。2.數學模型。3.性質及應用。五、課內實驗5.1本課程實驗教學的地位和作用多元統(tǒng)計實驗是鞏固和擴展課程理論知識的必要環(huán)節(jié)。理解統(tǒng)計數據指標類型。掌握統(tǒng)計數據預處理方法。能夠應用Python函數庫或者編程分析統(tǒng)計數據。能根據實驗目的對實驗數據作聚類分析、判別分析、主成份分析、因子分析。通過實驗提高學生應用多元統(tǒng)計分析方法解決統(tǒng)計數據分析問題的能力,鍛煉學生分析問題、解決問題、實驗設計、程序設計以及撰寫實驗報告的能力。5.2教學基本要求通過實驗預習及設計,理解多元統(tǒng)計數據分析的基本原理和一般實驗設計準則,能夠熟練應用Python軟件,為實驗的順利開展奠定基礎。根據聚類分析、判別分析、主成份分析、因子分析的原理和數學模型,調用Python函數或編程處理多元統(tǒng)計數據的分類、降維、評價等問題,能夠根據實驗目的分析實驗結果,并根據實驗結果撰寫實驗報告。5.3實驗內容及要求大綱基本內容包括四個實驗項目,在16個學時內完成。實驗一聚類分析通過實驗讓學生掌握系統(tǒng)聚類、K-均值聚類的實驗過程,實驗結果的解讀,實驗目的的分析,實驗報告的撰寫。培養(yǎng)學生分析數據、處理數據、解讀數據的能力。要求學生課前預習實驗指導書,根據實驗指導書提供的數據背景知識并參考課程所用教材完成實驗過程模擬,實現相應理論知識的理解。指導教師為學生提供實驗數據,具體實驗步驟和結果分析、處理由學生獨立完成。實驗內容要求如下:課前預習內容:系統(tǒng)聚類的原理與步驟。樹狀圖與冰柱圖的意義。K-均值聚類的步驟。類的判別方法。實驗內容:根據提供的實驗數據,應用Python軟件,通過調用函數或編程應用系統(tǒng)聚類和K-均值聚類方法實現對樣品數據的分類,通過冰柱圖、樹狀圖解讀分類過程,根據研究目的選擇分類數,實現對實驗數據的分類。實驗要求:能夠熟練使用Python軟件,能夠理解實驗目的、讀懂實驗數據,能夠將實驗結果可視化,通過對實驗結果的解讀,實現對樣品數據的分類,并根據實驗目的、實驗要求撰寫實驗報告。實驗二判別分析通過實驗讓學生掌握距離判別、貝葉斯判別、Fisher判別、線性判別的實驗過程,實驗結果的解讀,實驗目的的分析,實驗報告的撰寫。培養(yǎng)學生分析數據、處理數據、解讀數據的能力。要求學生課前預習實驗指導書,根據實驗指導書提供的數據背景知識并參考課程所用教材完成實驗過程模擬,實現相應理論知識的理解。指導教師為學生提供實驗數據,具體實驗步驟和結果分析、處理由學生獨立完成。實驗內容要求如下:課前預習內容:判別分析的思想。距離判別的實現過程。貝葉斯最大后驗準則和最小誤判準則。Fisher判別準則線性判別準則。實驗內容:根據提供的實驗數據,應用Python軟件,通過調用函數或編程應用距離判別、貝葉斯判別、Fisher判別、線性判別方法實現對樣品數據的分類,根據研究目的實驗對樣品數據的分類。實驗要求:能夠熟練使用Python軟件,能夠理解實驗目的、讀懂實驗數據,能夠將實驗結果可視化,通過對實驗結果的解讀,實現對樣品數據的分類,并根據實驗目的、實驗要求撰寫實驗報告。實驗三主成份分析通過實驗讓學生掌握主成份降維、主成份評價的實驗過程,實驗結果的解讀,實驗目的的分析,實驗報告的撰寫。培養(yǎng)學生分析數據、處理數據、解讀數據的能力。要求學生課前預習實驗指導書,根據實驗指導書提供的數據背景知識并參考課程所用教材完成實驗過程模擬,實現相應理論知識的理解。指導教師為學生提供實驗數據,具體實驗步驟和結果分析、處理由學生獨立完成。實驗內容要求如下:課前預習內容:主成份分析的原理與步驟。碎石圖意義。方差表的意義。成分矩陣。實驗內容:根據提供的實驗數據,應用Python軟件,通過調用函數或編程應用主成份降維、主成份評價方法實現對指標數據的降維,對樣品數據的排序,通過碎石圖、方差表、成分矩陣解讀,實現對數據降維與評價的目的。實驗要求:能夠熟練使用Python軟件,能夠理解實驗目的、讀懂實驗數據,能夠將實驗結果可視化,通過對實驗結果的解讀,實現數據降維與評價,并根據實驗目的、實驗要求撰寫實驗報告。實驗四因子分析通過實驗讓學生掌握因子分析、因子評價的實驗過程,實驗結果的解讀,實驗目的的分析,實驗報告的撰寫。培養(yǎng)學生分析數據、處理數據、解讀數據的能力。要求學生課前預習實驗指導書,根據實驗指導書提供的數據背景知識并參考課程所用教材完成實驗過程模擬,實現相應理論知識的理解。指導教師為學生提供實驗數據,具體實驗步驟和結果分析、處理由學生獨立完成。實驗內容要求如下:課前預習內容:因子分析的原理與步驟。因子載荷意義。成分矩陣。旋轉成分矩陣。實驗內容:根據提供的實驗數據,應用Python軟件,通過調用函數或編程應用因子降維、因子評價方法實現對指標數據的降維,對樣品數據的排序,通過碎石圖、方差表、成分矩陣、旋轉成分矩陣解讀,實現對數據降維與評價的目的。實驗要求:能夠熟練使用Python軟件,能夠理解實驗目的、讀懂實驗數據,能夠將實驗結果可視化,通過對實驗結果的解讀,實現數據降維與評價,并根據實驗目的、實驗要求撰寫實驗報告。5.4教學文件及教學形式教學文件:自編《多元統(tǒng)計分析實驗指導書》。教學形式主要包括:預習、課堂指導與實驗操作、撰寫實驗報告。實驗報告學生自擬。實驗報告包括:實驗名稱、實驗目的及要求、實驗描述及實驗過程、實驗結果及解釋、總結及評價,要有完整的實驗數據、實驗過程、實驗結果、算法程序,用圖表表示的實驗結果,以理論聯系實際為出發(fā)點,解讀實驗結果,總結實驗中出現的問題及解決方法。5.5實驗項目及學時分配序號實驗項目實驗學時實驗類型實驗類別實驗性質1系統(tǒng)聚類2驗證專業(yè)必修2K-均值聚類2驗證專業(yè)必修3距離判別、2驗證專業(yè)必修4Fisher判別2驗證專業(yè)必修5貝葉斯判別2驗證專業(yè)必修6主成份分析2驗證專業(yè)必修7因子分析2驗證專業(yè)必修8綜合評價2驗證專業(yè)必修5.6本課程實驗用到的儀器設備及儀表電腦、Python軟件。六、課程學時分配教學課次教學內容教學環(huán)節(jié)與計劃時數教學環(huán)節(jié)計劃時數1緒論理論課22正態(tài)分布理論課23總體參數理論課24參數估計理論課25抽樣分布理論課26均值向量檢驗、協方差檢驗理論課27統(tǒng)計檢驗理論課28聚類分析、距離和相似性度量理論課29系統(tǒng)聚類理論課210K-均值聚類理論課211距離判別、貝葉斯判別理論課212Fisher判別、線性判別理論課213主成份模型理論課214主成份性質與評價理論課215因子分析模型理論課216因子分析步驟理論課217實驗一聚類分析實驗課418實驗二判別分析實驗課419實驗三主成份分析實驗課420實驗四因子分析實驗課4七、課程考核與成績評定7.1考核方式考核環(huán)節(jié)包括課程學習過程考核和期末考試,其中課程過程考核占總成績的40%,分別由課堂表現、課后作業(yè)、實驗情況進行評定;期末考試成績占總成績的60%。各環(huán)節(jié)的比重如下。考核環(huán)節(jié)比重合計過程考核(平時成績)課堂表現10%50%作業(yè)10%實驗30%期末成績期末測試50%50%總計100%100%7.2考核內容及要求本課程為考試課。考核內容及分值分配如下。考核方式考核內容分值課程目標總分值期末考試50%數據類型與數據預處理2~4目標2100分聚類分析的思想2~5目標1判別分析的思想5~15目標1主成份分析的思想5~15目標1因子分析的思想5~10目標1信均值向量、協方差矩陣的計算10~20目標2、3、4、5聚類、判別的性質5~15目標5、6、7、8主成份與因子的性質15~30目標5、6、7、8過程考核50%課堂表現課堂測試、出勤情況10目標1、2、3、4、5、6、7、810分課后作業(yè)作業(yè)完成情況10目標2、3、4、6、7、810分實驗實驗出勤、算法設計及實驗報告30目標5、6、7、8100分7.3成績評定1.課堂表現課堂表現總分10分,由課堂測試與課堂出勤情況評定。其中,課堂測試滿分5分,以客觀題(填空、選擇、判斷)為主,每學期隨堂測試10~20次,每次測試1~2道題目,每答錯一道題目扣0.5分(直到扣滿5分為止);課堂出勤滿分5分,缺勤一次扣1分,遲到或請假扣0.5分。2.課后作業(yè)課后作業(yè)總分10分,由作業(yè)完成情況評定。每學期布置作業(yè)5次,每次作業(yè)占2分,評分標準如下;評分標準分值標準描述課后作業(yè)2能夠按時認真完成作業(yè)、作業(yè)態(tài)度認真、書寫清楚、分析計算正確。1.5能夠按時完成作業(yè)、作業(yè)態(tài)度較好、書寫清楚、分析計算基本正確1能夠按時完成作業(yè)、作業(yè)態(tài)度一般、書寫清楚、分析計算錯誤較多0.5能夠按時完成作業(yè)、作業(yè)態(tài)度一般、書寫不清楚、分析計算錯誤較多0不交作業(yè)或作業(yè)態(tài)度不認真、抄襲他人作業(yè)3.實驗成績實驗成績占所學課程的30%,即30分。根據學生的實驗表現及實驗報告結果,進行綜合評定。具體評分標準如下表所示。評分標準分值標準描述實驗表現(10)10無遲到、早退現象,態(tài)度端正,積極回答問題。8無遲到、早退現象,實驗過程相對認真,但不積極回答問題。6無遲到、早退現象,實驗過程不認真。4有遲到、早退現象,實驗過程不認真。2有遲到、早退現象,實驗過程不動手,渾水摸魚0曠課實驗報告(20)10有完整正確的實驗原理圖,實驗過程敘述內容完整,正確的實驗數據,圖表清晰合理,結論正確,書寫認真。15有實驗原理圖,實驗過程敘述內容較完整,正確的實驗數據,圖表清晰較合理,結論正確,書寫較認真。10實驗過程敘述內容較完整,實驗數據略有錯誤,圖表不夠清晰,結論不準確,書寫不夠認真。5實驗過程敘述內容較完整,實驗數據有錯誤,沒有圖表,無結論分析,書寫不夠認真。0沒有提交實驗報告。4.期末考試采用閉卷考試形式進行,期末成績?yōu)榘俜种?,計入總成績時乘以50%,由教務處安排考試流程,考試內容須覆蓋支撐全部畢業(yè)要求指標的授課內容,考試完成后在綜合教務系統(tǒng)中按照設定的占比系數錄入成績。八、課程評價與持續(xù)改進8.1課程評價課程評價周期定為每1年評價一次。設置達成情況目標值,采用成績分析法進行評價。課程達成評價根據數據科學與大數據技術專業(yè)課程達成評價方法進行計算,評價結果用于持續(xù)改進。統(tǒng)計系負責人組織教師實施課程評價,制定持續(xù)改進措施,監(jiān)督持續(xù)改進過程。課程負責人負責撰寫課程考核總結報告,實施課程評價持續(xù)改進。8.2持續(xù)改進1)日常教學:根據學生學習情況,教師采取座談會、與學生單獨交流,及時調整教學方法、進度,做出教學改進。2)實驗室實驗:根據學生實驗室實驗及實驗報告情況,對學生理解多元統(tǒng)計知識進行分析,及時調整教學方法和內容,提出改進措施。3)課堂質疑或短時間交流討論:對課堂質疑或討論的效果進行分析,提出課程持續(xù)改進意見,用于本課持續(xù)改進。4)期末試卷分析總結:根據課程目標,實現課程達成評價,撰寫課程總結報告,提出課程持續(xù)改進意見,用于本課程持續(xù)改進。九、課程教材及主要參考書[教材]應用多元統(tǒng)計分析(第4版).朱建平.北京:科學出版社,2021[主要參考書]1.多元統(tǒng)計分析(第五版).何曉群.北京:中國人民大學出版社,20202.WolfgangKarlH?rdle,AppliedMultivariateStatisticalAnalysis(ThirdEdition),Springer,2011.3.GarethJames,.AnIntroductiontoStatisticalLearningwithApplicationsinR,Springer,2017.

《分布式存儲與計算》教學大綱課程名稱:分布式存儲與計算課程編號:F062092172英文名稱:DistributedStorageandComputing學時:48學時 學分:3學分開課學期:第5學期適用專業(yè):數據科學與大數據技術專業(yè)課程類別:理論課+上機課課程性質:專業(yè)方向拓展課先修課程:Java程序設計、數據庫系統(tǒng)概論、操作系統(tǒng)一、課程的性質及任務《分布式存儲與計算》課程是數據科學與大數據技術專業(yè)一門重要的專業(yè)方向拓展課,是一門分布式數據管理領城的前沿專業(yè)課程。課程包括三大部分,第一部分大數據基礎,第二部分大數據存儲與管理,第三部分大數據處理與分析,具體內容包含大數據概述、大數據處理框架Hadoop、分布式文件系統(tǒng)HDFS、分布式數據庫HBase、NoSQL數據庫、MapReduce模型、數據倉庫Hive編程實踐、Spark生態(tài)系統(tǒng)與編程實踐、流計算等。通過本課程的學習,使學生掌握大數據的體系架構、關鍵技術以及應用場景;培養(yǎng)大數據思維,能夠利用大數據工具去發(fā)現問題解決問題;了解大數據管理的硬件和軟件、系統(tǒng)體系結構、新的編程范式,以及并行分布式計算技術最新研究進展;結合大數據具體案例,培養(yǎng)動手能力,創(chuàng)新能力,為今后深入學習大數據技術奠定基礎,指明方向。依據河北工程大學數據科學與大數據技術專業(yè)培養(yǎng)計劃,本課程需要培養(yǎng)學生的能力是:能夠針對智能信息系統(tǒng)設計、大數據技術應用等大數據應用領域的復雜工程問題設計實驗方案、構建實驗系統(tǒng)和測試平臺、獲得實驗結果(畢業(yè)要求指標4.2)掌握基本的大數據開發(fā)環(huán)境的配置和應用,熟練掌握軟件開發(fā)語言(如Python、Java語言等),并能夠運用集成開發(fā)環(huán)境進行復雜程序設計(畢業(yè)要求指標5.1)具備使用大數據平臺以及軟件對復雜工程問題進行仿真的能力,理解其使用要求、運用范圍和局限性。(畢業(yè)要求指標5.3)二、課程目標與要求2.1課程目標使學生掌握大數據的基本概念,包括Hadoop,HDFS,MapReduce等框架的概念和原理。理解大數據的原理架構,了解大數據的應用以及大數據與其他新興技術之間的關系,逐漸形成大數據的思維,為今后解決復雜大數據問題提供支持。使學生熟練掌握各種大數據存儲與分析工具,并能夠具備根據不同的數據分析需求選擇合適的存儲框架和數據分析框架的能力,了解不同框架的適用場景和局限性,提升學生對分布式存儲技術的實際操作能力及動手能力。使學生了解大數據領域的相關技術標準和法律法規(guī),能夠了解大數據技術的發(fā)展對人類社會的影響。數理學院本科課程教學大綱PAGE16PAGE152.2課程目標與畢業(yè)要求對應關系課程目標畢業(yè)要求二級指標畢業(yè)要求123●●能夠針對智能信息系統(tǒng)設計、大數據技術應用等大數據應用領域的復雜工程問題設計實驗方案、構建實驗系統(tǒng)和測試平臺、獲得實驗結果。4.能夠基于數據科學與大數據技術原理并采用科學方法對大數據應用領域的復雜工程問題進行研究,包括設計實驗、分析與解釋數據、并通過信息綜合得到合理有效的結論?!裾莆栈镜拇髷祿_發(fā)環(huán)境的配置和應用,熟練掌握軟件開發(fā)語言(如Python、Java語言等),并能夠運用集成開發(fā)環(huán)境進行復雜程序設計。5.能夠針對大數據應用領域的復雜工程問題,開發(fā)、選擇與使用恰當的技術、資源、現代信息技術工具,包括對大數據應用領域的復雜工程問題的預測與仿真,并能夠理解其局限性?!窬邆涫褂么髷祿脚_以及軟件對復雜工程問題進行仿真的能力,理解其使用要求、運用范圍和局限性。2.3課程目標與培養(yǎng)環(huán)節(jié)對應矩陣序號課程目標理論教學課內實驗課后作業(yè)1使學生掌握大數據的基本概念,包括Hadoop、HDFS、MapReduce等框架的概念和原理。理解大數據的原理架構,了解大數據的應用以及大數據與其他新興技術之間的關系,逐漸形成大數據的思維,為今后解決復雜大數據問題提供支持。HL2使學生熟練掌握各種大數據存儲與分析工具,并能夠具備根據不同的數據分析需求選擇合適的存儲框架和數據分析框架的能力,了解不同框架的適用場景和局限性,提升學生對分布式存儲技術的實際操作能力及動手能力。HMH3使學生了解大數據領域的相關技術標準和法律法規(guī),能夠了解大數據技術的發(fā)展對人類社會的影響。ML注:H表示該能力的在此環(huán)節(jié)重點培養(yǎng);M表示該能力在此環(huán)節(jié)有應用要求;L表示該能力在此環(huán)節(jié)有所涉及。數據可視化課程教學大綱PAGE2PAGE12.4目標達成度的評價課程目標1主要通過理論教學環(huán)節(jié)進行培養(yǎng),在課內實驗有所涉及。主要通過課堂測試和期末大作業(yè)進行考核。目標達成綜合以上內容進行評價。課程目標2主要通過理論教學和課后作業(yè)環(huán)節(jié)進行培養(yǎng),在課內實驗有應用要求。主要通過課堂測試,課后作業(yè)和期末大作業(yè)中大數據存儲和分析框架的基本概念和工作原理題目進行考核,在實驗中能夠按要求完成分布式存儲與計算的實驗報告,數據準確無誤,結論完整,有完整的實驗推理步驟。目標達成綜合以上內容進行評價。課程目標3主要通過課內實驗環(huán)節(jié)進行培養(yǎng),在課后作業(yè)中有應用要求。主要通過實驗內容檢驗學生掌握大數據關鍵技術的概念和原理,掌握Hadoop的部署和基本操作。課后作業(yè)中,考核學生掌握分布式數據庫HBase、數據倉庫Hive等分布式并行框架的原理與應用。目標達成綜合以上內容進行評價。三、教學方法及手段理論教學以課堂講授為主,上機實驗為輔并結合課堂討論、案例分析、師生互動等教學方法展開教學;理論教學強調將大數據關鍵技術的概念和原理與實際項目案例的實際情況緊密聯系,面向知識的實際應用;理論教學注重本課程與Java程序設計、數據結構等先修課程的聯系;本課程教材力求內容新穎,采用多樣化的方式進行教學,讓學生在理論與實踐相結合的基礎上,對課程所要求的實際操作能力有進一步的提高;充分利用多媒體等現代化教學手段,整體優(yōu)化教學過程和教學內容,調動學生學習積極性;布置實際操作任務給學生上機操作并及時指導;課程強調學生的自主學習,強調通過自學的方式消化、吸收課程的龐大知識量,并在此基礎上舉一反三、靈活應用。四、課程的基本內容與教學要求第一章大數據技術概述[教學目的與要求]:了解大數據基本概念,基礎架構,及相關技術和應用。[本章主要內容]:1.1大數據的含義;1.2數據處理平臺的基礎架構;1.3大數據處理的存儲;1.4大數據處理的計算模式;1.5大數據處理系統(tǒng)的容錯性;1.6大數據處理的云計算變革。[本章重點]:大數據的概念、基礎架構、現狀及發(fā)展,大數據的應用前景。[本章難點]:大數據的基礎架構。第二章基于Hadoop的大數據處理架構[教學目的與要求]:了解Hadoop基本概念,基礎架構,以及相關的技術、應用和發(fā)展現狀。[本章主要內容]:2.1Google核心云計算技術;2.2Hadoop云計算技術及發(fā)展;2.3基于云計算的大數據處理架構;2.4基于云計算的大數據處理技術的應用;2.5Hadoop運行實踐。[本章重點]:Google云計算核心的概念、Hadoop基礎架構。[本章難點]:基于云計算的大數據處理技術的應用。第三章使用HDFS存儲大數據[教學目的與要求]:了解大數據的云存儲需求,掌握HDFS的訪問與控制機制。[本章主要內容]:4.1大數據的云存儲需求;4.2HDFS架構與流程;4.3文件訪問與控制;4.4HDFS性能優(yōu)化;4.5HDFS的小文件存儲問題;4.6HDFS的高可用性問題。[本章重點]:1.HDFS架構和流程;2.HDFS性能優(yōu)化。[本章難點]:HDFS的高可用性問題。第四章MapReduce計算模式[教學目的與要求]:熟練掌握MapReduce的原理和工作機制,掌握MapReduce設計模式和應用開發(fā)。[本章主要內容]:3.1MapReduce原理;3.2MapReduce工作機制;3.3MapReduce應用開發(fā);3.4MapReduce設計模式;3.5MapReduce算法實踐;3.6MapReduce性能調優(yōu)[本章重點]:MapReduce工作機制;MapReduce的負載均衡和容錯機制;基于MapReduce的并行算法設計。[本章難點]:MapReduce設計模式和性能調優(yōu)。第五章HBase大數據庫[教學目的與要求]:了解大數據環(huán)境下的數據庫,掌握HBase的使用,掌握HBase的基本原理[本章主要內容]:5.1大數據環(huán)境下的數據庫;5.2HBase架構與原理;5.3管理HBase中的數據;5.4從RDBMS到HBase;5.5在HBase上運行MapReduce;5.6HBase性能優(yōu)化。[本章重點]:1.HBase架構與原理;2.HBase性能優(yōu)化。[本章難點]:在HBase上運行MapReduce。第六章大數據的分析處理[教學目的與要求]:了解大數據的分析處理概述,了解Hive和Pig編程機制和原理。[本章主要內容]:6.1大數據的分析處理概述;6.2Hive;6.3Pig;6.4Hive與Pig的對比。[本章重點]:Hive和Pig編程。[本章難點]:Hive與Pig的對比。第七章Spark生態(tài)系統(tǒng)與編程[教學目的與要求]:了解Spark相關概念與生態(tài)系統(tǒng)[本章主要內容]:7.1了解Spark的發(fā)展歷程;7.2掌握Spark運行原理;7.3Spark編程實踐。[本章重點]:掌握SparkSQL。[本章難點]:Spark編程實踐。第八章Hadoop集群的管理與維護[教學目的與要求]:了解ZooKeeper管理機制和基于Kerberos的Hadoop安全機制。[本章主要內容]:8.1云計算平臺的管理體系;8.2ZooKeeper集群中的配置管理與協調者;8.3Hadoop集群部署與監(jiān)控集成工具;8.4基于Cacti的Hadoop集群服務器監(jiān)控;8.5基于Kereros的Hadoop安全管理。[本章重點]:ZooKeeper管理機制。[本章難點]:基于Kerberos的Hadoop安全機制。五、課內實驗5.1本課程實驗教學的地位和作用分布式存儲與計算是鞏固和擴展課程理論知識的必要環(huán)節(jié),實驗教學能夠幫助學生將抽象的分布式存儲與計算理論轉化為具體的操作和實踐。通過親自搭建分布式系統(tǒng)、配置存儲節(jié)點、編寫分布式計算程序等過程,學生可以更深入地理解分布式系統(tǒng)的內部機制和工作原理。學生通過實驗教學掌握大數據關鍵技術的概念和原理,掌握Hadoop的部署和基本操作,掌握大數據關鍵技術的概念和原理,掌握分布式數據庫HBase,數據倉庫Hive的部署與應用,了解Spark、Flink等分布式并行框架的原理與應用。通過實驗提高學生解決實際時序數據的分析能力,鍛煉學生分析、調試程序、設計實現數據分析算法以及撰寫實驗報告的能力。5.2教學基本要求學生應具備一定的分布式存儲與計算理論基礎,包括分布式系統(tǒng)原理、云計算概念、虛擬化技術、分布式文件系統(tǒng)、分布式數據庫、分布式計算模型等。實驗前應仔細閱讀實驗指導書,了解實驗目的、實驗原理、實驗步驟和實驗預期結果,對實驗過程中可能遇到的問題進行初步思考。學生在實驗過程中,利用Hadoop大數據處理架構、HDFS體系結構、HBase數據模型、Redis數據庫、MapReduce實例分析、Hive編程實踐等學習內容,根據要求動手編寫程序,搭建平臺,獨立完成實驗操作。學生應該能夠利用大數據存儲和分析框架,選擇合適的大數據分析工具,編寫相應的代碼程序并完成調試與測試,認真完成實驗報告。5.3實驗內容及要求大綱基本內容包括六個實驗項目,在16個學時內完成。實驗一熟悉常用的Linux操作和Hadoop操作實驗目的:(1)掌握Linux虛擬機的安裝方法。Hadoop在Linux操作系統(tǒng)上運行可以發(fā)揮最佳性能。(2)掌握一些常用的Linux命令。(3)掌握Hadoop的偽分布式安裝方法。(4)掌握Hadoop的常用操作。熟悉一些基本的shell命令對Hadoop進行操作,包括創(chuàng)建目錄、復制文件、查看文件等。實驗內容:1.熟悉常用的Linux操作請按要求上機實踐如下linux基本命令。cd命令:切換目錄(1)切換到目錄/usr/local(2)去到目前的上層目錄(3)回到自己的主文件夾ls命令:查看文件與目錄(4)查看目錄/usr下所有的文件mkdir命令:新建新目錄(5)進入/tmp目錄,創(chuàng)建一個名為a的目錄,并查看有多少目錄存在(6)創(chuàng)建目錄a1/a2/a3/a4rmdir命令:刪除空的目錄(7)將上例創(chuàng)建的目錄a(/tmp下面)刪除(8)刪除目錄a1/a2/a3/a4,查看有多少目錄存在cp命令:復制文件或目錄(9)將主文件夾下的.bashrc復制到/usr下,命名為bashrc1(10)在/tmp下新建目錄test,再復制這個目錄內容到/usrmv命令:移動文件與目錄,或更名(11)將上例文件bashrc1移動到目錄/usr/test(12)將上例test目錄重命名為test2rm命令:移除文件或目錄(13)將上例復制的bashrc1文件刪除(14)將上例的test2目錄刪除cat命令:查看文件內容(15)查看主文件夾下的.bashrc文件內容tac命令:反向列示(16)反向查看主文件夾下.bashrc文件內容more命令:一頁一頁翻動查看(17)翻頁查看主文件夾下.bashrc文件內容head命令:取出前面幾行(18)查看主文件夾下.bashrc文件內容前20行(19)查看主文件夾下.bashrc文件內容,后面50行不顯示,只顯示前面幾行tail命令:取出后面幾行(20)查看主文件夾下.bashrc文件內容最后20行(21)查看主文件夾下.bashrc文件內容,只列出50行以后的數據find命令:文件查找(22)找出主文件夾下文件名為.bashrc的文件tar命令:壓縮命令(24)在/目錄下新建文件夾test,然后在/目錄下打包成test.tar.gz(25)解壓縮到/tmp目錄grep命令:查找字符串(26)從~/.bashrc文件中查找字符串'examples'2.熟悉常用的Hadoop操作(27)啟動hadoop,在HDFS中創(chuàng)建用戶目錄(現在已經在hadoop目錄/usr/local/hadoop)(28)接著在此用戶目錄下創(chuàng)建text文件夾,并查看文件列表(29)將~/.bashrc文件上傳到HDFS的test文件夾,并查看test(30)將HDFS文件夾test拷到本機3.進行Hadoop偽分布式安裝訪問Hadoop官網,下載Hadoop安裝文件,在Linux虛擬機環(huán)境下完成Hadoop偽分布式環(huán)境的搭建,并運行Hadoop自帶的Wordcount實例檢測是否運行正常。完成上述實驗,并撰寫實驗報告。《分布式存儲》課程機房上機實驗報告題目:熟悉常用的Linux操作和Hadoop操作姓名日期實驗環(huán)境:實驗內容與完成情況:出現的問題:解決方案(列出遇到的問題和解決辦法,列出沒有解決的問題):實驗二熟悉常用的HDFS操作實驗目的:(1)理解HDFS在Hadoop體系結構中的角色。(2)熟練使用HDFS操作常用的Shell命令。實驗內容:利用Hadoop提供的Shell命令完成如下任務:(1)在HDFS分布式文件系統(tǒng)的Hadoop用戶目錄下創(chuàng)建一個test目錄;(2)在本地文件系統(tǒng)中創(chuàng)建一個hello.txt文件,并把hello.txt文件上傳到HDFS的test目錄下;(3)查看HDFS中的hello.txt的讀寫權限大小、創(chuàng)建時間、路徑等信息;(4)在HDFS文件系統(tǒng)的test目錄中創(chuàng)建world.txt文件,(5)將HDFS文件系統(tǒng)中的world.txt下載到本地文件系統(tǒng)的文檔目錄/home/Hadoop/文檔中。(6)將HDFS文件系統(tǒng)test目錄中的hello.txt移動到HDFS的根路徑(/)下。(7)刪除HDFS文件系統(tǒng)中根路徑下的hello.txt文件。(8)刪除HDFS文件系統(tǒng)中的test目錄。完成上述實驗,并撰寫實驗報告?!斗植际酱鎯Α氛n程機房上機實驗報告題目:熟悉常用的HDFS操作和API姓名日期實驗環(huán)境:實驗內容與完成情況:出現的問題:解決方案(列出遇到的問題和解決辦法,列出沒有解決的問題):實驗三HDFS常用JavaAPI應用實驗目的:(1)理解HDFS在Hadoop體系結構中的角色。(2)熟練使用HDFS操作常用的Shell命令。(3)熟悉HDFS操作常用的JavaAPI。實驗內容:編程實現一個類“MyFSDataInputStream”,該類繼承“org.apache.hadoop.fs.FSDataInputStream”,要求如下:(1)實現按行讀取HDFS中指定文件的方法“readLine()”,如果讀到文件末尾,則返回空,否則返回文件一行的文本。(2)查看Java幫助手冊或其它資料,用“.URL”和“org.apache.hadoop.fs.FsURLStreamHandlerFactory”編程完成輸出HDFS中指定文件的文本到終端中。(3)書上的例子MergeFile例子寫一遍。完成上述實驗,并撰寫實驗報告,每一個步驟都要有命令截圖和證明操作成功的截圖?!斗植际酱鎯Α氛n程機房上機實驗報告題目:HDFS常用JavaAPI應用姓名日期實驗環(huán)境:實驗內容與完成情況:出現的問題:解決方案(列出遇到的問題和解決辦法,列出沒有解決的問題):實驗四熟悉常用的HBase操作實驗目的:(1)理解HDFS在Hadoop體系結構中的角色。(2)熟練使用HDFS操作常用的Shell命令。(3)熟悉HDFS操作常用的JavaAPI。實驗平臺:(1)操作系統(tǒng):Linux(建議Ubuntu16.04或Ubuntu18.04);(2)Hadoop版本:3.1.3;(3)HBase版本:2.2.2;(4)JDK版本:1.8;(5)JavaIDE:Eclipse實驗內容與要求:1.編程實現以下指定功能,并用Hadoop提供的HBaseShell命令完成相同任務:(1)列出HBase所有的表的相關信息,例如表名;(2)在終端打印出指定的表的所有記錄數據;(3)向已經創(chuàng)建好的表添加和刪除指定的列族或列;(4)清空指定的表的所有記錄數據;(5)統(tǒng)計表的行數。2.HBase數據庫操作現有以下關系型數據庫中的表和數據(見表14-3到表14-5),要求將其轉換為適合于HBase存儲的表并插入數據:表14-3學生表(Student)學號(S_No)姓名(S_Name)性別(S_Sex)年齡(S_Age)2015001Zhangsanmale232015002Maryfemale222015003Lisimale24表14-4課程表(Course)課程號(C_No)課程名(C_Name)學分(C_Credit)123001Math2.0123002ComputerScience5.0123003English3.0表14-5選課表(SC)學號(SC_Sno)課程號(SC_Cno)成績(SC_Score)201500112300186201500112300369201500212300277201500212300399201500312300198201500312300295完成上述實驗,并撰寫實驗報告,每一個步驟都要有命令截圖和證明操作成功的截圖。《分布式存儲》課程機房上機實驗報告題目:熟悉常用的HBase操作姓名日期實驗環(huán)境:實驗內容與完成情況:出現的問題:解決方案(列出遇到的問題和解決辦法,列出沒有解決的問題):實驗五NoSQL數據庫的操作實驗目的:(1)理解四種數據庫(MySQL、HBase、Redis)的概念以及不同點;(2)熟練使用三種數據庫操作常用的Shell命令;(3)熟悉三種數據庫操作常用的JavaAPI。實驗平臺:(1)操作系統(tǒng):Linux(建議Ubuntu16.04或Ubuntu18.04);(2)Hadoop版本:3.1.3;(3)HBase版本:2.2.2;(4)JDK版本:1.8;(5)JavaIDE:Eclipse實驗內容:(一)MySQL數據庫操作學生表如14-7所示。表14-7學生表StudentNameEnglishMathComputerzhangsan698677lisi5510088根據上面給出的Student表,在MySQL數據庫中完成如下操作:(1)在MySQL中創(chuàng)建Student表,并錄入數據;(2)用SQL語句輸出Student表中的所有記錄;(3)查詢zhangsan的Computer成績;(4)修改lisi的Math成績,改為95。根據上面已經設計出的Student表,使用MySQL的JAVA客戶端編程實現以下操作:(1)向Student表中添加如下所示的一條記錄:scofield4589100 (2)獲取scofield的English成績信息 (二)HBase數據庫操作學生表Student如表14-8所示。表14-8學生表StudentnamescoreEnglishMathComputerzhangsan698677lisi5510088根據上面給出的學生表Student的信息,執(zhí)行如下操作:(1)用HbaseShell命令創(chuàng)建學生表Student;(2)用scan命令瀏覽Student表的相關信息;(3)查詢zhangsan的Computer成績;(4)修改lisi的Math成績,改為95。2.根據上面已經設計出的Student表,用HBaseAPI編程實現以下操作:(1)添加數據:English:45Math:89 Computer:100scofield4589100 (2)獲取scofield的English成績信息。(三)Redis數據庫操作Student鍵值對如下:zhangsan:{English:69Math:86Computer:77}lisi:{English:55Math:100Computer:88}1.根據上面給出的鍵值對,完成如下操作:(1)用Redis的哈希結構設計出學生表Student(鍵值可以用student.zhangsan和student.lisi來表示兩個鍵值屬于同一個表);(2)用hgetall命令分別輸出zhangsan和lisi的成績信息;(3)用hget命令查詢zhangsan的Computer成績;(4)修改lisi的Math成績,改為95。2.根據上面已經設計出的學生表Student,用Redis的JAVA客戶端編程(jedis),實現如下操作:(1)添加數據:English:45Math:89 Computer:100 該數據對應的鍵值對形式如下:scofield:{English:45Math:89Computer:100}(2)獲取scofield的English成績信息通過以上案例完成上述實驗,并撰寫實驗報告,每一個步驟都要有命令截圖和證明操作成功的截圖。實驗六MapReduce初級編程實踐實驗目的:(1)理解四種數據庫(MySQL、HBase、Redis)的概念以及不同點;(2)熟練使用三種數據庫操作常用的Shell命令;(3)熟悉三種數據庫操作常用的JavaAPI。實驗內容:(1)編程實現文件合并和去重操作對于兩個輸入文件,即文件A和文件B,請編寫MapReduce程序,對兩個文件進行合并,并剔除其中重復的內容,得到一個新的輸出文件C。下面是輸入文件和輸出文件的一個樣例供參考。輸入文件A的樣例如下: 20170101x 20170102y 20170103x 20170104y 20170105z20170106x輸入文件B的樣例如下:20170101y20170102y20170103x20170104z20170105y根據輸入文件A和B合并得到的輸出文件C的樣例如下:20170101x20170101y20170102y20170103x20170104y20170104z20170105y 20170105z20170106x通過以上案例完成上述實驗,并撰寫實驗報告。5.4教學文件及教學形式教學文件:《大數據》、《大數據技術原理與應用》。教學形式主要包括:預習、課堂指導與實驗操作、撰寫實驗報告。實驗報告學生自擬。實驗報告包括:實驗目的、實驗要求、實驗內容,詳細敘述編程步驟,要有完整的數據和編程、圖表表示的實驗結果,以理論聯系實際為出發(fā)點,總結實驗中出現的問題及解決方法。《分布式存儲》課程機房上機實驗報告題目:姓名日期實驗環(huán)境:實驗內容與完成情況:出現的問題:解決方案(列出遇到的問題和解決辦法,列出沒有解決的問題):5.5實驗項目及學時分配序號實驗項目實驗學時實驗類型實驗類別實驗性質1熟悉常用的Linux操作和Hadoop操作2定量性專業(yè)必修2熟悉常用的HDFS操作2定量性專業(yè)必修3HDFS常用JavaAPI應用3定量性專業(yè)必修4熟悉常用的HBase操作3定量性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論