




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)導(dǎo)論教學(xué)教案第1章 什么是大數(shù)據(jù)課時內(nèi)容大數(shù)據(jù)的概念、發(fā)展歷程授課時間45分鐘課時1和主要特征一教學(xué)目標(biāo)0 讓學(xué)生了解什么是大數(shù)據(jù),以及大數(shù)據(jù)的社會價值體現(xiàn)在人類生活的哪些方面教學(xué)重點0 了解人類信息文明的發(fā)展歷程0熟悉大數(shù)據(jù)時代的來臨和具體發(fā)展表現(xiàn)0掌握大數(shù)據(jù)的主要特征0掌握大數(shù)據(jù)的社會價值教學(xué)難點0熟悉大數(shù)據(jù)的4V特征教學(xué)設(shè)計1、教學(xué)思路:(1)闡釋人類信息文明的發(fā)展歷程及其對人類生活產(chǎn)生的影響;(2) 講解信息技術(shù)主要解決的4個核心問題的具體發(fā)展表現(xiàn);(3)理論闡述了數(shù)據(jù)生 產(chǎn)方式的變革歷程,以及各個階段的具體發(fā)展情況;(4)從數(shù)據(jù)、技術(shù)特征兩個 方面分析大數(shù)據(jù)的主要特征;(5)大
2、數(shù)據(jù)的社會價值體現(xiàn)在哪些方面。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)生的學(xué)習(xí)興趣; (2)從系統(tǒng)的角度出發(fā),全面介紹了大數(shù)據(jù)技術(shù)的基礎(chǔ)知識,作為大數(shù)據(jù)技術(shù)的 基礎(chǔ)教材,以提升讀者對大數(shù)據(jù)的認(rèn)知,每章結(jié)束都配有習(xí)題,幫助老師進(jìn)行考查。教學(xué)內(nèi)容一、導(dǎo)入新課:“大數(shù)據(jù)”的橫空出世半個世紀(jì)以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸己經(jīng)積累到一個開始引發(fā)變革的 程度。它不僅使世界充斥著以往更多的信息,而且其增長速度也在加快。信息爆炸的學(xué)科如天文學(xué) 和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念。這個概念幾乎應(yīng)用到所有人類智力與發(fā)展的領(lǐng)域中?!按髷?shù)據(jù)”帶來的影響當(dāng)人們還在津津樂道云計算、
3、物聯(lián)網(wǎng)等主題時,一個嶄新的概念“大數(shù)據(jù)”橫空出世。大數(shù)據(jù) 是名繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)革命,對國家治理模式、企業(yè)決策、組織和業(yè) 務(wù)流程,以及個人生活方式等都將產(chǎn)生巨大的影響。大數(shù)據(jù)的挖掘和應(yīng)用可創(chuàng)造出超萬億美兀的價 值,將是未來IT領(lǐng)域最大的市場機遇之一,其作用堪稱是又一次工業(yè)革命。“大數(shù)據(jù)”產(chǎn)生的背景隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長。大約每兩年翻一番, 根據(jù)監(jiān)測,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于 之前產(chǎn)生的全部數(shù)據(jù)量。大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長。信 息數(shù)據(jù)的單
4、位由TB、PB、EB,再到ZB的級別,這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早己遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個新的領(lǐng)域,于是大 數(shù)據(jù)的概念應(yīng)運而生。從三個層面認(rèn)知“大數(shù)據(jù)”大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程 優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。今第一層面:理論理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù) 據(jù)的整體描繪和定性,從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在,洞悉大數(shù)據(jù)的發(fā)展趨 勢。從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈
5、。個第二層面:技術(shù)技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進(jìn)的基石??梢詮脑朴嬎恪⒎植际教幚砑夹g(shù)、存儲技術(shù)和感 知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。個第三層面:實踐實踐是大數(shù)據(jù)的最終價值體現(xiàn),我們從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù) 個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)己經(jīng)展現(xiàn)的美好景象及即將實現(xiàn)的藍(lán)圖。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。人類信息文明的發(fā)展大數(shù)據(jù)時代的來臨信息技術(shù)的發(fā)展數(shù)據(jù)產(chǎn)生方式的變革大數(shù)據(jù)的主要特征大數(shù)據(jù)的數(shù)據(jù)特征大數(shù)據(jù)的技術(shù)特征大數(shù)據(jù)的社會價值三、討論問題1-1簡述人類信息文明的發(fā)展過程并展望未來的發(fā)展方向。1-2大數(shù)據(jù)的技術(shù)特點
6、和技術(shù)優(yōu)勢在哪里?1-3簡單描述大數(shù)據(jù)的主要特征。1-4結(jié)合實際談?wù)劥髷?shù)據(jù)的社會價值。一、 歸納小結(jié)隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計算的飛速發(fā)展,大量非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級快速增 長,數(shù)據(jù)樣式高度復(fù)雜,為人類認(rèn)識世界,改造世界提供了重要的資源,企業(yè)和個人 通過網(wǎng)絡(luò)可以大規(guī)模的收集和分析數(shù)據(jù),也可以產(chǎn)生和發(fā)布數(shù)據(jù),個體在互聯(lián)的網(wǎng)絡(luò) 中既是數(shù)據(jù)的消費者又是數(shù)據(jù)的生產(chǎn)者。大規(guī)模生產(chǎn)、分享、應(yīng)用數(shù)據(jù)的大數(shù)據(jù)時代 己經(jīng)來臨。與此同時,數(shù)量巨大,種類繁多的數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)獲取、分析、處理、 存儲、檢索技術(shù)帶來了挑戰(zhàn),大數(shù)據(jù)成為廣泛關(guān)注且急需解決的熱點問題,并已經(jīng)開 始影響社會的發(fā)展與人們的日常生活。思考及作 業(yè)大
7、數(shù)據(jù)時代已經(jīng)來臨,各國將在這一新的領(lǐng)域展開新一輪的競爭,我國應(yīng)當(dāng)與 時俱進(jìn),及時轉(zhuǎn)型,適應(yīng)大數(shù)據(jù)時代的到來,可以借鑒各國的做法,抓住大數(shù)據(jù)時代 關(guān)鍵點,從國家戰(zhàn)略制定、人才培養(yǎng)、基礎(chǔ)技術(shù)研究、信息安全保障體系建設(shè)等方面 展開相應(yīng)的工作。二、拓展延伸:(1)大數(shù)據(jù)時代是在什么背景環(huán)境下產(chǎn)生的,它對我們的現(xiàn)實生活產(chǎn)生了哪些方面的 影響?(2)大數(shù)據(jù)時代的個人隱私如何保護(hù)?(3)結(jié)合實際生活,談一談大數(shù)據(jù)的社會價值主要體現(xiàn)在哪些方面。(4)大數(shù)據(jù)要解決的核心問題是什么?第2章 大數(shù)據(jù)技術(shù)基礎(chǔ)課時內(nèi)容大數(shù)據(jù)技術(shù)基礎(chǔ)授課時間90分鐘課時2教學(xué)目標(biāo)本章課程在注重大數(shù)據(jù)時代應(yīng)用環(huán)境前提下,從初學(xué)者角度出發(fā),
8、以輕量級理論、 豐富的實例對應(yīng)性地介紹了大數(shù)據(jù)常用計算模式的各種系統(tǒng)和工具。將經(jīng)典和核心的 行業(yè)技術(shù)作為本章的主要內(nèi)容,講解計算機操作系統(tǒng)的基本知識,幫助讀者建立對大 數(shù)據(jù)技術(shù)基礎(chǔ)的整體印象。教學(xué)重點0掌握計算機操作系統(tǒng)的基礎(chǔ)知識0理解和掌握編程語言0掌握數(shù)據(jù)庫的主要數(shù)據(jù)類型0理解算法的涵義0掌握大數(shù)據(jù)系統(tǒng)0熟悉大數(shù)據(jù)應(yīng)用開發(fā)流程教學(xué)難點0理解什么是大數(shù)據(jù)技術(shù)基礎(chǔ)0 熟悉Linux操作系統(tǒng)經(jīng)歷的3個發(fā)展階段0熟悉編程語言的發(fā)展和種類0 掌握Python語言自身的優(yōu)點和在實際應(yīng)用方面的便捷性0 了解數(shù)據(jù)庫技術(shù)是信息技術(shù)的核心技術(shù)0重點關(guān)注傳統(tǒng)算法和大數(shù)據(jù)時代算法的區(qū)別0 Hadoop平臺和Spa
9、rk平臺的基本構(gòu)成和特征0 掌握大數(shù)據(jù)的3種主要數(shù)據(jù)類型0熟悉典型的大數(shù)據(jù)應(yīng)用開發(fā)流程0 了解典型的數(shù)據(jù)科學(xué)算法應(yīng)用流程教學(xué)設(shè)計1、教學(xué)思路:(1)通過本章的學(xué)習(xí),使讀者掌握計算機操作系統(tǒng)的基本知識,建立 對大數(shù)據(jù)技術(shù)基礎(chǔ)的整體印象;(2)介紹Linux操作系統(tǒng)經(jīng)歷的3個主要發(fā)展階段和 目前Linux的主要應(yīng)用場景;(3)回顧編程語言的發(fā)展,詳細(xì)介紹編程語言的種類, 并講解了當(dāng)前流行的一門編程語言Python語言的特點和優(yōu)勢;(4)簡述傳統(tǒng)SQL數(shù) 據(jù)庫的發(fā)展歷程,講解其技術(shù)特點;(5)比較NoSQL和NewSQL數(shù)據(jù)庫的技術(shù)特色 和特點;(6)分別講述Hadoop和Spark大數(shù)據(jù)平臺的基本
10、構(gòu)架和工作原理;(7)簡 述大數(shù)據(jù)應(yīng)用開發(fā)的一般流程及典型數(shù)據(jù)科學(xué)算法的應(yīng)用流程。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識點內(nèi)容,理論與案例相結(jié)合,在教學(xué)過程中掌握大數(shù)據(jù)分析的實踐 操作,通過豐富簡單易上手的實例,讓學(xué)生能夠切實體會和掌握各種類型工具的特點 和應(yīng)用。教學(xué)內(nèi)容一、導(dǎo)入新課:大數(shù)據(jù)行業(yè)經(jīng)過最近幾年跨越式的發(fā)展,產(chǎn)生了一批與之相關(guān)的核心行業(yè)技術(shù),我們將其 統(tǒng)稱為“大數(shù)據(jù)技術(shù)”。這些經(jīng)典的、核心的行業(yè)技術(shù)就是本書的主要內(nèi)容。計算機作為促進(jìn)當(dāng) 代信息技術(shù)發(fā)展的重要工具,對社會、經(jīng)濟(jì)發(fā)展的影響越來越顯著,越發(fā)受到人們的重視,其操作 系
11、統(tǒng)也越來越龐大和復(fù)雜。因此,理解計算機操作系統(tǒng)的基礎(chǔ)知識是學(xué)習(xí)并掌握大數(shù)據(jù)技術(shù)知識的 前提,熟悉各種操作系統(tǒng)經(jīng)歷的發(fā)展階段對于更好的理解其理論和知識架構(gòu)奠定了基礎(chǔ)。大數(shù)據(jù)有幾個特性,最著名的是數(shù)據(jù)量(volume),速度(velocity),多樣性(variety)。除此以外,還有就是準(zhǔn)確 性(veracity),連通性(valence),和價值(value)。從操作系統(tǒng)的概念入手,簡要分析了操作系統(tǒng)程 序和一般的應(yīng)用程序有什么區(qū)別和聯(lián)系,然后講解了誕生于網(wǎng)絡(luò)、成長于網(wǎng)絡(luò)且成熟于網(wǎng)絡(luò)的 Linux操作系統(tǒng),并分別講述其經(jīng)歷的3個發(fā)展階段所具有的特點和目前Linux的主要應(yīng)用場景。隨 著計算機技
12、術(shù)的不斷發(fā)展和完善,編程語言已經(jīng)得到了長足的發(fā)展,并被廣泛地應(yīng)用于實際,已 經(jīng)成為人們與計算機進(jìn)行深入“交流”的必需工具??偨Y(jié)介紹了目前市場上所用的主要編程語言 種類及其特點,重點講解編寫簡單,應(yīng)用廣泛,功能強大和更新速度最快的Python語言。SQL涵蓋數(shù)據(jù)的查詢、操作、定義和控制,是一個綜合的、通用的且簡單易懂的數(shù)據(jù)庫綜合管 理語言,同時又是一種高度非過程化的語言,數(shù)據(jù)庫管理者只需要指出做什么而不需要指出怎么做, 即可完成對數(shù)據(jù)庫的管理。SQL可以實現(xiàn)對數(shù)據(jù)庫的全生命周期的全部操作,所以自產(chǎn)生之日起就 成了檢驗關(guān)系型數(shù)據(jù)庫管理能力的試金石,并且SQL標(biāo)準(zhǔn)的每一次變更和完善都指導(dǎo)著關(guān)系型數(shù)
13、據(jù)庫產(chǎn)品的發(fā)展方向,并分述NoSQL數(shù)據(jù)庫、NewSQL數(shù)據(jù)庫的技術(shù)特色和特點。算法(Algorithm)是數(shù)學(xué)處理的靈魂和核心,也是實現(xiàn)現(xiàn)實事務(wù)數(shù)學(xué)化、公式化和邏輯化處理 的橋梁,可以說算法是信息時代連通現(xiàn)實社會和虛擬世界的立交橋。本章內(nèi)容重點關(guān)注傳統(tǒng)算法和 大數(shù)據(jù)時代算法的區(qū)別,系統(tǒng)闡述兩種算法的本質(zhì)區(qū)別在于數(shù)據(jù)分析和數(shù)據(jù)科學(xué)。簡要介紹大數(shù)據(jù)系統(tǒng)目前最為著名和流行的adoop平臺和Spark平臺,分別介紹其主要模塊,平 臺基本特征和典型技術(shù)特點等。隨著大數(shù)據(jù)時代的到來,我們不得不承認(rèn)如今數(shù)據(jù)量的激增越來越明顯,各種各樣的數(shù)據(jù)鋪天 蓋地的砸下來,企業(yè)選擇相應(yīng)工具來存儲、分析與處理它們。那么在
14、大數(shù)據(jù)時代中,都有哪些數(shù)據(jù) 類型?結(jié)構(gòu)化數(shù)據(jù):能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,人們稱之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號。傳 統(tǒng)的關(guān)系數(shù)據(jù)模型,行數(shù)據(jù),存儲于數(shù)據(jù)庫,可用二維表結(jié)構(gòu)表示。半結(jié)構(gòu)化數(shù)據(jù):所謂半結(jié)構(gòu)化數(shù)據(jù),就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫,面向?qū)ο髷?shù) 據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),XML、HTML文檔就屬 于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每隔字段的記錄又可以由可重復(fù)或不可重復(fù)的子字 段構(gòu)成的數(shù)據(jù)庫,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號等信息)而且更適合處理非結(jié)構(gòu)化
15、 數(shù)據(jù)(全文文本,圖像,聲音,影視,超媒體等信息)?,F(xiàn)實中,大數(shù)據(jù)的數(shù)據(jù)類型滲透在日常生活中的各個方面?,F(xiàn)如今大數(shù)據(jù)更接近于某個群體行 為數(shù)據(jù),它是全面的數(shù)據(jù)、準(zhǔn)確的數(shù)據(jù)、有價值的數(shù)據(jù)。這些新類型數(shù)據(jù)相信大家都很熟悉,它們 已經(jīng)比傳統(tǒng)數(shù)據(jù)類型更深入地走進(jìn)了我們生活。1、一些記錄是以模擬形式方式存在的,或者以數(shù)據(jù)形式存在但是存貯在本地,不是公開數(shù)據(jù)資 源,沒有開放給互聯(lián)網(wǎng)用戶,例如音樂、照片、視頻、監(jiān)控錄像等影音資料。現(xiàn)在這些數(shù)據(jù)不但數(shù) 據(jù)量巨大,并且共享到了互聯(lián)網(wǎng)上,面對所有互聯(lián)網(wǎng)用戶,其數(shù)量之大是前所未有。2、移動互聯(lián)網(wǎng)出現(xiàn)后,移動設(shè)備的很多傳感器收集了大量的用戶點擊行為數(shù)據(jù),它們每天產(chǎn)生
16、了大量的點擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)。3、電子地圖生了大量的數(shù)據(jù)流數(shù)據(jù),這些數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)代表一個屬性或一個 度量值,但是這些地圖產(chǎn)生的流數(shù)據(jù)代表著一種行為、一種習(xí)慣,這些流數(shù)據(jù)經(jīng)頻率分析后會產(chǎn)生。4、進(jìn)入了社交網(wǎng)絡(luò)的年代后,互聯(lián)網(wǎng)行為主要由用戶參與創(chuàng)造,大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量 的社交行為數(shù)據(jù),這些數(shù)據(jù)是過去未曾出現(xiàn)的。其揭示了人們行為特點和生活習(xí)慣。5、電商戶崛起產(chǎn)來了大量網(wǎng)上交易數(shù)據(jù),包含支付數(shù)據(jù),查詢行為,物流運輸、購買喜好,點 擊順序,評價行為等,其是信息流和資金流數(shù)據(jù)。6、傳統(tǒng)的互聯(lián)網(wǎng)入口轉(zhuǎn)向搜索引擎之后,用戶的搜索行為和提問行為聚集了
17、海量數(shù)據(jù)。單位存 儲價格的下降也為存儲這些數(shù)據(jù)提供了經(jīng)濟(jì)上的可能。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。計算機操作系統(tǒng)什么是操作系統(tǒng)Linux操作系統(tǒng)編程語言編程語言的發(fā)展與種類Python 語言數(shù)據(jù)庫SQL數(shù)據(jù)庫的發(fā)展與成熟NoSQL數(shù)據(jù)庫及其特點NoSQL數(shù)據(jù)庫的分類NewSQL 數(shù)據(jù)庫算法什么是算法大數(shù)據(jù)時代的算法大數(shù)據(jù)系統(tǒng)Hadoop 平臺Spark 平臺大數(shù)據(jù)的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)應(yīng)用的開發(fā)流程數(shù)據(jù)科學(xué)算法的應(yīng)用流程三、討論問題:2-1什么是操作系統(tǒng)的核心。操作系統(tǒng)核心的主要作用有哪些?2-2 Linux操作系統(tǒng)的優(yōu)勢和主要的特點有哪些?2
18、-3何為靜態(tài)編程語言,何為動態(tài)編程語言?兩者的聯(lián)系和不同有哪些?2-4簡述傳統(tǒng)SQL數(shù)據(jù)庫的發(fā)展歷程。2-5 SQL數(shù)據(jù)庫的技術(shù)特點有哪些?2-6 NoSQL和NewSQL數(shù)據(jù)庫的技術(shù)特色和技術(shù)特點有哪些?2-7簡述Hadoop和Spark大數(shù)據(jù)平臺的基本構(gòu)架和工作原理。2-8簡述大數(shù)據(jù)開發(fā)的一般流程。思考及作 業(yè)一、歸納小結(jié):課堂上注意講、學(xué)、練相結(jié)合,注重以學(xué)生為主體,積極與學(xué)生互動,調(diào)動學(xué)生 的學(xué)習(xí)主動性和學(xué)習(xí)興趣,培養(yǎng)學(xué)生發(fā)現(xiàn)問題、解決問題的實際能力。采用任務(wù)驅(qū)動,問題牽引的方式,提出問題,之后帶動學(xué)生在教師的講解下一步 步尋找解決方法,再歸納總結(jié)出知識點,結(jié)合教學(xué)課件和實際案例,尋找
19、合適的切入 點,以講授和實例分析為主的形式完成教學(xué),讓讀者對理論知識的掌握更直接、更快 速。二、拓展延伸:(1)為什么說操作系統(tǒng)是整個計算機硬件系統(tǒng)的“CEO”?這個神通廣大的操作 系統(tǒng)都有哪些“神通”之處?(2)NoSQL數(shù)據(jù)庫的特點都有哪些? NoSQL數(shù)據(jù)庫有哪些類型?(3)什么是算法?傳統(tǒng)的數(shù)據(jù)算法與大數(shù)據(jù)時代的數(shù)據(jù)算法有什么本質(zhì)區(qū)別?(4)舉例說明機器學(xué)習(xí)具有顯著的技術(shù)特征和計算特色,以及主要包括的技術(shù)優(yōu) 勢有哪些。(5)Hadoop平臺的三大組成是什么?在當(dāng)前經(jīng)濟(jì)、商業(yè)、技術(shù)領(lǐng)域里有什么適 應(yīng)性優(yōu)勢?(6)大數(shù)據(jù)的主要數(shù)據(jù)類型主要有哪些?請分別說明其特點和主要應(yīng)用范圍。第3章 數(shù)據(jù)
20、采集與預(yù)處理課時內(nèi)容數(shù)據(jù)采集與預(yù)處理授課時間90分鐘課時2教學(xué)目標(biāo)本章詳細(xì)闡述數(shù)據(jù)采集與預(yù)處理技術(shù),包括大數(shù)據(jù)的數(shù)據(jù)采集方法、數(shù)據(jù)來源、數(shù)據(jù) 預(yù)處理技術(shù)。教學(xué)重點0 了解大數(shù)據(jù)的來源0掌握數(shù)據(jù)的采集方法0掌握數(shù)據(jù)預(yù)處理流程教學(xué)難點0 了解大數(shù)據(jù)的來源0掌握數(shù)據(jù)的采集方法與數(shù)據(jù)預(yù)處理的主要流程教學(xué)設(shè)計1、教學(xué)思路:(1)從傳統(tǒng)商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù)3個主要方面剖析大 數(shù)據(jù)的來源,闡述各種大數(shù)據(jù)來源的特點;(2)介紹多款數(shù)據(jù)采集工具,讓讀者全面 理解和掌握數(shù)據(jù)的采集方法,講解數(shù)據(jù)預(yù)處理的基本流程,介紹數(shù)據(jù)預(yù)處理所包含的 內(nèi)容和采用的方法,論述數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中的重要地位和作用。2、教
21、學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識點內(nèi)容,理論與案例相結(jié)合,在教學(xué)過程中掌握數(shù)據(jù)的采集方法和 數(shù)據(jù)預(yù)處理技術(shù)的目的和流程,通過豐富簡單易上手的實例,讓學(xué)生能夠切實理解和 掌握數(shù)據(jù)采集與預(yù)處理的相關(guān)知識內(nèi)容。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著信息時代的來臨,大數(shù)據(jù)對各行各業(yè)都帶來了較大的影響。企業(yè)、個人利用大數(shù)據(jù),給業(yè) 務(wù)和生活帶來了便利,在信息社會中,大多數(shù)行業(yè)的發(fā)展都離不開大數(shù)據(jù)的支持。在數(shù)據(jù)量非常大 的今天,如何以更高的效率獲取到分析所需要的數(shù)據(jù),如何利用這些數(shù)據(jù)反應(yīng)最真實的情況,是業(yè) 內(nèi)不斷探討的議題。大數(shù)據(jù)的來源非常廣泛,如信息管理系統(tǒng)、
22、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué) 實驗系統(tǒng)等。本章從以下3個層面闡述了大數(shù)據(jù)的來源和主要特點。個 傳統(tǒng)商業(yè)數(shù)據(jù)是來自于企業(yè)ERP系統(tǒng)、各種POS終端及網(wǎng)上支付系統(tǒng)等業(yè)務(wù)系統(tǒng)的數(shù)據(jù),傳統(tǒng) 商業(yè)是主要的數(shù)據(jù)來源。個 互聯(lián)網(wǎng)數(shù)據(jù)是指網(wǎng)絡(luò)空間交互過程中產(chǎn)生的大量數(shù)據(jù),包括通信記錄及QQ、微信、微博等社交 媒體產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)復(fù)雜且難以被利用。個 物聯(lián)網(wǎng)數(shù)據(jù)是除了人和服務(wù)器之外,在射頻識別、物品、設(shè)備、傳感器等節(jié)點產(chǎn)生的大量數(shù)據(jù), 包括射頻識別裝置、音頻采集器、視頻采集器、傳感器、全球定位設(shè)備、辦公設(shè)備、家用設(shè)備 和生產(chǎn)設(shè)備等產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)采集技術(shù)是數(shù)據(jù)科學(xué)的重要組成部分,已廣泛應(yīng)用于國民經(jīng)濟(jì)和國防建
23、設(shè)的各個領(lǐng)域,并 且隨著科學(xué)技術(shù)的發(fā)展,尤其是計算機技術(shù)的發(fā)展和普及,數(shù)據(jù)采集技術(shù)具有更廣泛的發(fā)展前景。 大數(shù)據(jù)的采集技術(shù)為大數(shù)據(jù)處理的關(guān)鍵技術(shù)之一。安排在此章系統(tǒng)講解數(shù)據(jù)的采集方法十分必要, 能夠幫助讀者熟悉并掌握系統(tǒng)日志的采集方法、網(wǎng)頁數(shù)據(jù)的采集方法和其他數(shù)據(jù)的采集方法,使讀 者快速跨入大數(shù)據(jù)技術(shù)的大門,幫助大數(shù)據(jù)技術(shù)的初學(xué)者盡快了解大數(shù)據(jù)技術(shù)。簡要介紹幾款采用分布式架構(gòu)的海量數(shù)據(jù)采集工具,對Scribe、Chukwa、Flume的基本架構(gòu)、 主要功能和對日志類數(shù)據(jù)的采集、存儲、分析和展示的全套解決方案展開描述,讓讀者系統(tǒng)理解系 統(tǒng)日志的采集方法。網(wǎng)絡(luò)數(shù)據(jù)采集稱為“研抓屏”、“數(shù)據(jù)挖掘”或
24、“網(wǎng)絡(luò)收割”,通過“網(wǎng)絡(luò)爬蟲”程序?qū)崿F(xiàn)。 網(wǎng)絡(luò)爬蟲一般是先“爬”到對應(yīng)的研上,再把需要的信息“鏟”下來。網(wǎng)絡(luò)爬蟲采集和處理數(shù)據(jù)包括采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)模塊這3個重要模塊。了解爬蟲的基本工作流程,并掌握URL 抓取策略,我們在實際使用網(wǎng)絡(luò)爬蟲時可根據(jù)具體需要選擇適合的策略即可。另外,對企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究 機構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集。解決大數(shù)據(jù)的隱私問題是數(shù)據(jù)采集技術(shù)的重要目標(biāo) 之一。現(xiàn)階段的醫(yī)療機構(gòu)數(shù)據(jù)更多來源于內(nèi)部,外部的數(shù)據(jù)沒有得到很好的應(yīng)用。對外部數(shù)據(jù),醫(yī) 療機構(gòu)可以考慮借助如百度、阿里、騰訊等公司第三方數(shù)據(jù)平臺
25、解決數(shù)據(jù)采集難題。大數(shù)據(jù)并不在“大”,而在于“有用”,數(shù)據(jù)質(zhì)量比數(shù)量更為重要,然而數(shù)據(jù)通常并非完美。 準(zhǔn)確、高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)產(chǎn)生價值的有力保證。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)質(zhì)量的優(yōu)劣直接影響數(shù) 據(jù)價值的高低,進(jìn)而影響人們的分析和決策。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前必不可少的準(zhǔn)備工作, 是數(shù)據(jù)挖掘中非常關(guān)鍵的一步。數(shù)據(jù)預(yù)處理通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需 要,從而保證數(shù)據(jù)挖掘的正解性和有效性。我們首先要弄清什么是影響數(shù)據(jù)質(zhì)量的因素,數(shù)據(jù)質(zhì)量 問題可能發(fā)生在大數(shù)據(jù)處理流程的每一個階段,尤其是在數(shù)據(jù)采集和集成階段最容易出現(xiàn)低質(zhì)量的 數(shù)據(jù),從而影響后續(xù)的建模分析和挖掘,最終出現(xiàn)錯誤的分析結(jié)
26、果,引起決策失誤。評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)是衡量數(shù)據(jù)在某一方面的性質(zhì),如準(zhǔn)確性、完整性、一致性、及時性、可 信性、可解釋性、重復(fù)性、關(guān)聯(lián)性等。它們反映了數(shù)據(jù)質(zhì)量的特性和用戶的需求。列舉其中幾個比 較重要的特性,分別描述它們的含義和用途。數(shù)據(jù)預(yù)處理的主要流程包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。經(jīng)過這些處理步 驟,我們可以從大量的數(shù)據(jù)屬性中提取出一部分對目標(biāo)輸出有重要影響的屬性,降低源數(shù)據(jù)的維 數(shù),去除噪聲等,為數(shù)據(jù)挖掘算法提供干凈、準(zhǔn)確且更有針對性的數(shù)據(jù),減少挖掘算法的數(shù)據(jù)處 理量,改進(jìn)數(shù)據(jù)的質(zhì)量,提高挖掘效率。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。大數(shù)據(jù)的來源傳統(tǒng)商業(yè)數(shù)據(jù)互
27、聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)數(shù)據(jù)的采集方法系統(tǒng)日志的采集方法網(wǎng)頁數(shù)據(jù)的采集方法其他數(shù)據(jù)的采集方法數(shù)據(jù)預(yù)處理影響數(shù)據(jù)質(zhì)量的因素數(shù)據(jù)預(yù)處理的目的數(shù)據(jù)預(yù)處理的流程三、討論問題:3-1大數(shù)據(jù)的來源有哪些?3-2針對不同類型的數(shù)據(jù),采用什么樣的采集方法?3-3數(shù)據(jù)預(yù)處理的目的是什么?3-4數(shù)據(jù)清洗需要清洗哪些數(shù)據(jù),應(yīng)使用哪些方法?3-5數(shù)據(jù)集成過程中需要處理的問題有哪些?歸納小結(jié):大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布 式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學(xué)習(xí)、并行計算、可視化等各種技術(shù)范疇和 不同的技術(shù)層面。首先給出一個通用化的大數(shù)據(jù)處理框架,主要分為下面幾個方面: 數(shù)據(jù)采集
28、與預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)清洗、數(shù)據(jù)查詢分析和數(shù)據(jù)可視化。對于各種來源的數(shù)據(jù),包括移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)的數(shù)據(jù)等,這些結(jié)構(gòu)化和 非結(jié)構(gòu)化的海量數(shù)據(jù)是零散的,也就是所謂的數(shù)據(jù)孤島,此時的這些數(shù)據(jù)并沒有什么 意義,數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉庫中,把零散的數(shù)據(jù)整合在一起,對這些 數(shù)據(jù)綜合起來進(jìn)行分析。數(shù)據(jù)采集包括文件日志的采集、數(shù)據(jù)庫日志的采集、關(guān)系型 數(shù)據(jù)庫的接入和應(yīng)用程序的接入等。在數(shù)據(jù)量比較小的時候,可以寫個定時的腳本將 日志寫入存儲系統(tǒng),但隨著數(shù)據(jù)量的增長,這些方法無法提供數(shù)據(jù)安全保障,并且運 維困難,需要更強壯的解決方案。思考及作 業(yè)讀者通過本章的系統(tǒng)學(xué)習(xí),課堂上注意講、學(xué)、練相結(jié)合
29、,注重以學(xué)生為主體, 積極與學(xué)生互動,調(diào)動學(xué)生的學(xué)習(xí)主動性和學(xué)習(xí)興趣,培養(yǎng)學(xué)生發(fā)現(xiàn)問題、解決問題 的實際能力。采用任務(wù)驅(qū)動,問題牽引的方式,提出問題,之后帶動學(xué)生在教師的講解下一步 步尋找解決方法,再歸納總結(jié)出知識點,結(jié)合教學(xué)課件和實際案例,尋找合適的切入 點,以講授和實例分析為主的形式完成教學(xué),讓讀者對理論知識的掌握更直接、更快 速。在掌握了數(shù)據(jù)采集的方法和數(shù)據(jù)預(yù)處理的技術(shù)方法后,才能在龐大而復(fù)雜的數(shù)據(jù) 中剔除有殘缺的、虛假的、過時的數(shù)據(jù),為決策帶來高回報,最終獲得高質(zhì)量的分析 挖掘結(jié)果。二、拓展延伸:(1)網(wǎng)頁數(shù)據(jù)的采集工具有哪些?(2)簡述數(shù)據(jù)預(yù)處理的技術(shù)的必要性和任務(wù)。第4章 大數(shù)據(jù)存
30、儲與管理課時內(nèi)容大數(shù)據(jù)存儲模式與管理應(yīng)用授課時間90分鐘課時教學(xué)目標(biāo)本章首先討論數(shù)據(jù)的存儲介質(zhì),然后介紹常見的存儲模式,以及大數(shù)據(jù)時代的存儲管 理系統(tǒng)。教學(xué)重點0掌握數(shù)據(jù)的存儲模式0理解并掌握大數(shù)據(jù)時代的存儲管理系統(tǒng)教學(xué)難點0理解數(shù)據(jù)存儲的概念和種類0 熟練掌握常用的3種數(shù)據(jù)存儲模式0理解分布式平臺存儲大數(shù)據(jù)的意義和優(yōu)勢,掌握分布式文件系統(tǒng)基礎(chǔ)架構(gòu)教學(xué)設(shè)計1、教學(xué)思路:(1)介紹早期的存儲介質(zhì)和目前常見的數(shù)據(jù)存儲介質(zhì)種類及其特點; (2)簡述數(shù)據(jù)常見的3種存儲模式,列舉各種存儲模式的優(yōu)缺點和適用場景;(3) 在大數(shù)據(jù)時代,需要進(jìn)行存儲技術(shù)的變革,采用分布式平臺存儲大數(shù)據(jù),講解分布式 文件系統(tǒng)的
31、基礎(chǔ)架構(gòu);(4)描繪數(shù)據(jù)庫家族圖譜,講解數(shù)據(jù)庫的種類和特點,通過數(shù) 據(jù)庫提供的多種方式來管理數(shù)據(jù)庫里的數(shù)據(jù)。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識點內(nèi)容,理論與案例相結(jié)合,引入常見的數(shù)據(jù)存儲模式,通過豐富 簡單易上手的實例,讓學(xué)生能夠切實理解和掌握大數(shù)據(jù)的存儲管理知識。教學(xué)內(nèi)容一、導(dǎo)入新課:在大數(shù)據(jù)時代的背景下,海量的數(shù)據(jù)整理成為了各個企業(yè)急需解決的問題。對于企業(yè)來說,數(shù) 據(jù)對于戰(zhàn)略和業(yè)務(wù)連續(xù)性都十分重要,它是業(yè)務(wù)文檔、計劃、用戶數(shù)據(jù)和財務(wù)信息的積累,是任何 業(yè)務(wù)基礎(chǔ)設(shè)施的核心組件。云計算技術(shù)、物聯(lián)網(wǎng)等技術(shù)快速發(fā)展,多樣化已經(jīng)成為數(shù)據(jù)信
32、息的一項 顯著特點,為充分發(fā)揮信息應(yīng)用價值,有效存儲已經(jīng)成為人們關(guān)注的熱點。為了有效應(yīng)對現(xiàn)實世界 中復(fù)雜多樣性的大數(shù)據(jù)處理需求,需要針對不同的大數(shù)據(jù)應(yīng)用特征,從多個角度、多個層次對大數(shù) 據(jù)進(jìn)行存儲和管理。管理大數(shù)據(jù)的關(guān)鍵是制定戰(zhàn)略,以高自動化、高可靠、高成本效益的方式歸檔 數(shù)據(jù)。大數(shù)據(jù)現(xiàn)象意味著企業(yè)機構(gòu)應(yīng)對大量數(shù)據(jù),以及各種數(shù)據(jù)格式的挑戰(zhàn)。多樣化作為有效方式 而在各行各業(yè)興起,是一種涉及各種產(chǎn)品來支持?jǐn)?shù)據(jù)管理戰(zhàn)略的數(shù)據(jù)存儲模式。這些產(chǎn)品包括自動 化、磁盤和重復(fù)數(shù)據(jù)刪除、軟件,以及備份和歸檔。支撐這一方式的原則就是:特定類型的數(shù)據(jù)堅 持使用合適的存儲介質(zhì),在現(xiàn)實中需要一套與各種功能相匹配的解決方
33、案。本章綜述了基于新型存儲的大數(shù)據(jù)存儲管理技術(shù),分析了現(xiàn)有大數(shù)據(jù)存儲技術(shù)的局限性,介紹 了新型存儲的特點和發(fā)展概況,總結(jié)了基于新型存儲的大數(shù)據(jù)存儲架構(gòu)、基于新型存儲的大數(shù)據(jù)存 儲管理等方向的研究現(xiàn)狀,在此基礎(chǔ)上給出了基于新型存儲的大數(shù)據(jù)存儲與管理的若干未來研究方 向。目前,大數(shù)據(jù)面臨的存儲管理問題主要體現(xiàn)在:種類和來源多樣化、存儲管理復(fù)雜、對數(shù)據(jù)服 務(wù)的種類和水平要求越來越高等。目前,大數(shù)據(jù)主要來源于搜索引擎服務(wù)、電子商務(wù)、社交網(wǎng)絡(luò)、 音視頻、在線服務(wù)、個人數(shù)據(jù)業(yè)務(wù)、地理信息數(shù)據(jù)、傳統(tǒng)企業(yè)、公共機構(gòu)等領(lǐng)域。因此數(shù)據(jù)呈現(xiàn)方 法眾多,可以是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)形態(tài),不僅使原有的存儲模式
34、無法滿足數(shù)據(jù)時 代的需求,還導(dǎo)致存儲管理更加復(fù)雜。針對大數(shù)據(jù)高效存儲與管理問題,目前除了 Hadoop技術(shù)之外,學(xué)術(shù)界和工業(yè)界也提出了一些其 他的設(shè)計,包括以NoSQL數(shù)據(jù)庫為代表的大規(guī)模分布式數(shù)據(jù)庫系統(tǒng)設(shè)計、基于動態(tài)隨機存取存儲器 (dynamic random access memory, DRAM)的內(nèi)存數(shù)據(jù)庫技術(shù)等。但現(xiàn)有的NoSQL分布式數(shù)據(jù)庫技術(shù)仍以磁盤存儲或者“磁盤+閃存flash memory)”混合存儲的方式存儲數(shù)據(jù),本質(zhì)上還是傳統(tǒng) 的“CPUDRAM二級存儲”的存儲架構(gòu),依然存在著內(nèi)存和磁盤之間的“存儲墻”問題,難以 從本質(zhì)上解決大數(shù)據(jù)實時存取的問題。此外,由于DRAM能耗
35、和成本較高,也限制了其在大規(guī)模數(shù) 據(jù)處理中的應(yīng)用。由此可見,如何高效地存儲大數(shù)據(jù)并支持實時大數(shù)據(jù)處理與分析是大數(shù)據(jù)技術(shù)發(fā) 展面臨的首要問題。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。數(shù)據(jù)存儲概述數(shù)據(jù)的存儲介質(zhì)數(shù)據(jù)的存儲模式大數(shù)據(jù)時代的存儲管理系統(tǒng)文件系統(tǒng)分布式文件系統(tǒng)數(shù)據(jù)庫鍵-值數(shù)據(jù)庫分布式數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫數(shù)據(jù)倉庫文檔數(shù)據(jù)庫圖形數(shù)據(jù)庫云存儲三、討論問題:4-1關(guān)系型存儲系統(tǒng)有哪些?4-2非關(guān)系型存儲系統(tǒng)有哪些,它們的特點是什么?4-3描述你對云存儲的認(rèn)識。一、歸納小結(jié):思考及作 業(yè)本章深入講解大數(shù)據(jù)存儲與管理,重點介紹大數(shù)據(jù)時代數(shù)據(jù)庫存儲技術(shù)的發(fā)展 和變化,讓初學(xué)者了解大數(shù)據(jù)時代
36、的數(shù)據(jù)存儲和管理技術(shù)。目前原有的存儲模式逐 漸跟不上時代發(fā)展的步伐,無法滿足大數(shù)據(jù)時代的需求,導(dǎo)致信息處理技術(shù)無法承載 信息的負(fù)荷量。這就需要對數(shù)據(jù)的存儲技術(shù)和存儲模式進(jìn)行創(chuàng)新與研究,跟上數(shù)字 化存儲的技術(shù)的發(fā)展步伐,給用戶提供一個具有高質(zhì)量的數(shù)據(jù)存儲體驗。二、拓展延伸:(1)常用的數(shù)據(jù)存儲和管理手段有哪些?(2)學(xué)習(xí)并討論華為數(shù)據(jù)存儲與智能管理的優(yōu)點。(3)管理大數(shù)據(jù)存儲有哪些技巧?課時內(nèi)容大數(shù)據(jù)計算框架授課時間90分鐘課時2教學(xué)目標(biāo)本章討論批處理、流計算、交互式分析3種類別的框架,然后簡要介紹大數(shù)據(jù)計算 框架的一些發(fā)展趨勢,并詳細(xì)介紹MapReduce的批處理框架和Spark基于內(nèi)存的混
37、合計算框架。教學(xué)重點0理解并掌握MapReduce的計算模型、資源管理框架和編程特點0 掌握Spark的基本知識、基本特點和架框原理教學(xué)難點0理解處理框架按照所處理的數(shù)據(jù)狀態(tài)分為批處理框架、流式處理框架及交互式處 理框架3種計算框架0掌握MapReduce的計算模型、資源管理框架和編程特點0 理解并掌握Spark的基本知識、生態(tài)系統(tǒng)、基本特點和架框原理教學(xué)設(shè)計1、教學(xué)思路:(1)對大數(shù)據(jù)的分布式計算框架進(jìn)行詳細(xì)介紹(在實際應(yīng)用中,大數(shù) 據(jù)主要涉及3種計算框架,包括批處理、實時流式計算、交互式分析框架);(2)詳 細(xì)介紹MapReduce的批處理框架和Spark基于內(nèi)存的混合計算框架。2、教學(xué)手
38、段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識點內(nèi)容,理論與案例相結(jié)合,引入MapReduce的批處理框架和Spark 基于內(nèi)存的混合計算框架的相關(guān)理論知識,讓學(xué)生能夠切實理解并掌握大數(shù)據(jù)計算框 架的基本知識。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著大數(shù)據(jù)、云計算的到來,各種業(yè)務(wù)都開始依賴大數(shù)據(jù),包括各互聯(lián)網(wǎng)公司也對大數(shù)據(jù)有了 前所未有的重視,目前的數(shù)據(jù)處理系統(tǒng)主要包括批處理系統(tǒng)和實時處理系統(tǒng),而且這些業(yè)務(wù)越來越 要求實時性,客戶使用云服務(wù)可以避免復(fù)雜的系統(tǒng)設(shè)計和設(shè)備的多次購買費用。計算機的基本工作 就是處理數(shù)據(jù),包括磁盤文件中的數(shù)據(jù),通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)流或數(shù)據(jù)包,數(shù)
39、據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù) 等。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)得到越來越廣泛的應(yīng)用,數(shù)據(jù)規(guī)模不斷增加,TB、PB量級成為常態(tài), 對數(shù)據(jù)的處理已無法由單臺計算機完成,而只能由多臺機器共同承擔(dān)計算任務(wù)。而在分布式環(huán)境中 進(jìn)行大數(shù)據(jù)處理,除了與存儲系統(tǒng)打交道外,還涉及計算任務(wù)的分工,計算負(fù)荷的分配,計算機之 間的數(shù)據(jù)遷移等工作,并且要考慮計算機或網(wǎng)絡(luò)發(fā)生故障時的數(shù)據(jù)安全,情況要復(fù)雜得多。在大數(shù) 據(jù)時代,數(shù)據(jù)通常都是持續(xù)不斷動態(tài)產(chǎn)生的。在很多場合,數(shù)據(jù)需要在非常短的時間內(nèi)得到處理, 并且還要考慮容錯、擁塞控制等問題,避免數(shù)據(jù)遺漏或重復(fù)計算。流計算框架則是針對這一類問題 的解決方案。理解大數(shù)據(jù)的處理框架負(fù)責(zé)對系統(tǒng)中的
40、數(shù)據(jù)進(jìn)行計算,例如處理文件系統(tǒng)中存儲的數(shù) 據(jù),或處理剛剛從系統(tǒng)中獲取的流式數(shù)據(jù)。本章主要分析了當(dāng)前的計算框架,以此構(gòu)建基于云服務(wù)的大數(shù)據(jù)分析系統(tǒng),使其具有良好的 擴展性、兼容性及大數(shù)據(jù)處理引擎的自適應(yīng)性選擇。處理框架按照所處理的數(shù)據(jù)狀態(tài)分為批處理 框架、流式處理框架及交互式處理框架。詳細(xì)介紹YMapReduce的批處理框架和Spark基于內(nèi)存 的混合計算框架,分別講解MapReduce的計算模型、資源管理框架和編程特點,以及Spark的基本知識、生態(tài)系統(tǒng)、基本特點和架框原理。Hadoop最初主要包含分布式文件系統(tǒng)HDFS和計算框 架MapReduce兩部分,是從Nutch中獨立出來的項目。在2
41、.0版本中,又把資源管理和任務(wù)調(diào)度 功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣運行在Hadoop之上。 與之前的分布式計算框架相比,Hadoop隱藏了很多繁瑣的細(xì)節(jié),如容錯、負(fù)載均衡等,更便于使 用。Hadoop也具有很強的橫向擴展能力,可以很容易地把新計算機接入到集群中參與計算。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。計算框架批處理框架流式處理框架交互式處理框架MapReduceMapReduce編程的特點MapReduce的計算模型MapReduce的資源管理框架SparkSpark的基本知識Spark的生態(tài)系統(tǒng)Spark的架構(gòu)與原理
42、Spark RDD的基本知識三、討論問題:5-1大數(shù)據(jù)的計算框架有哪幾類?5-2 MapReduce的核心思想是什么?5-3請簡單圖示MapReduce的基本工作原理。5-4 MRv1與YARN的不同之處有哪些?5-5 Spark相比Hadoop的優(yōu)勢在哪里?5-6 Spark大數(shù)據(jù)平臺涵蓋了哪些有用的大數(shù)據(jù)分析工具?一、歸納小結(jié):本章闡述了在實際應(yīng)用中,大數(shù)據(jù)主要涉及的3種計算框架,包括批處理、實時 流式計算、交互式分析框架,然后圖示MapReduce的基本工作原理,重點介紹了 MapReduce的核心思想、計算模型、資源管理框架和編程特點,以及Spark的基本知思考及作 業(yè)識、生態(tài)系統(tǒng)、基
43、本特點和架框原理。簡單分析Spark相比Hadoop的優(yōu)勢,介紹了 Spark 大數(shù)據(jù)平臺所涵蓋的大數(shù)據(jù)分析工具。二、拓展延伸:請思考并討論Hadoop技術(shù)在移動支付行業(yè)的應(yīng)用都有哪些。課時內(nèi)容數(shù)據(jù)挖掘授課時間135分鐘課時3教學(xué)目標(biāo)本章介紹大數(shù)據(jù)的關(guān)鍵核心技術(shù)一數(shù)據(jù)挖掘,重點對常用的數(shù)據(jù)挖掘算法進(jìn)行介紹, 為讀者未來的深入學(xué)習(xí)打下基礎(chǔ)。數(shù)據(jù)挖掘03沉2 Mining,DM)是一門多學(xué)科交叉應(yīng) 用技術(shù),對各行各業(yè)的決策支持活動起著至關(guān)重要的作用。本章首先介紹數(shù)據(jù)挖掘的 基本概念、數(shù)據(jù)挖掘系統(tǒng)的組成,以及數(shù)據(jù)挖掘的對象與價值,然后介紹數(shù)據(jù)挖掘的 常用技術(shù)與工具,最后簡單介紹數(shù)據(jù)挖掘的典型應(yīng)用。教
44、學(xué)重點0理解并掌握數(shù)據(jù)挖掘的概念和典型的數(shù)據(jù)挖掘系統(tǒng)組成0掌握數(shù)據(jù)挖掘常用的技術(shù)與工具教學(xué)難點0理解并掌握數(shù)據(jù)挖掘的概念和系統(tǒng)組成并體會其作用0掌握數(shù)據(jù)準(zhǔn)備及挖掘的一般過程0掌握數(shù)據(jù)挖掘的3種技術(shù)0熟悉數(shù)據(jù)挖掘常用的5種工具及特點0 了解數(shù)據(jù)挖掘的典型應(yīng)用教學(xué)設(shè)計1、教學(xué)思路:(1)引導(dǎo)學(xué)生培養(yǎng)從數(shù)據(jù)挖掘角度分析數(shù)據(jù)的意識,運用統(tǒng)計學(xué) 方法尋找蘊藏在數(shù)據(jù)之中的規(guī)律,借助它解決學(xué)習(xí)和生活中的實際問題;(2)通過圖 示知識挖掘的過程,引入數(shù)據(jù)挖掘的系統(tǒng)組成;(3)介紹數(shù)據(jù)挖掘的數(shù)據(jù)類型,分別 從技術(shù)價值、商業(yè)價值、行業(yè)價值、社會價值4個方面,對應(yīng)著“三重門”即“交 易門”“交互門”“公開市場門”來
45、具體探討數(shù)據(jù)挖掘的價值;(4)分析講解數(shù) 據(jù)挖掘常用的3種技術(shù):關(guān)聯(lián)分析、分類分析、聚類分析,以及各種技術(shù)的優(yōu)缺 點;(5)介紹數(shù)據(jù)挖掘常用的5種工具:RapidMiner、WEKA、Orange、R語言、 Mining,以及各種數(shù)據(jù)挖掘的特點;(6)論述數(shù)據(jù)挖掘在社交媒體、市場營銷、科學(xué) 研究、電信、教育、醫(yī)學(xué)等領(lǐng)域的典型應(yīng)用,闡明數(shù)據(jù)挖掘技術(shù)對當(dāng)今社會的發(fā)展有 著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問題,進(jìn)一步提高數(shù)據(jù)挖 掘技術(shù)的質(zhì)量和效率,就成為數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識點內(nèi)容,理
46、論與案例相結(jié)合,在教學(xué)中,為了讓學(xué)生深刻體會數(shù)據(jù) 挖掘的意義和價值,鼓勵學(xué)生對數(shù)據(jù)進(jìn)行多角度加工與分析,找到規(guī)律或有用的信息, 用恰當(dāng)?shù)姆绞街庇^地表達(dá)出來,學(xué)會搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,讓數(shù)據(jù)挖 掘更好地服務(wù)于生活與學(xué)習(xí)。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著計算機與信息技術(shù)的飛速發(fā)展和深入普及,來自商業(yè)、醫(yī)療、科學(xué)、社會及日常生活中無 處不在的數(shù)據(jù),正以指數(shù)的方式無限增長,各行各業(yè)的數(shù)據(jù)規(guī)模已從68級別上升到TB、PB級別。 面臨如此快速擴張的數(shù)據(jù)海洋,如何有效利用這一豐富數(shù)據(jù)中蘊含的寶藏,已成為人們越來越關(guān)注 的焦點。面對全世界如此巨大的數(shù)據(jù)資源,傳統(tǒng)的數(shù)據(jù)分析工具和方法,已經(jīng)無法有效地為決策
47、者提 供其決策支持所需要的相關(guān)知識,但各個行業(yè)又面臨著將這些數(shù)據(jù)資源轉(zhuǎn)換為有用的信息和知識的迫切需求。人們期望有這樣一種技術(shù),能從這些大量數(shù)據(jù)中去粗求精、去偽求真。這種期望和 需求使從數(shù)據(jù)庫中挖掘信息的核心技術(shù)一一數(shù)據(jù)挖掘應(yīng)運而生??梢赃@樣說,數(shù)據(jù)挖掘其實就是 從大量數(shù)據(jù)中找出對人們有用的信息的過程。數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的對象與價值數(shù)據(jù)挖掘的對象數(shù)據(jù)挖掘的價值數(shù)據(jù)挖掘常用的技術(shù)關(guān)聯(lián)分析分類分析聚類分析數(shù)據(jù)挖掘常用的工具RapidMinerWEKAOrangeR語言Mining數(shù)據(jù)挖掘的典型應(yīng)用
48、社交媒體領(lǐng)域的應(yīng)用市場營銷領(lǐng)域的應(yīng)用科學(xué)研究領(lǐng)域的應(yīng)用電信領(lǐng)域的應(yīng)用教育領(lǐng)域的應(yīng)用醫(yī)學(xué)領(lǐng)域的應(yīng)用三、討論問題:6-1數(shù)據(jù)挖掘的概念。6-2數(shù)據(jù)挖掘常用的技術(shù)有哪3種?其定義分別是什么?6-3關(guān)聯(lián)分析的步驟有哪幾個?6-4分類分析與聚類分析的區(qū)別有哪些?6-5數(shù)據(jù)挖掘有哪些常用的工具?各有什么優(yōu)缺點?一、歸納小結(jié):數(shù)據(jù)挖掘的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價值與需求的數(shù)據(jù)庫,皆可利用數(shù) 據(jù)挖掘工具進(jìn)行有目的的發(fā)掘分析。常見的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財務(wù) 金融保險、通訊及醫(yī)療服務(wù)等領(lǐng)域。一些公司運用數(shù)據(jù)挖掘的成功案例,顯示了數(shù)據(jù) 挖掘的強大生命力。思考及作 業(yè)數(shù)據(jù)挖掘技術(shù)對當(dāng)今社會的發(fā)展有著
49、不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘 技術(shù)中存在的問題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率,就成為數(shù)據(jù)挖掘技術(shù)進(jìn) 步的方向。二、拓展延伸:(1) 大數(shù)據(jù)挖掘分析在電力設(shè)備狀態(tài)評估中的應(yīng)用都有哪些?(2)數(shù)據(jù)挖掘未來的研究焦點集中在哪些方面?課時內(nèi)容數(shù)據(jù)可視化授課時間90分鐘課時2教學(xué)目標(biāo)本章介紹數(shù)據(jù)可視化技術(shù),講解數(shù)據(jù)可視化的相關(guān)概念和工具教學(xué)重點0理解可視化的含義0 了解可視化的發(fā)展歷程0 理解并掌握可視化的作用0 掌握數(shù)據(jù)可視化分類0 掌握數(shù)據(jù)可視化工具教學(xué)難點0理解可視化的含義和發(fā)展歷程0 理解并掌握數(shù)據(jù)可視化的作用0 掌握數(shù)據(jù)可視化的3種分類0 了解數(shù)據(jù)可視化的特性,掌握可視化工具的
50、基本應(yīng)用教學(xué)設(shè)計1、教學(xué)思路:(1)理解可視化的含義,可視化是一種使復(fù)雜信息能夠容易和快速被 人理解的手段,是一種聚焦在信息重要特征的信息壓縮,是可以放大人類感知的圖形 化表示方法;(2)縱觀數(shù)據(jù)可視化的發(fā)展歷程,人類對數(shù)據(jù)的需求由粗糙變精確、展 現(xiàn)形式由一維到多維、數(shù)據(jù)類型由簡單到復(fù)雜、應(yīng)用領(lǐng)域由有限變豐富。我們很容易 發(fā)現(xiàn)不同時期數(shù)據(jù)的規(guī)模、精度、類型、來源是影響數(shù)據(jù)可視化形式的主要因素;政 治經(jīng)濟(jì)需求、商業(yè)化應(yīng)用和科學(xué)研究是數(shù)據(jù)可視化發(fā)展的重要推動力;(3)理解并掌 握可視化的作用是可視化后的信息易于認(rèn)知和理解,能用一些簡短的圖形體現(xiàn)那些復(fù) 雜信息,并以建設(shè)性方式討論結(jié)果,理解運營和結(jié)果
51、之間的連接,允許用戶去跟蹤運 營和整體業(yè)務(wù)結(jié)果之間的對接,并且管理者可以更容易地發(fā)現(xiàn)各種大數(shù)據(jù)集的市場變 化和趨勢,與數(shù)據(jù)交互,可以及時帶來風(fēng)險預(yù)警;(4)熟練掌握數(shù)據(jù)可視化的3種分 類:科學(xué)可視化、信息可視化、可視化分析學(xué);(5)簡述數(shù)據(jù)可視化所必備的特性, 分別介紹4種數(shù)據(jù)可視化工具,入門級工具Excel;信息圖表工具Visem、Canva、Google Charts、Piktochart、Infogram、Venngage、Easel.ly;地圖工具 MapShaper、CartoDB、 mapbox、Map Stack;高級分析工具R語言、Data-Driven Documents (
52、數(shù)據(jù)驅(qū)動文檔)、 Python;(6)以數(shù)字美食、空中的間諜為例,深入講解知識點內(nèi)容,理論 與案例相結(jié)合,幫助讀者更好掌握相關(guān)知識。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)不斷在實踐中創(chuàng)新與學(xué)習(xí),注重理論聯(lián)系實際,注重各學(xué)科交叉,利用商業(yè)、科 研、政治等領(lǐng)域的需求和發(fā)展來推動大數(shù)據(jù)可視化學(xué)科的進(jìn)步。教學(xué)內(nèi)容一、導(dǎo)入新課:數(shù)據(jù)可視化是當(dāng)今時代的技術(shù)熱點,并在一定程序上推進(jìn)了其他相關(guān)數(shù)據(jù)技術(shù)的發(fā)展和創(chuàng)新, 尤其是人們通過不同的可視化方法可以更好地發(fā)現(xiàn)整體數(shù)據(jù)的內(nèi)在意義和內(nèi)在聯(lián)系,為可能的數(shù)據(jù) 創(chuàng)新和數(shù)據(jù)服務(wù)提供強有力的支撐和幫助。數(shù)據(jù)可視化主要旨在借助于
53、圖形化手段,清晰有效地傳 達(dá)與溝通信息,它是一個處于不斷演變之中的概念,其邊界在不斷地擴大,主要指的是技術(shù)上較為 高級的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達(dá)、 建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋,它是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。什么是可視化可視化的含義可視化的發(fā)展歷程可視化的作用數(shù)據(jù)可視化及其分類科學(xué)可視化信息可視化可視化分析學(xué)數(shù)據(jù)可視化工具入門級工具信息圖表工具地圖工具高級分析工具數(shù)據(jù)可視化案例數(shù)字美食空中的間諜三、討論問題:7-1數(shù)據(jù)可視化的意義是什么?7-2數(shù)
54、據(jù)可視化的發(fā)展現(xiàn)狀如何?7-3數(shù)據(jù)可視化的技術(shù)類型有哪些?7-4數(shù)據(jù)可視化的典型工具有哪些?思考及作 業(yè)一、歸納小結(jié):大數(shù)據(jù)可視化的實施是一系列數(shù)據(jù)的轉(zhuǎn)換過程。我們有原始數(shù)據(jù),通過對原始數(shù) 據(jù)進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化的處理,把它們整理成數(shù)據(jù)表。將這些數(shù)值轉(zhuǎn)換成視覺結(jié)構(gòu), 通過視覺的方式把它表現(xiàn)出來。例如將高中低的風(fēng)險轉(zhuǎn)換成紅黃藍(lán)等色彩,數(shù)值轉(zhuǎn)換 成大小。將視覺結(jié)構(gòu)進(jìn)行組合,把它轉(zhuǎn)換成圖形傳遞給用戶,用戶通過人機交互的方 式進(jìn)行反向轉(zhuǎn)換,去更好地了解數(shù)據(jù)背后有什么問題和規(guī)律。從技術(shù)上來說,大數(shù)據(jù) 可視化的實施步驟主要有四項:明確需求,建設(shè)數(shù)據(jù)倉庫模型,數(shù)據(jù)抽取、清洗、轉(zhuǎn) 換、加載(ETL),建立可視化
55、分析場景。在未來數(shù)據(jù)可視化的發(fā)展歷程中,數(shù)據(jù)的處理能力為核心,交互式可視化是新趨 勢。數(shù)據(jù)可視化使受眾與媒體的關(guān)系發(fā)生根本變化,得以感受到傳統(tǒng)報道難以揭示的 現(xiàn)象和規(guī)律。步入數(shù)據(jù)時代,“數(shù)據(jù)可視化”作為一種表達(dá)類型、生產(chǎn)類型、內(nèi)容類 型,愈發(fā)高頻地走進(jìn)受眾視野大數(shù)據(jù)時代,傳統(tǒng)的顯示技術(shù)已很難達(dá)到可以完美展示 出大規(guī)模、高緯度、非結(jié)構(gòu)化數(shù)據(jù)層出不窮數(shù)據(jù)的需求。二、拓展延伸:數(shù)據(jù)可視化未來的發(fā)展趨勢如何?以及它在現(xiàn)實生活中的主要應(yīng)用是什么?第8章 大數(shù)據(jù)與云計算課時內(nèi)容大數(shù)據(jù)與云計算授課時間90分鐘課時2教學(xué)目標(biāo)本章主要學(xué)習(xí)大數(shù)據(jù)處理與云計算相關(guān)原理和技術(shù)結(jié)合時代熱點介紹大數(shù)據(jù)與云計算 的關(guān)系教學(xué)
56、重點0理解云計算的概念與特點0掌握云計算的分類0掌握云計算的體系架構(gòu)0 了解大數(shù)據(jù)與云計算未來的發(fā)展方向和趨勢0熟悉大數(shù)據(jù)與云計算在生產(chǎn)生活中的應(yīng)用教學(xué)難點0理解云計算的涵義和特點0理解并掌握云計算的分類0掌握云計算的體系架構(gòu)0在掌握大數(shù)據(jù)處理與云計算相關(guān)基本原理和技術(shù)的基礎(chǔ)上,結(jié)合實際理解大數(shù)據(jù) 與云計算的區(qū)別和聯(lián)系教學(xué)設(shè)計1、教學(xué)思路:(1)理解云計算的概念,云計算(cloud computing,分布式計算技術(shù)的 一種,其最基本的概念,是透過網(wǎng)絡(luò)將龐大的計算處理程序自動分拆成無數(shù)個較小的 子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計算分析之后將處理結(jié)果回傳 給用戶。透過這項技術(shù),網(wǎng)
57、絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬計甚至 億計的信息,達(dá)到和“超級計算機”同樣強大效能的網(wǎng)絡(luò)服務(wù);(2)了解云計算具有 超大規(guī)模、虛擬化、高可靠性、通用性、高可擴展性、按需服務(wù)、極其廉價的特點;(3)簡要介紹公有云、私有云、混合云這3種不同分類的云計算的特點;(4)通過 云計算平臺架框圖了解軟件即服務(wù)(Software as a Service,SaaS)、平臺即服務(wù)(Platform as a Service,PaaS)和基礎(chǔ)即服務(wù)(Infrastructure as a Service,IaaS)3 種云計算的典型 服務(wù)模式;(5)理解大數(shù)據(jù)與云計算的區(qū)別與聯(lián)系;(6)了解大數(shù)據(jù)
58、與云計算未來 的發(fā)展方向和趨勢,熟悉大數(shù)據(jù)與云計算在生產(chǎn)生活中的應(yīng)用。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)教學(xué)應(yīng)當(dāng)結(jié)合實際的實驗條件,培養(yǎng)學(xué)生實踐動手能力,了解大數(shù)據(jù)技術(shù)發(fā)展現(xiàn)狀,更好地掌握所學(xué)知識點,促進(jìn)大數(shù)據(jù)相關(guān)教學(xué)改革。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著信息化時代的不斷深入,信息數(shù)據(jù)的量級已經(jīng)遠(yuǎn)遠(yuǎn)超越了個人計算機和中小型服務(wù)器的存儲 容量和處理能力,而同時因為全球化網(wǎng)絡(luò)的互連互通和計算機設(shè)備的不斷普及,又有很多大型網(wǎng)絡(luò)服 務(wù)器或者網(wǎng)絡(luò)中心的機器處于無用的或者小負(fù)載浪費存儲和計算能力的處境中,這個時候云計算就可 以為數(shù)據(jù)的應(yīng)用和閑置的網(wǎng)絡(luò)資源建立橋梁
59、,也為整個信息時代的發(fā)展提供新的發(fā)展思路,并且隨著 網(wǎng)絡(luò)傳輸速度的不斷提升,人們越來越發(fā)現(xiàn)云計算具有可觀的發(fā)展前途和光明的前景。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。什么是云計算云計算的概念與特點云計算的分類云計算與分布式計算的區(qū)別云計算的體系架構(gòu)云計算需要解決的問題具有代表性的云計算廠商8.2大數(shù)據(jù)與云計算的關(guān)系云計算將改變大數(shù)據(jù)分析大數(shù)據(jù)與云計算的區(qū)別和聯(lián)系大數(shù)據(jù)與云計算未來的發(fā)展方向和趨勢大數(shù)據(jù)與云計算在生產(chǎn)生活中的應(yīng)用三、討論問題:8-1什么是云計算?8-2云計算的計算框架是什么?8-3云計算與大數(shù)據(jù)的關(guān)系是什么?8-4云計算未來可能的發(fā)展方向是什么?思考及作 業(yè)一、歸
60、納小結(jié):云計算是并行計算(Parallel Computing)、分布式計算(Distributed Computing)和網(wǎng)格 計算(Grid Computing)的發(fā)展,或者說是這些計算機科學(xué)概念的商業(yè)實現(xiàn)。云計算是虛 擬化(Virtualization)、效用計算(Utility Computing)、IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺 即服務(wù))、SaaS(軟件即服務(wù))等概念混合演進(jìn)并躍升的結(jié)果。云計(cloud computing 商業(yè)化的超大規(guī)模分布式計算技術(shù)。即:用戶可以通過已有的網(wǎng)絡(luò)將所需要的龐大的 計算處理程序自動分拆成無數(shù)個較小的子程序,再交由多部服務(wù)器所組成的更龐大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吊環(huán)(鉆井工具)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 可熔聚四氟乙烯(PFA)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 新能源汽車機電分配式回收制動系統(tǒng)企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 廂式和帶式干燥設(shè)備企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 2025年征信考試題庫:征信法規(guī)解讀與信用咨詢業(yè)務(wù)試題卷
- 冷軋鋼企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 單粒釘機企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 三相脈沖電能表企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 2025年德語TestDaF模擬試卷:德語聽力訓(xùn)練與錯誤分析
- 出售整體設(shè)備合同標(biāo)準(zhǔn)文本
- 2025屆廣東省廣州市普通高中高三下學(xué)期二模物理試卷含答案
- 醫(yī)院綜合考核試題及答案
- 2025年工會五一勞動節(jié)活動方案范文
- 光纖通信系統(tǒng)與網(wǎng)絡(luò)(第5版)課件 胡慶 第1-4章 光纖通信概論-光纖通信系統(tǒng)及設(shè)計
- 舞臺劇代理運營協(xié)議合同
- 西南政法大學(xué)自主招生個人陳述的風(fēng)格與語氣
- 廣東省茂名市2025屆高三下學(xué)期二模試題 歷史 含解析
- 農(nóng)作物高產(chǎn)栽培技術(shù)的試題及答案
- 寧夏回族自治區(qū)銀川市一中2025屆高三下學(xué)期模擬訓(xùn)練數(shù)學(xué)試題
- 湘豫名校聯(lián)考2024-2025學(xué)年高三春季學(xué)期第二次模擬考試物理試題及答案
- 智能駕駛算法優(yōu)化研究-全面剖析
評論
0/150
提交評論