版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
教案首頁課題名稱第1章?lián)肀Т髷?shù)據(jù)時代(1)——1.1~1.2課次1授課類型理論□實踐□理實一體□其他學時2授課日期授課班級授課地點教學目的與要求知識目標:1.了解大數(shù)據(jù)的來源和基本概念;2.了解大數(shù)據(jù)的關鍵技術。能力目標:1.理解數(shù)據(jù)的概念和意義,對數(shù)據(jù)具有敏感度;2.掌握數(shù)據(jù)的常用表達方式和處理方法,并將其與具體問題相聯(lián)系;3.能進行數(shù)字化信息資源的獲取、加工和處理。素質目標:1.了解大數(shù)據(jù)倫理道德準則,規(guī)范日常信息行為;2.了解相關法律法規(guī)并自覺遵守;3.具備信息安全意識和相關防護能力。課程思政目標:建立數(shù)據(jù)意識,了解國家大數(shù)據(jù)戰(zhàn)略,樹立科技報國思想。教學重點1.大數(shù)據(jù)的基本概念2.大數(shù)據(jù)的關鍵技術教學難點大數(shù)據(jù)的關鍵技術教學方法與手段教學方法:課件講解、舉例說明、對比分析、啟發(fā)引導學生學法:預習—聽講---討論---復習—自學擴展設計意圖:激發(fā)學生學習興趣、提高課堂學習效率教學資源:課件、視頻資料課程思政要素要點在課程引入中,通過對國家大數(shù)據(jù)戰(zhàn)略的介紹,以及就業(yè)領域和技術發(fā)展趨勢的介紹,引起學生的學習興趣,堅定學生的專業(yè)自信,樹立學生科技報國的思想情懷和家國意識。課外作業(yè)查閱大數(shù)據(jù)相關資料教學反思大量的教學實例能夠幫助學生理解相關概念,提高學生學習興趣。教案紙第1章?lián)肀Т髷?shù)據(jù)時代(1)——1.1-1.2一、整體設計1.課程簡介(15分鐘)2.新課導入(5分鐘)3.新知識講解(75分鐘)(1)大數(shù)據(jù)技術概述(40分鐘)(2)大數(shù)據(jù)關鍵技術(35分鐘)4.總結與布置作業(yè)(5分鐘)二、新課導入大數(shù)據(jù)時代的到來:第三次信息化浪潮涌動,大數(shù)據(jù)時代全面開啟。人類社會信息科技的發(fā)展為大數(shù)據(jù)時代的到來提供了技術支撐,而數(shù)據(jù)產生方式的變革是促進大數(shù)據(jù)時代到來至關重要的因素。三、新知識講解1.1大數(shù)據(jù)技術概述1.1.1數(shù)據(jù)基本概念1.數(shù)據(jù)(1)數(shù)據(jù)的概念數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合,是可識別的、抽象的符號。數(shù)據(jù)和信息是兩個不同的概念,信息是較為宏觀的概念,它由數(shù)據(jù)的有序排列組合而成,傳達給讀者某個概念方法等,而數(shù)據(jù)則是構成信息的基本單位,離散的數(shù)據(jù)沒有任何實用價值。數(shù)據(jù)也被稱為“未來的石油”(2)數(shù)據(jù)類型(3)計算機系統(tǒng)中數(shù)據(jù)的組織形式:文件:一個Word文件,一個文本文件、一個網(wǎng)頁文件、一個圖片文件等。數(shù)據(jù)庫:層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫、關系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫2.大數(shù)據(jù)大數(shù)據(jù)是比較抽象的概念,通常認為,大數(shù)據(jù)又稱巨量數(shù)據(jù)、海量數(shù)據(jù),是指用傳統(tǒng)數(shù)據(jù)處理應用軟件不足以處理它們大或復雜的數(shù)據(jù)集的術語。大數(shù)據(jù)也可以定義為各種來源的大量非結構化和結構化數(shù)據(jù),它通常包含的數(shù)據(jù)大小超出了傳統(tǒng)軟件在可接受的時間內處理的能力。麥肯錫全球研究所對大數(shù)據(jù)的解釋是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有數(shù)據(jù)規(guī)模海量、數(shù)據(jù)流轉快速、數(shù)據(jù)類型多樣和價值密度低四個特征。簡而言之,大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫管理工具和傳統(tǒng)數(shù)據(jù)處理應用方法都很難處理的大型、復雜的數(shù)據(jù)集。1.1.2大數(shù)據(jù)的來源人類進入信息社會以后,數(shù)據(jù)以自然方式增長,其產生不以人的意志為轉移。從1986年開始到今天,全球數(shù)據(jù)的數(shù)量增長了超過100倍,今后的數(shù)據(jù)量增長速度將更快,我們正生活在一個“數(shù)據(jù)爆炸”的時代?;ヂ?lián)網(wǎng)公司更是要被數(shù)據(jù)淹沒了。谷歌公司每天要處理超過
24×2°字節(jié)的數(shù)據(jù),這意味著其每天的數(shù)據(jù)處理量是美國國家圖書館所有紙質出版物所含數(shù)據(jù)量的上千倍。Facebook
每天更新的照片量超過
3.5
億張,每天人們在網(wǎng)站上點擊“喜歡”(Like)按鈕或者寫評論大約有三十億次(見圖
1-2),這就為
公司挖掘用戶喜好提供了大量的數(shù)據(jù)線索。與此同時,谷歌子公司
YouTube
每月接待多達8
億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。Twitter
上的信息量幾乎每年翻番。2010
年全球數(shù)據(jù)量突破
1ZB(1ZB=10
億
TB),而
2021
年全球數(shù)據(jù)量預計將超過
40ZB?;ヂ?lián)網(wǎng)數(shù)據(jù)中心預計,到2025年,全球數(shù)據(jù)總量將達到175ZB。在計算機中,最小的存儲單位是位bit:8個二進制位為一個字節(jié)(B),最常用的單位。計算機存儲單位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB來表示,它們之間的關系是:1B(Byte字節(jié))=8bit1KB(Kilobyte千字節(jié))=1024B,1MB(Megabyte兆字節(jié)簡稱“兆”)=1024KB,1GB(Gigabyte吉字節(jié)又稱“千兆”)=1024MB,1TB
(Terabyte萬億字節(jié)太字節(jié))=1024GB,其中1024=2^10(2的10次方),1PB(Petabyte千萬億字節(jié)拍字節(jié))=1024TB,1EB(Exabyte百億億字節(jié)艾字節(jié))=1024PB,1ZB(Zettabyte十萬億億字節(jié)澤字節(jié))=1024EB,1YB(Yottabyte一億億億字節(jié)堯字節(jié))=1024ZB,1BB(Brontobyte一千億億億字節(jié))=1024YB1NB(Nonabyte)=1024BB1DB(Doggabyte)=1024NB毫無疑問,全地球所有的硬盤總容量加起來也可能不到1BB。1BB是什么概念?。我這樣說:地球上有60億人,每人要有16萬個1TB容量的硬盤,則全球硬盤總容量才能達到1BB。換個方法說:假設地球上有100個硬盤廠家,那么每個廠家要生產10萬億個1TB的硬盤,地球硬盤總容量才能達到1BB。產生數(shù)據(jù)的3個發(fā)展階段被動式生成數(shù)據(jù):由于數(shù)據(jù)庫技術的產生而產生的。主動式生成數(shù)據(jù):由于萬維網(wǎng)的發(fā)明與發(fā)展而產生的。感知生成數(shù)據(jù):由于物聯(lián)網(wǎng)的飛速發(fā)展而產生的。2.信息技術轉向數(shù)據(jù)技術根據(jù)IBM前首席執(zhí)行官郭士納的觀點,IT領域每隔十五年就會迎來一次重大變革大數(shù)據(jù)是第三次浪潮的華彩樂章。1.1.3大數(shù)據(jù)時代的來臨1.技術瓶頸的突破或緩解近年來,信息技術瓶頸的突破或緩解、大量人群的參與、大量傳感器的使用,以及行業(yè)信息化建設的不斷深入,為行業(yè)應用平臺積累了龐大的流量(用戶),進有積累了龐大的歷史數(shù)據(jù)。政府、研究機構、企事業(yè)單位紛紛挖掘大量數(shù)據(jù)背后隱藏的價值,用于政府治理、科學研究和企業(yè)轉型,成效顯著,價值巨大,引起了社會各界的高度重視。首先,云計算作為一種新的技術已經得到了快速的發(fā)展,云計算已經徹底改變了人們的工作方式,也改變了傳統(tǒng)軟件企業(yè),給企業(yè)帶來了更多的商業(yè)機會。其次,云存儲是將存儲資源放到“云”上供人們存取的一種新興方案。再次,網(wǎng)絡技術從
IPv4
過渡到
IPv6,通信技術從
2G、
3G、4G
升級到
5G,促使現(xiàn)代網(wǎng)絡通信技術朝著網(wǎng)絡全球化、寬帶化、智能化、個人化、綜合化方向發(fā)展。最后,NoSQL
非關系型數(shù)據(jù)庫的興起,用于管理圖片、視頻、音頻等多樣化的數(shù)據(jù)。海量數(shù)據(jù)的產生IDC
的研究報告顯示,未來幾年全球數(shù)據(jù)量每年的增長速度將超過
40%,2025全球數(shù)據(jù)量將達到
175
ZB,而且每過一分鐘,全世界僅互聯(lián)網(wǎng)就
7.5PB
的數(shù)據(jù)量產生,各類信息數(shù)據(jù)產生了爆炸式的膨脹。根據(jù)相關數(shù)據(jù)統(tǒng)計,淘寶網(wǎng)每天有數(shù)千萬筆交易,單日數(shù)據(jù)產生量超過50000GB,數(shù)據(jù)存儲量達
40PB。百度公司目前的數(shù)據(jù)量接近
10000
PB,每天大約要處理超過60
億次搜索請求。2017
年春節(jié)期間微信全球月活用戶首次突破
10
億人大關,音視通話總時長達到
175
億分鐘;微信公眾號數(shù)量超過
2000
萬個,社交微信紅包月活用戶已經超
8
億人。Facebook(臉書)一天新增
32
億條評論、3
億張照片,信息量達
10TB。Twitter(推特)一天新增
2
億條推文,約有
50
億個單詞,比《紐約時報》60
年的詞匯總量還多一倍,信息量達
7
TB。由此可見,每個行業(yè)領域每天都在不斷地產生海量的數(shù)據(jù),而這些數(shù)據(jù)則成為重要的生產要素,大數(shù)據(jù)時代已經到來。在信息技術的推動下,我們的工作、生活已經完全離不開互聯(lián)網(wǎng),我們已經變成“互聯(lián)網(wǎng)動物”,在互聯(lián)網(wǎng)上創(chuàng)造了屬于自己的“第二人生”。技術瓶頸也在不斷地被緩解和突破,處理龐大的數(shù)據(jù)已成為可能。同時,大流量產生的數(shù)據(jù)正在迅速膨脹,它決定著企業(yè)未來的發(fā)展方向。越來越多的政府、企事業(yè)單位等機構開始意識到數(shù)據(jù)正在成為最重要的資產,數(shù)據(jù)分析能力正在成為核心競爭力?;谑聦嵟c數(shù)據(jù)做出決策或者以數(shù)據(jù)驅動的思維方式布局,將推動社會產生巨大的變革。1.2大數(shù)據(jù)關鍵技術大數(shù)據(jù)產業(yè)是指以數(shù)據(jù)生產、采集、存儲、加工、分析、服務為主的相關經濟活動,包括數(shù)據(jù)資源建設,數(shù)據(jù)軟硬件產品的開發(fā)、銷售和租賃活動,以及相關的信息技術服務。大數(shù)據(jù)產業(yè)所需要的技術支持有哪些呢?對大數(shù)據(jù)的處理主要包括數(shù)據(jù)生成(也稱為數(shù)據(jù)采集、數(shù)據(jù)獲取)、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)應用(也稱為數(shù)據(jù)分析與挖掘)。為了完成對大數(shù)據(jù)的處理,需要計算機從硬件到軟件以及信息服務方面的支持。硬件方面要有采集設備、存儲設備和服務器等支持;軟件方面要有數(shù)據(jù)庫軟件、分布式文件系統(tǒng)、智能搜索與分析軟件、采集與監(jiān)測軟件等各類軟件技術支持;在信息服務方面要有系統(tǒng)集成、IT
基礎設施服務、咨詢服務等支持,并且要保證信息安全。1.2.1大數(shù)據(jù)采集技術數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是數(shù)據(jù)分析的入口,也是數(shù)據(jù)分析過程中相當重要的一個環(huán)節(jié),它通過各種技術手段把外部各種數(shù)據(jù)源產生的數(shù)據(jù)實時或非實時地采集并加以利用。數(shù)據(jù)采集數(shù)據(jù)源:1.2.2大數(shù)據(jù)預處理大數(shù)據(jù)的預處理過程主要是對不能采用或者采用后與實際可能產生較大偏差的數(shù)據(jù)進行替換和刪除。大數(shù)據(jù)預處理主要過程:1.數(shù)據(jù)的分類和預處理2.數(shù)據(jù)清洗3.數(shù)據(jù)集成4.數(shù)據(jù)歸約5.數(shù)據(jù)變換6.數(shù)據(jù)的離散化處理1.2.3大數(shù)據(jù)的存儲和處理數(shù)據(jù)存儲和處理是大數(shù)據(jù)分析流程中的重要一環(huán)。通過數(shù)據(jù)采集得到的數(shù)據(jù),必須進行有效的存儲和管理,才能用于高效的處理和分析。數(shù)據(jù)存儲與管理是利用計算機硬件和軟件技術對數(shù)據(jù)進行有效的存儲和應用的過程,其目的在于充分有效地發(fā)揮數(shù)據(jù)的作用。Hadoop是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進行處理的,它具有以下幾個方面的特性:高可靠性高效性高可擴展性高容錯性成本低運行在Linux平臺上支持多種編程語言經過多年的發(fā)展,Hadoop生態(tài)系統(tǒng)不斷完善和成熟,目前已經包含了多個子項目。除了核心的HDFS和MapReduce以外,Hadoop生態(tài)系統(tǒng)還包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能組件。1.2.4大數(shù)據(jù)分析大數(shù)據(jù)分析是大數(shù)據(jù)技術的核心,是提取隱含在數(shù)據(jù)中、人們事先不知道、但又存在潛在價值的信息和知識的過程。大數(shù)據(jù)分析技術包括對已知數(shù)據(jù)信息進行分析的分布式統(tǒng)計分析技術,以及對未知數(shù)據(jù)信息進行分析的分布式挖掘和深度學習技術。數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析,廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。廣義的數(shù)據(jù)分析是指用適當?shù)姆治龇椒ǎ▉碜越y(tǒng)計學、機器學習和數(shù)據(jù)挖掘等領域),對收集來的數(shù)據(jù)進行分析,提取有用信息和形成結論的過程。狹義的數(shù)據(jù)分析是指根據(jù)分析目的,用適當?shù)慕y(tǒng)計分析方法及工具,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用。分布式統(tǒng)計分析技術基本可由數(shù)據(jù)處理技術直接完成,而分布式挖掘和深度學習技術則可以進一步細分為關聯(lián)分析、聚類、分類和深度學習。1.2.5大數(shù)據(jù)可視化數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化技術的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示,大量的數(shù)據(jù)集構成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。數(shù)據(jù)可視化運用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換為圖形或圖像并在屏幕上顯示出來,同時進行交互處理。清晰而有效地在數(shù)據(jù)與用戶之間傳遞和溝通信息是數(shù)據(jù)可視化的重要目標。數(shù)據(jù)可視化可以增強數(shù)據(jù)的呈現(xiàn)效果,方便用戶以更加直觀的方式觀察數(shù)據(jù),進而發(fā)現(xiàn)數(shù)據(jù)中隱藏的信息。數(shù)據(jù)可視化過程分為數(shù)據(jù)預處理、繪制、顯示和交互四個階段。未來大數(shù)據(jù)可視化技術的發(fā)展方向主要有以下三個:可視化技術與數(shù)據(jù)挖掘相結合??梢暬夹g與人機交互相結合。可視化與大規(guī)模、高維度、非結構化數(shù)據(jù)相結
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 少年兒童水上救援培訓制度
- 北京版四年級上冊數(shù)學第六單元 除法 測試卷帶答案下載
- 人教版四年級上冊數(shù)學第六單元《除數(shù)是兩位數(shù)的除法》測試卷加答案解析
- 基層醫(yī)療機構技術應用標準制度
- 信息技術行業(yè)危大工程風險評估制度
- 蘇教版數(shù)學四年級下冊期末考試試題含答案
- 農業(yè)生產督辦工作管理制度
- 2022年大學儀器儀表專業(yè)大學物理下冊期末考試試題A卷-附解析
- 便民服務平臺建設實施方案
- 醫(yī)院耳鼻喉科緊急情況處理制度
- 化妝品經營監(jiān)管要點-課件
- 評茶員國家三級理論考試題庫(近年真題300題)
- 船舶發(fā)展史 課件
- 小學養(yǎng)成教育內容序列細目
- 織物結構與性能課件:第三章 織物上機圖與織物分析
- 研究思路圖模板
- 無人機應用技術專業(yè)建設發(fā)展規(guī)劃
- 職員員工行為規(guī)范檢查表
- 中學德育課程體系
- Linux操作系統(tǒng)完整版課件全書電子教案教材課件(完整)
- 員工專業(yè)技術職級評定方案與評定細則1
評論
0/150
提交評論