版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)技術及其在現(xiàn)代教育領域中的應用竇萬春教授第1頁,共48頁。提綱什么是“數(shù)據(jù)”?什么是“數(shù)據(jù)庫”?什么是“大數(shù)據(jù)”?大數(shù)據(jù)處理的工具與手段大數(shù)據(jù)技術在現(xiàn)代教育領域中的潛在應用結(jié)語第2頁,共48頁。1、什么是“數(shù)據(jù)”日程生活中,數(shù)據(jù)和信息經(jīng)?;鞛橐徽?。“數(shù)據(jù)是對事實、概念或指令的一種特殊表達形式,這種特殊的表達形式可以用人工的方式或者用自動化的裝置進行通信、翻譯、轉(zhuǎn)換或進行加工處理”。-ISO信息是對“人”有用的數(shù)據(jù),可以影響人們的行為和決策。信息處理的本質(zhì)是數(shù)據(jù)處理,數(shù)據(jù)處理的目標是或的有用的信息。 -上述解釋來自國際標準化組織的相關定義第3頁,共48頁。第4頁,共48頁。第5頁,共48頁
2、。2、什么是“數(shù)據(jù)庫”第6頁,共48頁。數(shù)據(jù)多了,怎么辦?第7頁,共48頁。好雨知時節(jié)!數(shù)據(jù)庫技術產(chǎn)生了!始于上個世界60年代中期 需求分析數(shù)據(jù)怎樣規(guī)范表示?涉及哪些軟件?涉及哪些硬件?數(shù)據(jù)如何輸入?結(jié)果如何輸出?如何解決數(shù)據(jù)的訪問沖突問題?如何從大量的數(shù)據(jù)中發(fā)現(xiàn)一寫潛在的應用規(guī)律? 第8頁,共48頁?;靖拍顢?shù)據(jù)庫(DB):接受統(tǒng)一管理的相關數(shù)據(jù)的集合。數(shù)據(jù)庫管理系統(tǒng)(DBMS):數(shù)據(jù)庫系統(tǒng)中管理數(shù)據(jù)的軟件系統(tǒng),它是數(shù)據(jù)庫系統(tǒng)中的核心組成部分,對數(shù)據(jù)庫的一切操作,包括定義、查詢、更新以及各種控制,都是通過DBMS進行。如甲骨文數(shù)據(jù)庫系統(tǒng)(DBS):實現(xiàn)有組織地、動態(tài)地存儲大量關聯(lián)數(shù)據(jù),方便多
3、用戶訪問,由計算機軟件、硬件和數(shù)據(jù)資源組成的系統(tǒng)。數(shù)據(jù)庫技術:研究數(shù)據(jù)庫的結(jié)構(gòu)、存取、管理和使用的軟件學科。 第9頁,共48頁。軟件硬件 + 數(shù)據(jù)本身第10頁,共48頁。3 、什么是 “大數(shù)據(jù)”?第11頁,共48頁。 “大數(shù)據(jù)” 概念的誕生2008年9月4日自然(Nature)刊登了一個名為“Big Data”的專輯2009年7月OReilly Media出版社出版了一本名為“Beautiful Data”的書2009年10月微軟為紀念Jim Gray,出版了“第四范式數(shù)據(jù)密集的科學發(fā)現(xiàn)(The Fourth ParadigmData Intensive Scientific Discover
4、y)”第12頁,共48頁。 “大數(shù)據(jù)” 概念的誕生2011年2月11日:Science刊登了一個 名為Dealing with Data的專輯,聯(lián)合Science:Signaling、Science:Translational Medicine和Science Careers推出相關專題, 討論數(shù)據(jù)對科學研究的重要性同一天,在美國很受歡迎的智力競答“危險邊緣(Jeopardy)”電視節(jié)目中,IBM的“沃森”系統(tǒng)以絕對優(yōu)勢戰(zhàn)勝兩名人類頂級選手。和14年前的“深藍”(戰(zhàn)勝加里卡斯帕羅夫)相比,“沃森”除具有超群的計算能力外,更擁有超大規(guī)模的數(shù)據(jù)以及數(shù)據(jù)處理能力.第13頁,共48頁。 “大數(shù)據(jù)” 概
5、念的誕生2012年3月29日,美國總統(tǒng)科技政策辦公室OSTP(Office of Science and Technology Policy)宣布了每年投資兩億美元的“大數(shù)據(jù)研究計劃”(Big Data R&D Initiative)同一天,我國科技部發(fā)布的“十二五國家科技計劃信息技術領域2013年度備選項目征集指南”把大數(shù)據(jù)研究列在首位.第14頁,共48頁。 “大數(shù)據(jù)” 概念的誕生“大數(shù)據(jù)”主要討論的是與科學發(fā)現(xiàn)有關的數(shù)據(jù)“大數(shù)據(jù)”很好地概括了當前數(shù)據(jù)管理領域問題的重要性和多樣性數(shù)據(jù)問題在研究和應用上空前的深度和廣度“大數(shù)據(jù)”成為一個時髦的術語(Buzzword),成為工業(yè)界與學術界共同關注
6、的熱點“大數(shù)據(jù)”是個合適的umbrella,較廣的覆蓋面應用驅(qū)動,將IT的重點轉(zhuǎn)移到數(shù)據(jù)方面,超越傳 統(tǒng)數(shù)據(jù)庫的理念.第15頁,共48頁。與大數(shù)據(jù)相關的幾個熱點問題非結(jié)構(gòu)化數(shù)據(jù): 數(shù)據(jù)特點云計算與大數(shù)據(jù): 處理平臺Hadoop 與大數(shù)據(jù): 主流的處理工具第16頁,共48頁。 1、非結(jié)構(gòu)化數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))=非結(jié)構(gòu)化數(shù)據(jù)什么是結(jié)構(gòu)化的數(shù)據(jù)?第17頁,共48頁。結(jié)構(gòu)化數(shù)據(jù)任何一列的數(shù)據(jù)不可以再細分任何一列的數(shù)據(jù)都有相同的數(shù)據(jù)類型第18頁,共48頁。結(jié)構(gòu)化數(shù)據(jù)很多. 人力資源管理 庫存管理 門診掛號 工資管理 物流管理 戶籍管理 各種票務管理 印象:目前的數(shù)據(jù)管理技術和手段已經(jīng)很完善了!現(xiàn)實:數(shù)據(jù)庫
7、管理技術確實在一些領域得到了完美的應用!第19頁,共48頁。 數(shù)據(jù)庫的三大成就關系模型 E.F.Codd(數(shù)據(jù)庫領域第二個圖靈獎獲得者)事務處理 Jim Gray(數(shù)據(jù)庫領域第三個圖靈獎獲得者)查詢優(yōu)化 結(jié)構(gòu)化(模式和實例分離) 關系數(shù)據(jù)庫理論(關系代數(shù)) 物理存儲(索引/統(tǒng)計)成功造就了數(shù)百億美元的數(shù)據(jù)庫產(chǎn)業(yè)第20頁,共48頁。孔子登東山而小魯,登泰山而小天下.第21頁,共48頁。非結(jié)構(gòu)化數(shù)據(jù)更多.非結(jié)構(gòu)化數(shù)據(jù)的實例:文本、圖片、網(wǎng)頁、圖像、音頻、視頻等等。這里的“多”,包括數(shù)據(jù)量“巨大”和種類“繁雜”!(結(jié)構(gòu)化數(shù)據(jù))=非結(jié)構(gòu)化數(shù)據(jù)第22頁,共48頁。數(shù)據(jù)量“巨大”第23頁,共48頁。種類“
8、繁雜”!多媒體文件的基本要素:文字、聲音、圖像。多媒體效果的組成過程:音頻文件、視頻文件、文字文件(字幕),按照一定時間節(jié)點的合成。第24頁,共48頁。更為科學的統(tǒng)計規(guī)律世界上的數(shù)據(jù)80%是非結(jié)構(gòu)化數(shù)據(jù)二/八定律第25頁,共48頁。 兩個世界(two universals).第26頁,共48頁。 數(shù)據(jù)庫世界.第27頁,共48頁。 非數(shù)據(jù)庫世界.第28頁,共48頁。29大數(shù)據(jù)的評估指標11、數(shù)據(jù)規(guī)??捎^(入門標準)大數(shù)據(jù)最基本的要求當然是數(shù)據(jù)規(guī)模大,但很難給出一個絕對的數(shù)字標準來確定大小,而只能用一些模糊的感覺來相對比較。例如,一個公司在年度預算中有了專門的,顯著的數(shù)據(jù)存儲和分析預算(例如,總預
9、算的3-5%),有了獨立的數(shù)據(jù)處理和分析部門,有了比較完整的數(shù)據(jù)存儲,安全和保密政策與管理流程,有了高度依賴數(shù)據(jù)分析結(jié)果的商業(yè)模式,那么,可以說這個公司面臨著利用大數(shù)據(jù)的機會或挑戰(zhàn)了。1 謝 文:看得見的未來十談大數(shù)據(jù)時代(/yunjishu/shujuzhongxin/20121106_16045.html)第29頁,共48頁。302、數(shù)據(jù)結(jié)構(gòu)復雜數(shù)據(jù)量只是反映數(shù)據(jù)性質(zhì)的一個指標,還不是最重要的指標。一天產(chǎn)生一百萬個T數(shù)據(jù)的公司也許算不上大數(shù)據(jù)公司,而另一個一天只產(chǎn)生一萬個T數(shù)據(jù)的公司也許反而是個大數(shù)據(jù)公司,其原因在于數(shù)據(jù)結(jié)構(gòu)的復雜性。例如,A公司擁有一億用戶,但用戶在A公司網(wǎng)站上只干一件事
10、或一類事,由此產(chǎn)生的數(shù)據(jù)量雖然不小,但結(jié)構(gòu)簡單,重復性高,分析起來很容易,歸歸類,簡單數(shù)據(jù)挖掘基本功足夠。B公司只有一千萬用戶,卻是個開放平臺,用戶在此可以干互聯(lián)網(wǎng)能夠支持的所有事情,網(wǎng)絡行為又可分為個人,群體,組織等層次,那么這個數(shù)據(jù)的結(jié)構(gòu)就夠復雜,能夠支持深度挖掘和復雜建模,因而就可以算作大數(shù)據(jù)。第30頁,共48頁。313、數(shù)據(jù)關聯(lián)度高 網(wǎng)絡業(yè)一個常見現(xiàn)象就是隨著數(shù)據(jù)量的增加,用戶行為所產(chǎn)生的數(shù)據(jù)間的關系越來越不清晰,越來越難以捉摸,越來越相互孤立,也就是所謂的數(shù)據(jù)碎片化。這種碎片化主要來自兩個方面:一是網(wǎng)站結(jié)構(gòu)碎片化,邏輯混亂化,各種產(chǎn)品與服務之間相互孤立化,因而導致數(shù)據(jù)之間關系斷裂,關
11、聯(lián)度很低。例如,明明是同一個用戶在一個網(wǎng)站上使用了十種不同的產(chǎn)品和服務,但由于其中五種無需注冊使用,其他五種又需要分別注冊使用,結(jié)果這十種網(wǎng)絡行為的數(shù)據(jù)無法整合在一起,或者需要通過種種技術手段和工具進行高成本的數(shù)據(jù)整合,以至于入不敷出。這也就減少了數(shù)據(jù)的含金量,降低了數(shù)據(jù)的可挖掘度,使得無論數(shù)據(jù)量如何大,結(jié)構(gòu)如何復雜,也形成不了大數(shù)據(jù)。反之,如果一個WEB2.0時代的開放平臺,架構(gòu)清晰,邏輯分明,用戶與用戶,用戶與用戶行為,行為與行為之間都具有確定的關聯(lián)性,那么這樣的數(shù)據(jù)就具有極高的含金量,極高的分析挖掘價值,也就可以形成大數(shù)據(jù)第31頁,共48頁。結(jié)論“大數(shù)據(jù)”技術不能簡單的認為是大的“數(shù)據(jù)”
12、和大的“數(shù)據(jù)庫技術”。嚴格意義上講,技術本質(zhì)上大數(shù)據(jù)技術和數(shù)據(jù)庫技術是兩個完全不同的技術體系!為什么呢?第32頁,共48頁。334、大數(shù)據(jù)處理的工具與手段第33頁,共48頁。34第一階段:簡單數(shù)字資源的產(chǎn)生和豐富數(shù)字資源的產(chǎn)生和積累過程(數(shù)據(jù)庫技術應運而生)可以理解成對應資本主義自由貿(mào)易的初級階段第二階段:規(guī)范化數(shù)字資源的大規(guī)模集成應用大規(guī)模結(jié)構(gòu)化數(shù)字資源的管理與信息分析與提取,可以理解成跨國公司的形成過程第三階段:網(wǎng)絡環(huán)境下異構(gòu)數(shù)字資源的增值應用網(wǎng)絡環(huán)境下結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)字資源共存的情況下,如何實現(xiàn)增值應用,可以理解成資本運作的高級階段。 大數(shù)據(jù)產(chǎn)生的歷史背景第34頁,共48頁。35“生命
13、的本質(zhì)在于物質(zhì)的組織形式,而不在于物質(zhì)的自身” 人工生命之父克里斯蘭頓(Chris Langton).物品的生產(chǎn)與流通到資本的產(chǎn)生與流通,映射到數(shù)字資源的生產(chǎn)和管理到數(shù)字資源的增值與再生數(shù)據(jù)之間的泛在互聯(lián)第35頁,共48頁。需要什么樣的工具與手段?因為數(shù)據(jù)規(guī)模大,需要大容量的存儲因為數(shù)據(jù)結(jié)構(gòu)復雜,需要高性能的計算能力因為異構(gòu)的數(shù)據(jù)之間關聯(lián)度強,需要跨平臺的協(xié)同處理能力第36頁,共48頁。方法論和工具方法論:MapReduce工具:Hadoop第37頁,共48頁。Hadoop史前2003: GFS (Google文件系統(tǒng))論文發(fā)表 Sanjay Ghemawat, Howard Gobioff
14、, Shun-Tak Leung: The Google file system. SOSP 2003: 29-432004: MapReduce論文發(fā)表 Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters. OSDI 2004: 137-1502006: BigTable論文發(fā)表 Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al: Bigtable: A Distributed Storage System for Struc
15、tured Data. OSDI 2006: 205-218第38頁,共48頁。Hadoop誕生2004年:Doug Cutting和Michael J. Cafarella根據(jù)Google Lab論文實施,取名Hadoop。 Cloudera公司,Hadoop商用版(Apache開源版)2005秋天 : Hadoop 由Apache作為 Lucene的子項 目Nutch的一部分正式引入。 2006年3月:Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入 Hadoop 的項目中2006.1 2008: Web-scale Hadoo
16、p! (Yahoo!)第39頁,共48頁。Hadoop誕生的背景用戶對大數(shù)據(jù)存儲、管理和分析需求迫切傳統(tǒng)數(shù)據(jù)庫對非結(jié)構(gòu)化數(shù)據(jù)幾乎無能為力利用傳統(tǒng)數(shù)據(jù)庫來對大數(shù)據(jù)進行處理時, 會面臨很多難以解決的問題。 軟、硬件平臺的要求高,成本壓力 成本和收益不匹配的充分發(fā)掘和利用非結(jié)構(gòu)化數(shù)據(jù)背后的商業(yè) 價值,用戶希望能以更經(jīng)濟的方式、更好 的性能來處理數(shù)據(jù),從而推動業(yè)務創(chuàng)新第40頁,共48頁。Hadoop不能做什么?Hadoop在處理網(wǎng)頁數(shù)據(jù)等方面取得巨大成 功,經(jīng)過幾年的發(fā)展,從一門邊緣技術成 長為一種事實上的標準Hadoop自身的弱點 Hadoop是一個離線的、批量的數(shù)據(jù)處理系統(tǒng),實 時在線(OLTP,
17、高效分析)仍是數(shù)據(jù)庫的擅長 HDFS存儲的是大文件,數(shù)據(jù)移動頻繁,查詢響應 時間難以保證有嘗試將Hadoop和數(shù)據(jù)庫結(jié)合起來應對企 業(yè)大數(shù)據(jù)的挑戰(zhàn) 第41頁,共48頁。5、大數(shù)據(jù)技術在現(xiàn)代教育領域中的潛在應用第42頁,共48頁。新技術的辯證認知創(chuàng)新是一個民族進步的靈魂,是一個國家興旺發(fā)達的不竭動力。創(chuàng)新是在現(xiàn)有技術體系上的拔高,而不是擯棄原有的技術體系。忘記過去意味著背叛!第43頁,共48頁。什么是現(xiàn)代教育工欲善其事,必先利其器!利器已有,如何善工?第44頁,共48頁?,F(xiàn)代教育的內(nèi)涵與外延內(nèi)涵:利用數(shù)字化技術實現(xiàn)知識更新與傳播的高效與便捷。外延:受眾與老師在知識接受與傳播環(huán)節(jié)的數(shù)字化工具及網(wǎng)絡
18、虛擬化課堂。工具的更新與高效,是為了更好的實現(xiàn)教育不代表第45頁,共48頁?,F(xiàn)代教育時代的教學資源第46頁,共48頁。敬請指正謝謝 !第47頁,共48頁。1、不是井里沒有水,而是你挖的不夠深。不是成功來得慢,而是你努力的不夠多。2、孤單一人的時間使自己變得優(yōu)秀,給來的人一個驚喜,也給自己一個好的交代。3、命運給你一個比別人低的起點是想告訴你,讓你用你的一生去奮斗出一個絕地反擊的故事,所以有什么理由不努力!4、心中沒有過分的貪求,自然苦就少??诶锊徽f多余的話,自然禍就少。腹內(nèi)的食物能減少,自然病就少。思緒中沒有過分欲,自然憂就少。大悲是無淚的,同樣大悟無言。緣來盡量要惜,緣盡就放。人生本來就空,
19、對人家笑笑,對自己笑笑,笑著看天下,看日出日落,花謝花開,豈不自在,哪里來的塵埃!5、心情就像衣服,臟了就拿去洗洗,曬曬,陽光自然就會蔓延開來。陽光那么好,何必自尋煩惱,過好每一個當下,一萬個美麗的未來抵不過一個溫暖的現(xiàn)在。6、無論你正遭遇著什么,你都要從落魄中站起來重振旗鼓,要繼續(xù)保持熱忱,要繼續(xù)保持微笑,就像從未受傷過一樣。7、生命的美麗,永遠展現(xiàn)在她的進取之中;就像大樹的美麗,是展現(xiàn)在它負勢向上高聳入云的蓬勃生機中;像雄鷹的美麗,是展現(xiàn)在它搏風擊雨如蒼天之魂的翱翔中;像江河的美麗,是展現(xiàn)在它波濤洶涌一瀉千里的奔流中。8、有些事,不可避免地發(fā)生,陰晴圓缺皆有規(guī)律,我們只能坦然地接受;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改變它的軌跡。9、與其埋怨世界,不如改變自己。管好自己的心,做好自己的事,比什么都強。人生無完美,曲折亦風景。別把失去看得過重,放棄是另一種擁有;不要經(jīng)常艷羨他人,人做到了,心
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度板材行業(yè)環(huán)保認證與評估合同3篇
- 2025年度毛紗產(chǎn)品售后服務及維修合同4篇
- 2025年度個人房產(chǎn)買賣及裝修工程管理協(xié)議4篇
- 2025年度二零二五年度環(huán)保產(chǎn)業(yè)供應鏈融資保理合同4篇
- 2025年度個人教育貸款借條4篇
- 2025年度毛石擋土墻施工期施工安全管理與教育培訓合同4篇
- 2025年度海洋運輸船員勞動合同書3篇
- 2024綜合服務外包合同標準文本版B版
- 2025年度智能車間租賃安全協(xié)議書規(guī)范文本4篇
- 2024黎塘售樓部裝修合同
- 土地買賣合同參考模板
- 新能源行業(yè)市場分析報告
- 2022年7月2日江蘇事業(yè)單位統(tǒng)考《綜合知識和能力素質(zhì)》(管理崗)
- 初一英語語法練習
- 房地產(chǎn)運營管理:提升項目品質(zhì)
- 你劃我猜游戲【共159張課件】
- 專升本英語閱讀理解50篇
- 中餐烹飪技法大全
- 新型電力系統(tǒng)研究
- 滋補類用藥的培訓
- 北師大版高三數(shù)學選修4-6初等數(shù)論初步全冊課件【完整版】
評論
0/150
提交評論