




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
主講:朱佳數(shù)據(jù)的前世今生4step3step2step1step紙質(zhì)數(shù)據(jù)文件系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘大數(shù)據(jù)時代什么是大數(shù)據(jù)1KB=1024字節(jié)存儲單位1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GB100萬G10億G1萬億G22億臺215萬臺2100臺500G硬盤電腦15寸電腦排成行可以往返一次月球Intel:人類文明開始到2003年地球共產(chǎn)生了5EB數(shù)據(jù).2012年全年,全球產(chǎn)生數(shù)據(jù)2.7ZB是2003年以前的500倍2015年,全球估計產(chǎn)生數(shù)據(jù)8ZB,等于1800萬個美國國會圖書館2000年數(shù)字信息占全球數(shù)據(jù)量的25%75%都在報紙膠片磁帶等媒介2013年數(shù)字信息98%非數(shù)字信息2%BigData2012年全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有
2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…新的時代,人們從信息的被動接受者變成了主動創(chuàng)造者大數(shù)據(jù)時代到來Twitter2007年5000條微博更新/天2008年30萬條微博更新/天2009年250萬條微博更新/天2010年3500萬條微博更新/天2011年2億條微博更新/天2013年4億條微博更新/天2013年上傳時長12年的視頻/天2013年用戶分享25億條信息/天一個單數(shù)據(jù)表幾億-幾百億條記錄下線商品14億件,在線商品8億件淘寶數(shù)據(jù)庫存了20PB數(shù)據(jù)平均每月增加1.5PB智能移動終端設(shè)備的巨量增長商業(yè)數(shù)據(jù)現(xiàn)狀GBTBPBEBZB地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而有市場研究機構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1GB
=2^30字節(jié)1TB=2^40字節(jié)1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)為什么?數(shù)據(jù)規(guī)模指數(shù)增長數(shù)字大爆炸facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps移動互聯(lián)21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。信息技術(shù)的廣泛應(yīng)用提高了數(shù)據(jù)的處理能力,更提高了數(shù)據(jù)的產(chǎn)生能力,道高一尺,魔高一丈。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠遠超越了目前人力所能處理的范疇大數(shù)據(jù)時代正在來臨..數(shù)據(jù)規(guī)模指數(shù)增長數(shù)字大爆炸大數(shù)據(jù)采集概念大數(shù)據(jù)采集是大數(shù)據(jù)價值挖掘重要的一環(huán),其后的分析挖掘都建立在采集的基礎(chǔ)上。
數(shù)據(jù)的采集有基于物聯(lián)網(wǎng)傳感器的采集,也有基于網(wǎng)絡(luò)信息的數(shù)據(jù)采集。比如在智能交通中,數(shù)據(jù)的采集有基于GPS的定位信息采集也有基于交通攝像頭的視頻采集等。而在互聯(lián)網(wǎng)上的數(shù)據(jù)采集是對各類網(wǎng)絡(luò)媒介,如搜索引擎、新聞網(wǎng)站、論壇、微博、博客、電商網(wǎng)站等的各種頁面信息和用戶訪問信息進行采集。8大數(shù)據(jù)采集概念之后我們需要把采集到的各類數(shù)據(jù)進行清洗、過濾、去重等各項預(yù)處理并分類歸納存儲。數(shù)據(jù)采集過程中涉及到數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載等三個過程,在英文中通??s寫為ETL(Extract、Transform、Load)。數(shù)據(jù)采集的ETL工具負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的不同種類和結(jié)構(gòu)的數(shù)據(jù)如文本數(shù)據(jù)、關(guān)系數(shù)據(jù)、以及圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、分類、集成,最后加載到對應(yīng)的數(shù)據(jù)存儲系統(tǒng)如數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。9信息采集的類型交易數(shù)據(jù)數(shù)據(jù)抽取與集成工具,ETL主動抽取,源與目的都非常明確交互數(shù)據(jù)網(wǎng)絡(luò)爬蟲,數(shù)據(jù)收集程序主動爬取,源與目的不太明確傳感器數(shù)據(jù)傳感器傳送被動傳送TimeVolume結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)可被處理的非結(jié)構(gòu)化數(shù)據(jù)休眠數(shù)據(jù)大數(shù)據(jù)采集帶來的挑戰(zhàn)網(wǎng)絡(luò)爬蟲數(shù)據(jù)的分布性:文檔散落在數(shù)以百萬計的不同服務(wù)器上,沒有預(yù)先定義的拓撲結(jié)構(gòu)相連。不穩(wěn)定的數(shù)據(jù)高比例:許多文檔迅速地添加或刪除(e.g.deadlinks)。大規(guī)模:網(wǎng)絡(luò)數(shù)據(jù)量的指數(shù)增長,由此引發(fā)了一系列難以處理的規(guī)模問題。無結(jié)構(gòu)和冗余信息:每個HTML頁面沒有統(tǒng)一的結(jié)構(gòu),許多網(wǎng)絡(luò)數(shù)據(jù)是重復(fù)的,將近30%的重復(fù)網(wǎng)頁。數(shù)據(jù)的質(zhì)量:許多內(nèi)容沒有經(jīng)過編輯處理,數(shù)據(jù)可能是錯誤的,無效的。錯誤來源有錄入錯誤,語法錯誤,OCR錯誤等。異構(gòu)數(shù)據(jù):多媒體數(shù)據(jù)(images,video,VRML),語言,字符集等。數(shù)據(jù)采集的意義:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第14課 請幫我一下吧 第二課時 教學(xué)設(shè)計-2023-2024學(xué)年道德與法治一年級下冊統(tǒng)編版
- 2025年湖南省岳陽市單招職業(yè)適應(yīng)性測試題庫新版
- 第11課《記承天寺夜游》教學(xué)設(shè)計2024-2025學(xué)年統(tǒng)編版語文八年級上冊
- 2024天津泰達產(chǎn)業(yè)發(fā)展集團所屬企業(yè)員工崗位社會化公開招聘筆試參考題庫附帶答案詳解
- 七年級下冊英語四單元測試卷及答案
- 第六章 第二節(jié)“白山黑水-東北三省”教學(xué)設(shè)計-2024-2025學(xué)年八年級地理下冊人教版
- 2024中鋁(雄安)礦業(yè)有限責(zé)任公司實習(xí)生招聘6人筆試參考題庫附帶答案詳解
- Unit 2 Grammar 3a-3d教學(xué)設(shè)計 Unit 2 Grammar 3a-3d教學(xué)設(shè)計 標簽標題
- 第19課 法國大革命和拿破侖帝國(新教學(xué)設(shè)計)2023-2024學(xué)年九年級上冊歷史(部編版)
- 《第2課 昂首闊步-計時器和對象的位移》教學(xué)設(shè)計教學(xué)反思-2023-2024學(xué)年初中信息技術(shù)清華大學(xué)版2012九年級上冊
- 軌道電路參數(shù)與狀態(tài)課件講解
- 2024年中華人民共和國企業(yè)所得稅年度納稅申報表(帶公式)20240301更新
- 2024年安徽省高考化學(xué)試卷(真題+答案)
- 現(xiàn)澆箱梁專項施工組織設(shè)計
- 結(jié)直腸癌治療研究進展2024年
- TD/T 1072-2022 國土調(diào)查坡度分級圖制作技術(shù)規(guī)定(正式版)
- 員工薪酬確認書三篇
- DZ∕T 0148-2014 水文水井地質(zhì)鉆探規(guī)程(正式版)
- 新能源汽車電氣技術(shù) 課件 項目一 新能源汽車電氣維修基礎(chǔ)認知
- 人教版初中九年級下學(xué)期體育教案全集(附教學(xué)計劃)
- 2024年湘潭醫(yī)衛(wèi)職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
評論
0/150
提交評論