云計算和大數(shù)據(jù)概覽_第1頁
云計算和大數(shù)據(jù)概覽_第2頁
云計算和大數(shù)據(jù)概覽_第3頁
云計算和大數(shù)據(jù)概覽_第4頁
云計算和大數(shù)據(jù)概覽_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

云計算和大數(shù)據(jù)概覽2017年11月14日大數(shù)據(jù)智能時代已經(jīng)到來我們來到大數(shù)據(jù)時代數(shù)據(jù)極簡主義大數(shù)據(jù):一切數(shù)據(jù)皆有用數(shù)據(jù)觀、技術(shù)、成本的變化(硬件、軟件和除理技術(shù)、來源)全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有

2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…人們從信息的被動接受者變成了主動創(chuàng)造者我們來到大數(shù)據(jù)時代GBTBPBEBZB大數(shù)據(jù)時代的爆炸增長想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而有市場研究機構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB(拍字節(jié))=2^50字節(jié)1EB(艾字節(jié))=2^60字節(jié)1ZB(澤字節(jié))=2^70字節(jié)20世紀(jì)90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念什么是大數(shù)據(jù):BigData名詞由來什么是大數(shù)據(jù)(NO-SQL,NotOnlySQL)

不同“看”數(shù)據(jù)的方式7可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)構(gòu)化數(shù)據(jù)85%DB/DW主管們看的戰(zhàn)情數(shù)位儀表板,其實是殘缺的…85%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile

什么是大數(shù)據(jù):不同的數(shù)據(jù)管理對象當(dāng)我們想要擴充時,才發(fā)覺:架構(gòu)只能scale-up,scale-out不易處理時間過長,

time-to-value受限成本過高,

cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺

大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型數(shù)據(jù)

增長如此之塊,以至于難以使用現(xiàn)有的數(shù)據(jù)庫管理工具來駕馭,困難在于數(shù)據(jù)的獲取、存貯、搜索、共享、分析和可視化等方面大數(shù)據(jù)的定義數(shù)據(jù)量復(fù)雜性:種類和速度銷量庫存薪酬表客戶信息合約ERP/CRMWEB2.0廣告博客搜索營銷文本/圖像網(wǎng)絡(luò)日志大數(shù)據(jù)社會情緒音頻/視頻傳感器RFID維基/博客微博金融信息個人數(shù)據(jù)位置信息政府信息氣象數(shù)據(jù)保險信息EBPBTBGB維基的大數(shù)據(jù)定義

任何超過一臺計算機處理能力的龐大數(shù)據(jù)量亞馬遜的大數(shù)據(jù)定義

大數(shù)據(jù)是由局部數(shù)據(jù)匯聚而成能反映出整體的數(shù)據(jù),整體的數(shù)據(jù)又隨時空在不斷膨脹。Informatica的大數(shù)據(jù)定義

大數(shù)據(jù)=交易數(shù)據(jù)+互動數(shù)據(jù)+觀測數(shù)據(jù)中國電信的大數(shù)據(jù)定義中心的大數(shù)據(jù)定義

如果自然界中的事件完全不可預(yù)測地隨機發(fā)生,人們的生活將無法忍受;與此相反,如果每一件事情都是確定的、完全可以預(yù)測的,則生活將是無趣的。利用因果關(guān)系解釋觀測的現(xiàn)象或預(yù)測未來存在邏輯和實際上的困難。大數(shù)據(jù)的理性認(rèn)知[美]C.R勞

與傳統(tǒng)比較,大數(shù)據(jù)的分析處理的核心是預(yù)測和推斷,根本的變革在于不刻意追求因果關(guān)系,而更多關(guān)注相關(guān)關(guān)系。也就是說,只要知道和什么有關(guān),而不必強求為什么有關(guān)。[英]舍恩伯格

大數(shù)據(jù)時代來臨,使人類第一次有機會和條件在非常多和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),簡而言之就是樣本=總體。[英]舍恩伯格

大數(shù)據(jù)為政府統(tǒng)計提供了總體性、非結(jié)構(gòu)化、豐富真實的原始資料,可以極大地縮短數(shù)據(jù)采集時間,減少報表填報任務(wù),減輕調(diào)查對象負(fù)擔(dān),提高統(tǒng)計數(shù)據(jù)質(zhì)量。國家統(tǒng)計局馬建堂大數(shù)據(jù),也叫全局?jǐn)?shù)據(jù)、總體數(shù)據(jù),數(shù)據(jù)量越大其預(yù)測和推斷的準(zhǔn)確性越高1.Volume2.

Variety3.value4.Velocity結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求沙里淘金,價值密度低以視頻為例,一部一小時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題實時獲取需要的信息大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)最顯著的特征。如今已是ZB時代,在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命大數(shù)據(jù)是指指無法在一一定時間內(nèi)內(nèi)用傳統(tǒng)數(shù)數(shù)據(jù)庫軟件件工具對其其內(nèi)容進行行抓取、管管理和處理理的數(shù)據(jù)集集合大數(shù)據(jù):4V特性數(shù)據(jù)量巨大大全球在2010年正式進入入ZB時代,IDC預(yù)計到2020年,全球?qū)⒖偣矒碛杏?5ZB的數(shù)據(jù)量大數(shù)據(jù)要上上升為國家家戰(zhàn)略國家時間政策備注美國2012-3-29《大數(shù)據(jù)研究與發(fā)展計劃》推動政府開放、提升政策預(yù)見性(糧食、天氣、流感等)、提高政府服務(wù)水平、降底運營開支英國2010-5數(shù)據(jù)權(quán)、我的數(shù)據(jù)日本2012-5ICT戰(zhàn)略中國2012-5互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)創(chuàng)新研究大數(shù)據(jù)不僅僅僅是數(shù)據(jù)據(jù)“大”多大?PB級比大更重要的是是數(shù)據(jù)的復(fù)雜雜性、全面面性,有時甚至至大數(shù)據(jù)中中的小數(shù)據(jù)據(jù)如一條微微博就具有有顛覆性的的價值軟件是大數(shù)數(shù)據(jù)的引擎擎大數(shù)據(jù)與傳傳統(tǒng)數(shù)據(jù)庫庫的區(qū)別大數(shù)據(jù)是在傳統(tǒng)數(shù)據(jù)庫學(xué)科的分支——數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基礎(chǔ)上進一步發(fā)展起來的。但有兩點比較主要的不同:結(jié)構(gòu)化程度:傳統(tǒng)數(shù)據(jù)庫保存的是結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù),以二維表或者標(biāo)準(zhǔn)XML文件的方式存儲數(shù)據(jù),由于結(jié)構(gòu)清晰,處理相對容易;大數(shù)據(jù)面向的是一切計算機可以存儲的數(shù)據(jù)格式,包括互聯(lián)網(wǎng)上的各種網(wǎng)頁、圖片、音頻、視頻,包括辦公文檔、報表,包括人們在搜索引擎中輸入的關(guān)鍵詞、在社交網(wǎng)絡(luò)中的留言、喜好,也包括各種傳感器自動收集的監(jiān)控結(jié)果等等,顯然不同的格式處理起來更加困難。噪聲(異常)數(shù)據(jù)的處理:傳統(tǒng)數(shù)據(jù)庫通常把異常數(shù)據(jù)先剔除,應(yīng)用在需要高精確度的領(lǐng)域,如銀行對每個賬戶的管理;大數(shù)據(jù)則允許異常數(shù)據(jù)存在,更多應(yīng)用在預(yù)測方面,找出大量數(shù)據(jù)中隱藏的關(guān)聯(lián)關(guān)系,少量異常數(shù)據(jù)不會對總體結(jié)果產(chǎn)生影響。云計算與大大數(shù)據(jù)大數(shù)據(jù)應(yīng)用用運行在云平臺之上上如果數(shù)據(jù)是是財富,那那么大數(shù)據(jù)據(jù)就是寶藏藏;云計算就是是挖掘和利利用寶藏的的利器!沒沒有強大的的計算能力力,數(shù)據(jù)寶寶藏終究是是鏡中花;;沒有大數(shù)據(jù)據(jù)的存儲和和積淀,云云計算也只只能是殺雞雞用的宰牛牛刀!大數(shù)據(jù)市場場分析12011年-2016年中國大數(shù)據(jù)市場規(guī)模2各行業(yè)大數(shù)據(jù)市場規(guī)模政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非??捎^。2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展。2012年中國大數(shù)據(jù)市場規(guī)模達到4.7億元,2013年大數(shù)據(jù)市場將迎來增速為138.3%的飛躍,到2016年,整個市場規(guī)模逼近百億。國際企業(yè)角角力大數(shù)據(jù)據(jù)EMCEMC的大數(shù)據(jù)解解決方案專專注于使組組織更有效效地使用他他們從不同同來源產(chǎn)生生的數(shù)據(jù),,包括網(wǎng)絡(luò)絡(luò)上,網(wǎng)頁頁上,消費費者,監(jiān)控控系統(tǒng)和傳傳感器。EMC的數(shù)據(jù)計算算產(chǎn)品事業(yè)業(yè)部正在開開發(fā)分析工工具以解決決大數(shù)據(jù)現(xiàn)現(xiàn)象。EMC的大數(shù)據(jù)解解決方案包包括40多個產(chǎn)品。。2010年7月收購數(shù)據(jù)據(jù)庫軟件供供應(yīng)商Greenplum,花費3億美元2009年七月收購購數(shù)據(jù)復(fù)制制解決方案案提供商DataDomain,花費24億美元不一定和大大數(shù)據(jù)完全全相關(guān),EMC從2009年起收購了了ArcherTechnologies,SourceLabs,FastScaleTechnology,Configuresoft,andVaronisSystems。IBMIBM的策略是提提供一個全全面的方法法來解決前前所未有的的信息爆炸炸提出的挑挑戰(zhàn),因為為信息量無無論在流量量、種類、、速度還是是活力上都都是爆炸式式增長IBM一直致力于于擴大對包包括數(shù)據(jù)倉倉庫中的大大數(shù)據(jù)、信信息流和結(jié)結(jié)構(gòu)化數(shù)據(jù)據(jù)的分析在過去四年年中,IBM已經(jīng)投入超超過120億美元進行行了23項相關(guān)并購購,其中包包括:2010年9月收購數(shù)據(jù)庫分析析供應(yīng)商Netezza公司,花費費17億美元2010年10月收購網(wǎng)絡(luò)分析軟軟件供應(yīng)商商Coremetrics2009年10月收購數(shù)據(jù)分析和和統(tǒng)計軟件件提供商SPSS,花費12億美元2009年1月收購業(yè)務(wù)規(guī)則管管理軟件供供應(yīng)商ILOG,花費3億4千萬美元2007年花費20億美元收購購商務(wù)智能能軟件供應(yīng)應(yīng)商Cognos微軟微軟提供了了高性能計計算能力,,并在2005年靠WindowsComputeCluster服務(wù)器進入入相關(guān)市場場最近,微軟軟的HPC部門開發(fā)了了該公司的的Dryad并行處理技技術(shù)社區(qū)技技術(shù)預(yù)覽(CTP),第一步是向向WindowsHPCServer的用戶提供供處理大數(shù)數(shù)據(jù)工具甲骨文甲骨文大數(shù)數(shù)據(jù)提供的的數(shù)據(jù)庫和和數(shù)據(jù)庫軟軟件主要用用于配合Sun的硬件,特特別是它的的最高端服服務(wù)2009年7月收購專注注于數(shù)據(jù)復(fù)復(fù)制和實時時數(shù)據(jù)集成成解決方案案的私人企企業(yè)GoldenGateSoftware大數(shù)據(jù)的產(chǎn)產(chǎn)業(yè)價值鏈鏈數(shù)據(jù)數(shù)據(jù)的掌控控者,擁有有或者可以以收集大量量數(shù)據(jù)的公公司。海量量的數(shù)據(jù)就就是財富,,可以考慮慮自己分析析或者賣數(shù)數(shù)據(jù)給其他他公司。技術(shù)技術(shù)供應(yīng)商商或者分析析公司。掌掌握了從海海量數(shù)據(jù)中中分析出有有用信息的的技能或者者工具,但但本身不一一定擁有數(shù)數(shù)據(jù)。思維有創(chuàng)新思維維的人或者者公司。他他們對大數(shù)數(shù)據(jù)敏感,,有怎樣挖挖掘數(shù)據(jù)的的新價值的的獨特想法法。分析技術(shù)::數(shù)據(jù)處理::自然語言言處理技術(shù)術(shù)統(tǒng)計和分析析:A/Btest;topN排行榜;地地域占比;;文本情感感分析數(shù)據(jù)挖掘::關(guān)聯(lián)規(guī)則則分析;分分類;聚類類模型預(yù)測::預(yù)測模型型;機器學(xué)學(xué)習(xí);建模模仿真大數(shù)據(jù)技術(shù)術(shù):數(shù)據(jù)采集::ETL工具數(shù)據(jù)存?。海宏P(guān)系數(shù)據(jù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支支持:云存存儲;分布布式文件系系統(tǒng)等計算結(jié)果展展現(xiàn):云計計算;標(biāo)簽簽云;關(guān)系系圖等大數(shù)據(jù)技術(shù)術(shù)體系:取取、存、管管、用存儲結(jié)構(gòu)化數(shù)據(jù)據(jù):海量數(shù)據(jù)的的查詢、統(tǒng)統(tǒng)計、更新新等操作效效率低非結(jié)構(gòu)化數(shù)數(shù)據(jù)圖片、視頻頻、word、pdf、ppt等文件存儲儲不利于檢索索、查詢和和存儲半結(jié)構(gòu)化數(shù)數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)構(gòu)化存儲按照非結(jié)構(gòu)構(gòu)化存儲解決方案::Hadoop(MapR流計算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘大數(shù)據(jù)核心技技術(shù)需求高并發(fā)讀寫大數(shù)據(jù)核心技技術(shù)需求高效率存儲和和訪訪問高可擴展性和和高可用性低成本建設(shè)運維保證一致性的的開銷過大,,難以實現(xiàn)高高并發(fā)存儲性能受限限于控制器,,性能難以保保證關(guān)系型表單存存儲難以適應(yīng)應(yīng)不同數(shù)據(jù)類類型上億行數(shù)據(jù)的的超級達標(biāo)效效率極低傳統(tǒng)基于盤陣陣的存儲設(shè)備備,造價昂貴貴,且市場壟壟斷嚴(yán)重,建建設(shè)成本居高高不下,擴容容成本尤其高高許可和維護花花費高昂無法簡單的通通過添加服務(wù)務(wù)節(jié)點來擴展展數(shù)據(jù)容量和和負(fù)載能力,,難以進行橫橫向擴展數(shù)據(jù)庫升級需需要停機維護護和數(shù)據(jù)遷移移,導(dǎo)致服務(wù)務(wù)中斷不保證遵循ACID原則,提高并并發(fā)讀寫性能能Schema-Free存儲適應(yīng)不同同數(shù)據(jù)類型舍棄SQL標(biāo)準(zhǔn)功能,盡盡量簡化數(shù)據(jù)據(jù)操作,提升升效率MapReduce實現(xiàn)高效訪問問基于X86設(shè)備,價格低低廉開源系統(tǒng),節(jié)節(jié)省許可費用用支持水平擴展展,可簡單的的通過添加服服務(wù)節(jié)點來擴擴展數(shù)據(jù)容量量和負(fù)載能力力數(shù)據(jù)庫升級不不影響服務(wù)持持續(xù)大數(shù)據(jù)的分析析模型研究對象由組織、用戶戶、大數(shù)據(jù)和和工具構(gòu)成的的運行系統(tǒng)研究內(nèi)容大數(shù)據(jù)的構(gòu)成成大數(shù)據(jù)的行為為大數(shù)據(jù)的行為為和數(shù)據(jù)的組組織研究方法知識工程解構(gòu)構(gòu)大數(shù)據(jù)系統(tǒng)統(tǒng)研發(fā)工程支撐撐大數(shù)據(jù)系統(tǒng)統(tǒng)價值工程牽引引大數(shù)據(jù)系統(tǒng)統(tǒng)研究目標(biāo)大數(shù)據(jù)生產(chǎn)平平臺大數(shù)據(jù)開發(fā)平平臺大數(shù)據(jù)采集平平臺大數(shù)據(jù)應(yīng)用平平臺研究重點數(shù)據(jù)分而治之之資源組織調(diào)度度邏輯復(fù)制遷移移組織大數(shù)據(jù)用戶工具知識工程研發(fā)工程價值工程社會價值結(jié)構(gòu)功能信源信宿信道控制狀態(tài)協(xié)同生產(chǎn)采集存儲應(yīng)用傳遞展現(xiàn)概念定議劃分經(jīng)濟價值科技價值商業(yè)價值為什么是什么怎么做大數(shù)據(jù)變革既既有數(shù)據(jù)觀::以變革始大數(shù)據(jù)將變革人們認(rèn)世界的模式,最重要的是建模分析的方式;由選擇抽樣到全樣本(all-sample),“樣本=總體”;大數(shù)據(jù)更重視相關(guān)關(guān)系,而不去過于追求因果關(guān)系;即使從前的建模也一樣是模擬,無法解決因果;大數(shù)據(jù)將徹底改變IT公司的構(gòu)成,擁有數(shù)據(jù)、技術(shù)與思維的公司將三足鼎立,但最終擁有數(shù)據(jù)的公司將最有價值。大數(shù)據(jù)改變政府和企業(yè)對待數(shù)據(jù)的觀念,真正認(rèn)識到數(shù)據(jù)的重要性政務(wù)的大數(shù)據(jù)需求:原有異構(gòu)數(shù)據(jù)的整理收集以及未來的應(yīng)用創(chuàng)新大數(shù)據(jù)是組織織的一種資產(chǎn)產(chǎn)數(shù)據(jù)資源已經(jīng)經(jīng)是上升為國國家的戰(zhàn)略資資源。人類已已進入“后信信息經(jīng)濟時代代”,即智慧慧經(jīng)濟。智慧經(jīng)濟是一一種創(chuàng)新形態(tài)態(tài)的萌生經(jīng)濟濟,能實現(xiàn)經(jīng)經(jīng)濟與環(huán)境、、能源、社會會最大限度的的可持續(xù)發(fā)展展。大數(shù)據(jù)是智慧慧經(jīng)濟的基礎(chǔ)礎(chǔ)。從哪里來、當(dāng)當(dāng)前在哪里、、要到哪里去去大數(shù)據(jù)是一種種資產(chǎn)三個小故事::智者善用數(shù)數(shù)據(jù)和工具孟德爾碗豆雜雜交實驗,基基于數(shù)十年實實驗數(shù)據(jù),經(jīng)經(jīng)過采集、分分析、歸納、、推導(dǎo)、預(yù)測測找到其規(guī)律律。(一)使用數(shù)數(shù)據(jù)曹沖稱象,大大而劃之、分分而治之。秤秤是分析,算算盤是匯總。。(二)處理數(shù)數(shù)據(jù)平民傳奇,分分布式文件系系統(tǒng)、分布式式數(shù)據(jù)庫系統(tǒng)統(tǒng),解決對象象的切分與存存貯;MR編程模式解決決分析與歸納納。(三)構(gòu)建系系統(tǒng)大數(shù)據(jù)處理行行為技術(shù)特征征數(shù)據(jù)無限分而治之功能有限復(fù)制制分發(fā)大數(shù)據(jù)系統(tǒng)的的定義是一個以人為為主導(dǎo),利用用計算機硬件件、軟件、網(wǎng)網(wǎng)絡(luò)通信設(shè)備備以及其他辦辦公設(shè)備,進進行信息的收收集、傳輸、、加工、儲存存、更新、拓拓展和維護的的系統(tǒng)是一個將各類類信息系統(tǒng)產(chǎn)產(chǎn)生的數(shù)據(jù)作作為存貯、分分析和利用的的信息系統(tǒng),,通過借助計計算機硬件、、軟件、網(wǎng)絡(luò)絡(luò)通信設(shè)備以以及其他設(shè)備備,實現(xiàn)對數(shù)數(shù)據(jù)的收集、、存貯、處理理、傳遞、備備份的系統(tǒng)。。管理信息系統(tǒng)統(tǒng)大數(shù)據(jù)系統(tǒng)大數(shù)據(jù)系統(tǒng)的的設(shè)計目標(biāo)設(shè)計目標(biāo)1可以存貯海量數(shù)2可以進行高速處理3可以快速開發(fā)出并行服務(wù)4可以搭建在廉價的機群上大數(shù)據(jù)系統(tǒng)的的邏輯架構(gòu)數(shù)據(jù)應(yīng)用層外部系統(tǒng)層數(shù)據(jù)計算層[數(shù)據(jù)節(jié)點子系統(tǒng)][任務(wù)節(jié)點子系統(tǒng)]綜合管控層信息安全保障體系標(biāo)準(zhǔn)規(guī)范體系數(shù)據(jù)分析層

[定制計算子系統(tǒng)][數(shù)據(jù)分析子系統(tǒng)][數(shù)據(jù)倉庫子系統(tǒng)][數(shù)據(jù)域節(jié)點子子系統(tǒng)][任務(wù)節(jié)點子系系統(tǒng)]名稱節(jié)點子系系統(tǒng)作業(yè)節(jié)點子系系統(tǒng)數(shù)據(jù)庫主節(jié)點點子系統(tǒng)統(tǒng)一協(xié)同節(jié)點點子系統(tǒng)備份節(jié)點子系系統(tǒng)[數(shù)據(jù)調(diào)用子系系統(tǒng)][數(shù)據(jù)呈現(xiàn)子系系統(tǒng)][數(shù)據(jù)采集子系系統(tǒng)][ERP系統(tǒng)][電子商務(wù)網(wǎng)站站][………]大數(shù)據(jù)庫系統(tǒng)統(tǒng)界面產(chǎn)品研發(fā)成果果:云數(shù)據(jù)庫虛擬擬化平臺截圖圖:與現(xiàn)有系統(tǒng)的的關(guān)系現(xiàn)有系統(tǒng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)輸入分布節(jié)點1分布節(jié)點2分布節(jié)點3輸出現(xiàn)有系統(tǒng)調(diào)用大數(shù)據(jù)系統(tǒng)分布節(jié)點1分布節(jié)點2分布節(jié)點3輸出HADOOPMaHout主流大數(shù)據(jù)庫庫使用現(xiàn)狀大數(shù)據(jù)系統(tǒng)體體系建設(shè)規(guī)劃劃搭平臺采數(shù)據(jù)建模型編代碼圖呈現(xiàn)第一階段一次建逐步擴擴可查詢簡應(yīng)用用巧婦有米可炊炊第二階段重復(fù)迭代持續(xù)續(xù)可分析深入用用巧婦百變花樣樣搭平臺-系統(tǒng)布署規(guī)劃劃類型名稱配置IP安裝內(nèi)容備注分布式應(yīng)用MR-PIG主頻為2.4Ghz以上內(nèi)存:16G硬盤:500G192.168.4.1MR系統(tǒng)和Pig系統(tǒng)兩個系統(tǒng)裝在一臺機上Hive-Chukwa192.168.4.2Hive系統(tǒng)和Chukwa系統(tǒng)兩個系統(tǒng)裝在一臺機上mysql192.168.4.3mysql數(shù)據(jù)庫系統(tǒng)存放hive和chukwa的元數(shù)據(jù)信息HDFS集群主節(jié)點NameNode192.168.1.1Hdfs系統(tǒng)JobTracker-Second192.168.1.2同時作為secondNmaenodeHDFS集群從節(jié)點DataNode1192.168.1.3DataNode2192.168.1.4DataNode3192.168.1.5Hbase集群主節(jié)點Hmaster192.168.2.1Hbase系統(tǒng)Hbase集群從節(jié)點HregionServer192.168.2.2ZooKeeper集群ZooKeeper192.168.3.1ZooKeeper系統(tǒng)采數(shù)據(jù)-數(shù)據(jù)采集模型型建模型-建立四大模型型建模型-建模所需基礎(chǔ)礎(chǔ)知識概率論隨機變量數(shù)字特征參數(shù)估計假設(shè)檢驗建模型-十大精典算法法建模型-算法的典型應(yīng)應(yīng)用關(guān)聯(lián)規(guī)則建模型-算法的典型應(yīng)應(yīng)用決策樹編代碼-開發(fā)環(huán)境的安安裝圖呈現(xiàn):圖形設(shè)計技術(shù)術(shù)數(shù)據(jù)據(jù)描描述述視覺覺編編碼碼::大大小小、、顏顏色色、、紋紋理理、、形形狀狀;;線線段段、、圖圖表表、、樹樹;;聽覺覺編編碼碼::聲聲音音、、語語言言數(shù)據(jù)據(jù)表表示示在時時空空局局限限下下采采用用滾滾動動、、變變形形、、抑抑制制、、縮縮放放、、快快速速序序列列來來展展現(xiàn)現(xiàn)數(shù)數(shù)據(jù)據(jù)。交互互連續(xù)續(xù)、、漸漸進進、、被被動動、、混混合合多多種種交交互互方方式式,大數(shù)數(shù)據(jù)據(jù)展展現(xiàn)現(xiàn)技技術(shù)術(shù)總總結(jié)結(jié)::數(shù)據(jù)據(jù)呈呈現(xiàn)現(xiàn)技技術(shù)術(shù)是是大大數(shù)數(shù)據(jù)據(jù)能能否否讓讓智智慧慧經(jīng)經(jīng)濟濟走走進進尋尋常常百百姓姓家家的的最最后后一一公公里,,利利用用信信息息可可視視可可聽聽使使大大數(shù)數(shù)據(jù)據(jù)的的有有價價信信息息以以可可感感性性認(rèn)認(rèn)知知的的方方式式呈呈現(xiàn)現(xiàn)出出來至至關(guān)關(guān)重重要要。。圖呈呈現(xiàn)現(xiàn)::一圖圖勝勝千千言言圖呈呈現(xiàn)現(xiàn)-圖形形開開發(fā)發(fā)工工具具DataWrangler斯坦坦福福大大學(xué)學(xué)可可視視化化組組((SUVG)設(shè)設(shè)計計的的基基于于web的服服務(wù)務(wù)的的圖圖形形化化工工具具計計算算量量大大GoogleRefine用戶戶在在電電腦腦上上運運行行這這個個應(yīng)應(yīng)用用程程序序后后就就可可以以通通過過瀏瀏覽覽器器訪訪問問之之GoogleFusionTablesarietyGoogleFusionTables的處處理理大大數(shù)數(shù)據(jù)據(jù)量量的的強強大大能能力力,,以以及及能能夠夠自自由由添添加加不不同同的的空空間間視視圖圖的的功功能能JavaScriptInfoVisToolkitQuantumGISOpenHeatMapTimeFlow輿情情系系統(tǒng)統(tǒng)::大大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用全文文檢檢索索軟軟件件文本本挖挖掘掘軟軟件件輿情情分分析析軟軟件件突發(fā)發(fā)事事件件專專題題追追蹤蹤與與分分析析軟軟件件輿情情簡簡報報自自動動生生成成軟軟件件六大大主主要要技技術(shù)術(shù)組組件件47輿情情監(jiān)監(jiān)控控社社會會傳傳感感網(wǎng)網(wǎng)絡(luò)絡(luò)輿情情系系統(tǒng)統(tǒng)::數(shù)數(shù)據(jù)據(jù)采采集集模模式式一級級社社會會傳傳感感網(wǎng)網(wǎng)絡(luò)絡(luò)::活活躍躍的的敏敏感感網(wǎng)網(wǎng)站站,,實實時時監(jiān)監(jiān)控控二級級社社會會傳傳感感網(wǎng)網(wǎng)絡(luò)絡(luò)::包包含含有有害害信信息息站站點點,,定定時時掃掃描描三級級社社會會傳傳感感網(wǎng)網(wǎng)絡(luò)絡(luò)::一一般般性性網(wǎng)網(wǎng)站站,,關(guān)關(guān)鍵鍵詞詞定定期期巡巡查查48輿情情系系統(tǒng)統(tǒng)::突突發(fā)發(fā)事事件件分分析析關(guān)鍵詞配置文本篇章配置站點頻道配置數(shù)據(jù)實時處理與匯總在線分析與計算事件趨勢分析輿情分析社會網(wǎng)絡(luò)分析蒙牛事件涉及組織社會網(wǎng)絡(luò)分析蒙牛事件人物關(guān)系網(wǎng)絡(luò)演化傳播影響分析蒙牛事件輿情情系系統(tǒng)統(tǒng)::結(jié)結(jié)果果展展示示時空空大大數(shù)數(shù)據(jù)據(jù)聚聚合合應(yīng)應(yīng)用用案案例例廣西西科科技技投投入入分分析析((聚聚類類分分析析))-項目目投投入入、、民民族族投投入入、、企企業(yè)業(yè)投投入入-數(shù)據(jù)據(jù)地地圖圖、、柱柱狀狀圖圖、、趨趨勢勢圖圖-多維維度度統(tǒng)統(tǒng)計計、、多多方方式式展展示示大數(shù)數(shù)據(jù)據(jù)支支撐撐行行為為分分析析案案例例教育育云云平平臺臺分分析析((行行為為分分析析))-學(xué)校校分分布布圖圖-登錄錄用用戶戶統(tǒng)統(tǒng)計計-活躍躍用用戶戶統(tǒng)統(tǒng)計計-操作作統(tǒng)統(tǒng)計計實時大大數(shù)據(jù)據(jù)案例例清華公公共安安全研研究院院實時時交通通應(yīng)用用-交通路路況查查詢-車輛行行駛模模擬大數(shù)據(jù)據(jù)異構(gòu)構(gòu)政府府信息息系統(tǒng)統(tǒng)集成成應(yīng)用用案例例企業(yè)征征信平平臺應(yīng)應(yīng)用-企業(yè)源源數(shù)據(jù)據(jù)-企業(yè)數(shù)數(shù)據(jù)集集成視視圖-企業(yè)數(shù)數(shù)據(jù)量量化跨系統(tǒng)統(tǒng)數(shù)據(jù)據(jù)異常常比對對港區(qū)公公眾服服務(wù)應(yīng)應(yīng)用截截圖,,數(shù)據(jù)據(jù)聯(lián)合合檢查查大數(shù)據(jù)據(jù)庫產(chǎn)產(chǎn)品應(yīng)應(yīng)用大數(shù)據(jù)據(jù)精典典案例例2009年,甲甲型H1N1流感在在全球球爆發(fā)發(fā)傳播播,為為了發(fā)發(fā)現(xiàn)和和控制制疫情情,各各國政政府和和衛(wèi)生生相關(guān)關(guān)部門門付出出了巨巨大努努力,,但得得到的的數(shù)據(jù)據(jù)仍然然滯后后一兩兩周,,而Google對人們們的搜搜索的的歷史史記錄錄進行行處理理,建建立合合理的的數(shù)學(xué)學(xué)模型型后,,得到到的預(yù)預(yù)測結(jié)結(jié)果與與官方方的數(shù)數(shù)據(jù)相關(guān)性性高達達97%,能夠夠立刻刻判斷斷出流流感是是從哪哪里傳傳播出出來的的,沒沒有一一兩周周的滯滯后。。Google處理了了5000萬條歷史記記錄、、4.5億個不同的的數(shù)學(xué)學(xué)模型型。大數(shù)據(jù)據(jù)精典典案例例大數(shù)據(jù)據(jù)精典典案例例Cloudera正在與與西奈奈山醫(yī)醫(yī)學(xué)院院合作作開發(fā)發(fā)新的的生物物數(shù)據(jù)據(jù)分析析方法法和系系統(tǒng)。。Cloudera還與FDA合作偵偵測多多種藥藥物組組合的的副作作用,,與埃埃默里里大學(xué)學(xué)合作作幫助助病歷歷學(xué)家家更準(zhǔn)準(zhǔn)確地地分析析醫(yī)療療影像像。Cloudera的客戶戶之一一——Explorys的業(yè)務(wù)務(wù)主要要是聚聚合并并分析析醫(yī)療療記錄錄,而而英特Apixio利用Hadoop平臺開發(fā)了語義分析服務(wù),可以對病人的健康提供醫(yī)生、護士、及其他相關(guān)人士的回答。Apixio試圖通過對醫(yī)療記錄進行先進的技術(shù)分析,與一個簡單的基于云計算的搜索引擎來幫助醫(yī)生迅速了解病人相關(guān)病史,挽救生命。大數(shù)據(jù)據(jù)精典典案例例大數(shù)據(jù)據(jù)精典典案例例馬云成成功預(yù)預(yù)測2008年經(jīng)濟濟危機機“2008年初,阿里巴巴巴平平臺上上整個個買家家詢盤盤數(shù)急急劇下下滑,,歐美美對中中國采采購在在下滑滑。海海關(guān)是是賣了了貨,,出去去以后后再獲獲得數(shù)數(shù)據(jù);;我們們提前前半年年時間間從詢詢盤上上推斷斷出世世界貿(mào)貿(mào)易發(fā)發(fā)生變變化了了?!薄蓖ǔ6裕?,買家家在采采購商商品前前,會會比較較多家家供應(yīng)應(yīng)商的的產(chǎn)品品,反反映到到阿里里巴巴巴網(wǎng)站站統(tǒng)計計數(shù)據(jù)據(jù)中,,就是是查詢詢點擊擊的數(shù)數(shù)量和和購買買點擊擊的數(shù)數(shù)量會會保持持一個個相對對的數(shù)數(shù)值,,綜合合各個個維度度的數(shù)數(shù)據(jù)可可建立立用戶戶行為為模型型。因因為數(shù)數(shù)據(jù)樣樣本巨巨大,保證用用戶行行為模模型的的準(zhǔn)確確性。。因此此在這這個案案例中中,詢詢盤數(shù)數(shù)據(jù)的的下降降,自自然導(dǎo)導(dǎo)致買買盤的的下降降。人類從從依靠靠自身身判斷斷做決決定到到依靠靠數(shù)據(jù)據(jù)做決決定的的轉(zhuǎn)變變,也也是大大數(shù)據(jù)據(jù)作出出的最最大貢貢獻之之一。?!丁洞髷?shù)據(jù)據(jù)時代代》大數(shù)據(jù)據(jù)應(yīng)用用行業(yè)業(yè)分析析應(yīng)用可可能性性電信政府((公共共事業(yè)業(yè))交通金融醫(yī)療教育能源((電力力/石油))縱軸契

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論