




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘與商務智能大數(shù)據(jù)時代大數(shù)據(jù)時代大數(shù)據(jù)時代第1頁數(shù)據(jù)是寶貴財富,其中蘊含大量有用(有利于管理和決策)信息和知識。計算機和通訊技術發(fā)展,使數(shù)據(jù)量急劇增加,人類進入大數(shù)據(jù)時代。收集、傳輸、存放、整合、分析與挖掘數(shù)據(jù)各項技術快速發(fā)展。大數(shù)據(jù)時代,數(shù)據(jù)分析與數(shù)據(jù)挖掘作為一門信息技術,其興起主要是受數(shù)據(jù)積累增加和對數(shù)據(jù)分析需求驅(qū)動。第2頁在大數(shù)據(jù)時代,我們共同探討數(shù)據(jù)分析與數(shù)據(jù)挖掘思想、方法、工具和應用前景。盡量向大家介紹數(shù)據(jù)挖掘與商務智能全貌,給一些資料性信息。因為數(shù)據(jù)挖掘與商務智能包括方法廣泛,軟件、工具、企業(yè)太多,應用太廣,此次以介紹方法為主。第3頁大數(shù)據(jù)挖掘與商務智能概論大數(shù)據(jù)將變革現(xiàn)有數(shù)
2、據(jù)觀大數(shù)據(jù)”對社會發(fā)展影響商務智能和數(shù)據(jù)挖掘作用云計算構建新型信息基礎設施信息時代高科技犯罪目錄大數(shù)據(jù)挖掘與商務智能概論大數(shù)據(jù)將變革現(xiàn)有數(shù)據(jù)觀大數(shù)據(jù)”對社會發(fā)展影響商務智能和數(shù)據(jù)挖掘作用云計算構建新型信息基礎設施信息時代高科技犯罪大數(shù)據(jù)挖掘與商務智能概論大數(shù)據(jù)將變革現(xiàn)有數(shù)據(jù)觀大數(shù)據(jù)”對社會發(fā)展影響商務智能和數(shù)據(jù)挖掘作用云計算構建新型信息基礎設施信息時代高科技犯罪第4頁 大數(shù)據(jù)挖掘 與商務智能概論第一部分第一第5頁從數(shù)據(jù)談起數(shù)據(jù)無所不在大數(shù)據(jù)現(xiàn)象、起源與特征第6頁大數(shù)據(jù)現(xiàn)象與起源(1)從2月18日開始,全國70萬家三上企業(yè)和房地產(chǎn)開發(fā)經(jīng)營企業(yè)將在統(tǒng)一數(shù)據(jù)采集和處理平臺上,經(jīng)過互聯(lián)網(wǎng)直接向國家數(shù)據(jù)
3、中心。年實現(xiàn)數(shù)據(jù)聯(lián)網(wǎng)直報“三個全部”:全部由調(diào)查對象填報調(diào)查,全部經(jīng)過互聯(lián)網(wǎng)直接向國家數(shù)據(jù)中心報送;全部現(xiàn)場調(diào)查,全部由調(diào)查員手持電子終端設備現(xiàn)場采集數(shù)據(jù),并經(jīng)過網(wǎng)絡直報國家數(shù)據(jù)中心;全部國家統(tǒng)計調(diào)查,均在統(tǒng)一軟件平臺處理數(shù)據(jù)。國家(省、市)統(tǒng)計局(8)第7頁國家統(tǒng)計局推進“大數(shù)據(jù)”應用11月19日下午,國家統(tǒng)計局與baidu、阿里巴巴等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議,共同推進大數(shù)據(jù)在政府統(tǒng)計中應用。年9月30日,國家統(tǒng)計局第二批企業(yè)大數(shù)據(jù)戰(zhàn)略合作協(xié)議簽約儀式在京盛大舉行,搜房、浪潮、數(shù)海等6家企業(yè)參加簽約。第8頁大數(shù)據(jù)現(xiàn)象與起源(2)金融數(shù)據(jù)(/)低頻數(shù)據(jù):日數(shù)據(jù)高頻數(shù)據(jù):金融市場中
4、逐筆交易數(shù)據(jù)和逐秒交易數(shù)據(jù)超高頻數(shù)據(jù):實時數(shù)據(jù)第9頁金融大數(shù)據(jù)挑戰(zhàn)與應對在以網(wǎng)絡化和數(shù)字化為基本特征新經(jīng)濟時代,金融產(chǎn)業(yè)日漸回歸本質(zhì),表現(xiàn)為金融數(shù)據(jù)流產(chǎn)生、交換、存放、分析以及使用。大數(shù)據(jù)對金融業(yè)帶來了猛烈挑戰(zhàn)沖擊,我國金融機構需要明確大數(shù)據(jù)戰(zhàn)略頂層設計,加強大數(shù)據(jù)基礎設施建設,實施穩(wěn)妥大數(shù)據(jù)安全策略,方能從容迎接大數(shù)據(jù)時代。第10頁在超市中,數(shù)據(jù)經(jīng)過條碼掃描機獲得。這么“購物藍”數(shù)據(jù)庫由大量交易統(tǒng)計組成。RFID技術與物聯(lián)網(wǎng)應用大數(shù)據(jù)現(xiàn)象與起源(3)第11頁什么是物聯(lián)網(wǎng)?全方面感知可靠傳輸智能處理感知傳輸智能利用RFID、傳感器、二維碼等能夠隨時隨地采集物體動態(tài)信息。經(jīng)過網(wǎng)絡將感知各種信息進
5、行實時傳送。 利用計算機技術,及時地對海量數(shù)據(jù)進行信息控制,真正到達了人與物溝通、物與物溝通。第12頁物聯(lián)網(wǎng)大數(shù)據(jù)挑戰(zhàn)物聯(lián)網(wǎng)不但僅是傳感器,物聯(lián)網(wǎng)是提供支撐智慧地球一個基礎架構,物聯(lián)網(wǎng)存在使這種基于大數(shù)據(jù)采集以及分析變成了一個可能,這面臨著三項挑戰(zhàn)。物聯(lián)網(wǎng)邊緣計算。物聯(lián)網(wǎng)中間件。物聯(lián)網(wǎng)運行管理平臺。第13頁 全球四大衛(wèi)星導航系統(tǒng)北斗衛(wèi)星導航系統(tǒng)美國全球定位系統(tǒng)俄羅斯格洛納斯歐盟伽利略系統(tǒng)到年,北斗衛(wèi)星導航系統(tǒng)將擁有35顆衛(wèi)星截止6月12日,已發(fā)射23顆,形成覆蓋全球衛(wèi)星網(wǎng)絡,九省示范應用,LBS。大數(shù)據(jù)現(xiàn)象與起源(4)第14頁北斗“三步走”發(fā)展戰(zhàn)略GEO(GeosynchronousEeart
6、hOrbit):地球靜止軌道衛(wèi)星IGSO(InclinedGeosynchronousSatelliteOrbit):傾斜軌道同時衛(wèi)星MEO(MediumEarthOrbit):中高軌衛(wèi)星第15頁大數(shù)據(jù)與北斗系統(tǒng)把短信和導航結(jié)合,是中國北斗衛(wèi)星導航系統(tǒng)獨特創(chuàng)造。北斗衛(wèi)星導航系統(tǒng)應用當前逐步形成規(guī)?;?、標準化趨勢,已向民用用戶全方面開放,成功應用于個人位臵服務、氣象應用、交通管理、運輸管理、應搶救援、精密授時、精細農(nóng)業(yè)等多個行業(yè)。近期,東南亞四國(泰國、老撾、文萊緬甸)都于中國政府簽署協(xié)議,采取我國北斗導航系統(tǒng),同時中國與巴基斯坦有望在近期簽署北斗系統(tǒng)合作協(xié)議,成為第五個使用北斗導航國家。第16
7、頁生物信息學(人類基因組計劃)神經(jīng)信息學(人類腦計劃)大數(shù)據(jù)現(xiàn)象與起源(5)第17頁生命科學大數(shù)據(jù)時代降臨要處理當前生命科學問題,需要從時空狀態(tài)對生老病死進行解讀,這就需要大數(shù)據(jù),這種大數(shù)據(jù)揭示就是大科學,這種大科學就是人類發(fā)展史上最大產(chǎn)業(yè)。生命科學已進入大科學、大數(shù)據(jù)時代,基因資源源頭。怎樣去儲存這些資源,為未來研究使用提供基礎成為一個關鍵問題。為了適應更龐大數(shù)據(jù)存放、處理、分析與應用要求,深圳華大基因研究院還和國家超算天津中心、深圳超算中心、廣州超算中心等機構展開戰(zhàn)略性合作。下一步,將經(jīng)過云計算模式來組織存放和處理相關數(shù)據(jù)。第18頁大數(shù)據(jù)現(xiàn)象與起源(6)19第19頁網(wǎng)絡大數(shù)據(jù)20網(wǎng)絡數(shù)據(jù)即
8、使不是最原始大數(shù)據(jù)源,也是使用最廣泛、認可度最高大數(shù)據(jù)源。網(wǎng)絡數(shù)據(jù)是指用戶瀏覽萬維網(wǎng)所產(chǎn)生日志信息,是等候分析和挖掘信息寶庫。橫跨于大量不一樣行業(yè)中企業(yè)組織已經(jīng)把那些來自于網(wǎng)站詳細而又處于客戶層面行為數(shù)據(jù)源整合入它們本身企業(yè)數(shù)據(jù)分析環(huán)境中。第20頁大數(shù)據(jù)引發(fā)數(shù)據(jù)觀變革第二部分第21頁我們來到大數(shù)據(jù)時代數(shù)據(jù)極簡主義大數(shù)據(jù):一切數(shù)據(jù)皆有用數(shù)據(jù)觀、技術、成本改變(硬件、軟件和除理技術、起源)第22頁全球每秒鐘發(fā)送 2.9 百萬封電子郵件,一分鐘讀一篇話,足夠一個人晝夜不息讀5.5 年天天會有 2.88 萬個小時視頻上傳到Y(jié)outube,足夠一個人晝夜不息觀看3.3 年推特上天天公布 5 千萬條消息,
9、假設10 秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息瀏覽16 年天天亞馬遜上將產(chǎn)生 6.3 百萬筆訂單每個月網(wǎng)民在Facebook 上要花費7 千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收數(shù)據(jù)高達1.3EBGoogle 上天天需要處理24PB 數(shù)據(jù)人們從信息被動接收者變成了主動創(chuàng)造者我們來到大數(shù)據(jù)時代第23頁20世紀90年代,數(shù)據(jù)倉庫之父Bill Inmon就經(jīng)常提及Big Data5 月,在“云計算相遇大數(shù)據(jù)” 為主題EMC World 會議中,EMC 拋出了Big Data概念什么是大數(shù)據(jù):Big Data名詞由來第24頁 大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型數(shù)據(jù) 海量和非結(jié)構化,增加如此之塊,以至于難
10、以使用現(xiàn)有數(shù)據(jù)庫管理工具來駕馭,困難在于數(shù)據(jù)獲取、存貯、搜索、共享、分析和可視化等方面 大數(shù)據(jù)定義數(shù)據(jù)量復雜性:種類和速度銷量庫存薪酬表客戶信息合約ERP/CRMWEB2.0廣告博客搜索營銷文本/圖像網(wǎng)絡日志大數(shù)據(jù)社會情緒音頻/視頻傳感器RFID維基/博客微博金融信息個人數(shù)據(jù)位置信息政府信息氣象數(shù)據(jù)保險信息EBPBTBGB維基大數(shù)據(jù)定義 大數(shù)據(jù)是任何超出了一臺計算機處理能力數(shù)據(jù)量亞馬遜大數(shù)據(jù)定義 大數(shù)據(jù)是由局部數(shù)據(jù)匯聚而成能反應出整體數(shù)據(jù),整體數(shù)據(jù)又隨時空在不停膨脹。Informatica大數(shù)據(jù)定義 大數(shù)據(jù)=交易數(shù)據(jù)+互動數(shù)據(jù)+觀察數(shù)據(jù)中國電信大數(shù)據(jù)定義數(shù)據(jù)量中心大數(shù)據(jù)定義第25頁 假如自然界
11、中事件完全不可預測地隨機發(fā)生,人們生活將無法忍受;與此相反,假如每一件事情都是確定、完全能夠預測,則生活將是無趣。利用因果關系解釋觀察現(xiàn)象或預測未來存在邏輯和實際上困難。 大數(shù)據(jù)理性認知美C.R 勞 與傳統(tǒng)比較,大數(shù)據(jù)分析處理關鍵是預測和推斷,根本變革在于不刻意追求因果關系,而更多關注相關關系。也就是說,只要知道和什么相關,而無須強求為何相關。英舍恩伯格 大數(shù)據(jù)時代降臨,使人類第一次有機會和條件在非常多和非常深入層次取得和使用全方面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),簡而言之就是樣本=總體。英舍恩伯格 大數(shù)據(jù)為政府統(tǒng)計提供了總體性、非結(jié)構化、豐富真實原始資料,能夠極大地縮短數(shù)據(jù)采集時間,降低報表填報任務
12、,減輕調(diào)查對象負擔,提升統(tǒng)計數(shù)據(jù)質(zhì)量。 國家統(tǒng)計局 馬建堂大數(shù)據(jù),也叫全局數(shù)據(jù)、總體數(shù)據(jù),數(shù)據(jù)量越大其預測和推斷準確性越高第26頁1. 體量Volume2. 多樣性Variety3. 價值密度value4. 速度Velocity大數(shù)據(jù)異構和多樣性,各種形式(文本、圖像、視頻、機器數(shù)據(jù)),無模式或者模式不顯著,不連貫語法或句義以大量不相關信息對未來趨勢與模式可預測分析,深度復雜分析,機器學習、人工智能實時分析而非批量式分析,數(shù)據(jù)輸入、處理與丟棄,立竿見影大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理數(shù)據(jù)集合大數(shù)據(jù):4V特征非結(jié)構化數(shù)據(jù)超大規(guī)模暴發(fā)式增加,比結(jié)構化數(shù)據(jù)增
13、加快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫10倍到50倍,占總數(shù)據(jù)量8090%第27頁大數(shù)據(jù)不但僅是數(shù)據(jù)“大” 多大? PB級比大更主要是數(shù)據(jù)復雜性、全方面性,有時甚至大數(shù)據(jù)中小數(shù)據(jù)如一條微博就含有顛覆性價值軟件是大數(shù)據(jù)引擎第28頁大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫區(qū)分大數(shù)據(jù)是在傳統(tǒng)數(shù)據(jù)庫學科的分支數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基礎上進一步發(fā)展起來的。但有兩點比較主要的不同:結(jié)構化程度:傳統(tǒng)數(shù)據(jù)庫保存的是結(jié)構化或者半結(jié)構化的數(shù)據(jù),以二維表或者標準XML文件的方式存儲數(shù)據(jù),由于結(jié)構清晰,處理相對容易;大數(shù)據(jù)面向的是一切計算機可以存儲的數(shù)據(jù)格式,包括互聯(lián)網(wǎng)上的各種網(wǎng)頁、圖片、音頻、視頻,包括辦公文檔、報表,包括人們在搜索引擎中輸入
14、的關鍵詞、在社交網(wǎng)絡中的留言、喜好,也包括各種傳感器自動收集的監(jiān)控結(jié)果等等,顯然不同的格式處理起來更加困難。噪聲(異常)數(shù)據(jù)的處理:傳統(tǒng)數(shù)據(jù)庫通常把異常數(shù)據(jù)先剔除,應用在需要高精確度的領域,如銀行對每個賬戶的管理;大數(shù)據(jù)則允許異常數(shù)據(jù)存在,更多應用在預測方面,找出大量數(shù)據(jù)中隱藏的關聯(lián)關系,少量異常數(shù)據(jù)不會對總體結(jié)果產(chǎn)生影響。第29頁大數(shù)據(jù)市場分析1-年中國大數(shù)據(jù)市場規(guī)模2各行業(yè)大數(shù)據(jù)市場規(guī)模政府、互聯(lián)網(wǎng)、電信、金融大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)二分之一市場份額。因為各個行業(yè)都存在大數(shù)據(jù)應用需求,潛在市場空間非常可觀。是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應用案例產(chǎn)
15、生。年-20,將迎來大數(shù)據(jù)市場飛速發(fā)展。年中國大數(shù)據(jù)市場規(guī)模到達4.7億元,20大數(shù)據(jù)市場將迎來增速為138.3%飛躍,到20,整個市場規(guī)模迫近百億。第30頁國際企業(yè)角力大數(shù)據(jù) EMCEMC大數(shù)據(jù)處理方案專注于使組織更有效地使用他們從不一樣起源產(chǎn)生數(shù)據(jù),包含網(wǎng)絡上,網(wǎng)頁上,消費者,監(jiān)控系統(tǒng)和傳感器。EMC數(shù)據(jù)計算產(chǎn)品事業(yè)部正在開發(fā)分析工具以處理大數(shù)據(jù)現(xiàn)象。EMC大數(shù)據(jù)處理方案包含40多個產(chǎn)品。年7月收購數(shù)據(jù)庫軟件供給商Greenplum,花費3億美元七月收購數(shù)據(jù)復制處理方案提供商Data Domain,花費24億美元不一定和大數(shù)據(jù)完全相關,EMC從起收購了Archer Technologies
16、, SourceLabs, FastScale Technology, Configuresoft, and Varonis Systems。IBMIBM策略是提供一個全方面方法來處理前所未有信息爆炸提出挑戰(zhàn),因為信息量不論在流量、種類、速度還是活力上都是爆炸式增加IBM一直致力于擴大對包含數(shù)據(jù)倉庫中大數(shù)據(jù)、信息流和結(jié)構化數(shù)據(jù)分析在過去四年中,IBM已經(jīng)投入超出120億美元進行了23項相關并購,其中包含:209月收購數(shù)據(jù)庫分析供給商Netezza企業(yè),花費17億美元2010月收購網(wǎng)絡分析軟件供給商Coremetrics年10月收購數(shù)據(jù)分析和統(tǒng)計軟件提供商SPSS, 花費12億美元年1月收購業(yè)務
17、規(guī)則管理軟件供給商ILOG, 花費3億4千萬美元花費20億美元收購商務智能軟件供給商Cognos微軟微軟提供了高性能計算能力,并在靠Windows Compute Cluster服務器進入相關市場最近,微軟HPC部門開發(fā)了該企業(yè)Dryad并行處理技術小區(qū)技術預覽(CTP),第一步是向Windows HPC Server用戶提供處理大數(shù)據(jù)工具甲骨文甲骨文大數(shù)據(jù)提供數(shù)據(jù)庫和數(shù)據(jù)庫軟件主要用于配合Sun硬件,尤其是它最高端服務7月收購專注于數(shù)據(jù)復制和實時數(shù)據(jù)集成處理方案私人企業(yè)GoldenGate Software第31頁大數(shù)據(jù)產(chǎn)業(yè)價值鏈數(shù)據(jù)數(shù)據(jù)掌控者,擁有或者能夠搜集大量數(shù)據(jù)企業(yè)。海量數(shù)據(jù)就是財富
18、,能夠考慮自己分析或者賣數(shù)據(jù)給其它企業(yè)。技術技術供給商或者分析企業(yè)。掌握了從海量數(shù)據(jù)中分析出有用信息技能或者工具,但本身不一定擁有數(shù)據(jù)。思維有創(chuàng)新思維人或者企業(yè)。他們對大數(shù)據(jù)敏感,有怎樣挖掘數(shù)據(jù)新價值獨特想法。第32頁分析技術:數(shù)據(jù)處理:自然語言處理技術統(tǒng)計和分析:A/B test; top N排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關聯(lián)規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數(shù)據(jù)技術:數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P系數(shù)據(jù)庫;NoSQL;SQL等基礎架構支持:云存放;分布式文件系統(tǒng)等計算結(jié)果展現(xiàn):云計算;標簽云;關系圖等大數(shù)據(jù)技術體系:取、存、管、用存放結(jié)構化數(shù)據(jù):海量數(shù)
19、據(jù)查詢、統(tǒng)計、更新等操作效率低非結(jié)構化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存放不利于檢索、查詢和存放半結(jié)構化數(shù)據(jù)轉(zhuǎn)換為結(jié)構化存放按照非結(jié)構化存放處理方案:Hadoop(MapReduce技術)流計算(twitterstorm和yahoo!S4)第33頁高并發(fā)讀寫大數(shù)據(jù)關鍵技術需求高效率存放 和訪問高可擴展性和高可用性低成本建設運維 確保一致性開銷過大,難以實現(xiàn)高并發(fā) 存放性能受限于控制器,性能難以確保 關系型表單存放難以適應不一樣數(shù)據(jù)類型 上億行數(shù)據(jù)超級達標效率極低 傳統(tǒng)基于盤陣存放設備,造價昂貴,且市場壟斷嚴重,建設成本居高不下,擴容成本尤其高 許可和維護花費高昂 無法簡單經(jīng)過添加
20、服務節(jié)點來擴展數(shù)據(jù)容量和負載能力,難以進行橫向擴展 數(shù)據(jù)庫升級需要停機維護和數(shù)據(jù)遷移,造成服務中止 不確保遵照ACID標準,提升并發(fā)讀寫性能 Schema-Free存放適應不一樣數(shù)據(jù)類型舍棄SQL標準功效,盡可能簡化數(shù)據(jù)操作,提升效率MapReduce實現(xiàn)高效訪問 基于X86設備,價格低廉開源系統(tǒng),節(jié)約許可費用 支持水平擴展,可簡單經(jīng)過添加服務節(jié)點來擴展數(shù)據(jù)容量和負載能力數(shù)據(jù)庫升級不影響服務連續(xù)第34頁大數(shù)據(jù)分析模型研究對象由組織、用戶、大數(shù)據(jù)和工具組成運行系統(tǒng)研究內(nèi)容大數(shù)據(jù)組成 大數(shù)據(jù)行為 大數(shù)據(jù)行為和數(shù)據(jù)組織研究方法知識工程解構大數(shù)據(jù)系統(tǒng)研發(fā)工程支撐大數(shù)據(jù)系統(tǒng)價值工程牽引大數(shù)據(jù)系統(tǒng)研究目標
21、大數(shù)據(jù)生產(chǎn)平臺大數(shù)據(jù)開發(fā)平臺大數(shù)據(jù)采集平臺大數(shù)據(jù)應用平臺研究重點數(shù)據(jù)分而治之資源組織調(diào)度邏輯復制遷移組織大數(shù)據(jù)用戶工具知識工程研發(fā)工程價值工程社會價值結(jié)構功效信源信宿信道控制狀態(tài)協(xié)同生產(chǎn)采集存放應用傳遞展現(xiàn)概念定議劃分經(jīng)濟價值科技價值商業(yè)價值為何是什么怎么做第35頁大數(shù)據(jù)變革現(xiàn)有數(shù)據(jù)觀:以變革始大數(shù)據(jù)將變革人們認世界的模式,最重要的是建模分析的方式;由選擇抽樣到全樣本(all-sample),“樣本=總體”;大數(shù)據(jù)更重視相關關系,而不去過于追求因果關系;即使從前的建模也一樣是模擬,無法解決因果;大數(shù)據(jù)將徹底改變IT公司的構成,擁有數(shù)據(jù)、技術與思維的公司將三足鼎立,但最終擁有數(shù)據(jù)的公司將最有價值
22、。大數(shù)據(jù)改變政府和企業(yè)對待數(shù)據(jù)的觀念,真正認識到數(shù)據(jù)的重要性政務的大數(shù)據(jù)需求:原有異構數(shù)據(jù)的整理收集以及未來的應用創(chuàng)新第36頁 大數(shù)據(jù)是組織一個資產(chǎn) 數(shù)據(jù)資源已經(jīng)是上升為國家戰(zhàn)略資源。人類已進入“后信息經(jīng)濟時代”,即智慧經(jīng)濟。 智慧經(jīng)濟是一個創(chuàng)新形態(tài)萌生經(jīng)濟,能實現(xiàn)經(jīng)濟與環(huán)境、能源、社會最大程度可連續(xù)發(fā)展。 大數(shù)據(jù)是智慧經(jīng)濟基礎。從哪里來、當前在哪里、要到哪里去大數(shù)據(jù)是一個資產(chǎn)第37頁 三個小故事:智者善用數(shù)據(jù)和工具 孟德爾碗豆雜交試驗,基于數(shù)十年試驗數(shù)據(jù),經(jīng)過采集、分析、歸納、推導、預測找到其規(guī)律。(一)使用數(shù)據(jù) 曹沖稱象,大而劃之、分而治之。秤是分析,算盤是匯總。(二)處理數(shù)據(jù) 平民傳奇,
23、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫系統(tǒng),處理對象切分與存貯;MR編程模式處理分析與歸納。(三)構建系統(tǒng)第38頁 大數(shù)據(jù)處理行為技術特征數(shù)據(jù)無限分而治之功效有限復制分發(fā)第39頁 大數(shù)據(jù)系統(tǒng)定義 是一個以人為主導,利用計算機硬件、軟件、網(wǎng)絡通信設備以及其它辦公設備,進行信息搜集、傳輸、加工、儲存、更新、拓展和維護系統(tǒng) 是一個將各類信息系統(tǒng)產(chǎn)生數(shù)據(jù)作為存貯、分析和利用信息系統(tǒng),經(jīng)過借助計算機硬件、軟件、網(wǎng)絡通信設備以及其它設備,實現(xiàn)對數(shù)據(jù)搜集、存貯、處理、傳遞、備份系統(tǒng)。管理信息系統(tǒng)大數(shù)據(jù)系統(tǒng)第40頁 大數(shù)據(jù)系統(tǒng)設計目標設計目標1可以存貯海量數(shù)2可以進行高速處理3可以快速開發(fā)出并行服務4可以搭建在廉價的機
24、群上第41頁 大數(shù)據(jù)系統(tǒng)邏輯架構數(shù)據(jù)應用層外部系統(tǒng)層數(shù)據(jù)計算層數(shù)據(jù)節(jié)點子系統(tǒng)任務節(jié)點子系統(tǒng)綜合管控層信息安全保障體系標準規(guī)范體系數(shù)據(jù)分析層 定制計算子系統(tǒng) 數(shù)據(jù)分析子系統(tǒng) 數(shù)據(jù)倉庫子系統(tǒng) 數(shù)據(jù)域節(jié)點子系統(tǒng)任務節(jié)點子系統(tǒng)名稱節(jié)點子系統(tǒng)作業(yè)節(jié)點子系統(tǒng)數(shù)據(jù)庫主節(jié)點子系統(tǒng)統(tǒng)一協(xié)同節(jié)點子系統(tǒng)備份節(jié)點子系統(tǒng) 數(shù)據(jù)調(diào)用子系統(tǒng) 數(shù)據(jù)展現(xiàn)子系統(tǒng) 數(shù)據(jù)采集子系統(tǒng) ERP系統(tǒng) 電子商務網(wǎng)站 第42頁 與現(xiàn)有系統(tǒng)關系現(xiàn)有系統(tǒng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)輸入分布節(jié)點1分布節(jié)點2分布節(jié)點3輸出現(xiàn)有系統(tǒng)調(diào)用大數(shù)據(jù)系統(tǒng)分布節(jié)點1分布節(jié)點2分布節(jié)點3輸出第43頁HADOOP第44頁MaHout第45頁主流大數(shù)據(jù)庫 使用現(xiàn)實狀況第46頁大數(shù)據(jù)
25、現(xiàn)象An EverestSized Opportunity!47第47頁容量單位:從K到Y(jié)KMGTPEZYKKilo1K字節(jié)=1,024字節(jié)MMeg1M字節(jié)=1,048,576字節(jié)GGiga1G字節(jié)=1,073,741,824字節(jié)TTera1T字節(jié)=1,099,511,627,776字節(jié)PPeta1P字節(jié)=1,125,899,906,842,624字節(jié)EExa1E字節(jié)=1,152,921,504,606,846,976字節(jié)ZZetta1Z字節(jié)=1,180,591,620,717,411,303,424字節(jié)YYotta1Y字節(jié)=1208,925,819,614,629,174,706,176字節(jié)
26、48數(shù)據(jù)存放單位及換算關系第48頁大數(shù)據(jù)價值(Value)大數(shù)據(jù)價值密度低。大數(shù)據(jù)將引發(fā)新“智慧革命”:從海量、復雜、實時大數(shù)據(jù)中能夠發(fā)現(xiàn)知識、提升智能、創(chuàng)造價值。有了云計算、物聯(lián)網(wǎng),但缺乏大數(shù)據(jù)分析處理核心技術,智慧城市“大腦”就不夠發(fā)達,“智商”就不夠高,能力就不夠強。第49頁廣義大數(shù)據(jù)人才、組織(數(shù)據(jù)科學家等)數(shù)據(jù)處理、存放、分析技術(Hadoop、NoSQL、機器學習、統(tǒng)計分析等)非結(jié)構化數(shù)據(jù)(文本、視頻、聲音、傳感器、GPS等)結(jié)構化數(shù)據(jù)(客戶數(shù)據(jù)、銷售數(shù)據(jù)等)狹義大數(shù)據(jù)(具備3V特征)廣義大數(shù)據(jù)第50頁新信息世界觀:物理世界、信息世界、人類社會組成三元世界大數(shù)據(jù)第51頁共生智能系統(tǒng)
27、中數(shù)據(jù)、信息與知識管理組織與社群:人類集體智能決議與問題求解擴展計算機網(wǎng)絡系統(tǒng):人工智能數(shù)據(jù)加工平臺可感知環(huán)境與物品:周遭智能(AmI)感知與執(zhí)行終端數(shù)據(jù)、信息、知識流轉(zhuǎn)共生智能系統(tǒng):綜合集成共同處理現(xiàn)實復雜問題第52頁大數(shù)據(jù)對社會發(fā)展影響第三部分第53頁大數(shù)據(jù)對社會發(fā)展影響科學研究第四種范式公共管理大數(shù)據(jù)國家戰(zhàn)略智慧城市工業(yè)生產(chǎn)與商業(yè)經(jīng)營大數(shù)據(jù)產(chǎn)業(yè)鏈與商務智能第54頁自然科學大數(shù)據(jù)???月11日出版科學9月3日出版自然雜志刊登專題大數(shù)據(jù)雜志登載專題數(shù)據(jù)處理第55頁第四種范式觀察與經(jīng)驗描述與試驗、理論建模、仿真與計算等科研模式之后,當代又出現(xiàn)了數(shù)據(jù)密集型科研范式。微軟企業(yè)于10月公布了TheF
28、ourthParadigm:Data-IntensiveScientific,首次全方面地描述了快速興起數(shù)據(jù)密集型科學研究?!癟heNextScienceRevolution”,HarvardBusinessReview,November第56頁第四范式:數(shù)據(jù)密集型科學發(fā)覺漢字版科學正在進入一個嶄新階段。在信息與網(wǎng)絡技術快速發(fā)展推進下,大量從宏觀到微觀、從自然到社會觀察、感知、計算、仿真、模擬、傳輸?shù)仍O施和活動,產(chǎn)生出大量科學數(shù)據(jù),形成被成為“大數(shù)據(jù)”(BigData)新科學基礎設施。57第57頁大數(shù)據(jù)國家戰(zhàn)略5月,聯(lián)合國公布了大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇白皮書。58第58頁國家大數(shù)據(jù)戰(zhàn)略8月,國
29、務院促進大數(shù)據(jù)發(fā)展行動綱要。9月,貴州獲批全國首個大數(shù)據(jù)綜合試驗區(qū)。11月,中國共產(chǎn)黨十八屆五中全會公報提出要實施“國家大數(shù)據(jù)戰(zhàn)略”。年3月,“十三五”規(guī)劃綱要中指出,實施國家大數(shù)據(jù)戰(zhàn)略。年8月,國家發(fā)改委公布關于組織申報大數(shù)據(jù)領域創(chuàng)新能力建設專題通知,組建13個國家級大數(shù)據(jù)試驗室。年10月,第二批國家級大數(shù)據(jù)綜試區(qū),包含兩個跨區(qū)域類綜試區(qū)(京津冀、珠江三角洲),四個區(qū)域示范類綜試區(qū)(上海、河南、重慶、沈陽),一個大數(shù)據(jù)基礎設施統(tǒng)籌發(fā)展類綜試區(qū)(內(nèi)蒙古)。第59頁公共管理智慧城市建設愿景第60頁“智慧城市”系統(tǒng)體系結(jié)構綜合應用智能處理傳輸感知華為企業(yè)提議一個“智慧城市”系統(tǒng)體系結(jié)構第61頁物理
30、空間信息與知識空間社會心智空間智慧城市三個空間理論第62頁智慧城市三個空間理論城市管理是個復雜學科,智慧城市建設是一項復雜系統(tǒng)工程。對智慧城市建設應該同時著眼于三個空間整體。63第63頁64第64頁44第65頁大數(shù)據(jù):變革世界關鍵資源Dataarebecomingthenewrawmaterialofbusiness:aneconomicinputalmostonaparwithcapitalandlabor.數(shù)據(jù)正逐步變成商業(yè)所需原材料之一:一項幾乎和資本或勞力一樣主要經(jīng)濟原料。(Feb.27th,2010)66第66頁產(chǎn)業(yè)界關注麥肯錫咨詢企業(yè)“大數(shù)據(jù)”研究報告“Bigdata:Thenex
31、tfrontierforinnovation,competition,andproductivity”McKinseyGlobalInstitute,May2011.高德納(Gartner)研究與顧問咨詢企業(yè)第67頁大數(shù)據(jù)產(chǎn)業(yè)鏈大數(shù)據(jù)產(chǎn)業(yè)是指對互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、運行商等渠道產(chǎn)生大量數(shù)據(jù)資源進行快速獲取、搜集存放、價值提煉、智能處理和分發(fā),從而用于企業(yè)決議支持等方面信息服務業(yè)。大數(shù)據(jù)全生命周期能夠劃分為“數(shù)據(jù)產(chǎn)生數(shù)據(jù)采集數(shù)據(jù)傳輸數(shù)據(jù)存放數(shù)據(jù)處理數(shù)據(jù)分析與挖掘數(shù)據(jù)公布、展示和應用產(chǎn)生新數(shù)據(jù)”等階段。大數(shù)據(jù)產(chǎn)業(yè)鏈主要包含數(shù)據(jù)源層、數(shù)據(jù)存放平臺層、數(shù)據(jù)分析和挖掘?qū)右约按髷?shù)據(jù)應用層。大數(shù)據(jù)應用層主要分
32、布在互聯(lián)網(wǎng)、電信、金融、零售和政府等行業(yè),和企業(yè)用戶業(yè)務愈加結(jié)合緊密,經(jīng)過大數(shù)據(jù)分析實現(xiàn)商業(yè)智能(BI)、決議支持和用戶需求挖掘等應用價值。第68頁大數(shù)據(jù)產(chǎn)業(yè)鏈第69頁大數(shù)據(jù)產(chǎn)業(yè)鏈第70頁通信行業(yè)大數(shù)據(jù)產(chǎn)業(yè)鏈結(jié)構第71頁第72頁Gartner魔力象限橫軸:前瞻性(CompletenessofVision)包括廠商或供給商提供產(chǎn)品底層技術基礎能力、市場領導能力、創(chuàng)新能力和外部投資等等。縱軸:執(zhí)行能力(AbilitytoExecute)包括產(chǎn)品使用難度、市場服務完善程度和技術支持能力、管理團體經(jīng)驗和能力等。NichePlayers利基者、投機者Challengers挑戰(zhàn)者Visionaries有遠
33、見者、愿景者Leaders領導者、行業(yè)領袖52第73頁年數(shù)據(jù)倉庫和數(shù)據(jù)管了解決方案魔力象限第74頁商務智能(BI)魔力象限第75頁智能決議與管理科學目前決策制定者正在被大量數(shù)據(jù)淹沒,數(shù)字信息從各種各樣傳感器、工具和模擬實驗那里源源不停地涌來,令企業(yè)組織能力、分析能力和儲存信息能力捉襟見肘。正如麥肯錫報告揭示那樣,商業(yè)管理作為科學一個特征正在越來越凸現(xiàn)出來。第76頁管理與管理系統(tǒng)管理是管理主體作用于管理客體活動過程。隨著科技發(fā)展,管理及管理系統(tǒng)數(shù)字化、網(wǎng)絡化、智能化已越來越受到人們廣泛關注。信息管理系統(tǒng):數(shù)據(jù)處理系統(tǒng)、檢索系統(tǒng)、計算機輔助系統(tǒng)、管理信息系統(tǒng)(MIS)、辦公自動化系統(tǒng)(OA)、決議
34、支持系統(tǒng)(DSS)、知識管理系統(tǒng)(KMS)等。第77頁決議與信息78“決議”一詞英語表述為decision-making,意思就是作出決定或選擇。當今是信息爆炸時代,主要不是取得信息,而在于對信息加工和分析,使之對決議有用。決議者需要是對決議有意義新信息,決議者注意力是一個最寶貴資源,不能無謂消耗在大量無關信息上。對信息提供,就應該有一定條件限制,不符合這些條件信息,不應該輸送給決議者。所以信息系統(tǒng)應該包含一個篩選系統(tǒng),以確保提供與決議相關有用信息。第78頁決議需要信息與知識情報階段:確定問題設計階段:找出處理方案選擇階段:選出處理方案實施階段:實施方案返回情報階段返回設計階段返回選擇階段西蒙
35、決議過程四個階段決議過程發(fā)覺那些需要引發(fā)注意征兆并加以解釋,比如銷售滑坡、生產(chǎn)成本猛漲、老用戶對新產(chǎn)品需求、新競爭對手帶來威脅等。最優(yōu)方案由各種原因決定,如成本、實施難易程度、對員工要求、方案實施時間次序等。執(zhí)行選中方案,檢測實施結(jié)果,并作出必要調(diào)整。第79頁商務智能和數(shù)據(jù)挖掘作用第四部分第四部分第80頁什么是商務智能? 高級管理人員信息系統(tǒng)(EIS)管理信息系統(tǒng)(MIS),決議支持系統(tǒng)(DSS)數(shù)據(jù)庫技術,數(shù)據(jù)倉庫(數(shù)據(jù)集市)數(shù)據(jù)整合與清洗工具查詢和匯報工具,在線分析處理工具(OLAP)統(tǒng)計數(shù)據(jù)分析,數(shù)據(jù)挖掘分析性ERP、CRM、SCM企業(yè)績效管理,平衡記分卡第81頁商業(yè)智能Gartner商
36、業(yè)智能概念于1996年最早由加特納集團(GartnerGroup)提出,加特納集團將商業(yè)智能定義為:商業(yè)智能描述了一系列概念和方法,經(jīng)過應用基于事實支持系統(tǒng)來輔助商業(yè)決議制訂。商業(yè)智能技術提供使企業(yè)快速分析數(shù)據(jù)技術和方法,包含搜集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用信息,然后分發(fā)到企業(yè)各處。第82頁什么是商務智能? 商務智能是企業(yè)利用當代信息技術搜集、管理和分析結(jié)構化和非結(jié)構化商務數(shù)據(jù)和信息,創(chuàng)造和累計商務知識和看法,改進商務決議水平,采取有效商務行動,完善各種商務流程,提升各方面商務績效,增強綜合競爭力智慧和能力。/view/557579.htm第83頁企業(yè) 企業(yè)這里用“組織機構”或“實體
37、”會顯得更完整,因為全部組織機構和實體(不只是企業(yè))都能夠而且應該利用商務智能;之所以仍用“企業(yè)”是為保持與“商務”一致性。各行各業(yè),包含非企業(yè)性機構,比如政府部門、教育機構、醫(yī)療機構和公用事業(yè)等,都應該而且能夠利用商務智能。第84頁當代信息技術利用當代信息技術這是這一定義中關鍵之一,IT發(fā)展產(chǎn)生了信息經(jīng)濟和信息社會,在這一新型經(jīng)濟和社會形態(tài)中,信息爆炸式激增又產(chǎn)生了對能夠處理和控制信息新技術強烈需求;商務智能就是新IT在商務分析中有效利用。BI過程中所包括IT主要有:從不一樣數(shù)據(jù)源搜集數(shù)據(jù)中提取有用數(shù)據(jù),對數(shù)據(jù)進行清理以確保數(shù)據(jù)質(zhì)量,將數(shù)據(jù)經(jīng)轉(zhuǎn)換、重構后存入數(shù)據(jù)倉庫或數(shù)據(jù)集市(這時數(shù)據(jù)變?yōu)樾?/p>
38、息),然后尋找適當查詢、匯報和分析工具和數(shù)據(jù)挖掘工具對信息進行處理(這時信息變?yōu)檩o助決議知識),最終將知識展現(xiàn)于用戶面前,轉(zhuǎn)變?yōu)闆Q議。第85頁搜集數(shù)據(jù)收集收集數(shù)據(jù)是管理和分析數(shù)據(jù)前提,數(shù)據(jù)收集工作是十分主要,必須引發(fā)企業(yè)充分重視,在這方面中國企業(yè)與世界上發(fā)達國家中先進企業(yè)之間差距非常大,這是商務智能在中國還不能很快成熟起來主要原因之一,這應了中國一句俗話:“巧婦難為無米之炊”。數(shù)據(jù)和信息收集主要是經(jīng)過各種交易系統(tǒng)進行,比如ERP、CRM、SCM和E-Business等系統(tǒng)。伴隨中國企業(yè)在這些方面進步,數(shù)據(jù)和信息數(shù)量會快速增加。另外,信息,尤其是非結(jié)構化信息,來自企業(yè)各個部門和各個員工創(chuàng)造和收集
39、、沒有放在上述交易系統(tǒng)中內(nèi)容。第三方也是企業(yè)收集數(shù)據(jù)和信息一個主要起源,這么外部數(shù)據(jù)和信息包含市場調(diào)研匯報、人口統(tǒng)計匯報、用戶信用匯報等。第86頁管理和分析數(shù)據(jù)管理這里“管理”主要是指對數(shù)據(jù)儲存、提取、清洗、轉(zhuǎn)換、裝載、整合等工作,其目標主要是為了提高數(shù)據(jù)質(zhì)量和安全性。分析“分析”是一個廣泛概念,這里包括數(shù)據(jù)查詢、數(shù)據(jù)匯報、多維分析、數(shù)據(jù)挖掘、高級統(tǒng)計分析等。大多數(shù)人了解商務智能都集中在這些分析工具上。第87頁結(jié)構化與非結(jié)構化數(shù)據(jù)結(jié)構化結(jié)構化數(shù)據(jù)主要是指儲存于各個交易系統(tǒng)背后關系型數(shù)據(jù)庫中數(shù)據(jù),通常都是以表格形式存在和展現(xiàn)。傳統(tǒng)商務智能概念只包括這種結(jié)構化、可定量數(shù)據(jù)。非結(jié)構化非結(jié)構化數(shù)據(jù)和信
40、息主要是上面提到各個部門和各個員工創(chuàng)造和收集、沒有放在各種交易系統(tǒng)中內(nèi)容,通常是以零散文件形式存在和展現(xiàn);新商務智能概念納入了非結(jié)構化內(nèi)容分析,不過非機構化內(nèi)容管理依然主要是經(jīng)過文件管理和內(nèi)容管理(DocumentManagement&ContentManagement)軟件來進行。第88頁商務數(shù)據(jù)和信息商務數(shù)據(jù)和信息并不能加以狹隘了解,這里所致商務數(shù)據(jù)和信息包含一切可能對商務產(chǎn)生影響、直接和間接數(shù)據(jù)和信息,往小里說包含顧客名字、地址和電話號碼等,往大里說包含過國際上政治、經(jīng)濟、文化和軍事情況等。第89頁商務智能目標創(chuàng)造和累計商務知識和看法這是商務智能第一層目標和功能,也是最直接目標和功能;“
41、知識和看法”正是“智能”得名由來。改進商務決議水平這是商務智能更高一層目標和功能,企業(yè)能否利用好這一功能、實現(xiàn)這一目標在很大程度上取決于領導者意識和胸襟以及企業(yè)文化中決議科學化和民主化成份。第90頁商務行動與商務流程采取有效商務行動采取有效商務行動是創(chuàng)造和累計商務知識和看法、改善商務決策水平目標和動力。商務智能是能夠指導實戰(zhàn)高明兵法,而不是“無所不知、但無能為力”“紙上談兵”。完善各種商務流程殘缺、散亂、僵化、低效商務流程是企業(yè)頑疾,商務智能能夠為這一頑疾診斷和治療做出一定貢獻;優(yōu)化后自動化(請注意先后次序)商務流程反過來也會促進商務智能發(fā)展。第91頁商務績效 提升各方面商務績效這是商務智能在
42、企業(yè)內(nèi)部最高目標和作用,有效商務智能系統(tǒng)和技術能夠幫助企業(yè)提升各個方面績效:財務和非財務,前臺和后臺,企業(yè)內(nèi)和供給鏈內(nèi),組織和個人。企業(yè)績效管理已成為熱門管理和技術概念,這既是因為各種軟件廠商推動又是因為企業(yè)所面臨績效方面壓力增大。第92頁綜合競爭力增強綜合競爭力這是商務智能在企業(yè)中最高目標和作用。商務智能事關企業(yè)興衰成敗和生死存亡。如今以及未來企業(yè)之間競爭是主要是綜合智能上競爭,不論是中國企業(yè)還是外國企業(yè),不論是國營企業(yè)還是民營企業(yè),不論是大企業(yè)還是小企業(yè),都必須提升企業(yè)經(jīng)營和競爭活動中智能水平,爭取成為優(yōu)異智能企業(yè),否則一定會落后于智能上高人一等、捷足先登企業(yè)。智慧和能力把商務智能分為智慧
43、和能力是因為真正商務智能現(xiàn)有思想層面也有行動層面(而且“智能”本身能夠一分為二、二合為一)。第93頁商務智能關鍵技術起源:從數(shù)據(jù)到知識挑戰(zhàn)和跨越結(jié)蛹:數(shù)據(jù)倉庫之厚積薄發(fā)蠶動:聯(lián)機分析處理之驚艷破繭:數(shù)據(jù)挖掘之智能生命產(chǎn)生化蝶:數(shù)據(jù)可視化華麗上演第94頁數(shù)據(jù)、信息與知識每時每刻,我們身邊都充滿了各種各樣數(shù)據(jù)。但只有將這些雜亂無章數(shù)據(jù),轉(zhuǎn)換為信息和知識,才能幫助我們做出聰明選擇。由于數(shù)據(jù)、信息與知識三者之間有著親密相關性,他們常被混淆使用。我們將重點對數(shù)據(jù)、信息與知識進行分析和對比。第95頁數(shù)據(jù)(Data)數(shù)據(jù)泛指對客觀事物數(shù)量、屬性、位臵及其相互關系抽象表示,以適合于用人工或自然方式進行保留、傳
44、遞和處理。比如,水溫度是100,禮品重量是500克,木頭長度是2米,大樓高度時45層。在這些表述中:100;500克;2米;45層就是數(shù)據(jù)。數(shù)據(jù)表現(xiàn)形式是多種多樣,除了數(shù)字,數(shù)據(jù)還以圖像、聲音、文字等形式表現(xiàn)出來。第96頁信息(Information)信息是指有一定含義、經(jīng)過加工處理、對決策有價值數(shù)據(jù)。信息數(shù)據(jù)處理信息是有意義數(shù)據(jù),是被賦予相關性和目標性數(shù)據(jù)。例如,人口分布情況、降雨量分布情況等??梢杂脤iT信息管理系統(tǒng)對各類信息進行管理。信息管理系統(tǒng)最基本功能就是數(shù)據(jù)收集和數(shù)據(jù)處理。第97頁76知識(Knowledge)知識是信息基礎上又一次升華,是濃縮系統(tǒng)化了信息。需要經(jīng)過信息,使用歸納、演
45、繹方法得到。知識只有在經(jīng)過廣泛深入地實踐檢驗,被人消化吸收,并成為了個人信念和判斷取向之后才能成為知識。知識信息+了解(understanding)與推理(reasoning)處理問題技能(skill)決議支持系統(tǒng)、教授系統(tǒng)、案例推理系統(tǒng)是對人類知識利用,而智能數(shù)據(jù)分析是取得隱含在數(shù)據(jù)信息中知識。OECD1990s知識分類3W+H第98頁信息(Information)知識(Knowledge)與智慧(Wisdom)99第99頁TheDataInformationKnowledgeandWisdomHierarchy(DIKW)知識是從數(shù)據(jù)到智慧劃分為不一樣層次。100第100頁數(shù)據(jù)分析與挖掘價
46、值第101頁數(shù)據(jù)分析與挖掘概況數(shù)據(jù)爆炸,知識貧乏苦惱:淹沒在數(shù)據(jù)中;不能制訂合適決議!數(shù)據(jù)知識決議n模式n趨勢n事實n關系n模型n關聯(lián)規(guī)則n序列n目標市場n資金分配n貿(mào)易選擇n在哪兒做廣告n銷售地理位置n金融n經(jīng)濟n政府n人口統(tǒng)計n生命周期第102頁數(shù)據(jù)解析學專題匯報Analytics:Thereal-worlduseofbigdataHowinnovativeenterprisesextractvaluefromuncertaindata()第103頁數(shù)據(jù)解析學(DataAnalytics)數(shù)據(jù)解析學是各種學科交叉產(chǎn)物。商務智能e-science數(shù)據(jù)解析學統(tǒng)計學數(shù)據(jù)分析機器學習數(shù)據(jù)挖掘知識發(fā)
47、覺數(shù)學概率論計算機科學人工智能數(shù)據(jù)庫數(shù)據(jù)倉庫信息管理知識管理運籌學/管理科學第104頁什么是商務分析?(BusinessAnalytics) 商務分析以商業(yè)知識為基礎,以建模和編程為伎倆,從數(shù)據(jù)分析出發(fā),以決議優(yōu)化來創(chuàng)造價值新興專業(yè),實現(xiàn)大數(shù)據(jù)商業(yè)應用。 Businessanalysisonthebasisofbusinessknowledge,bymeansofmodelingandprogramming,startingfromtheanalysisofdata,tocreatevalueofemergingprofessionaldecisionmakingoptimization,im
48、plementationoflargeNumbersAccordingtothecommercialapplication105第105頁BusinessAnalyticsDescriptivePrescriptivePredictiveBusinessAnalytics第106頁云計算構建新型信息基礎設施第五部分第107頁云計算與大數(shù)據(jù)大數(shù)據(jù)應用運行在云平臺之上假如數(shù)據(jù)是財富,那么大數(shù)據(jù)就是寶藏;云計算就是挖掘和利用寶藏利器!沒有強大計算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)存放和積淀,云計算也只能是殺雞用宰牛刀!第108頁什么是云計算:云業(yè)務模式Gartner高級分析師Ben Pring評
49、價道:“它正在成為一個大眾化詞語。”不過,問題是似乎每個人對于云計算了解各不相同。作為一個對互聯(lián)網(wǎng)比喻,“云”是很輕易了解。不過一旦同“計算”聯(lián)絡起來,它意義就擴展了,而且開始變得含糊起來。有些分析師和企業(yè)把云計算僅僅定義為計算升級版基本上就是互聯(lián)網(wǎng)上提供眾多虛擬服務器。另外一些人把云計算定義愈加寬泛,他們認為用戶在防火墻保護之外消費任何事物都處于“云”之中。人云亦云 眾說紛紜提交請求硬件軟件服務存放網(wǎng)絡云用戶按需付費服務第109頁什么是云計算: 業(yè)務模式同時滿足以上三個條件是云計算1服務可租用:用戶所需資源不在客戶一端而在網(wǎng)絡2服務可計量:服務能力含有分鐘級或秒級計量能力3高性價比:含有較之
50、傳統(tǒng)模式5倍以上性價比優(yōu)勢云計算第110頁云計算定義與特征(12345)經(jīng)過網(wǎng)絡接入彈性可擴展物理或虛擬資源池,并能夠以按需、自服務方式對資源進行布署和管理服務模式1個定義1:提供者以租代售,由賣產(chǎn)品變?yōu)橘u服務,提升資源利用率并降低服務成本2:使用者以租代買,提升投資回報率2個角色3種模式1:SAAS(軟件即服務)2:PAAS(平臺即服務)3:IAAS(基礎設施即服務)1:私有云2:小區(qū)云3:公有云4:混合云4種布署1:寬帶網(wǎng)絡接入2:按需服務3:資源共享4:快速彈性擴展5:服務可度量5個特點什么是云計算:技術特征第111頁虛擬化技術硬件虛擬化系統(tǒng)虛擬化應用虛擬化并行運算技術映射(Map)歸約
51、(Reduce)云計算4大支撐技術四大技術是拆分分布技術是合成一機變多機一算變多算一存變多存海量數(shù)據(jù)管理技術列族存貯主服務器子表服務器海量數(shù)據(jù)存貯技術元數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點一庫變多庫第112頁云四大效能:對客戶價值整體高效、資源共效按需分配、均衡統(tǒng)籌互聯(lián)互通數(shù)據(jù)統(tǒng)一第113頁云最大優(yōu)勢,有效處理資源、信息孤島問題共享硬件資源:計算、存放、網(wǎng)絡統(tǒng)一管理業(yè)務、應用、數(shù)據(jù)統(tǒng)一安全服務統(tǒng)一管理服務標準、規(guī)范、法規(guī)體系專網(wǎng)專網(wǎng)專網(wǎng)專網(wǎng)專網(wǎng)專網(wǎng)信息基礎網(wǎng)絡設施第114頁世界領先IT企業(yè)服務器持有量名稱服務器數(shù)量備注谷歌(Google)100萬臺底依能耗推算數(shù)據(jù)為90萬臺,總數(shù)約占全球2%,Google 建成一
52、個單體數(shù)據(jù)中心服務器數(shù)量就高達4.5萬臺。估算當前全球服務器數(shù)量(30多個數(shù)據(jù)中心)數(shù)量應在100萬臺。亞馬遜45.4萬臺據(jù)中國軟件網(wǎng)推測,這些服務器分布于全球7100個機架上,過去6個月每個月新增110個機架惠普(HP/EDS)38萬臺HP收購EDS運行著180個數(shù)據(jù)中心微軟30萬臺,微軟那時有21.8萬臺服務器。微軟在芝加哥新服務器農(nóng)場能容下30萬臺服務器baidu25臺據(jù)華為稱,baidu服務器數(shù)量每年以10萬臺以上速度增加,baidu數(shù)據(jù)中心采取了華為 S9300設備。從市場份額和業(yè)務量推算從以來,baidu服務器應在40萬臺。騰訊20萬臺主要分布在深圳、上海、北京、天津、成都。其中騰
53、訊天津數(shù)據(jù)中心,初開建,投資5億美元,服務器托管能力超出10萬臺。開工建設騰訊深汕云計算數(shù)據(jù)中心,總用地面積20萬平方米,服務器20萬臺,總投資額20億元人民幣。Facebook 6萬臺全球擁有8億用戶,在俄勒岡州普賴因維爾(Prineville)建造新數(shù)據(jù)中心投資達2.1億美元,數(shù)據(jù)中心第一期工程已于建設完成,建設面積為30萬平方英尺第115頁云計算產(chǎn)業(yè)市場前景 據(jù)IDC預計和推算,從底到年底,云計算能為全球帶來12,103億美元新業(yè)務收入,為中國帶來超出20,483億人民幣(3,012億美元)新凈業(yè)務收入 服務創(chuàng)新孵化作用預測,以廣東省為例,至年累計可研制孵化3000多個互聯(lián)網(wǎng)服務,只要其
54、中千分之三服務能夠到達騰訊規(guī)模,就能產(chǎn)生千億元產(chǎn)值孵化數(shù)當年1002004008001600累計10030070015003100第116頁截止到8月,國內(nèi)眾多省市、行業(yè)都規(guī)劃、開啟、應用了云計算服務。北京“祥云”計劃上?!霸坪!庇媱澤钲凇蚌H云”計劃重慶“云端”計劃寧波“星云”計劃、無錫“云谷”計劃蘇州“彩云”計劃哈爾濱“云飛揚”計劃惠州“惠云”計劃廣州“天云”計劃內(nèi)蒙古“藍天白云”計劃云計算在中國第117頁中國云要自己建,去IOE和八大金剛,及去開源IOE: IBM ORACLE EMC2八大金剛:思科、IBM、谷歌、高通、英特爾、蘋果、甲骨文、微軟美國“八大金剛”在中國長驅(qū)直入,占據(jù)政府、
55、海關、郵政、金融、鐵路、民航、醫(yī)療、軍警等關鍵領域,它們與美國政府、軍隊保持著緊密聯(lián)絡,美國情報部門經(jīng)過它們設備、軟件、網(wǎng)絡獲取信息,也幾乎零門檻。開源云小區(qū):OpensourceOpenstack非?;钴S,應用也較為廣泛;檢驗每一行代碼,每一類庫是不可能任務;開源小區(qū)掌握實際還是歐美產(chǎn)業(yè)界,并不完全是理想騎士們;產(chǎn)品過分用開源,服務得不到保障,另也會被開源綁架;一些半開源真品也一樣混同我們視聽。美國9家互聯(lián)網(wǎng)企業(yè)在棱鏡項目中暴露第118頁云平臺規(guī)劃:總體技術架構云平臺建設依靠于云計算技術,是新型計算資源利用模式。它將計算任務分布在由數(shù)臺服務器組成資源池上,使各種應用系統(tǒng)能夠依據(jù)需要獲取計算能
56、力、存放空間和信息服務。設計理念:安全是前提應用是關鍵管控是關鍵利舊,擴展性第119頁云操作系統(tǒng):整個云平臺管理者氣象應用位置應用GIS應用桌面云應用桌面云APP資源管理子系統(tǒng)云中間件層應用層資源驅(qū)動層Xen驅(qū)動KVM驅(qū)動VMware驅(qū)動虛擬化驅(qū)動集合LocalDisk驅(qū)動NAS驅(qū)動IP-SAN驅(qū)動存放驅(qū)動集合FC-SAN驅(qū)動分布式存放驅(qū)動Switch驅(qū)動Firewall驅(qū)動LB驅(qū)動網(wǎng)絡與外設驅(qū)動集合VPN驅(qū)動監(jiān)控驅(qū)動通訊適配層消息隊列消息格式轉(zhuǎn)換傳輸協(xié)議支持網(wǎng)絡通訊插件生命周期管理消息路由插件服務定義插件管理JavaC/C+Python.異構語言適配其它設備OS硬件安全體系管理體系計算資源管
57、理存放資源管理網(wǎng)絡資源管理任務管理子系統(tǒng)任務過程管理任務計劃管理監(jiān)控管理子系統(tǒng)基本監(jiān)控信息管理定制監(jiān)控信息管理策略管理子系統(tǒng)調(diào)度策略管理容錯策略管理節(jié)能策略管理動態(tài)遷移策略管理用戶管理子系統(tǒng)用戶管理授權管理分組管理OS管理集合單機OS管理存放OS管理交換機OS管理防火墻OS管理硬件管理集合服務器兼容管理存放設備兼容管理網(wǎng)絡設備兼容管理負載均衡OS管理應用安全集合應用訪問控制應用信息隱藏Web攻擊防護URL信息防護網(wǎng)絡安全集合網(wǎng)絡流量控制網(wǎng)絡流量分析網(wǎng)絡訪問控制虛擬私有云(VPC)OS 層服務器單機OS插件管理子系統(tǒng)故障管理子系統(tǒng)接口層自助服務:管理員入口普通用戶入口API維護人員入口系統(tǒng)漏洞防
58、護弱口令防破解用戶安全認證行為審計系統(tǒng)系統(tǒng)安全集合自助申請與交付組織管理與業(yè)務流程審批資源編排第120頁云操作系統(tǒng):資源全局監(jiān)控對云平臺配置、優(yōu)化、管理策略和經(jīng)驗積累第121頁電子政務云實施:傳統(tǒng)電子政務建設面臨問題 近年來,我國電子政務建設迅猛發(fā)展,全國絕大部分地域都已經(jīng)建設了以電子政務基礎網(wǎng)絡平臺、政府門戶網(wǎng)站和辦公自動化系統(tǒng)等為代表一系列電子政務項目,國家電子政務總體框架已見雛形。不過,伴隨電子政務建設不停推進,許多矛盾和困難也隨之不停涌現(xiàn)出來。 伴隨政府信息化逐步深入,電子政務云平臺發(fā)展推進了政務信息互聯(lián)互通、信息共享、業(yè)務協(xié)同,強化了信息資源整合,規(guī)范了采集和公布,加強了社會綜合開發(fā)
59、利用。建設電子政務公共平臺是電子政務發(fā)展到深化應用、突出實效階段主要舉措。第122頁電子政務云定義及目標電子政務云定義 “電子政務云”(E-government cloud)是利用云計算技術,統(tǒng)籌利用機房資源、計算資源、存放資源、網(wǎng)絡資源、信息資源、應用支撐等資源和條件,發(fā)揮云計算虛擬化、高可靠性、通用性、高可擴展性以及快速、按需、彈性服務等特征,為區(qū)域政府單位用戶提供基礎設施、支撐軟件、應用功效、信息資源、運行保障和信息安全等多方面不一樣類型不一樣級別服務電子政務綜合性服務平臺。電子政務云目標 電子政務云緊緊圍繞各級政務部門深化電子政務應用、提升推行職責能力迫切需要,為各部門實現(xiàn)政務、業(yè)務目
60、標提供公共技術環(huán)境和服務支撐。滿足業(yè)務不停發(fā)展和改革需要。滿足跨地域、跨部門、跨層級信息共享,以及行業(yè)系統(tǒng)與地方應用條塊結(jié)合需要。滿足大量數(shù)據(jù)訪問、存放和智能化處理需要。滿足安全可靠運行需要。第123頁電子政務云價值推進電子政務向科學發(fā)展方式轉(zhuǎn)變提升基礎設施資源利用率促進互聯(lián)互通和信息共享提升電子政務信息安全保障能力四大價值云計算含有超強計算能力和低成本、高安全性等特征,將其應用于電子政務領域含有十分主要價值和意義。電子政務云應用價值主要包含以下幾方面:第124頁電子政務云總體布署架構4朵云-省級電子政務云-民生服務云-業(yè)務專有云-市級電子政務云N+1+N容災模式-N個市級政務云采取省級政務云
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 最GRE填空解題流程介紹
- 紙制品行業(yè)人才需求與職業(yè)規(guī)劃考核試卷
- 《馬克思主義哲學原理》課件:辯證唯物主義與歷史唯物主義
- 油墨耐高溫性能研究考核試卷
- 空中交通管制員技能大賽考核試卷
- 《二年級下冊小豬的寶藏課件語》
- 船用生活熱水供應系統(tǒng)的設計與安裝考核試卷
- 礦山職業(yè)健康與安全防護考核試卷
- 2023年集裝箱行業(yè)洞察報告及未來五至十年預測分析報告
- 《急性心肌梗死》課件
- 燃氣設備安全操作規(guī)程
- 學院ma600飛機飛行訓練大綱
- GB/T 24186-2022工程機械用高強度耐磨鋼板和鋼帶
- GB/T 19106-2013次氯酸鈉
- 《膜分離技術》教學課件
- 第十七章-東歐封建社會的發(fā)展-(《世界古代史下冊》課件)
- 高級會計師評審個人業(yè)績報告(精選9篇)
- 一級病原微生物實驗室危害評估報告
- 茶葉加工機械與設備(全套524張課件)
- 五年級下冊數(shù)學課件-4.分數(shù)連加、連減和加減混合運算及應用練習 蘇教版 (共11張PPT)
- 設備機房出入登記表
評論
0/150
提交評論