




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
理解大數(shù)據(jù),實踐大數(shù)據(jù)施水才北京拓爾思信息技術(shù)股份有限公司2012年5月31日內(nèi)容對大數(shù)據(jù)的理解拓爾思大數(shù)據(jù)產(chǎn)品布局和應用實踐反對派認為,我們現(xiàn)在處在一個盲目的大數(shù)據(jù)崇拜時代大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)的爆發(fā)式增長和社會化趨勢,新摩爾定律大數(shù)據(jù)已經(jīng)成為一種自然資源機器數(shù)據(jù)日益重要大數(shù)據(jù)不被利用就是成本大數(shù)據(jù)產(chǎn)生的背景現(xiàn)有的商業(yè)軟件難以處理大數(shù)據(jù)的規(guī)模和復雜性
獲取(capture)存貯(storage)搜索(search)分享(sharing)分析(analysis)可視化(visualization)奧巴馬大數(shù)據(jù)戰(zhàn)略2012年3月29日,白宮發(fā)布美國政府的大數(shù)據(jù)計劃通過提高從大型復雜的數(shù)字數(shù)據(jù)集中提取知識和觀點的能力,承諾幫助加快在科學與工程中的步伐,加強國家安全,并改變教學研究大數(shù)據(jù)的4V特性體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效對大數(shù)據(jù)的理解大數(shù)據(jù)比云計算更為落地大數(shù)據(jù)不僅僅是“大”軟件是大數(shù)據(jù)的引擎大數(shù)據(jù)的應用不僅僅是精準營銷管理大數(shù)據(jù)“易”,理解大數(shù)據(jù)“難”1、大數(shù)據(jù)比云計算更為落地商業(yè)模式驅(qū)動應用需求驅(qū)動云計算本身也是大數(shù)據(jù)的一種業(yè)務模式2、大數(shù)據(jù)不僅僅是“大”多大?PB級比大更重要的是數(shù)據(jù)的復雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值3、軟件件是大大數(shù)據(jù)據(jù)的引引擎和數(shù)據(jù)據(jù)中心心(DataCenter)一樣,,軟件件是大大數(shù)據(jù)據(jù)的驅(qū)驅(qū)動力力,軟軟件改改變世世界大數(shù)據(jù)生生態(tài)::軟件件是引引擎4、大數(shù)數(shù)據(jù)的的應用用不僅僅僅是是精準準營銷銷通過過用用戶戶行行為為分分析析實實現(xiàn)現(xiàn)精精準準營營銷銷是是大大數(shù)數(shù)據(jù)據(jù)的的典典型型應應用用,,但但是是大大數(shù)數(shù)據(jù)據(jù)在在各各行行各各業(yè)業(yè)特特別別是是公公共共服服務務領(lǐng)領(lǐng)域域具具有有廣廣闊闊的的應應用用前前景景消費費行行業(yè)業(yè)金融融服服務務食品品安安全全醫(yī)療療衛(wèi)衛(wèi)生生軍事事交通通環(huán)環(huán)保保氣象象5、管管理理大大數(shù)數(shù)據(jù)據(jù)““易易””理理解解大大數(shù)數(shù)據(jù)據(jù)““難難””雖然然大大數(shù)數(shù)據(jù)據(jù)是是一一個個重重大大問問題題,,真真正正的的問問題題是是讓讓大大數(shù)數(shù)據(jù)據(jù)更更有有意意義義目前前大大數(shù)數(shù)據(jù)據(jù)管管理理多多從從架架構(gòu)構(gòu)和和并并行行等等方方面面考考慮慮,,解解決決高高并并發(fā)發(fā)數(shù)數(shù)據(jù)據(jù)存存取取的的性性能能要要求求及及數(shù)數(shù)據(jù)據(jù)存存儲儲的的非結(jié)構(gòu)化海量信息的智能化處理:自然語言理解、多媒體內(nèi)容理解、機器學習等拓爾爾思思大大數(shù)數(shù)據(jù)據(jù)產(chǎn)產(chǎn)品品布布局局TRS機器器數(shù)數(shù)據(jù)據(jù)挖挖掘掘引引擎擎TRSSMAS輿情情云云服服務務TRS大數(shù)數(shù)據(jù)據(jù)管管理理系系統(tǒng)統(tǒng)V7.0TRS大數(shù)數(shù)據(jù)據(jù)管管理理系系統(tǒng)統(tǒng)發(fā)發(fā)展展歷歷程程TRS全文文數(shù)數(shù)據(jù)據(jù)庫庫TRS非結(jié)結(jié)構(gòu)構(gòu)化化數(shù)據(jù)據(jù)庫庫TRS大數(shù)數(shù)據(jù)據(jù)管理理系系統(tǒng)統(tǒng)TRS大數(shù)數(shù)據(jù)據(jù)管管理理系系統(tǒng)統(tǒng)V7.0TRS大數(shù)數(shù)據(jù)據(jù)管管理理系系統(tǒng)統(tǒng)V7.0分布布式式并并行行計計算算、、多多副副本本機機制制、、沒沒有有單單點點的的高高可可靠靠體體系系架架構(gòu)構(gòu),,兼兼容容Hadoop標準準支持持結(jié)結(jié)構(gòu)構(gòu)支持實時及用戶行為數(shù)據(jù)的高效管理和分析支持PB級的海量數(shù)據(jù)管理支持海量用戶的高并發(fā)訪問(千萬級用戶、萬級并發(fā))充分釋放硬件的潛力(多核、大內(nèi)存等)大規(guī)模部署的自動化和運行狀態(tài)監(jiān)控創(chuàng)新的多檢索引擎機制,提供開放的二次開發(fā)接口數(shù)據(jù)據(jù)備備份份大數(shù)數(shù)據(jù)據(jù)管管理理系系統(tǒng)統(tǒng)數(shù)據(jù)據(jù)存存儲儲開發(fā)發(fā)接接口口基于于Hadoop的數(shù)數(shù)據(jù)據(jù)分分析析CKM文本本挖挖掘掘與與數(shù)數(shù)據(jù)據(jù)挖挖掘掘關(guān)聯(lián)聯(lián)規(guī)規(guī)則則與與序序列列模模式式挖挖掘掘推薦薦引引擎擎的的離離線線分分析析MapReduce數(shù)據(jù)據(jù)庫庫監(jiān)監(jiān)控控機器器數(shù)數(shù)據(jù)據(jù)搜搜索索引引擎擎用戶戶行行為為挖挖掘掘與與推推薦薦引引擎擎基于時間間分段的的大數(shù)據(jù)據(jù)檢索與與索引接接口搜索引擎擎日志采集集監(jiān)控數(shù)據(jù)存儲儲層數(shù)據(jù)分析析層日志發(fā)送送節(jié)點Angent1Angent2Angent3……Angentn日志接收收集群Collector1Collector2Collector3……CollectornMaster管理集群群Master1Master2Mastern日志采集集TRS機器數(shù)據(jù)據(jù)挖掘引引擎TRS機器數(shù)據(jù)據(jù)挖掘引引擎特點點支持主流流格式機機器數(shù)據(jù)據(jù)的實時時采集、、解析、、管理和和搜索。?;跁r間間分段和和負載均均衡的大大數(shù)據(jù)索索引與檢檢索機制制?;赪eb的機器數(shù)數(shù)據(jù)搜索索與分析析界面。。兼容Hadoop平臺的日日志挖掘掘和用戶戶行為分分析?;诙喾N種推薦模模型的在在線推薦薦引擎大規(guī)模部部署的自自動化和和運行狀狀態(tài)監(jiān)控控TRSSMAS功能框架架圖輿情管理理服務共享享信息挖掘信息來源源新聞論壇博客搜索引擎擎微博wiki自動排重、、自動分分類、自自動摘要要、自動動分析輿情分類熱點跟蹤蹤熱點統(tǒng)計微博分析析人物分析微博運營營趨勢分析析整合統(tǒng)計計關(guān)聯(lián)圖譜譜動態(tài)走勢勢興趣圖譜譜未知探索熱點變化意見領(lǐng)袖傳播圖譜譜關(guān)系分類類個性展示示敏感預預警自由分分布數(shù)圖導出出圖表切換換多維檢索探針追蹤元搜索外網(wǎng)微博論壇SNS網(wǎng)媒官網(wǎng)提高銷量用戶滿意度用戶設計趨勢分析競爭分析質(zhì)量缺陷設計缺陷使用缺陷KOL維護聲譽管理危機預警事件評估行為分析產(chǎn)品公關(guān)營銷用戶感知研發(fā)情緒感知及時服務口碑監(jiān)測媒介監(jiān)測S-CRM廣義服務TRSSMAS作用于企業(yè)業(yè)2.0TRS在大數(shù)據(jù)領(lǐng)領(lǐng)域的應用用實踐新華社多媒媒體數(shù)據(jù)庫庫國家知識產(chǎn)產(chǎn)權(quán)局專利利檢索系統(tǒng)統(tǒng)某部信息監(jiān)監(jiān)控系統(tǒng)TRSSMAS云服務(大大數(shù)據(jù)服務務)國家質(zhì)監(jiān)局局國家藥監(jiān)局局北京市環(huán)保保局國家氣象局局每日微博熱熱點分析新華社多媒媒體數(shù)據(jù)庫庫系統(tǒng)是新華社的的核心業(yè)務務支撐,典典型的非結(jié)結(jié)構(gòu)化數(shù)據(jù)以新華社遍布全球的新聞信息及采集網(wǎng)絡為依托,全面整合新華社的文字、圖片、圖表、音視頻、報刊等全部資源和社會上有價值的新聞信息資源,擁有包括中、英、法、俄、西、阿及中文繁體在內(nèi)的6個文種,數(shù)據(jù)量超PB最早采用文件系統(tǒng),后來改為Oracle,效率很低,再改為Oracle+TRS,持續(xù)服務至今從大型機改為PC服務器集群1.5億條原創(chuàng)新聞資資訊26000小時權(quán)威原創(chuàng)視視頻700萬張圖片27000家注冊用戶8000多種資源分類PB級數(shù)據(jù)量多語種數(shù)據(jù)據(jù)新華社多媒體數(shù)據(jù)據(jù)庫數(shù)據(jù)流轉(zhuǎn)圖圖新華社多媒媒體庫的技技術(shù)特點非結(jié)構(gòu)化數(shù)數(shù)據(jù)和結(jié)構(gòu)構(gòu)化數(shù)據(jù)統(tǒng)統(tǒng)一管理TRS多語語言言檢檢索索引引擎擎全面面采采用良好的集群擴展能力索引服務器讀寫分離國家家知知識識產(chǎn)產(chǎn)權(quán)權(quán)局局專專利利檢檢索索服服務務系系統(tǒng)1998年專專利利局局引引進進了了歐洲洲EPOQUE系統(tǒng)統(tǒng),基基于于大大型型機機的的專專利利檢檢索索系系統(tǒng)統(tǒng),,每每年年的的系系統(tǒng)統(tǒng)維維護護費費用用就就達達數(shù)數(shù)千千萬萬元元2005年開開始始建建設典型的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)應用場景目前公共檢索和審查員檢索系統(tǒng)全部使用TRS檢索引擎專利利檢檢索索系系統(tǒng)統(tǒng)的的需需求求特特點點數(shù)據(jù)據(jù)多多樣樣性性結(jié)構(gòu)構(gòu)化化、、半半結(jié)申請人、申請?zhí)?、名稱等著錄項很多;權(quán)利要求書、說明書等全文數(shù)據(jù)規(guī)模大各庫數(shù)據(jù)結(jié)構(gòu)差異大查詢要求高嚴格的查全和查準要求基于領(lǐng)域知識的智能檢索結(jié)構(gòu)化和非結(jié)構(gòu)化信息聯(lián)合查詢相關(guān)專利推薦專利利檢檢索索與與服務務系系統(tǒng)統(tǒng)的的數(shù)數(shù)據(jù)據(jù)種類類與與規(guī)規(guī)模模6億多多條條專利利記錄錄多渠渠道道異異構(gòu)構(gòu)資源源整整合合100%查全全率率<1秒響應應時時間間700-1000并發(fā)7×24穩(wěn)定可靠1萬注冊用戶專利檢索引擎擎數(shù)據(jù)流轉(zhuǎn)圖專利檢索與服服務系統(tǒng)-外觀圖像檢索索專利圖像外觀觀檢索局部檢索形狀檢索紋理檢索不變性特征檢檢索草圖檢索數(shù)據(jù)分類數(shù)據(jù)聚類基于相關(guān)反饋饋的檢索跨語言檢索600萬幅專利圖片片查詢性能從原原來的分鐘級級提高到秒級級索引性能從原原來的天級提提高到現(xiàn)在的的小時級某部網(wǎng)監(jiān)智能能搜索和挖掘掘系統(tǒng)系統(tǒng)特點:巨大的數(shù)據(jù)量量多樣性數(shù)據(jù)數(shù)據(jù)極快速增增長系統(tǒng)現(xiàn)狀已經(jīng)部署數(shù)千千臺服務器,,滿足了業(yè)務務需求挑戰(zhàn)性能和可擴展展性整合和調(diào)度數(shù)據(jù)量遠超過過互聯(lián)網(wǎng),目目前部署TRS系統(tǒng)2000多套SMAS的用戶國家質(zhì)檢總局2012.1蒙牛致癌門2012.2蘇泊爾質(zhì)量門門2012.3遼源注水肉2012.3315質(zhì)量報告2012.4含氯可口可樂樂2012.4蜜餞質(zhì)量問題題2012.5菲律賓香蕉質(zhì)質(zhì)量2012僅在2012年上半年,拓爾思運營團隊就就為質(zhì)檢總局局在產(chǎn)品質(zhì)量量、食品安全全方面提供超過40余項服務,借助數(shù)據(jù)中心的大數(shù)數(shù)據(jù)與云服務務平臺,進行行全面的整合合、統(tǒng)計與分分析。國家質(zhì)檢總局局質(zhì)檢總局的服務務依托云服務務平臺(SMAS),從媒體調(diào)調(diào)性、平臺分分布、網(wǎng)民意意見、趨勢發(fā)發(fā)展等多種角角度進行解析析,結(jié)合系統(tǒng)統(tǒng)的自動分析析與分析團隊隊的整合,最最終以專題報報告的方式,,第一時間呈呈現(xiàn),為質(zhì)檢檢總局在公共共服務的決策策提供重要參參考。國家藥監(jiān)局2012年4月15日央視曝光的的“毒膠囊””事件掀起藥藥品行業(yè)的巨巨大波瀾,SMAS運營團隊對該事件件進行了長時時間的跟蹤與與分析,并用用一系列的數(shù)數(shù)據(jù)、圖表和和報告捕獲了了網(wǎng)絡數(shù)據(jù)里里的真相與民民意。國家藥監(jiān)局關(guān)鍵人物傳播趨勢主流觀點關(guān)鍵地區(qū)SMAS分析團隊連續(xù)續(xù)30天跟蹤毒膠囊囊事件,從整整體傳播趨勢勢、觀點、人人物、地區(qū)等等視角,還原原了這起頗具具影響力的公公共事件。-----毒膠囊囊事件件-------北京市市環(huán)保保局PM2.5分析報道道量量排排行行高低兩會代代表委委員熱熱議PM2.5“京V”排放標標準首首規(guī)定定PM限值珠三角角成首首個公公布PM2.5城市群群珠三角角PM2.5嚴重超超標環(huán)保局局回應應PM2.5數(shù)據(jù)質(zhì)質(zhì)疑借助數(shù)據(jù)中心心的大大數(shù)據(jù)據(jù)與云云服務務平臺臺,從從區(qū)域分分布的角度度對PM2.5的相關(guān)關(guān)信息息進行行歸類類,進進行全全面的的整合合、統(tǒng)統(tǒng)計與與分析析,得得到上上圖分分析內(nèi)內(nèi)容。。北京市市環(huán)保保局PM2.5分析PM2.5均勻分分布,,監(jiān)監(jiān)測點點為何何不均勻勻分布布?PM2.5監(jiān)測不不能背背離公公眾感感受PM2.5監(jiān)測,關(guān)鍵詞詞是““真實實”20億元清清單,,能能否換換來清清新??微博TOP10意見領(lǐng)領(lǐng)袖排排行鄭淵潔微博原文作家通過SMAS平臺的的抽樣樣分析析,提提取網(wǎng)網(wǎng)民熱熱點話話題內(nèi)內(nèi)容,,得到到TOP10意見領(lǐng)領(lǐng)袖排排行。。對意意見領(lǐng)領(lǐng)袖的的代表表性微微博進進行傳傳播鏈鏈分析析,可可知““意見見領(lǐng)袖袖”巨巨大的的傳播播影響響力。。第一層層第二層層第三層層第四層層第五層層第六層層傳播了了712次占占轉(zhuǎn)轉(zhuǎn)發(fā)數(shù)數(shù)百分分比::54.39%傳播了了432次占占轉(zhuǎn)轉(zhuǎn)發(fā)數(shù)數(shù)百分分比::33.00%博主自自身的的二次次
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 滑雪場地建設與維護合同書
- 深圳市冷凍水產(chǎn)品購銷合同
- 重大突破:中國與尼日爾簽訂基礎設施建設項目合同
- 正式婚后財產(chǎn)歸屬合同樣本
- 設備采購與租賃合同樣本
- 社區(qū)衛(wèi)生服務中心藥師聘用合同范本
- 建筑工程總承包合同中新防水工程條款
- 緊急設備配送及維護合同
- 樓盤分銷代理合同范本
- 衛(wèi)浴產(chǎn)品標準制定與質(zhì)量認證考核試卷
- 第3課《列夫·托爾斯泰》課件-2024-2025學年統(tǒng)編版語文七年級下冊
- TSDLPA 0001-2024 研究型病房建設和配置標準
- 陜09J01 建筑用料及做法圖集
- 新一代寄遞平臺投遞PC(10月)課件
- 常州市新課結(jié)束考試九年級數(shù)學試卷
- 2021年學校中考報名工作方案
- 質(zhì)量管理部工作流程圖
- 安全教育培訓記錄表參考模板范本
- 建筑冷熱源素材
- 網(wǎng)絡安全用戶實體行為分析技術(shù)UEBA白皮書
- 室內(nèi)設計-中式古典風格課件
評論
0/150
提交評論