理解大數(shù)據(jù)-實(shí)踐大數(shù)據(jù)-施水才課件_第1頁
理解大數(shù)據(jù)-實(shí)踐大數(shù)據(jù)-施水才課件_第2頁
理解大數(shù)據(jù)-實(shí)踐大數(shù)據(jù)-施水才課件_第3頁
理解大數(shù)據(jù)-實(shí)踐大數(shù)據(jù)-施水才課件_第4頁
理解大數(shù)據(jù)-實(shí)踐大數(shù)據(jù)-施水才課件_第5頁
已閱讀5頁,還剩91頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

理解大數(shù)據(jù),實(shí)踐大數(shù)據(jù)施水才北京拓爾思信息技術(shù)股份有限公司2012年5月31日理解大數(shù)據(jù),實(shí)踐大數(shù)據(jù)施水才內(nèi)容對(duì)大數(shù)據(jù)的理解拓爾思大數(shù)據(jù)產(chǎn)品布局和應(yīng)用實(shí)踐內(nèi)容對(duì)大數(shù)據(jù)的理解反對(duì)派認(rèn)為,我們現(xiàn)在處在一個(gè)盲目的大數(shù)據(jù)崇拜時(shí)代反對(duì)派認(rèn)為,我們現(xiàn)在處在一個(gè)盲目的大數(shù)據(jù)崇拜時(shí)代3大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)的爆發(fā)式增長(zhǎng)和社會(huì)化趨勢(shì),新摩爾定律大數(shù)據(jù)已經(jīng)成為一種自然資源機(jī)器數(shù)據(jù)日益重要大數(shù)據(jù)不被利用就是成本大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)的爆發(fā)式增長(zhǎng)和社會(huì)化趨勢(shì),新摩爾定律大數(shù)據(jù)產(chǎn)生的背景現(xiàn)有的商業(yè)軟件難以處理大數(shù)據(jù)的規(guī)模和復(fù)雜性

獲取(capture)存貯(storage)搜索(search)分享(sharing)分析(analysis)可視化(visualization)大數(shù)據(jù)產(chǎn)生的背景現(xiàn)有的商業(yè)軟件難以處理大數(shù)據(jù)的規(guī)模和復(fù)雜性奧巴馬大數(shù)據(jù)戰(zhàn)略2012年3月29日,白宮發(fā)布美國政府的大數(shù)據(jù)計(jì)劃通過提高從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識(shí)和觀點(diǎn)的能力,承諾幫助加快在科學(xué)與工程中的步伐,加強(qiáng)國家安全,并改變教學(xué)研究奧巴馬大數(shù)據(jù)戰(zhàn)略2012年3月29日,白宮發(fā)布美國政府的大數(shù)大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度7對(duì)大數(shù)據(jù)的理解大數(shù)據(jù)比云計(jì)算更為落地大數(shù)據(jù)不僅僅是“大”軟件是大數(shù)據(jù)的引擎大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷管理大數(shù)據(jù)“易”,理解大數(shù)據(jù)“難”對(duì)大數(shù)據(jù)的理解大數(shù)據(jù)比云計(jì)算更為落地1、大數(shù)據(jù)比云計(jì)算更為落地商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式1、大數(shù)據(jù)比云計(jì)算更為落地商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身2、大數(shù)據(jù)不僅僅是“大”多大?PB級(jí)比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值2、大數(shù)據(jù)不僅僅是“大”多大?比大更重要的是數(shù)據(jù)的復(fù)雜性,有3、軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)

一樣,軟件是大數(shù)據(jù)的驅(qū)動(dòng)力,軟件改變世界3、軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)大數(shù)據(jù)生態(tài):軟件是引擎大數(shù)據(jù)生態(tài):軟件是引擎4、大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營銷是大數(shù)據(jù)的典型應(yīng)用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務(wù)領(lǐng)域具有廣闊的應(yīng)用前景消費(fèi)行業(yè)金融服務(wù)食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務(wù)氣象4、大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營銷5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲(chǔ)的橫向擴(kuò)展,但對(duì)非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實(shí)質(zhì)性的突破和進(jìn)展,這是實(shí)現(xiàn)大數(shù)據(jù)資源化、知識(shí)化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語言理解、多媒體內(nèi)容理解、機(jī)器學(xué)習(xí)等5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題拓爾思大數(shù)據(jù)產(chǎn)品布局TRS機(jī)器數(shù)據(jù)挖掘引擎TRSSMAS

輿情云服務(wù)TRS大數(shù)據(jù)管理系統(tǒng)V7.0拓爾思大數(shù)據(jù)產(chǎn)品布局TRS機(jī)器數(shù)據(jù)挖掘引擎TRSSMAS15TRS大數(shù)據(jù)管理系統(tǒng)發(fā)展歷程TRS全文數(shù)據(jù)庫TRS

非結(jié)構(gòu)化

數(shù)據(jù)庫TRS大數(shù)據(jù)管理系統(tǒng)TRS大數(shù)據(jù)管理系統(tǒng)發(fā)展歷程TRS全文數(shù)據(jù)庫TRS

非16TRS大數(shù)據(jù)管理系統(tǒng)V7.0TRS大數(shù)據(jù)管理系統(tǒng)V7.0TRS大數(shù)據(jù)管理系統(tǒng)V7.0分布式并行計(jì)算、多副本機(jī)制、沒有單點(diǎn)的高可靠體系架構(gòu),兼容Hadoop標(biāo)準(zhǔn)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的管理和搜索支持實(shí)時(shí)及用戶行為數(shù)據(jù)的高效管理和分析支持PB級(jí)的海量數(shù)據(jù)管理支持海量用戶的高并發(fā)訪問(千萬級(jí)用戶、萬級(jí)并發(fā))充分釋放硬件的潛力(多核、大內(nèi)存等)大規(guī)模部署的自動(dòng)化和運(yùn)行狀態(tài)監(jiān)控創(chuàng)新的多檢索引擎機(jī)制,提供開放的二次開發(fā)接口TRS大數(shù)據(jù)管理系統(tǒng)V7.0分布式并行計(jì)算、多副本機(jī)制、沒數(shù)據(jù)備份大數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)存儲(chǔ)開發(fā)接口基于Hadoop的數(shù)據(jù)分析CKM文本挖掘與數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則與序列模式挖掘推薦引擎的離線分析MapReduce數(shù)據(jù)庫監(jiān)控機(jī)器數(shù)據(jù)搜索引擎用戶行為挖掘與推薦引擎基于時(shí)間分段的大數(shù)據(jù)檢索與索引接口搜索引擎日志采集監(jiān)控?cái)?shù)據(jù)存儲(chǔ)層數(shù)據(jù)分析層日志發(fā)送節(jié)點(diǎn)Angent1Angent2Angent3……Angentn日志接收集群Collector1Collector2Collector3……CollectornMaster管理集群Master1Master2Mastern日志采集TRS機(jī)器數(shù)據(jù)挖掘引擎數(shù)據(jù)備份大數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)存儲(chǔ)開發(fā)接口基于Hadoop的數(shù)19TRS機(jī)器數(shù)據(jù)挖掘引擎特點(diǎn)支持主流格式機(jī)器數(shù)據(jù)的實(shí)時(shí)采集、解析、管理和搜索。基于時(shí)間分段和負(fù)載均衡的大數(shù)據(jù)索引與檢索機(jī)制。基于Web的機(jī)器數(shù)據(jù)搜索與分析界面。兼容Hadoop平臺(tái)的日志挖掘和用戶行為分析。基于多種推薦模型的在線推薦引擎大規(guī)模部署的自動(dòng)化和運(yùn)行狀態(tài)監(jiān)控TRS機(jī)器數(shù)據(jù)挖掘引擎特點(diǎn)支持主流格式機(jī)器數(shù)據(jù)的實(shí)時(shí)采集、TRSSMAS功能框架圖輿情管理服務(wù)共享信息挖掘信息來源新聞?wù)搲┛退阉饕嫖⒉﹚iki自動(dòng)排重、自動(dòng)分類、自動(dòng)摘要、自動(dòng)分析輿情分類熱點(diǎn)跟蹤熱點(diǎn)統(tǒng)計(jì)微博分析人物分析微博運(yùn)營趨勢(shì)分析整合統(tǒng)計(jì)關(guān)聯(lián)圖譜動(dòng)態(tài)走勢(shì)興趣圖譜未知探索熱點(diǎn)變化意見領(lǐng)袖傳播圖譜關(guān)系分類個(gè)性展示敏感預(yù)警自由分布數(shù)圖導(dǎo)出圖表切換多維檢索探針追蹤元搜索TRSSMAS功能框架圖輿情管理服務(wù)共享信息挖掘信息來源新外網(wǎng)微博論壇SNS網(wǎng)媒

官網(wǎng)提高銷量用戶滿意度用戶設(shè)計(jì)趨勢(shì)分析競(jìng)爭(zhēng)分析質(zhì)量缺陷設(shè)計(jì)缺陷使用缺陷KOL維護(hù)聲譽(yù)管理危機(jī)預(yù)警事件評(píng)估行為分析產(chǎn)品公關(guān)營銷SMAS用戶感知研發(fā)情緒感知及時(shí)服務(wù)口碑監(jiān)測(cè)媒介監(jiān)測(cè)S-CRM廣義服務(wù)TRSSMAS作用于企業(yè)2.0外網(wǎng)官網(wǎng)用戶設(shè)計(jì)趨勢(shì)分析競(jìng)爭(zhēng)分析質(zhì)量缺陷設(shè)計(jì)缺陷使用缺TRS在大數(shù)據(jù)領(lǐng)域的應(yīng)用實(shí)踐新華社多媒體數(shù)據(jù)庫國家知識(shí)產(chǎn)權(quán)局專利檢索系統(tǒng)某部信息監(jiān)控系統(tǒng)TRSSMAS云服務(wù)(大數(shù)據(jù)服務(wù))國家質(zhì)監(jiān)局國家藥監(jiān)局北京市環(huán)保局國家氣象局每日微博熱點(diǎn)分析TRS在大數(shù)據(jù)領(lǐng)域的應(yīng)用實(shí)踐新華社多媒體數(shù)據(jù)庫新華社多媒體數(shù)據(jù)庫系統(tǒng)是新華社的核心業(yè)務(wù)支撐,典型的非結(jié)構(gòu)化數(shù)據(jù)管理應(yīng)用場(chǎng)景,持續(xù)IT投資已經(jīng)超過6億人民幣以新華社遍布全球的新聞信息及采集網(wǎng)絡(luò)為依托,全面整合新華社的文字、圖片、圖表、音視頻、報(bào)刊等全部資源和社會(huì)上有價(jià)值的新聞信息資源,擁有包括中、英、法、俄、西、阿及中文繁體在內(nèi)的6個(gè)文種,數(shù)據(jù)量超PB最早采用文件系統(tǒng),后來改為Oracle,效率很低,再改為Oracle+TRS,持續(xù)服務(wù)至今從大型機(jī)改為PC服務(wù)器集群新華社多媒體數(shù)據(jù)庫系統(tǒng)是新華社的核心業(yè)務(wù)支撐,典型的非結(jié)構(gòu)化1.5億條原創(chuàng)新聞資訊26000小時(shí)權(quán)威原創(chuàng)視頻700萬張圖片27000家注冊(cè)用戶8000多種資源分類PB級(jí)數(shù)據(jù)量多語種數(shù)據(jù)1.5億條26000小時(shí)700萬張圖片27000家8000多25新華社多媒體數(shù)據(jù)庫數(shù)據(jù)流轉(zhuǎn)圖新華社多媒體數(shù)據(jù)庫數(shù)據(jù)流轉(zhuǎn)圖新華社多媒體庫的技術(shù)特點(diǎn)非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理TRS多語言檢索引擎全面采用TRS文本挖掘技術(shù)良好的集群擴(kuò)展能力索引服務(wù)器讀寫分離新華社多媒體庫的技術(shù)特點(diǎn)非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理國家知識(shí)產(chǎn)權(quán)局專利檢索服務(wù)系統(tǒng)1998年專利局引進(jìn)了歐洲EPOQUE系統(tǒng),基于大型機(jī)的專利檢索系統(tǒng),每年的系統(tǒng)維護(hù)費(fèi)用就達(dá)數(shù)千萬元2005年開始建設(shè)自主可控可持續(xù)發(fā)展的專利檢索和服務(wù)系統(tǒng),采用大量的PC服務(wù)器典型的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景目前公共檢索和審查員檢索系統(tǒng)全部使用TRS檢索引擎國家知識(shí)產(chǎn)權(quán)局專利檢索服務(wù)系統(tǒng)1998年專利局引進(jìn)了歐洲EP專利檢索系統(tǒng)的需求特點(diǎn)數(shù)據(jù)多樣性結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合申請(qǐng)人、申請(qǐng)?zhí)?、名稱等著錄項(xiàng)很多;權(quán)利要求書、說明書等全文數(shù)據(jù)規(guī)模大各庫數(shù)據(jù)結(jié)構(gòu)差異大查詢要求高嚴(yán)格的查全和查準(zhǔn)要求基于領(lǐng)域知識(shí)的智能檢索結(jié)構(gòu)化和非結(jié)構(gòu)化信息聯(lián)合查詢相關(guān)專利推薦專利檢索系統(tǒng)的需求特點(diǎn)數(shù)據(jù)多樣性專利檢索與服務(wù)系統(tǒng)的數(shù)據(jù)種類與規(guī)模6億多條專利記錄多渠道異構(gòu)資源整合100%查全率<1秒響應(yīng)時(shí)間700-1000并發(fā)7×24穩(wěn)定可靠1萬注冊(cè)用戶專利檢索與服務(wù)系統(tǒng)的數(shù)據(jù)種類與規(guī)模6億多條多渠道異構(gòu)100%專利檢索引擎數(shù)據(jù)流轉(zhuǎn)圖專利檢索引擎數(shù)據(jù)流轉(zhuǎn)圖專利檢索與服務(wù)系統(tǒng)-外觀圖像檢索專利檢索與服務(wù)系統(tǒng)-外觀圖像檢索專利圖像外觀檢索局部檢索形狀檢索紋理檢索不變性特征檢索草圖檢索數(shù)據(jù)分類數(shù)據(jù)聚類基于相關(guān)反饋的檢索跨語言檢索600萬幅專利圖片查詢性能從原來的分鐘級(jí)提高到秒級(jí)索引性能從原來的天級(jí)提高到現(xiàn)在的小時(shí)級(jí)專利圖像外觀檢索局部檢索600萬幅專利圖片某部網(wǎng)監(jiān)智能搜索和挖掘系統(tǒng)系統(tǒng)特點(diǎn):巨大的數(shù)據(jù)量多樣性數(shù)據(jù)數(shù)據(jù)極快速增長(zhǎng)系統(tǒng)現(xiàn)狀已經(jīng)部署數(shù)千臺(tái)服務(wù)器,滿足了業(yè)務(wù)需求挑戰(zhàn)性能和可擴(kuò)展性整合和調(diào)度數(shù)據(jù)量遠(yuǎn)超過互聯(lián)網(wǎng),目前部署TRS系統(tǒng)2000多套某部網(wǎng)監(jiān)智能搜索和挖掘系統(tǒng)系統(tǒng)特點(diǎn):數(shù)據(jù)量遠(yuǎn)超過互聯(lián)網(wǎng),目前SMAS的用戶SMAS的用戶國家質(zhì)檢總局2012.1蒙牛致癌門2012.2蘇泊爾質(zhì)量門2012.3遼源注水肉2012.3

315質(zhì)量報(bào)告2012.4含氯可口可樂2012.4蜜餞質(zhì)量問題2012.5菲律賓香蕉質(zhì)量2012僅在2012年上半年,拓爾思運(yùn)營團(tuán)隊(duì)就為質(zhì)檢總局在產(chǎn)品質(zhì)量、食品安全方面提供超過40余項(xiàng)服務(wù),借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務(wù)平臺(tái),進(jìn)行全面的整合、統(tǒng)計(jì)與分析。國家質(zhì)檢總局2012.1蒙牛致癌門2012.2蘇泊爾質(zhì)量國家質(zhì)檢總局質(zhì)檢總局的服務(wù)依托云服務(wù)平臺(tái)(SMAS),從媒體調(diào)性、平臺(tái)分布、網(wǎng)民意見、趨勢(shì)發(fā)展等多種角度進(jìn)行解析,結(jié)合系統(tǒng)的自動(dòng)分析與分析團(tuán)隊(duì)的整合,最終以專題報(bào)告的方式,第一時(shí)間呈現(xiàn),為質(zhì)檢總局在公共服務(wù)的決策提供重要參考。國家質(zhì)檢總局質(zhì)檢總局的服務(wù)依托云服務(wù)平臺(tái)(SMAS),從媒體國家藥監(jiān)局2012年4月15日央視曝光的“毒膠囊”事件掀起藥品行業(yè)的巨大波瀾,SMAS運(yùn)營團(tuán)隊(duì)對(duì)該事件進(jìn)行了長(zhǎng)時(shí)間的跟蹤與分析,并用一系列的數(shù)據(jù)、圖表和報(bào)告捕獲了網(wǎng)絡(luò)數(shù)據(jù)里的真相與民意。國家藥監(jiān)局2012年4月15日央視曝光的“毒膠囊”事件掀起藥國家藥監(jiān)局關(guān)鍵人物傳播趨勢(shì)主流觀點(diǎn)關(guān)鍵地區(qū)SMAS分析團(tuán)隊(duì)連續(xù)30天跟蹤毒膠囊事件,從整體傳播趨勢(shì)、觀點(diǎn)、人物、地區(qū)等視角,還原了這起頗具影響力的公共事件。-----毒膠囊事件-------國家藥監(jiān)局關(guān)鍵人物傳播趨勢(shì)主流觀點(diǎn)關(guān)鍵地區(qū)SMAS分析團(tuán)隊(duì)連北京市環(huán)保局PM2.5分析報(bào)道量排行高低兩會(huì)代表委員熱議PM2.5“京V”排放標(biāo)準(zhǔn)首規(guī)定PM限值珠三角成首個(gè)公布PM2.5城市群珠三角PM2.5嚴(yán)重超標(biāo)環(huán)保局回應(yīng)PM2.5數(shù)據(jù)質(zhì)疑借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務(wù)平臺(tái),從區(qū)域分布的角度對(duì)PM2.5的相關(guān)信息進(jìn)行歸類,進(jìn)行全面的整合、統(tǒng)計(jì)與分析,得到上圖分析內(nèi)容。北京市環(huán)保局PM2.5分析報(bào)道量排行北京市環(huán)保局PM2.5分析PM2.5均勻分布,監(jiān)測(cè)點(diǎn)為何不均勻分布?PM2.5監(jiān)測(cè)不能背離公眾感受PM2.5監(jiān)測(cè),關(guān)鍵詞是“真實(shí)”20億元清單,能否換來清新?微博TOP10意見領(lǐng)袖排行鄭淵潔微博原文作家通過SMAS平臺(tái)的抽樣分析,提取網(wǎng)民熱點(diǎn)話題內(nèi)容,得到TOP10意見領(lǐng)袖排行。對(duì)意見領(lǐng)袖的代表性微博進(jìn)行傳播鏈分析,可知“意見領(lǐng)袖”巨大的傳播影響力。第一層第二層第三層第四層第五層第六層傳播了712次占轉(zhuǎn)發(fā)數(shù)百分比:54.39%傳播了432次占轉(zhuǎn)發(fā)數(shù)百分比:33.00%

博主自身的二次轉(zhuǎn)發(fā)北京市環(huán)保局PM2.5分析PM2.5均勻分布,監(jiān)測(cè)點(diǎn)為何北京市環(huán)保局PM2.5分析北京市環(huán)保局PM2.5分析氣象輿情監(jiān)測(cè)對(duì)氣候的影響三峽工程長(zhǎng)江中下游干旱臺(tái)風(fēng)

梅花日本核輻射極端天氣頻發(fā),有多少是人為之禍?公眾對(duì)氣象部門的氣象服務(wù)有了全新的期待。依托數(shù)據(jù)中心與云服務(wù)平臺(tái),拓爾思運(yùn)營團(tuán)隊(duì)還原熱點(diǎn)氣象事件引發(fā)的網(wǎng)絡(luò)輿情,總結(jié)氣象部門應(yīng)對(duì)氣象危機(jī)的得失,為氣象部門開拓氣象服務(wù)新領(lǐng)域、提升氣象服務(wù)水平提供參考。中國氣象局氣象輿情監(jiān)測(cè)對(duì)氣候的影響三峽長(zhǎng)江中下游干旱臺(tái)風(fēng)日本極端天氣頻43氣象信息月度走勢(shì)圖年度熱門氣象事件排行榜全國氣象輿情熱度概覽

氣象口碑媒體分布圖借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務(wù)平臺(tái),拓爾思運(yùn)營團(tuán)隊(duì)為氣象局提供了全面的多維度分析。中國氣象局氣象信息月度走勢(shì)圖年度熱門氣象事件排行榜全國氣象輿情熱度概覽關(guān)系可視化關(guān)系可視化每日微博熱點(diǎn)分析每日微博熱點(diǎn)分析46拓爾思大數(shù)據(jù)技術(shù)的優(yōu)勢(shì)架構(gòu),集群,分析,非結(jié)構(gòu)化信息處理方面的技術(shù)工程能力,滿足企業(yè)級(jí)客戶的能力和存儲(chǔ)、數(shù)據(jù)庫等廠商相比,更強(qiáng)調(diào)大數(shù)據(jù)的分析和挖掘的能力拓爾思大數(shù)據(jù)技術(shù)的優(yōu)勢(shì)架構(gòu),集群,分析,非結(jié)構(gòu)化信息處理方面謝謝!聯(lián)系方式:shi.shuicai@W/shuicai謝謝!理解大數(shù)據(jù),實(shí)踐大數(shù)據(jù)施水才北京拓爾思信息技術(shù)股份有限公司2012年5月31日理解大數(shù)據(jù),實(shí)踐大數(shù)據(jù)施水才內(nèi)容對(duì)大數(shù)據(jù)的理解拓爾思大數(shù)據(jù)產(chǎn)品布局和應(yīng)用實(shí)踐內(nèi)容對(duì)大數(shù)據(jù)的理解反對(duì)派認(rèn)為,我們現(xiàn)在處在一個(gè)盲目的大數(shù)據(jù)崇拜時(shí)代反對(duì)派認(rèn)為,我們現(xiàn)在處在一個(gè)盲目的大數(shù)據(jù)崇拜時(shí)代51大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)的爆發(fā)式增長(zhǎng)和社會(huì)化趨勢(shì),新摩爾定律大數(shù)據(jù)已經(jīng)成為一種自然資源機(jī)器數(shù)據(jù)日益重要大數(shù)據(jù)不被利用就是成本大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)的爆發(fā)式增長(zhǎng)和社會(huì)化趨勢(shì),新摩爾定律大數(shù)據(jù)產(chǎn)生的背景現(xiàn)有的商業(yè)軟件難以處理大數(shù)據(jù)的規(guī)模和復(fù)雜性

獲取(capture)存貯(storage)搜索(search)分享(sharing)分析(analysis)可視化(visualization)大數(shù)據(jù)產(chǎn)生的背景現(xiàn)有的商業(yè)軟件難以處理大數(shù)據(jù)的規(guī)模和復(fù)雜性奧巴馬大數(shù)據(jù)戰(zhàn)略2012年3月29日,白宮發(fā)布美國政府的大數(shù)據(jù)計(jì)劃通過提高從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識(shí)和觀點(diǎn)的能力,承諾幫助加快在科學(xué)與工程中的步伐,加強(qiáng)國家安全,并改變教學(xué)研究奧巴馬大數(shù)據(jù)戰(zhàn)略2012年3月29日,白宮發(fā)布美國政府的大數(shù)大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度55對(duì)大數(shù)據(jù)的理解大數(shù)據(jù)比云計(jì)算更為落地大數(shù)據(jù)不僅僅是“大”軟件是大數(shù)據(jù)的引擎大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷管理大數(shù)據(jù)“易”,理解大數(shù)據(jù)“難”對(duì)大數(shù)據(jù)的理解大數(shù)據(jù)比云計(jì)算更為落地1、大數(shù)據(jù)比云計(jì)算更為落地商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式1、大數(shù)據(jù)比云計(jì)算更為落地商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身2、大數(shù)據(jù)不僅僅是“大”多大?PB級(jí)比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值2、大數(shù)據(jù)不僅僅是“大”多大?比大更重要的是數(shù)據(jù)的復(fù)雜性,有3、軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)

一樣,軟件是大數(shù)據(jù)的驅(qū)動(dòng)力,軟件改變世界3、軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)大數(shù)據(jù)生態(tài):軟件是引擎大數(shù)據(jù)生態(tài):軟件是引擎4、大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營銷是大數(shù)據(jù)的典型應(yīng)用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務(wù)領(lǐng)域具有廣闊的應(yīng)用前景消費(fèi)行業(yè)金融服務(wù)食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務(wù)氣象4、大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營銷5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲(chǔ)的橫向擴(kuò)展,但對(duì)非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實(shí)質(zhì)性的突破和進(jìn)展,這是實(shí)現(xiàn)大數(shù)據(jù)資源化、知識(shí)化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語言理解、多媒體內(nèi)容理解、機(jī)器學(xué)習(xí)等5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問題拓爾思大數(shù)據(jù)產(chǎn)品布局TRS機(jī)器數(shù)據(jù)挖掘引擎TRSSMAS

輿情云服務(wù)TRS大數(shù)據(jù)管理系統(tǒng)V7.0拓爾思大數(shù)據(jù)產(chǎn)品布局TRS機(jī)器數(shù)據(jù)挖掘引擎TRSSMAS63TRS大數(shù)據(jù)管理系統(tǒng)發(fā)展歷程TRS全文數(shù)據(jù)庫TRS

非結(jié)構(gòu)化

數(shù)據(jù)庫TRS大數(shù)據(jù)管理系統(tǒng)TRS大數(shù)據(jù)管理系統(tǒng)發(fā)展歷程TRS全文數(shù)據(jù)庫TRS

非64TRS大數(shù)據(jù)管理系統(tǒng)V7.0TRS大數(shù)據(jù)管理系統(tǒng)V7.0TRS大數(shù)據(jù)管理系統(tǒng)V7.0分布式并行計(jì)算、多副本機(jī)制、沒有單點(diǎn)的高可靠體系架構(gòu),兼容Hadoop標(biāo)準(zhǔn)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的管理和搜索支持實(shí)時(shí)及用戶行為數(shù)據(jù)的高效管理和分析支持PB級(jí)的海量數(shù)據(jù)管理支持海量用戶的高并發(fā)訪問(千萬級(jí)用戶、萬級(jí)并發(fā))充分釋放硬件的潛力(多核、大內(nèi)存等)大規(guī)模部署的自動(dòng)化和運(yùn)行狀態(tài)監(jiān)控創(chuàng)新的多檢索引擎機(jī)制,提供開放的二次開發(fā)接口TRS大數(shù)據(jù)管理系統(tǒng)V7.0分布式并行計(jì)算、多副本機(jī)制、沒數(shù)據(jù)備份大數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)存儲(chǔ)開發(fā)接口基于Hadoop的數(shù)據(jù)分析CKM文本挖掘與數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則與序列模式挖掘推薦引擎的離線分析MapReduce數(shù)據(jù)庫監(jiān)控機(jī)器數(shù)據(jù)搜索引擎用戶行為挖掘與推薦引擎基于時(shí)間分段的大數(shù)據(jù)檢索與索引接口搜索引擎日志采集監(jiān)控?cái)?shù)據(jù)存儲(chǔ)層數(shù)據(jù)分析層日志發(fā)送節(jié)點(diǎn)Angent1Angent2Angent3……Angentn日志接收集群Collector1Collector2Collector3……CollectornMaster管理集群Master1Master2Mastern日志采集TRS機(jī)器數(shù)據(jù)挖掘引擎數(shù)據(jù)備份大數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)存儲(chǔ)開發(fā)接口基于Hadoop的數(shù)67TRS機(jī)器數(shù)據(jù)挖掘引擎特點(diǎn)支持主流格式機(jī)器數(shù)據(jù)的實(shí)時(shí)采集、解析、管理和搜索?;跁r(shí)間分段和負(fù)載均衡的大數(shù)據(jù)索引與檢索機(jī)制?;赪eb的機(jī)器數(shù)據(jù)搜索與分析界面。兼容Hadoop平臺(tái)的日志挖掘和用戶行為分析?;诙喾N推薦模型的在線推薦引擎大規(guī)模部署的自動(dòng)化和運(yùn)行狀態(tài)監(jiān)控TRS機(jī)器數(shù)據(jù)挖掘引擎特點(diǎn)支持主流格式機(jī)器數(shù)據(jù)的實(shí)時(shí)采集、TRSSMAS功能框架圖輿情管理服務(wù)共享信息挖掘信息來源新聞?wù)搲┛退阉饕嫖⒉﹚iki自動(dòng)排重、自動(dòng)分類、自動(dòng)摘要、自動(dòng)分析輿情分類熱點(diǎn)跟蹤熱點(diǎn)統(tǒng)計(jì)微博分析人物分析微博運(yùn)營趨勢(shì)分析整合統(tǒng)計(jì)關(guān)聯(lián)圖譜動(dòng)態(tài)走勢(shì)興趣圖譜未知探索熱點(diǎn)變化意見領(lǐng)袖傳播圖譜關(guān)系分類個(gè)性展示敏感預(yù)警自由分布數(shù)圖導(dǎo)出圖表切換多維檢索探針追蹤元搜索TRSSMAS功能框架圖輿情管理服務(wù)共享信息挖掘信息來源新外網(wǎng)微博論壇SNS網(wǎng)媒

官網(wǎng)提高銷量用戶滿意度用戶設(shè)計(jì)趨勢(shì)分析競(jìng)爭(zhēng)分析質(zhì)量缺陷設(shè)計(jì)缺陷使用缺陷KOL維護(hù)聲譽(yù)管理危機(jī)預(yù)警事件評(píng)估行為分析產(chǎn)品公關(guān)營銷SMAS用戶感知研發(fā)情緒感知及時(shí)服務(wù)口碑監(jiān)測(cè)媒介監(jiān)測(cè)S-CRM廣義服務(wù)TRSSMAS作用于企業(yè)2.0外網(wǎng)官網(wǎng)用戶設(shè)計(jì)趨勢(shì)分析競(jìng)爭(zhēng)分析質(zhì)量缺陷設(shè)計(jì)缺陷使用缺TRS在大數(shù)據(jù)領(lǐng)域的應(yīng)用實(shí)踐新華社多媒體數(shù)據(jù)庫國家知識(shí)產(chǎn)權(quán)局專利檢索系統(tǒng)某部信息監(jiān)控系統(tǒng)TRSSMAS云服務(wù)(大數(shù)據(jù)服務(wù))國家質(zhì)監(jiān)局國家藥監(jiān)局北京市環(huán)保局國家氣象局每日微博熱點(diǎn)分析TRS在大數(shù)據(jù)領(lǐng)域的應(yīng)用實(shí)踐新華社多媒體數(shù)據(jù)庫新華社多媒體數(shù)據(jù)庫系統(tǒng)是新華社的核心業(yè)務(wù)支撐,典型的非結(jié)構(gòu)化數(shù)據(jù)管理應(yīng)用場(chǎng)景,持續(xù)IT投資已經(jīng)超過6億人民幣以新華社遍布全球的新聞信息及采集網(wǎng)絡(luò)為依托,全面整合新華社的文字、圖片、圖表、音視頻、報(bào)刊等全部資源和社會(huì)上有價(jià)值的新聞信息資源,擁有包括中、英、法、俄、西、阿及中文繁體在內(nèi)的6個(gè)文種,數(shù)據(jù)量超PB最早采用文件系統(tǒng),后來改為Oracle,效率很低,再改為Oracle+TRS,持續(xù)服務(wù)至今從大型機(jī)改為PC服務(wù)器集群新華社多媒體數(shù)據(jù)庫系統(tǒng)是新華社的核心業(yè)務(wù)支撐,典型的非結(jié)構(gòu)化1.5億條原創(chuàng)新聞資訊26000小時(shí)權(quán)威原創(chuàng)視頻700萬張圖片27000家注冊(cè)用戶8000多種資源分類PB級(jí)數(shù)據(jù)量多語種數(shù)據(jù)1.5億條26000小時(shí)700萬張圖片27000家8000多73新華社多媒體數(shù)據(jù)庫數(shù)據(jù)流轉(zhuǎn)圖新華社多媒體數(shù)據(jù)庫數(shù)據(jù)流轉(zhuǎn)圖新華社多媒體庫的技術(shù)特點(diǎn)非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理TRS多語言檢索引擎全面采用TRS文本挖掘技術(shù)良好的集群擴(kuò)展能力索引服務(wù)器讀寫分離新華社多媒體庫的技術(shù)特點(diǎn)非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理國家知識(shí)產(chǎn)權(quán)局專利檢索服務(wù)系統(tǒng)1998年專利局引進(jìn)了歐洲EPOQUE系統(tǒng),基于大型機(jī)的專利檢索系統(tǒng),每年的系統(tǒng)維護(hù)費(fèi)用就達(dá)數(shù)千萬元2005年開始建設(shè)自主可控可持續(xù)發(fā)展的專利檢索和服務(wù)系統(tǒng),采用大量的PC服務(wù)器典型的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景目前公共檢索和審查員檢索系統(tǒng)全部使用TRS檢索引擎國家知識(shí)產(chǎn)權(quán)局專利檢索服務(wù)系統(tǒng)1998年專利局引進(jìn)了歐洲EP專利檢索系統(tǒng)的需求特點(diǎn)數(shù)據(jù)多樣性結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合申請(qǐng)人、申請(qǐng)?zhí)?、名稱等著錄項(xiàng)很多;權(quán)利要求書、說明書等全文數(shù)據(jù)規(guī)模大各庫數(shù)據(jù)結(jié)構(gòu)差異大查詢要求高嚴(yán)格的查全和查準(zhǔn)要求基于領(lǐng)域知識(shí)的智能檢索結(jié)構(gòu)化和非結(jié)構(gòu)化信息聯(lián)合查詢相關(guān)專利推薦專利檢索系統(tǒng)的需求特點(diǎn)數(shù)據(jù)多樣性專利檢索與服務(wù)系統(tǒng)的數(shù)據(jù)種類與規(guī)模6億多條專利記錄多渠道異構(gòu)資源整合100%查全率<1秒響應(yīng)時(shí)間700-1000并發(fā)7×24穩(wěn)定可靠1萬注冊(cè)用戶專利檢索與服務(wù)系統(tǒng)的數(shù)據(jù)種類與規(guī)模6億多條多渠道異構(gòu)100%專利檢索引擎數(shù)據(jù)流轉(zhuǎn)圖專利檢索引擎數(shù)據(jù)流轉(zhuǎn)圖專利檢索與服務(wù)系統(tǒng)-外觀圖像檢索專利檢索與服務(wù)系統(tǒng)-外觀圖像檢索專利圖像外觀檢索局部檢索形狀檢索紋理檢索不變性特征檢索草圖檢索數(shù)據(jù)分類數(shù)據(jù)聚類基于相關(guān)反饋的檢索跨語言檢索600萬幅專利圖片查詢性能從原來的分鐘級(jí)提高到秒級(jí)索引性能從原來的天級(jí)提高到現(xiàn)在的小時(shí)級(jí)專利圖像外觀檢索局部檢索600萬幅專利圖片某部網(wǎng)監(jiān)智能搜索和挖掘系統(tǒng)系統(tǒng)特點(diǎn):巨大的數(shù)據(jù)量多樣性數(shù)據(jù)數(shù)據(jù)極快速增長(zhǎng)系統(tǒng)現(xiàn)狀已經(jīng)部署數(shù)千臺(tái)服務(wù)器,滿足了業(yè)務(wù)需求挑戰(zhàn)性能和可擴(kuò)展性整合和調(diào)度數(shù)據(jù)量遠(yuǎn)超過互聯(lián)網(wǎng),目前部署TRS系統(tǒng)2000多套某部網(wǎng)監(jiān)智能搜索和挖掘系統(tǒng)系統(tǒng)特點(diǎn):數(shù)據(jù)量遠(yuǎn)超過互聯(lián)網(wǎng),目前SMAS的用戶SMAS的用戶國家質(zhì)檢總局2012.1蒙牛致癌門2012.2蘇泊爾質(zhì)量門2012.3遼源注水肉2012.3

315質(zhì)量報(bào)告2012.4含氯可口可樂2012.4蜜餞質(zhì)量問題2012.5菲律賓香蕉質(zhì)量2012僅在2012年上半年,拓爾思運(yùn)營團(tuán)隊(duì)就為質(zhì)檢總局在產(chǎn)品質(zhì)量、食品安全方面提供超過40余項(xiàng)服務(wù),借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務(wù)平臺(tái),進(jìn)行全面的整合、統(tǒng)計(jì)與分析。國家質(zhì)檢總局2012.1蒙牛致癌門2012.2蘇泊爾質(zhì)量國家質(zhì)檢總局質(zhì)檢總局的服務(wù)依托云服務(wù)平臺(tái)(SMAS),從媒體調(diào)性、平臺(tái)分布、網(wǎng)民意見、趨勢(shì)發(fā)展等多種角度進(jìn)行解析,結(jié)合系統(tǒng)的自動(dòng)分析與分析團(tuán)隊(duì)的整合,最終以專題報(bào)告的方式,第一時(shí)間呈現(xiàn),為質(zhì)檢總局在公共服務(wù)的決策提供重要參考。國家質(zhì)檢總局質(zhì)檢總局的服務(wù)依托云服務(wù)平臺(tái)(SMAS),從媒體國家藥監(jiān)局2012年4月15日央視曝光的“毒膠囊”事件掀起藥品行業(yè)的巨大波瀾,SMAS運(yùn)營團(tuán)隊(duì)對(duì)該事件進(jìn)行了長(zhǎng)時(shí)間的跟蹤與分析,并用一系列的數(shù)據(jù)、圖表和報(bào)告捕獲了網(wǎng)絡(luò)數(shù)據(jù)里的真相與民意。國家藥監(jiān)局2012年4月15日央視曝光的“毒膠囊”事件掀起藥國家藥監(jiān)局關(guān)鍵人物傳播趨勢(shì)主流觀點(diǎn)關(guān)鍵地區(qū)SMAS分析團(tuán)隊(duì)連續(xù)30天跟蹤毒膠囊事件,從整體傳播趨勢(shì)、觀點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論