大數(shù)據(jù)分析市場行業(yè)分布_第1頁
大數(shù)據(jù)分析市場行業(yè)分布_第2頁
大數(shù)據(jù)分析市場行業(yè)分布_第3頁
大數(shù)據(jù)分析市場行業(yè)分布_第4頁
大數(shù)據(jù)分析市場行業(yè)分布_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)機大數(shù)據(jù)機大數(shù)據(jù)分析市場行業(yè)分布 2012年大數(shù)據(jù)分析需求行業(yè)分布 政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。 結論:各個行業(yè)都存在大數(shù)據(jù)應用的需求,潛在市場空間非??捎^。云展大數(shù)據(jù)機大數(shù)據(jù)采集大數(shù)據(jù)存儲大數(shù)據(jù)處理大數(shù)據(jù)可視化收集網(wǎng)站日志,交易數(shù)據(jù),音頻視頻數(shù)據(jù),即時信息可擴展數(shù)據(jù)采集框架數(shù)據(jù)導入元數(shù)據(jù)管理分布式大數(shù)據(jù)存儲確立分析目標編寫分析程序大數(shù)據(jù)并行處理引擎為分析目標生成報表,趨勢圖等圖表生成工具大數(shù)據(jù)分析應用大數(shù)據(jù)分析應用大數(shù)據(jù)分析平臺大數(shù)據(jù)分析平臺云展大數(shù)據(jù)機軟件架構數(shù)據(jù)收集框架基于分布式文件系統(tǒng)的數(shù)據(jù)存儲元數(shù)據(jù)管理E3大數(shù)據(jù)并行處理框架SQL接

2、口E3編程接口MapReduce接口可視化工具大數(shù)據(jù)知識庫文本分析工具結構化數(shù)據(jù)分析工具云展大數(shù)據(jù)機硬件架構 標準機架式設計 每個機架可容納40臺節(jié)點機 節(jié)點機通過千兆以太網(wǎng)連接 節(jié)點機采用標準PC服務器 可擴展到20個機架 原型機:awan(2個機架,76臺節(jié)點機)云展關鍵技術E3引擎E3將數(shù)據(jù)處理過程描述為一個線性工作流,工作流中每一個節(jié)點稱為一個階段,每階段包含若干處理單元,每個處理單元對數(shù)據(jù)進行部分處理。E3按照工作流的順序,并行地調(diào)度處理單元在計算節(jié)點上運行,自動在處理單元之間傳遞中間運算結果,最終完成整個數(shù)據(jù)處理過程。pu1pu1pu1pu1pu2pu2pu3pu4pu4pu5pu

3、5pu5云數(shù)據(jù) 存儲服務云 數(shù)據(jù)存儲服務PU processing unit (處理單元)E3與阿帕奇Hadoop的性能比較 Grep任務:每個節(jié)點535M Select任務:每個節(jié)點1GGrep任務Select任務混合式數(shù)據(jù)分析工具 同時支持非結構化的文本分析和結構化的數(shù)據(jù)庫分析 建立在統(tǒng)一的E3引擎之上,能夠進行交互和聯(lián)合分析 支持對海量數(shù)據(jù)的快速分析,發(fā)現(xiàn)其中隱藏的知識、行為模式等 提供描述語言,支持用戶進行自定義的數(shù)據(jù)分析文本分析工具結構化數(shù)據(jù)分析工具非機構化分析工具分布式存儲和處理模型 無需定義表結構 數(shù)據(jù)直接存儲與分布式文件系統(tǒng)中 自動錯誤處理和恢復基本的數(shù)據(jù)訪問接口 put/ge

4、t: 隨機的文檔數(shù)據(jù)讀取 scan: 批量數(shù)據(jù)掃描 tokenize: 將文檔組織成單詞組以提供給上層分析處理分析數(shù)據(jù)接口 Extract operator : 提供基于正則表達式和字典的匹配操作 Select operator : 提供基于用戶選擇條件的過濾操作 Join operator : 將來自多個數(shù)據(jù)源的文檔/文字流進行合并 Consolidate operator : 去重操作提供類似于SQL的文本處理分析語言: EPQL非結構化處理流程 每一個EPQL將對特定集合的文檔進行處理 每個文檔將通過4個操作的處理,然后中間結果傳給連接操作和去重操作 結果將是符合用戶要求的文檔或統(tǒng)計內(nèi)容

5、,比如: 查找所有包含關鍵詞:Cloud Computing,在2012年產(chǎn)生的網(wǎng)頁 統(tǒng)計近一個月內(nèi),出現(xiàn)包含釣魚島的文檔與包含日本車銷量內(nèi)容的文檔的關聯(lián)度文本分析示例:用戶反饋信息分析 在電子商務網(wǎng)站,如京東等,用戶購買結束后,會對產(chǎn)品購買過程及產(chǎn)品本身進行評價,通過分析用戶的反饋信息,可以發(fā)現(xiàn)其中的問題關鍵問題:發(fā)貨速度慢,關鍵問題:發(fā)貨速度慢,需要更換物流公司需要更換物流公司結構化數(shù)據(jù)分析 結構化數(shù)據(jù)分析通過維護并定期更新data cube的方式來提供高效的分析查詢結果 根據(jù)時間戳來實現(xiàn)同時支持實時事務處理和分析查詢數(shù)據(jù)分片分布式索引技術在結構化分析工具中,系統(tǒng)建立多維的分布式索引以支持

6、高效的并行查找分布式索引技術建立分布式二級索引支持并發(fā)地在多節(jié)點上同時查詢可以和本地數(shù)據(jù)庫索引連接例如:分布式B樹索引結構,可視化工具 將分析結果以報表的形式展現(xiàn)給用戶 支持線圖、餅圖、柱裝圖、趨勢圖等常用的圖表格式 標簽云以及數(shù)據(jù)關聯(lián)挖掘云展大數(shù)據(jù)機與其他大數(shù)據(jù)分析平臺的比較云展大數(shù)據(jù)機Greenplum HDIBM BigInsights是否一體機是是否硬件架構標準標準N.A.大數(shù)據(jù)收集框架式設計手工手工元數(shù)據(jù)管理支持不支持不支持大數(shù)據(jù)存儲HDFSHDFSHDFS大數(shù)據(jù)處理引擎E3HadoopHadoop大數(shù)據(jù)處理接口E3,MapReduce,SQLMapReduce,HiveQLMapR

7、educe,Jaql大數(shù)據(jù)可視化支持不支持不支持如何處理分析結果Elephant DB,支持檢索、外部應用訪問接口需要倒入Greenplum Database數(shù)據(jù)倉庫文件存儲,無外部應用訪問接口分析案例:95598客服服務 主要功能包括客戶檔案查詢、電量電費查詢、業(yè)務辦理進度查詢,以及業(yè)務受理、故障報修、咨詢受理、投訴舉報、消息訂閱 主要業(yè)務流程客戶電話記錄語音記錄用戶電話客戶電話記錄 由客服人員手工錄入,包括: 電話起止時間 客戶身份信息 原因(歸類為:電費查詢、投訴、保修等幾大類) 簡單內(nèi)容概述(不完整,客戶人員匆匆記錄) 當前的處理方式簡單的統(tǒng)計信息: 平均電話時常 客戶分布信息 每種電

8、話的統(tǒng)計百分比 缺乏深度的分析 用戶因為什么而投訴,這種投訴是否是普遍存在的 每個用戶是否通過撥打955598電話完成了他的請求 語音記錄 用戶和客服之間的對話會被完整記錄為語音文件 語音文件包含了豐富的信息: 用戶打電話的主要原因 客服的服務態(tài)度 客服的服務能力 用戶的滿意度 因為缺少相關工具,當前采用人員采樣收聽的策略,效率低,覆蓋率低針對客服信息的大數(shù)據(jù)分析用戶數(shù)據(jù)云展數(shù)據(jù)倉庫導入混合數(shù)據(jù)分析改進業(yè)務流程產(chǎn)生新的數(shù)據(jù)關聯(lián)翻譯關鍵技術非結構化語音分析客服信息用戶信息語音語調(diào)分析,看是否按照規(guī)定的態(tài)度服務記錄了用戶的投訴內(nèi)容和對服務的滿意度內(nèi)容分割:按照音色音域分析結果用戶滿意度 用戶撥打客

9、服電話都是有一定的目的,目的達到與否則表示了客服的成功率 通過對用戶的語義、情緒分析,符合下列模型的,分析認為是正確滿足用戶需求的不滿憤怒疑問稱贊感謝釋疑平靜分析結果客服質(zhì)量 客服質(zhì)量定義為:單位時間內(nèi)滿足的用戶數(shù)量 對某一特定客服人員:總服務時間滿意的用戶數(shù)服務效率 總用戶數(shù)滿意的用戶數(shù)服務質(zhì)量 服務質(zhì)量統(tǒng)計服務質(zhì)量統(tǒng)計分析結果熱點分析 通過整理分析用戶通話內(nèi)容得到用戶投訴的主要目的 使用數(shù)據(jù)挖掘和數(shù)據(jù)可視化來統(tǒng)計關鍵問題 支持海量數(shù)據(jù)的快速處理 分析客戶通話內(nèi)容,按照詞頻構造標簽云:關鍵技術分結構化數(shù)據(jù)分析 系統(tǒng)支持按照關鍵詞(一個或多個)將錄音電話切片分類 比如,要查找關于“電費”相關的

10、記錄中主要的投訴內(nèi)容 通過索引和分布式處理機制,可以快速的生成新的統(tǒng)計數(shù)據(jù)(類似于在數(shù)據(jù)倉庫中做切片操作): 關鍵技術結構化/分結構化混合分析 客服內(nèi)容由兩部分:關于電話基本信息的關系數(shù)據(jù),具體的語音信息 關聯(lián)分析將兩者結合起來進行深度分析: 電話耗時10分鐘以下和10分鐘以上的用戶滿意度統(tǒng)計 分布在不同區(qū)域的用戶滿意度統(tǒng)計 收入在不同范圍的用戶關心的主要問題 客服填寫的簡要信息是否和用戶錄音記錄一致 客戶電話主要集中來電時間分布,以及和滿意度的關聯(lián)度 客服的效率和時間的關系其他案例 網(wǎng)易私有云平臺網(wǎng)易私有云平臺 推進企業(yè)內(nèi)數(shù)據(jù)共享、全局信息挖掘與商業(yè)智能虛擬化虛擬機、網(wǎng)絡、云硬盤數(shù)據(jù)管理DDB、對象存儲、文件中心、關系數(shù)據(jù)存儲、全文檢索、并行分析、Timeline、NewSQL、緩存服務應用架構負載均

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論