版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據機大數據機 大數據分析市場行業(yè)分布 ? 2012年大數據分析需求行業(yè)分布 政府、互聯網、電信、金融的大數據市場規(guī)模較大,四個行業(yè)將占據一半市場份額。 ? 結論:各個行業(yè)都存在大數據應用的需求,潛在市場空間非??捎^。 云展大數據機 收集網站日志,交易數據,音頻視頻數據,即時信息 大數據分析應用大數據分析應用 數據導入 確立分析目標 編寫分析程序 為分析目標生成報表,趨勢圖等 大數據采集 大數據存儲 大數據處理 大數據可視化 可擴展數據采集框架 元數據管理 分布式大數據存儲 大數據并行處理引擎 圖表生成工具 大數據分析平臺大數據分析平臺 云展大數據機軟件架構 可視化工具 大數據知識庫 文本分
2、析工具 結構化數據 分析工具 E3編程接口 MapReduce接口 SQL接口 E3大數據并行處理框架 元數據管理 數據收集框架 基于分布式文件系統(tǒng)的數據存儲 云展大數據機硬件架構 ? 標準機架式設計 每個機架可容納40臺節(jié)點機 節(jié)點機通過千兆以太網連接 節(jié)點機采用標準PC服務器 可擴展到20個機架 原型機:awan(2個機架,76臺節(jié)點機) 3云展關鍵技術E 引擎 ?E3將數據處理過程描述為一個線性工作流,工作流中每一個節(jié)點稱為一個階段,每階段包含若干處理單元,每個處理單元對數據進行部分處理。 E3按照工作流的順序,并行地調度處理單元在計算節(jié)點上運行,自動在處理單元之間傳遞中間運算結果,最終
3、完成整個數據處理過程。 pu1 pu2 pu4 pu5 云數據 存儲服務 pu1 pu2 pu4 pu5 pu1 pu3 pu5 pu1 PU processing unit (處理單元) 云 數據存儲服務 3E 與阿帕奇Hadoop的性能比較 ? Grep任務:每個節(jié)點535M ? Select任務:每個節(jié)點1G Grep任務 Select任務 混合式數據分析工具 ? 同時支持非結構化的文本分析和結構化的數據庫分析 ? 建立在統(tǒng)一的E3引擎之上,能夠進行交互和聯合分析 ? 支持對海量數據的快速分析,發(fā)現其中隱藏的知識、行為模式等 ? 提供描述語言,支持用戶進行自定義的數據分析 文本分析工具
4、結構化數據 分析工具 非機構化分析工具 ?分布式存儲和處理模型 無需定義表結構 數據直接存儲與分布式文件系統(tǒng)中 自動錯誤處理和恢復 ?基本的數據訪問接口 put/get: 隨機的文檔數據讀取 scan: 批量數據掃描 tokenize: 將文檔組織成單詞組以提供給上層分析處理 ?分析數據接口 Extract operator ?: 提供基于正則表達式和字典的匹配操作 Select operator : 提供基于用戶選擇條件的過濾操作 Join operator ?: 將來自多個數據源的文檔 /文字流進行合并 Consolidate operator : 去重操作 ?提供類似于SQL的文本處理分
5、析語言: EPQL 非結構化處理流程 ? 每一個EPQL將對特定集合的文檔進行處理 ? 每個文檔將通過4個操作的處理,然后中間結果傳給連接操作和去重操作 ? 結果將是符合用戶要求的文檔或統(tǒng)計內容,比如: 查找所有包含關鍵詞:Cloud Computing,在2012年產生的網頁 統(tǒng)計近一個月內,出現包含釣魚島的文檔與包含日本車銷量內容的文檔的關聯度 文本分析示例:用戶反饋信息分析 ? 在電子商務網站,如京東等,用戶購買結束后,會對產品購買過程及產品本身進行評價,通過分析用戶的反饋信息,可以發(fā)現其中的問題 關鍵問題:發(fā)貨速度慢,關鍵問題:發(fā)貨速度慢,需要更換物流公司需要更換物流公司 結構化數據分
6、析 ? 結構化數據分析通過維護并定期更新data cube的方式來提供高效的分析查詢結果 ? 根據時間戳來實現同時支持實時事務處理和分析查詢 分析查詢E3引擎更新Cube事務處理查詢元數據鍵值存儲系統(tǒng)實時數據DataCube數據分片 分布式文件系統(tǒng)分布式索引技術 ?在結構化分析工具中,系統(tǒng)建立多維的分布式索引以支持高效的并行查找 分布式索引技術 建立分布式二級索引 支持并發(fā)地在多節(jié)點上同時查詢 可以和本地數據庫索引連接 例如:分布式 B樹索引結構, 可視化工具 ? 將分析結果以報表的形式展現給用戶 支持線圖、餅圖、柱裝圖、趨勢圖等常用的圖表格式 標簽云以及數據關聯挖掘 云展大數據機與其他大數據
7、分析平臺的比較 云展大數據機 是否一體機 硬件架構 大數據收集 是 標準 框架式設計 Greenplum HD 是 標準 手工 IBM BigInsights 否 N.A. 手工 元數據管理 大數據存儲 大數據處理引擎 大數據處理接口 支持 HDFS E3 E3,MapReduce,SQL 支持 Elephant DB,支持檢索、外部應用訪問接口 不支持 HDFS Hadoop MapReduce,HiveQL 不支持 HDFS Hadoop MapReduce,Jaql 大數據可視化 如何處理分析結果 不支持 需要倒入Greenplum Database數據倉庫 不支持 文件存儲,無外部應用
8、訪問接口 分析案例:95598客服服務 ? 主要功能包括客戶檔案查詢、電量電費查詢、業(yè)務辦理進度查詢,以及業(yè)務受理、故障報修、咨詢受理、投訴舉報、消息訂閱 ? 主要業(yè)務流程 客戶電話記錄 用戶電話 語音記錄 客戶電話記錄 ? 由客服人員手工錄入,包括: 電話起止時間 客戶身份信息 原因(歸類為:電費查詢、投訴、保修等幾大類) 簡單內容概述(不完整,客戶人員匆匆記錄) ? 當前的處理方式簡單的統(tǒng)計信息: 平均電話時常 客戶分布信息 每種電話的統(tǒng)計百分比 ? 缺乏深度的分析 用戶因為什么而投訴,這種投訴是否是普遍存在的 每個用戶是否通過撥打955598電話完成了他的請求 語音記錄 ? 用戶和客服之
9、間的對話會被完整記錄為語音文件 ? 語音文件包含了豐富的信息: 用戶打電話的主要原因 客服的服務態(tài)度 客服的服務能力 用戶的滿意度 ? 因為缺少相關工具,當前采用人員采樣收聽的策略,效率低,覆蓋率低 針對客服信息的大數據分析 關聯 翻譯 混合數據分析 導入 云展數據倉庫 用戶數據 產生新的數據 改進業(yè)務流程 關鍵技術非結構化語音分析 客服信息 內容分割: 按照音色音域 用戶信息 記錄了用戶的投訴內容和對服務的滿意度 語音語調分析,看是否按照規(guī)定的態(tài)度服務 分析結果用戶滿意度 ? 用戶撥打客服電話都是有一定的目的,目的達到與否則表示了客服的成功率 ? 通過對用戶的語義、情緒分析,符合下列模型的,
10、分析認為是正確滿足用戶需求的 不滿 憤怒 疑問 稱贊 感謝 釋疑 平靜 分析結果客服質量 ? 客服質量定義為:單位時間內滿足的用戶數量 ? 對某一特定客服人員: 服務效率 ?滿意的用戶數總服務時間 服務質量統(tǒng)計服務質量統(tǒng)計 滿意的用戶數服務質量 ?總用戶數分析結果熱點分析 ? 通過整理分析用戶通話內容得到用戶投訴的主要目的 ? 使用數據挖掘和數據可視化來統(tǒng)計關鍵問題 ? 支持海量數據的快速處理 ? 分析客戶通話內容,按照詞頻構造標簽云: 關鍵技術分結構化數據分析 ? 系統(tǒng)支持按照關鍵詞(一個或多個)將錄音電話切片分類 比如,要查找關于“電費”相關的記錄中主要的投訴內容 ? 通過索引和分布式處理
11、機制,可以快速的生成新的統(tǒng)計數據(類似于在數據倉庫中做切片操作): 關鍵技術結構化/分結構化混合分析 ? 客服內容由兩部分:關于電話基本信息的關系數據,具體的語音信息 ? 關聯分析將兩者結合起來進行深度分析: 電話耗時10分鐘以下和10分鐘以上的用戶滿意度統(tǒng)計 分布在不同區(qū)域的用戶滿意度統(tǒng)計 收入在不同范圍的用戶關心的主要問題 客服填寫的簡要信息是否和用戶錄音記錄一致 客戶電話主要集中來電時間分布,以及和滿意度的關聯度 客服的效率和時間的關系 其他案例 ? 網易私有云平臺網易私有云平臺 推進企業(yè)內數據共享、全局信息挖掘與商業(yè)智能 數據共享 IP城市庫、樂庫、書庫 圖像處理、文本分析(分詞、標簽、擴展分類)、數據挖掘(聚類、關聯規(guī)功能 則)、語音處理、GIS 應用平滑遷移 配額與計費 應用架構 數據管理 應用托管 Web App Engine for Java 負載均衡(LVS、反向代理)、DNS、消息隊列 DDB、對象存儲、文件中心、關系數據存儲、全文檢索、并行分析、Timeline、NewSQL、緩存服務 用戶管理與監(jiān)控平臺 管理員運維平臺 虛擬化 硬件 虛擬機、網絡、云硬盤 IDC、服務器、存儲、網絡 epiC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學數學基礎知識體系的構建與教學方法
- 2025年度個人教育貸款延期支付合同3篇
- 教育領域中工業(yè)互聯網的安全培訓與推廣
- 2025年度個人住房貸款利率調整協(xié)議合同范本4篇
- 二零二五年度車輛借用及道路救援服務合同3篇
- 二零二五年度餐飲企業(yè)員工培訓與職業(yè)發(fā)展合同6篇
- 江蘇2025年江蘇衛(wèi)生健康職業(yè)學院博士專項招聘13人筆試歷年參考題庫附帶答案詳解
- 永州2025年湖南永州市零陵區(qū)引進急需緊缺專業(yè)人才66人筆試歷年參考題庫附帶答案詳解
- 楚雄2025年第一批云南楚雄南華縣緊密型縣域醫(yī)共體招聘編制外工作人員筆試歷年參考題庫附帶答案詳解
- 探究式課堂中的教師角色與教學策略
- 蘇教版五年級上冊數學簡便計算300題及答案
- 澳洲牛肉行業(yè)分析
- 老客戶的開發(fā)與技巧課件
- 計算機江蘇對口單招文化綜合理論試卷
- 成人學士學位英語單詞(史上全面)
- 26個英文字母書寫(手寫體)Word版
- KAPPA-實施方法課件
- GB/T 13813-2023煤礦用金屬材料摩擦火花安全性試驗方法和判定規(guī)則
- GB/T 33084-2016大型合金結構鋼鍛件技術條件
- 高考英語課外積累:Hello,China《你好中國》1-20詞塊摘錄課件
- 航道整治課程設計
評論
0/150
提交評論