版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
11XX 市旅游大數(shù)據(jù)平臺解決方案XX 有限責任公司XX市旅游大數(shù)據(jù)平臺解決方案目錄旅游大數(shù)據(jù)平臺項目概述 6建設(shè)背景 6旅游大數(shù)據(jù)帶了的新的挑戰(zhàn) 61.2.1數(shù)據(jù)挖掘搜集復(fù)雜61.2.2經(jīng)驗與數(shù)據(jù)的結(jié)合61.2.3分析與優(yōu)化的結(jié)合71.2.4數(shù)據(jù)開放與隱私的權(quán)衡 7建設(shè)目標 7建設(shè)原則 7旅游大數(shù)據(jù)平臺優(yōu)勢 9旅游大數(shù)據(jù)平臺需求分析 11大數(shù)據(jù)在業(yè)務(wù)需求分析 11省旅游局和5a景區(qū)的應(yīng)用 11旅行社和OTA的應(yīng)用 11大數(shù)據(jù)有助于精確旅游行業(yè)市場定位 11大數(shù)據(jù)成為旅游行業(yè)市場營銷的利器 12大數(shù)據(jù)支撐旅游行業(yè)收益管理 12大數(shù)據(jù)創(chuàng)新旅游行業(yè)需求開發(fā) 13旅游輿情監(jiān)測服務(wù): 132.2總體建設(shè)需求 14旅游大數(shù)據(jù)平臺總體規(guī)劃設(shè)計 15第1頁市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE7第頁PAGE7整體建設(shè)思想 15整體系統(tǒng)結(jié)構(gòu) 15計算資源和存儲資源配置估算 18旅游大數(shù)據(jù)平臺資源層規(guī)劃設(shè)計 19旅游大數(shù)據(jù)平臺基礎(chǔ)架構(gòu)體系 19設(shè)計原則 19系統(tǒng)總體架構(gòu) 20虛擬化拓撲的結(jié)構(gòu) 23旅游大數(shù)據(jù)平臺虛擬化組件 244.2.1遷移 244.2.2高可靠性(HA) 244.2.3容錯 25動態(tài)資源分配 25分布式電源管理 26分布式集群存儲平臺 27方案拓撲圖 27方案描述 27系統(tǒng)軟件 28旅游大數(shù)據(jù)平臺系統(tǒng)管理支撐系統(tǒng) 28產(chǎn)品定位 29云應(yīng)用 29產(chǎn)品架構(gòu) 30產(chǎn)品體系31產(chǎn)品功能32集群存儲系統(tǒng) 33集群存儲系統(tǒng)的特點 33系統(tǒng)功能及特點 36海量數(shù)據(jù)高效管理 36數(shù)據(jù)讀寫性能 36數(shù)據(jù)全局共享 37數(shù)據(jù)安全性38系統(tǒng)可擴展性 38與現(xiàn)有環(huán)境無縫兼容 39系統(tǒng)的整體擁有成本 39使用分布式提高投資回報率 40降低管理及運行成本——簡易存儲 40提高用戶應(yīng)用的生產(chǎn)力 41基于大數(shù)據(jù)的旅游數(shù)據(jù)管理與分析系統(tǒng) 42大數(shù)據(jù)平臺介紹 43平臺功能框架 43分布式存儲功能 43分布式計算功能 44NoSQL功能 44數(shù)據(jù)倉庫功能 4.1.6分式協(xié)調(diào)功能 4.1.7旅工作數(shù)據(jù)流管理功能 4.1.8維管理功能 46旅游中心分析系統(tǒng)架構(gòu) 4.2.1非式數(shù)據(jù)的分類存儲 4.2.2對格式化數(shù)據(jù)的全文檢索合多線索加權(quán)檢索 4.2.3完的旅游中心分析報表系統(tǒng) 4.2.3.1國內(nèi)旅游形勢分析 48按照全國地域分析各地方旅游 48按照全國人文風情數(shù)據(jù)技術(shù)分析民俗旅游的趨向; 48用戶可以定制所關(guān)心的數(shù)據(jù)統(tǒng)計圖 4.2.3.2數(shù)據(jù)分類存儲與自動化數(shù)據(jù)引擎 4.2.4旅數(shù)據(jù)存儲管理分析系統(tǒng)架構(gòu) 4.2.4.1數(shù)據(jù)按照旅游分類存儲 50.2.4.2數(shù)據(jù)按照信息分類趨勢分析 50大數(shù)據(jù)統(tǒng)一平臺 50.3.1采集 5.3.2數(shù)據(jù)接入 5.3.3規(guī)則過濾 5.3.4數(shù)據(jù)存儲 5.3.5計算引擎 5.3.5.1 功能 5.3.5.2組成 5.3.5.3 基本算子集5.3.6 業(yè)務(wù)處理5.3.7業(yè)務(wù)管理 5.3.8用權(quán)限管理 5.3.9 業(yè)務(wù)管理58旅游大數(shù)據(jù)平臺安全層規(guī)劃設(shè)計 6.1大數(shù)據(jù)平臺安全建設(shè)需求 6.2旅游大數(shù)據(jù)平臺安全建設(shè)思路 6.3旅游大數(shù)據(jù)平臺安全系統(tǒng)總體設(shè)計 6.4旅游大數(shù)據(jù)平臺安全防護詳細設(shè)計 6.4.1平終端接入安全設(shè)計 6.4.2主機層安全 6.4.3 服務(wù)器負載均衡6.4.4虛機VM之間訪問安全 6.5旅游大數(shù)據(jù)平臺層安全 6.6數(shù)據(jù)層安全 74旅游大數(shù)據(jù)平臺備份設(shè)計 75邏輯架構(gòu)75方案實現(xiàn)設(shè)計 75旅游大數(shù)據(jù)平臺項目概述建設(shè)背景隨著大數(shù)據(jù)的應(yīng)用熱潮,在旅游行業(yè)也得到了業(yè)界的高度重視,大數(shù)據(jù)更加貼近消費者、深刻理解需求、高效分析信息并作出預(yù)判。如今的數(shù)據(jù)已經(jīng)成為一種重要的戰(zhàn)略資產(chǎn),極富開采價值。并在未來的商業(yè)競爭中占據(jù)會占得先機。1、提高服務(wù)質(zhì)量利用旅游行業(yè)數(shù)據(jù)庫進行分析,建立縱向和橫向的緯度進行分析建模,依托行業(yè)數(shù)據(jù)分析推演,可以有效的知道旅游政府部門和景區(qū)的公共服務(wù)體系建設(shè),真正提高旅游公共服務(wù)滿意度2、改善經(jīng)營管理通過對大量數(shù)據(jù)的挖掘和分析,有效指導(dǎo)旅游局和景區(qū)企業(yè)的管理工作。根據(jù)游客的特征和偏好,提供有力的旅游產(chǎn)品和服務(wù),利用大數(shù)據(jù)進行產(chǎn)業(yè)運行狀況分析,有效的運行監(jiān)測,對產(chǎn)業(yè)實施有效的管理,是推動旅游產(chǎn)業(yè)建設(shè)的必要手段3、改變營銷策略通過大數(shù)據(jù)可以了解用戶畫像數(shù)據(jù)、掌握游客的行為和偏好,真正的實現(xiàn)"投其所好",以實現(xiàn)推廣資源效率和效果最大化。旅游大數(shù)據(jù)帶了的新的挑戰(zhàn)數(shù)據(jù)挖掘搜集復(fù)雜大數(shù)據(jù)收集必須要明確業(yè)務(wù)所需,再對自已有價值的數(shù)據(jù)進行收集整合,才能合理收集運用大數(shù)據(jù)。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE9第頁PAGE9經(jīng)驗與數(shù)據(jù)的結(jié)合有了數(shù)據(jù)還要做判斷,把這種雜亂無章整理成我們能實際能應(yīng)用的。通過我們以往的經(jīng)驗,再與數(shù)據(jù)結(jié)合,從而分析確定目標客戶。分析與優(yōu)化的結(jié)合分析的目的是優(yōu)化,還要做決策上的改變和調(diào)整。優(yōu)化則是會玩數(shù)據(jù),科學的做好統(tǒng)計并加以分析,。數(shù)據(jù)開放與隱私的權(quán)衡隨著公眾對于隱私泄露擔憂的加劇,政府也必將出臺相應(yīng)的管理法案,對企業(yè)的數(shù)據(jù)挖據(jù)和分享行為進行規(guī)范,這也將是必然的。建設(shè)目標依托大數(shù)據(jù)云計算技術(shù),為旅游轉(zhuǎn)型升級提供了絕好的契機。對旅游平臺業(yè)務(wù)數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)采集、數(shù)據(jù)分類、產(chǎn)業(yè)規(guī)范,實行統(tǒng)一規(guī)劃和建設(shè)。所有資源整合后在邏輯上以單一整體的形式呈現(xiàn),并可按需進行動態(tài)擴展和配置。按照分階段可升級的標準要求,為多級單位提供應(yīng)用支撐基礎(chǔ)平臺服務(wù)和數(shù)據(jù)存儲、備份、交換等服務(wù),實現(xiàn)基礎(chǔ)軟硬件資源的統(tǒng)一管理、按需分配、綜合利用,增強數(shù)據(jù)中心的可管理性,提高應(yīng)用的兼容性和可用性,加速業(yè)務(wù)系統(tǒng)的部署,提升硬件資源的利用率;建設(shè)原則結(jié)合本項目的實際應(yīng)用和發(fā)展要求,在進行旅游大數(shù)據(jù)平臺方案設(shè)計過程中,應(yīng)始終堅持以下原則:可擴展性原則為了保證不斷增長的旅游市場需求,系統(tǒng)必須具有靈活的結(jié)構(gòu)并留有合理的擴充余地,以便根據(jù)需要進行適當?shù)淖儎雍蛿U充;主要平臺系統(tǒng)應(yīng)采用開放的結(jié)構(gòu),符合旅游標準,適應(yīng)技術(shù)的發(fā)展和變化。我們把主要精力放在滿足現(xiàn)有旅游需求和對未來的系統(tǒng)擴展的支持性上,展。合理性原則在一定的資金條件下,以適當?shù)耐度?,建立性能價格比高的、先進的、完善的旅游系統(tǒng)。所有軟硬件的選型和配置要堅持性能價格比最優(yōu)原則。在滿足系統(tǒng)性能、功能以及考慮到在可預(yù)見的未來不失去先進性的條件下,盡量取得整個系統(tǒng)的投入合理性,以構(gòu)成一個性能價格比優(yōu)化的應(yīng)用系統(tǒng)。系統(tǒng)架構(gòu)的設(shè)計應(yīng)盡可能地運用虛擬化、云計算等新技術(shù),以符合未來的技術(shù)發(fā)展方向。這種設(shè)計方法可以最大化地利用投資,并在利用率、管理、能源等各方面提高用戶投資的效率,降低總體擁有成本,減少浪費的發(fā)生。結(jié)合新技術(shù)的運用,也可以讓各應(yīng)用系統(tǒng)更好地融入未來整體IT建設(shè)規(guī)劃中,避免發(fā)生推到重建的現(xiàn)象,從而減少旅游信息建設(shè)上的投入??煽啃栽瓌t系統(tǒng)要具有高可靠性及強大的容錯能力。該系統(tǒng)必須保證7×24全天候不間斷地工作,核心設(shè)備比如數(shù)據(jù)庫服務(wù)器和存儲設(shè)備具有全容錯結(jié)構(gòu),并具有熱插拔功能,可帶電修復(fù)有關(guān)故障而不影響整個系統(tǒng)的工作,設(shè)計應(yīng)保持一定數(shù)量的冗余以保證整體系統(tǒng)的高可靠性和高可用性。即便是在系統(tǒng)建設(shè)初期也要著重考慮系統(tǒng)可用性、可靠性問題,防止出現(xiàn)系統(tǒng)停頓等問題造成信息系統(tǒng)的中斷服務(wù)。通過結(jié)合云計算等新技術(shù),可以更好地提高系統(tǒng)的可靠性和可用性??晒芾硇栽瓌t選擇基于開放的技術(shù),采用標準化、規(guī)范化設(shè)計;同時采用先進的設(shè)備,易于日后擴展,便于向更新技術(shù)的升級與銜接,實現(xiàn)系統(tǒng)較長的生命力;保證后期在系統(tǒng)上進行有效的開發(fā)和使用,并為今后的發(fā)展提供一個良好的環(huán)境;在設(shè)計、組建中心機房系統(tǒng)時,采用先進的、標準的設(shè)備;在選購服務(wù)器、存儲和連接設(shè)市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第PAGE11第PAGE11備時,確保系統(tǒng)部件間的嚴密配合和無縫聯(lián)接,并獲得良好的售后服務(wù)和技術(shù)支持;整個系統(tǒng)建成后按照整理一套完整的文檔資料,以便提高整個系統(tǒng)的可管理性與可維護性。安全性原則嚴格按照關(guān)于信息安全的規(guī)定和要求,規(guī)劃和部署中心機房的業(yè)務(wù)系統(tǒng)和備份系統(tǒng);采用安全服務(wù)器、備份還原系統(tǒng)、來防止內(nèi)外部的網(wǎng)絡(luò)安全威協(xié)和數(shù)據(jù)丟失竊取威脅等;所有軟硬件采用國產(chǎn)、自主研發(fā)的產(chǎn)品,從根本上保障系統(tǒng)的安全性。旅游大數(shù)據(jù)平臺優(yōu)勢通過建立旅游大數(shù)據(jù)平臺,通過服務(wù)的方式交付對物理硬件的需求,代替?zhèn)鹘y(tǒng)硬件設(shè)備跟隨著應(yīng)有系統(tǒng)的增加而增加的模式,對現(xiàn)有應(yīng)用系統(tǒng)進行整合,實現(xiàn)IT服務(wù)的快速交付,節(jié)能響應(yīng)國家號召,提升業(yè)務(wù)系統(tǒng)安全。海量數(shù)據(jù)高效管理隨著地理信息處理業(yè)務(wù)的增多,數(shù)據(jù)中心存儲大量的數(shù)據(jù),這就需要存儲系統(tǒng)能夠容納海量的數(shù)據(jù)。同時,存儲系統(tǒng)里面的文件數(shù)量也會快速增長,當文件數(shù)量增長到數(shù)千萬以上時,文件的檢索查找等操作將會給文件系統(tǒng)帶來巨大的壓力,特別是一個目錄下面存放的文件超過一定數(shù)量甚至會造成文件查找效率急劇下降。采用的分布式存儲系統(tǒng)單卷可支持300PB以上的存儲空間,高效的管理上千億個文件,單目錄可以高效支持千萬級的文件數(shù)量。分布式存儲系統(tǒng)擁有高效的多元數(shù)據(jù)服務(wù)器集群技術(shù)和高效的海量文件檢索技術(shù),在存放上千億文件的同時保持極高的文件檢索效率。統(tǒng)能夠在單個目錄下高效管理上千萬個文件的存儲系統(tǒng),在單目錄下存放上千萬數(shù)量文件時,仍然能夠提供每秒數(shù)萬的文件檢索效率。合理利用硬件資源,減少運行消耗旅游大數(shù)據(jù)平臺可將服務(wù)器物理資源轉(zhuǎn)換成池化的可動態(tài)分配的計算單元,從旅游大數(shù)據(jù)平臺具體需求出發(fā),在資源池中劃分出適合具體業(yè)務(wù)需要的服務(wù)計算單元,不再受限于物理上的界限,從而提高資源的利用率,簡化系統(tǒng)管理,讓信息化建設(shè)對旅游的變化更具適應(yīng)力,從而構(gòu)建出信息系統(tǒng)平臺的基礎(chǔ)。旅游大數(shù)據(jù)平臺建成后,可減少物理服務(wù)器數(shù)量至原有數(shù)量的一半以上,機房空間占用面積大大減少,機房相應(yīng)配套設(shè)施建設(shè)也可能夠相應(yīng)減少,在實際工作中預(yù)計可節(jié)省能源達到70%以上,響應(yīng)國家節(jié)能減排的要求。完善應(yīng)急安全機制旅游大數(shù)據(jù)平臺可以自動監(jiān)控資源池中計算單元和應(yīng)用單元的可用性,檢測物理服務(wù)器故障,如果檢測到故障,可重新在資源池中其他物理服務(wù)器上重新啟動相關(guān)業(yè)務(wù),整個過程無需人工干預(yù)。通過云安全平臺,可快速部署網(wǎng)絡(luò)安全應(yīng)用防火墻、IPS、WEB應(yīng)用防火墻等。提供便捷的管理運維方式??梢酝ㄟ^一個統(tǒng)一的管理平臺,來進行對平臺中運行的各項功能設(shè)立不同權(quán)限的管理賬號,根據(jù)工作需要設(shè)置不同的管理權(quán)限,并可通過其管理日志追溯操作過程。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE16第頁PAGE16旅游大數(shù)據(jù)平臺需求分析2.1.1 大數(shù)據(jù)在業(yè)務(wù)需求分析省旅游局和5a景區(qū)的應(yīng)用旅游大數(shù)據(jù)發(fā)展帶動了旅游產(chǎn)業(yè)的全面升級,通過大數(shù)據(jù)深挖游客的心理研究分析和旅游產(chǎn)品體驗,一切以游客的需求為關(guān)注點,通過數(shù)據(jù)分析反映旅游客源地域、哪些產(chǎn)品是消費者關(guān)注的,關(guān)注些什么,從中提取新的深刻見解,為旅游目的地品牌的提升、營銷推廣和輿情監(jiān)測等提供可視化的數(shù)據(jù)服務(wù)旅行社和OTA的應(yīng)用通過大數(shù)據(jù)的分析,準確的掌握到旅游客源來自哪些地區(qū),可以了解游客喜歡什么樣的產(chǎn)品,從而開發(fā)迎合市場需求的產(chǎn)品線路,大數(shù)據(jù)有助于精確旅游行業(yè)市場定位大數(shù)據(jù)應(yīng)用,其真正的核心在于挖掘數(shù)據(jù)中蘊藏的情報價值,那么,對于旅游行業(yè)來說,如何來借助大數(shù)據(jù)為旅游行業(yè)中的創(chuàng)新性應(yīng)用,以下幾個方面來概述:旅游品牌市場定位個性化:一個成功的品牌離不開精準的市場定位,能夠使品牌快速成長,而基于市場數(shù)據(jù)分析和調(diào)研是進行品牌定位的第一步。在旅游行業(yè)中充分挖局品牌價值,需要架構(gòu)大數(shù)據(jù)戰(zhàn)略,拓寬旅游行業(yè)調(diào)研數(shù)據(jù)的廣度和深度,從數(shù)據(jù)中了解旅游行業(yè)市場構(gòu)成、細分市場特征、消費者需求和競爭者狀況等眾多因素,在科學系統(tǒng)的信息數(shù)據(jù)收集、管理、分析的基礎(chǔ)上,提出更好的解決問題的方案和建議,保證旅游品牌市場定位獨具個性化。項目評估和可行性分析:旅游局和企業(yè)想開拓某一區(qū)域旅游行業(yè)市場,首先要進行項目評估和可行性分析,才能最終決定開拓這塊市場的必要性。如果適合,那么這個區(qū)域人口是多少?游客水平怎么樣?客戶的消費習慣是什么?市場對旅游品牌和旅游產(chǎn)品的認知度怎么樣?當前的市場情況是怎么樣的?游客的消費喜好是什么等等。構(gòu)建滿足市場需求的旅游產(chǎn)品:通過項目評估報告,收集海量信息構(gòu)成了旅游行業(yè)市場調(diào)研的大數(shù)據(jù),對這些大數(shù)據(jù)的分析就是市場定位過程。只有定位準確才能構(gòu)建出滿足市場需求的旅游產(chǎn)品,使旅游品牌在競爭中立于不敗之地。大數(shù)據(jù)成為旅游行業(yè)市場營銷的利器信息總量暴漲,隱藏的是旅游行業(yè)的市場需求、競爭情報每天在Facebook、Twitter、微博、微信、論壇、新聞評論、電商平臺等等上分享各種文本、照片、視頻、音頻、數(shù)據(jù)等信息高達的幾百億甚至幾千億條,這些信息涵蓋著、商家信息、個人信息、行業(yè)資訊、產(chǎn)品使用體驗、瀏覽記錄、成交記錄等海量的動態(tài)信息。這些數(shù)據(jù)通過聚類,可以形成行業(yè)大數(shù)據(jù),其背后隱藏的是行業(yè)的市場需求、競爭情報,閃現(xiàn)著巨大的財富價值。從兩個方面來闡述旅游行業(yè)市場營銷工作中的重中之重。一是數(shù)據(jù)獲取及分析:通過獲取數(shù)據(jù)統(tǒng)計和分析,來充分了解市場信息,掌握競爭者的動態(tài),知曉產(chǎn)品在競爭群中所處的市場地位,來達到“知彼知己,百戰(zhàn)不殆”的目的;二是數(shù)據(jù)積累及挖掘:企業(yè)通過積累和挖掘旅游行業(yè)消費者檔案數(shù)據(jù),有助于分析游客的消費行為和價值趣向,便于更好地引導(dǎo)潛在目標游客,以及讓游客得到更好的旅游體驗。以旅游行業(yè)在對顧客的消費行為和趣向分析方面為例,收集和整理游客的消費行為方面的信息數(shù)據(jù),如:游客的以往購買旅游產(chǎn)品的花費、選擇的產(chǎn)品渠道、旅游產(chǎn)品的類型和偏好、游客對旅游目的地的品牌印象等。收集到了這些數(shù)據(jù),建立游客大數(shù)據(jù)庫,便可通過統(tǒng)計和分析來掌握消費者的消費行為、興趣偏好和產(chǎn)品的市場口碑現(xiàn)狀,再根據(jù)這些總結(jié)出來的行為、興趣愛好和產(chǎn)品口碑現(xiàn)狀,制定有針對性的營銷方案和營銷戰(zhàn)略,投消費者所好,那么其帶來的營銷效應(yīng)是可想而知的。大數(shù)據(jù)支撐旅游行業(yè)收益管理要達到收益管理的目標,需求預(yù)測、細分市場和敏感度分析是此項工作的三個重要環(huán)節(jié),而這三個的環(huán)節(jié)推進的基礎(chǔ)就是大數(shù)據(jù)。需求預(yù)測:是通過對建構(gòu)的大數(shù)據(jù)統(tǒng)計與分析,采取科學的預(yù)測推演方法,通過建立數(shù)學模型,了解旅游行業(yè)潛在的市場需求,未來一段時間每個細分市場的產(chǎn)品銷售量和產(chǎn)品價格走勢等,在不同的市場波動周期以合適的產(chǎn)品和價格投放市場,獲得潛在的收益。細分市場:為企業(yè)預(yù)測銷售量和實行差別定價提供了條件,其科學性體現(xiàn)在通過旅游行業(yè)市場需求預(yù)測來制定和更新價格,最大化各個細分市場的收益。敏感度分析:是通過需求價格彈性分析技術(shù),對不同細分市場的價格進行優(yōu)化,最大限度地挖掘市場潛在的收入。大數(shù)據(jù)創(chuàng)新旅游行業(yè)需求開發(fā)互聯(lián)網(wǎng)交互性大數(shù)據(jù)蘊藏巨大的價值:隨著論壇、博客、微博、微信、電商平臺、點評網(wǎng)等媒介在PC 端和移動端的創(chuàng)新和發(fā)展,公眾分享信息變得更加便捷自由,而公眾分享信息的主動性促使了“網(wǎng)絡(luò)評論”這一新型輿論形式的發(fā)展。成千上億的網(wǎng)絡(luò)評論形成了交互大數(shù)據(jù),其中蘊藏了巨大的旅游行業(yè)需求開發(fā)價值。對互聯(lián)網(wǎng)評論數(shù)據(jù)的搜集和分析,能有效提高市場競爭力和收益能力,也是大數(shù)據(jù)價值所在:消費者對旅游服務(wù)及產(chǎn)品簡單表揚與評批演變得更加的客觀真實,游客的評價內(nèi)容也更趨于專業(yè)化和理性化,發(fā)布的渠道也更加廣泛。作為旅游局和企業(yè),如果能對網(wǎng)上旅游行業(yè)的評論數(shù)據(jù)進行收集,建立網(wǎng)評大數(shù)據(jù)庫,然后再利用分詞、聚類、情感分析了解消費者的消費行為、價值趣向、評論中體現(xiàn)的新消費需求和旅游品質(zhì)中存在問題,以此來改進和創(chuàng)新產(chǎn)品,制訂合理的價格及提高服務(wù)質(zhì)量,都會有效地提高市場競爭力和收益能力。旅游輿情監(jiān)測服務(wù):輿情監(jiān)測:基于全球領(lǐng)先的互聯(lián)網(wǎng)采集監(jiān)控技術(shù)而研發(fā),具有發(fā)現(xiàn)快,信息全,分析準的優(yōu)勢??勺層脩粞塾^六路耳聽八方,在第一時間發(fā)現(xiàn)負面輿情,第一時間全面了解民意民情動態(tài),平臺及時反映最新輿情信息自動收集呈現(xiàn)口碑監(jiān)測:論壇、微博、博客、新聞評論作是目前網(wǎng)民在網(wǎng)絡(luò)上發(fā)表個人意見,由于網(wǎng)民的數(shù)量龐大,發(fā)表信息沒有門檻,相關(guān)信息傳播速度極快,其形成的輿論力量正深刻改變著網(wǎng)民的思想形態(tài)和社會面貌。2.2總體建設(shè)需求建立一個統(tǒng)一的超過300TB大數(shù)據(jù)平臺;建立統(tǒng)一的旅游大數(shù)據(jù)平臺系統(tǒng),可以快速管理、擴展、配置期貨公司內(nèi)部的各種業(yè)務(wù)服務(wù)和數(shù)據(jù)存儲服務(wù),并能夠提供相應(yīng)服務(wù)冗余性;建立基于云平臺的大數(shù)據(jù)存儲管理與分析系統(tǒng),可以管理旅游平臺時實數(shù)據(jù),并能根據(jù)數(shù)據(jù)情況和IP數(shù)據(jù)報文情況進行綜合分析;建立基于云平臺的大數(shù)據(jù)旅游管理與分析系統(tǒng),可以方便的把市的旅游信息數(shù)據(jù)分析匯總,進行問題篩選評估,制定規(guī)范的旅游制度;通過建立統(tǒng)一的旅游大數(shù)據(jù)平臺運維管理系統(tǒng),可以快速提高技術(shù)人員對所有IT資源的管理應(yīng)用能力,保障公司實際的設(shè)備資源、網(wǎng)絡(luò)資源能夠得到充分的使用,同時也能夠提高公司能效節(jié)約的能力。旅游大數(shù)據(jù)平臺總體規(guī)劃設(shè)計整體建設(shè)思想旅游大數(shù)據(jù)平臺將利用云計算相關(guān)技術(shù),結(jié)合綠色數(shù)據(jù)中心建設(shè)的目標和需求,以戰(zhàn)略支持型信息化建設(shè)為導(dǎo)向,以支持保障信息化業(yè)務(wù)發(fā)展為建設(shè)思路,構(gòu)造一個功能齊全、設(shè)備先進、運行高效、使用靈活、維護方便、易于擴展、投資省、高安全可靠的全局性基于旅游大數(shù)據(jù)資源中心。整體系統(tǒng)結(jié)構(gòu)本次旅游大數(shù)據(jù)平臺解決方案將針對計算服務(wù)整體架構(gòu)中的云計算服務(wù)區(qū),通過對底層服務(wù)器硬件及存儲資源實現(xiàn)虛擬化聚合部署,配合以云計算管理平臺,實現(xiàn)云計算中基礎(chǔ)架構(gòu)即服務(wù)(IaaS)部分,同時該IaaS平臺也為旅游信息發(fā)布平臺、大數(shù)據(jù)分析平臺、web發(fā)布平臺等(Paas)層提供更高層次的云計算服務(wù),通過Paas層平臺提供數(shù)據(jù)匯集管理、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用功能(Saas層),戶提供服務(wù),總體邏輯架構(gòu)如下:市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE第頁PAGE18旅游管理部門旅游景點旅行社其他用戶旅游管理部門旅游景點旅行社其他用戶統(tǒng)一管理統(tǒng)一門戶系統(tǒng)門戶統(tǒng)一管理門戶應(yīng)用功能區(qū)數(shù)據(jù)匯集管理數(shù)據(jù)處理數(shù)據(jù)服務(wù)數(shù)據(jù)應(yīng)用業(yè)務(wù)運營資源發(fā)放日志管理運維管理監(jiān)控管理資源池存儲資源池(含容災(zāi)備份)虛擬機資源池虛擬機管理集群存儲管理旅游大數(shù)據(jù)平臺基礎(chǔ)架構(gòu):提供了一個功能完整的、標準開放的方便集成的IaaS服務(wù)層。這層提供的動態(tài)基礎(chǔ)架構(gòu)是整個旅游大數(shù)據(jù)平臺的核心支撐層,其最核心的部分包括采用了國產(chǎn)服務(wù)器、國產(chǎn)存儲存儲系統(tǒng)和虛擬化軟件構(gòu)建的云計算服務(wù)基礎(chǔ)架構(gòu)。該基礎(chǔ)架構(gòu)具備良好的性能、可用性和可靠性。通過部署虛擬化軟件、服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備,內(nèi)部搭建虛擬化環(huán)境,通過虛擬化技術(shù)構(gòu)建新一代的數(shù)據(jù)中心,形成統(tǒng)一的云計算旅游信息系統(tǒng)平臺。在數(shù)據(jù)中心,這些資源根據(jù)需要進行動態(tài)擴展和配置,各單位最終信息系統(tǒng)業(yè)務(wù)按需使用資源。通過虛擬化技術(shù),增強數(shù)據(jù)中心的可管理性,提高應(yīng)用的兼容性和可用性,加速應(yīng)用的部署,提升硬件資源的利用率,降低能源消耗。旅游大數(shù)據(jù)平臺層:通過大數(shù)據(jù)分析平臺、辦公OA系統(tǒng)、財務(wù)管理系統(tǒng)、svn管理系統(tǒng)、web等功能。旅游大數(shù)據(jù)平臺服務(wù)門戶:為用戶提供統(tǒng)一的服務(wù)門戶,用以支撐整個旅游大數(shù)據(jù)平臺的日常運營。包括用戶登錄、服務(wù)加載、下載、審批、疊加顯示、拼接請市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE22第頁PAGE22求等功能。旅游大數(shù)據(jù)平臺服務(wù)數(shù)據(jù)安全保護:通過部署云安全平臺,可以幫助用戶建立起一個既能充分利用云計算優(yōu)勢,同時又不犧牲安全性、控制力和遵從性的環(huán)境,其為虛擬數(shù)據(jù)中心和云計算環(huán)境提供了支持虛擬化的保護,使用戶可以加強應(yīng)用程序和數(shù)據(jù)安全,提高可見性和控制力,以及加快整個旅游大數(shù)據(jù)平臺的遵從性舉措。旅游大數(shù)據(jù)平臺服務(wù)運維管理體系:為整個旅游大數(shù)據(jù)平臺搭建一套長期運維管理的體系,為旅游大數(shù)據(jù)平臺的長期有效運行提供保障。云計算運維管理體系包括組織管理模式、制度規(guī)范體系、技術(shù)支撐體系等多個層面的內(nèi)容,采用云計算技術(shù)手段和云計算管理制度結(jié)合的方式保障整個政務(wù)云平臺的平穩(wěn)運行。圖3-3 數(shù)據(jù)中心組件邏輯架構(gòu)3.3計算資源和存儲資源配置估算3.3計算資源和存儲資源是云中心的兩大類核心資源。對計算資源和存儲資源的合理估算和配置,是建設(shè)先進、高效云平臺的必要條件。以下給出我們根據(jù)旅游大數(shù)據(jù)平臺現(xiàn)有業(yè)務(wù)應(yīng)用和數(shù)據(jù)資源所作出的云中心計算資源、存儲資源、基礎(chǔ)網(wǎng)絡(luò)和安全設(shè)施的初步估算。經(jīng)詳細調(diào)研計算資源需要cpu計算單元320核內(nèi)存5120G存儲空間300TB。擬新增10臺高性能服務(wù)器,供云計算、云存儲使用,新增2臺高性能服務(wù)器器供云安全平臺使用。旅游大數(shù)據(jù)平臺資源層規(guī)劃設(shè)計旅游大數(shù)據(jù)平臺基礎(chǔ)架構(gòu)體系設(shè)計原則方案設(shè)計遵循以下幾個原則:先進性、標準性、實用性、可擴展性、兼容性、易用性、安全性、可靠性和前瞻性:據(jù)存儲等技術(shù)。符合最新的技術(shù)發(fā)展潮流,且各系統(tǒng)設(shè)計切實可行、并容易實現(xiàn)。具體包括:遵循標準的整體協(xié)議框架、提供標準接口、使用標準的數(shù)據(jù)傳輸協(xié)議等。的實際需要。方便地實現(xiàn)系統(tǒng)的平滑擴展和升級。便,操作簡單,管理方便。應(yīng)用以及管理上全面的保障系統(tǒng)的安全??煽啃韵到y(tǒng)設(shè)計注重可靠性,能夠長期穩(wěn)定工作,保證7*24小時不間斷地穩(wěn)定可靠運行,適應(yīng)工作環(huán)境能力強,故障率低,維護維修方便。前瞻性系統(tǒng)設(shè)計具有前瞻性,整個系統(tǒng)的硬件配置,應(yīng)符合長遠的規(guī)劃和設(shè)計,保證3年內(nèi)系統(tǒng)的需要。通過需求分析我們可以得知,本次項目建設(shè)項目的設(shè)計目標是構(gòu)造一個功能齊全、設(shè)備先進、運行高效、使用靈活、維護方便、易于擴展、投資省、高安全可靠的信息系統(tǒng)。云計算技術(shù)的出現(xiàn)卻給我們一最佳的選擇,隨著數(shù)據(jù)信息的增長,技術(shù)也需要隨之變化。這些變化常常實施在運行關(guān)鍵業(yè)務(wù)應(yīng)用的復(fù)雜系統(tǒng)內(nèi)。通常會對共享硬件和軟件資源有越來越多的需求,虛擬環(huán)境下有效的管理和控制了這種需求。虛擬化是通過對IT硬件資源整合、優(yōu)化、共享的成熟高新技術(shù),是實現(xiàn)云計算最基礎(chǔ)的支撐技術(shù)。它可以有效增加組織的靈活性和效率,同時又可以降低其成本。虛擬化技術(shù)以其系統(tǒng)的先進性、高可用性、系統(tǒng)的靈活擴展能力、開放性以及高可管理性等可完全滿足當前和未來幾年內(nèi)云數(shù)據(jù)平臺信息系統(tǒng)的發(fā)展需求。4.1.2 系統(tǒng)總體架構(gòu)通過部署虛擬化軟件、服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備,內(nèi)部搭建虛擬化環(huán)境,通過虛擬化技術(shù)構(gòu)建新一代的數(shù)據(jù)中心,形成統(tǒng)一的旅游大數(shù)據(jù)信息系統(tǒng)平臺。在數(shù)據(jù)中心,所有資源整合后在邏輯上以單一整體的形式呈現(xiàn),這些資源根據(jù)需要進行動態(tài)擴展和配置,各單位最終信息系統(tǒng)業(yè)務(wù)按需使用資源。通過虛擬化技術(shù),增強數(shù)據(jù)中心的可管理性,提高應(yīng)用的兼容性和可用性,加速應(yīng)用的部署,提升硬件資源的利用率,降低能源消耗。虛擬化是云計算的基礎(chǔ),在數(shù)據(jù)中心,通過虛擬化技術(shù)將物理服務(wù)器進行虛擬化,具體為CPU虛擬化、內(nèi)存虛擬化、設(shè)備I/O虛擬化等,實現(xiàn)在單一物理服務(wù)器上運行多個虛擬服務(wù)器(虛擬機),把應(yīng)用程序?qū)Φ讓拥南到y(tǒng)和硬件的依賴抽象出來,從而解除應(yīng)用與市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE24第頁PAGE24操作系統(tǒng)和硬件的耦合關(guān)系,使得物理設(shè)備的差異性與兼容性與上層應(yīng)用透明,不同的虛擬機之間相互隔離、互不影響,可以運行不同的操作系統(tǒng),并提供不同的應(yīng)用服務(wù)。什么是服務(wù)器虛擬化服務(wù)器虛擬化將硬件、操作系統(tǒng)和應(yīng)用程序一同裝入一個可遷移的虛擬機檔案文件中如圖所示:圖3-4服務(wù)器虛擬化在單臺服務(wù)器虛擬化基礎(chǔ)上,通過虛擬化管理中心(vCenter)將多臺服務(wù)器、存儲硬件基礎(chǔ)資源進行整合,構(gòu)建硬件(CPU、內(nèi)存、I/O)資源池,實現(xiàn)數(shù)據(jù)中心整體硬件資源的按需分配。虛擬化結(jié)構(gòu)如圖所示:圖3-5服務(wù)器虛擬化結(jié)構(gòu)將服務(wù)器物理資源抽象成邏輯資源,讓一臺服務(wù)器變成幾臺甚至上百臺相互隔離的虛擬服務(wù)器,或者讓幾臺服務(wù)器變成一臺服務(wù)器來用,我們不再受限于物理上的界限,而是讓CPU、內(nèi)存、磁盤、I/O簡化系統(tǒng)管理,實現(xiàn)服務(wù)器整合,讓IT對業(yè)務(wù)的變化更具適應(yīng)力,從而構(gòu)建出數(shù)據(jù)中心系統(tǒng)平臺的基礎(chǔ)。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE26第頁PAGE264.1.3虛擬化拓撲的結(jié)構(gòu)圖3-6 虛擬化拓撲結(jié)針對上面的拓撲圖,詳細說明如下:整體架構(gòu)可以分為三層,最底層為存儲網(wǎng)絡(luò)層,中間層為虛擬化系統(tǒng),最上層為虛擬服務(wù)器層;其中,下面的兩層為資源提供方,最上層為資源用戶;而中間層的虛擬化系統(tǒng)又起到了資源分配調(diào)度的作用。部署虛擬化系統(tǒng)之后的整體架構(gòu)和傳統(tǒng)架構(gòu)下是沒很大區(qū)別的,利用共享存儲實現(xiàn)數(shù)據(jù)集中和共享,結(jié)合管理中心實現(xiàn)應(yīng)用系統(tǒng)的統(tǒng)一管理;虛擬化集群的形成,直接為應(yīng)用系統(tǒng)提供了高可用和負載均衡的功能。旅游大數(shù)據(jù)平臺虛擬化組件遷移使運行中的虛擬機從一臺物理服務(wù)器實時遷移到另一臺物理服務(wù)器,同時保持業(yè)務(wù)的連續(xù)運行。實現(xiàn)了零停機時間和連續(xù)可用的服務(wù),并能全面保證事務(wù)的完整性。是用于創(chuàng)建動態(tài)、自動化、自我優(yōu)化的數(shù)據(jù)中心的關(guān)鍵促成技術(shù)。圖3-7擬機遷移高可靠性(HA)自動監(jiān)控物理服務(wù)器的可用性。可檢測物理服務(wù)器故障,如果檢測到故障,可重新在資源池中其他物理服務(wù)器上啟動虛擬機,整個過程無需人工干預(yù)。該功能組件比傳統(tǒng)的雙機冷備更具有自動啟動的優(yōu)勢。圖3-8高可靠性(HA)市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE第頁PAGE36容錯功能相當于雙機熱備,但是比傳統(tǒng)的雙機熱備更具有優(yōu)勢,它可以時刻在兩個不同的物理服務(wù)器上保持兩個相同的鏡像,其中一臺出現(xiàn)故障時,不影響業(yè)務(wù)的運行,同時自動在另一臺物理服務(wù)器上建立以特相同的鏡像,物理服務(wù)器不受硬件型號配置的限制。
圖3-9容錯跨資源池不間斷地監(jiān)控利用率,并在多臺虛擬機之間智能地分配可用資源,使資源優(yōu)先用于最重要的應(yīng)用程序,以便讓資源與業(yè)務(wù)目標相協(xié)調(diào)。自動、不間斷地優(yōu)化硬件利用率,以響應(yīng)不斷變化的情況。為業(yè)務(wù)部門提供專用的虛擬基礎(chǔ)結(jié)構(gòu),同時讓IT部門能夠集中、全面地控制硬件。圖4-1動態(tài)資源分配(DRS)4.2.5 分布式電源管理可用管理系統(tǒng)中,為了在虛擬化環(huán)境中能達到節(jié)能減排放的作用,設(shè)置了DPM的功能。這是一個高級電源管理功能它可以提供當虛擬化環(huán)境中不需要那么大的運算資源的的時候同過統(tǒng)一管理平臺功能管理模塊相結(jié)合??梢允菍崿F(xiàn)當我們的業(yè)務(wù)系統(tǒng)在不需要云平臺提供那么大的計算能力的時候,為了節(jié)能減排放.通過自動調(diào)度將某些服務(wù)器上的虛擬機通過在線遷移的方式自動遷移到平臺中的其它物理服務(wù)器中運行,將空閑服務(wù)器進行下電。當業(yè)務(wù)重新增長后,需要平臺提供大規(guī)模計算的時候,會重新啟動該服務(wù)器加入到平臺中,為虛擬服務(wù)器提供運算支持。圖4-2 分布式電源管理分布式集群存儲平臺方案拓撲圖
圖4-3分布式集群存儲架構(gòu)圖分布式存儲系統(tǒng)主要由云平臺下的應(yīng)用服務(wù)器集群、智能存儲服務(wù)器集群、元數(shù)據(jù)服務(wù)器集群三大部分組成,配置存儲服務(wù)器10臺,元數(shù)據(jù)服務(wù)器2臺。等。應(yīng)用服務(wù)器上需要安裝分布式的應(yīng)用服務(wù)器模塊高效的訪問存儲。智能存儲服務(wù)器集群:由萬兆存儲服務(wù)器組成。存儲用戶的實際數(shù)據(jù),是整個分布式存儲系統(tǒng)的存儲資源提供者。當應(yīng)用服務(wù)器進行數(shù)據(jù)訪問時,存儲服務(wù)器集群提供實際的數(shù)據(jù)IO服務(wù)。數(shù)據(jù)IO壓力能夠非常均衡的分布在存儲服務(wù)器集群之間。元數(shù)據(jù)服務(wù)器集群:由萬兆元數(shù)據(jù)存儲服務(wù)器組成。管理文件系統(tǒng)的元數(shù)據(jù)(包括文件目錄樹組織、屬性維護、文件操作日志記錄、授權(quán)訪問等),管理整個存儲系統(tǒng)的命名空間,對外提供單一的系統(tǒng)映像,并負責整個存儲集群的管理監(jiān)控。元數(shù)據(jù)服務(wù)器協(xié)調(diào)指揮應(yīng)用服務(wù)器和存儲服務(wù)器之間的活動,并且元數(shù)據(jù)服務(wù)器集群能夠均衡的負擔整個分布式集群存儲系統(tǒng)的相關(guān)元數(shù)據(jù)訪問負載。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE38第頁PAGE38本期項目配置10臺存儲服務(wù)器2提供高性能共享存儲系統(tǒng);計算節(jié)點均通過以太網(wǎng)交換機與存儲系統(tǒng)能共享存儲系統(tǒng)連接。工作機通過以太網(wǎng)與存儲系統(tǒng)相連。計算節(jié)點均安裝集群系統(tǒng)客戶端,可根據(jù)權(quán)限以本地盤符的方式訪問文件級統(tǒng)一命名空間,對存儲系統(tǒng)進行并發(fā)訪問,而且所有計算節(jié)點均通過光纖直接共享存儲系統(tǒng)中數(shù)據(jù),充分發(fā)揮光纖高帶寬,低延遲的特點,提高了效率。系統(tǒng)具有良好的可靠性和冗余措施,元數(shù)據(jù)服務(wù)器成對配置,當其中1臺發(fā)生故障后,另1臺會自動接替系統(tǒng)服務(wù),最大程度保證業(yè)務(wù)時效性。隨著規(guī)模、容量的不斷增加可以通過在線添加擴展柜的方式,擴展系統(tǒng)的容量、 IO寬和負載能力。4.3.3 系統(tǒng)軟件旅游大數(shù)據(jù)平臺系統(tǒng)管理支撐系統(tǒng)旅游大數(shù)據(jù)平臺系統(tǒng)支撐系統(tǒng)是數(shù)據(jù)中心的核心系統(tǒng),在此系統(tǒng)上可以快速配置和部署各種營運支持系統(tǒng)(OA辦公系統(tǒng)、財務(wù)系統(tǒng)、CRM客戶關(guān)系系統(tǒng)、交易支撐系統(tǒng)、大數(shù)據(jù)交易數(shù)據(jù)管理系統(tǒng)與分析系統(tǒng)、大數(shù)據(jù)情報數(shù)據(jù)管理系統(tǒng)與分析系統(tǒng))等;云系統(tǒng)面向旅游大數(shù)據(jù)平臺,如大型企業(yè)私有數(shù)據(jù)中心、公有云平臺、行業(yè)云服務(wù)平臺等,提供從底層資源,到上層應(yīng)用和數(shù)據(jù)管理的一體化管理平臺,支持云基礎(chǔ)架構(gòu)以及各類物理資源、虛擬資源的管理,為網(wǎng)絡(luò)應(yīng)用提供安全、可靠的運行支撐環(huán)境,并面向大數(shù)據(jù)應(yīng)用提供多源異構(gòu)大數(shù)據(jù)的存儲與處理。產(chǎn)品定位管資源:快速地構(gòu)建起跨地域的云平臺基礎(chǔ)架構(gòu),對其中的物理資源和虛擬資源進行靈活的管理,對用戶的IT需求實現(xiàn)快速的交付,并且支持資源彈性動態(tài)擴展。管應(yīng)用:支撐業(yè)務(wù)應(yīng)用的開發(fā)、測試、部署和維護等整個生命周期過程,并全方位監(jiān)控應(yīng)用的運行情況,及時對應(yīng)用資源進行彈性伸縮,確保最大的應(yīng)用穩(wěn)定性和可靠性。管數(shù)據(jù):對結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)提供統(tǒng)一存儲,并且為應(yīng)用提供相應(yīng)的接口,并可以進行大數(shù)據(jù)分析和可視化展現(xiàn)。支撐大數(shù)據(jù)應(yīng)用開發(fā)。用軟件:支持軟件服務(wù)化接入,實現(xiàn)軟件服務(wù)的上線、訂購、開通、使用、下線等全生命周期管理。云應(yīng)用希望以云計算的模式對本單位的信息化平臺進行管理和運營的金融、期貨等行業(yè)望對數(shù)據(jù)中心進行云化并提供彈性云主機服務(wù)的服務(wù)商需要快速完成開發(fā)、測試和部署運行,簡化應(yīng)用開發(fā)和發(fā)布流程的軟件企業(yè)致力于行業(yè)軟件開發(fā),并希望搭建行業(yè) SaaS云服務(wù)平臺的軟件服務(wù)提供商需要采集、存儲、處理來自物聯(lián)網(wǎng)、互聯(lián)網(wǎng)的大數(shù)據(jù)并進行分析的企事業(yè)單位市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE第頁PAGE40產(chǎn)品架構(gòu)物理資源層。物理資源層包括支撐云系統(tǒng)自身運行和提供服務(wù)所需的物理基礎(chǔ)設(shè)施,云系統(tǒng)可對分布在旅游大數(shù)據(jù)平臺的各類物理資源進行統(tǒng)一集中管理與運維,提供數(shù)據(jù)中心、物理資源兩級資源管理,支持多數(shù)據(jù)中心管理。基礎(chǔ)架構(gòu)層?;A(chǔ)架構(gòu)層是云系統(tǒng)的核心技術(shù)支撐層,由一個虛擬化管理平臺、三大管理組件和四大核心引擎組成。該層的核心支撐是虛擬化管理平臺,基于虛擬化管理平臺,將支撐資源、數(shù)據(jù)和應(yīng)用管理的核心技術(shù)封裝為資源管理、大數(shù)據(jù)管理和運行平臺管理三大管理組件,并將云管理平臺的共性支撐技術(shù)封裝為調(diào)度、服務(wù)、數(shù)據(jù)、監(jiān)控四大引擎服務(wù),為上層服務(wù)和應(yīng)用提供基礎(chǔ)支撐。服務(wù)層。服務(wù)層是云系統(tǒng)提供服務(wù)的核心支撐層,除資源、數(shù)據(jù)、應(yīng)用三大核心服務(wù)組件外,服務(wù)層還兼容第三方服務(wù)。服務(wù)層還為支撐服務(wù)開發(fā)與管理提供了服務(wù)目錄、服務(wù)封裝、服務(wù)集成和服務(wù)質(zhì)量組件,通過通用接口規(guī)范對外提供服務(wù)。應(yīng)用層。應(yīng)用層主要為應(yīng)用開發(fā)與自動化部署提供技術(shù)支撐,包括開發(fā)、測試、生產(chǎn)環(huán)境的流程化定制與自動化部署,對應(yīng)用運行環(huán)境的監(jiān)控,對應(yīng)用所需資源的彈性伸縮調(diào)度。通過應(yīng)用層的技術(shù)支撐,用戶可基于云系統(tǒng)平臺快速開發(fā)并部署應(yīng)用,同時可直接發(fā)布到云系統(tǒng)云平臺提供云應(yīng)用。門戶層。門戶層包括兩部分:用戶自服務(wù)門戶和運營管理門戶,用戶自服務(wù)門戶集成了用戶所需的虛擬數(shù)據(jù)中心管理運維以及應(yīng)用部署等功能;運營管理門戶則集成了云平臺運營所需的資源管理、服務(wù)管理以及計量計費等功能。平臺管理體系。平臺管理體系包括三部分:運維管理體系、安全體系和標準規(guī)范體系。運維管理體系針對云系統(tǒng)的資源管理架構(gòu)規(guī)范了各種監(jiān)控、報警、日志等日常運維管理機制;安全體系針對云系統(tǒng)提供的資源、數(shù)據(jù)和應(yīng)用服務(wù)提供了一系列安全管理機制;標準規(guī)范體系則對云系統(tǒng)的資源管理、數(shù)據(jù)管理、服務(wù)管理提供了一系列開發(fā)與管理的技術(shù)規(guī)范和操作規(guī)程。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE44第頁PAGE44產(chǎn)品體系云系統(tǒng)是一套由多個軟件構(gòu)成的軟件套裝,有多個軟件或者模塊組成。云系統(tǒng)采用分布式部署方式,各個軟件或模塊之間采用松耦合的架構(gòu)進行交互,易于擴展,易于根據(jù)用戶需求進行定制和實施。產(chǎn)品架構(gòu)圖如下圖所示。核心架構(gòu)平臺。采用業(yè)內(nèi)先進的云計算技術(shù)構(gòu)建的自主可控的虛擬化、資源調(diào)度以及服務(wù)管理平臺,支持KVM、Xen、VMware等主流虛擬化技術(shù)。運維管理系統(tǒng)。平臺運維管理員使用該系統(tǒng),對計算、存儲、網(wǎng)絡(luò)等各類云資源以及整個平臺的基礎(chǔ)架構(gòu)進行管理,支持資源的全方位監(jiān)控和應(yīng)用集群的彈性伸縮。運營管理系統(tǒng)。平臺運營管理員使用該系統(tǒng),對平臺服務(wù)進行發(fā)布、計費、受理等運營管理,對所有平臺租戶及其訂單進行管理。服務(wù)管理系統(tǒng)。基于平臺基礎(chǔ)服務(wù),形成整個平臺的服務(wù)目錄,并可按照一定的策略對服務(wù)進行組裝和編排。另外對服務(wù)的使用情況進行計量;提供開放接口,支持服務(wù)集成。自服務(wù)系統(tǒng)。云平臺租戶使用該系統(tǒng),申請云主機、云硬盤等各類虛擬資源,部署、運行并監(jiān)控業(yè)務(wù)系統(tǒng)。云安全保障。身份認證、訪問控制、容災(zāi)等,另外還包括從物理層、虛擬層到服務(wù)層、應(yīng)用層的安全保障體系。產(chǎn)品功能融合管理的云基礎(chǔ)架構(gòu)將多地傳統(tǒng)數(shù)據(jù)中心快速整合并虛擬化,兼容各種異構(gòu)的x86服務(wù)器、各種品牌的存儲設(shè)備及網(wǎng)絡(luò)設(shè)備。按需交付、彈性擴展的IaaS服務(wù)云主機:Windows、Linux全系列虛擬機,并可根據(jù)用戶需求進行定制。云硬盤:各種規(guī)格的云硬盤的快速掛載和使用。私有網(wǎng)絡(luò):構(gòu)建獨立的虛擬路由器、虛擬交換機和子網(wǎng),良好的網(wǎng)絡(luò)隔離。負載均衡:構(gòu)建負載均衡集群,某節(jié)點宕機不影響業(yè)務(wù)系統(tǒng)運行。云集群:彈性應(yīng)用集群,自定義彈性策略,根據(jù)集群負載自動伸縮。數(shù)據(jù)備份:支持主機備份、硬盤備份、異地災(zāi)備等多種備份方式。無需配置、一鍵即用的PaaS服務(wù)云數(shù)據(jù)庫:快速創(chuàng)建MySQL、SQLServer、MangoDB數(shù)據(jù)庫URL并訪問使用,無需安裝配置。運行時:快速創(chuàng)建Tomcat、IIS、Apache等主流運行時服務(wù)?;ヂ?lián)互通、數(shù)據(jù)的大數(shù)據(jù)服務(wù)大數(shù)據(jù)存儲:對象存儲,企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)存儲服務(wù),打造專屬私有“云盤”;物聯(lián)數(shù)據(jù)存儲,來自傳感器的海量半結(jié)構(gòu)數(shù)據(jù)存儲服務(wù)。大數(shù)據(jù)分析:定制數(shù)據(jù)挖掘算法和模型,支持海量數(shù)據(jù)的分析、挖掘和可視化展現(xiàn)。數(shù)據(jù)整合共享:無障礙獲取業(yè)務(wù)系統(tǒng)數(shù)據(jù),實現(xiàn)數(shù)據(jù)共享和交換,打通“信息孤島”。信息資源中心:抽取、清洗、轉(zhuǎn)換業(yè)務(wù)系統(tǒng)數(shù)據(jù),建立企業(yè)級信息資源中心,形成信息資源目錄,開放數(shù)據(jù)規(guī)范接口,支持新應(yīng)用開發(fā)。一處安裝、多租戶共用的SaaS服務(wù)SaaS管理服務(wù)平臺:構(gòu)建SaaS用,打造一站式辦公門戶。SaaS服務(wù)化改造和標準化接入:將傳統(tǒng)BS應(yīng)用進行服務(wù)化改造為多租戶模式,按照統(tǒng)一接口規(guī)范集成至SaaS服務(wù)平臺,全面支持SaaS服務(wù)運營。全方位、多方式的監(jiān)控預(yù)警服務(wù)監(jiān)控預(yù)警:對物理資源、虛擬資源以及應(yīng)用的全方位監(jiān)控和多方式預(yù)警,可自定義資源監(jiān)控指標,100多種指標任意組合集群存儲系統(tǒng)集群存儲系統(tǒng)的特點(1)數(shù)據(jù)負載能力現(xiàn)有的諸多存儲方案一般都不具備存儲容量動態(tài)擴展的能力,而且經(jīng)過動態(tài)擴展之后如果沒有數(shù)據(jù)動態(tài)負載均衡的功能,即使存儲系統(tǒng)的容量增長,性能不會隨之增長。負載均衡模塊是專門針對存儲擴展性需求較高的應(yīng)用環(huán)境而提供。當存儲系統(tǒng)按需在線動態(tài)擴展容量之后,管理員可以選擇在合適的時間啟動或者停止負載均衡軟件,該功能將數(shù)據(jù)在存儲服務(wù)器之間遷移,直到數(shù)據(jù)分布較為均衡停止。通過負載均衡模塊的數(shù)據(jù)遷移工作,分布式集群存儲系統(tǒng)的性能能夠隨著容量的增長而線性增長。圖3-2圖4-4自動均衡數(shù)據(jù)分布示意圖(2)靈活冗余能力靈活冗余模塊是一種高效的數(shù)據(jù)保護方式,通過將冗余數(shù)據(jù)同時存放到不同的存儲服務(wù)器上來對數(shù)據(jù)進行保護,不但消除了單點故障,還能夠提高數(shù)據(jù)并發(fā)訪問性能。冗余數(shù)據(jù)存放在不同的服務(wù)器上防止數(shù)據(jù)丟失和存儲服務(wù)中斷。而且用戶可以將不同的數(shù)據(jù)設(shè)置不同的冗余數(shù)據(jù)等級,當冗余等級越高,數(shù)據(jù)就能夠在極端惡劣的情況保證數(shù)據(jù)的完整性和服務(wù)的連續(xù)性。(3)故障自動恢復(fù)能力故障自動恢復(fù)模塊內(nèi)置有一整套完整的故障恢復(fù)流程,能夠自動探測集群存儲系統(tǒng)內(nèi)各類可能出現(xiàn)的故障,如磁盤損壞、系統(tǒng)宕機、網(wǎng)絡(luò)中斷等。該軟件一旦發(fā)現(xiàn)了軟硬件故障就會立刻啟動相應(yīng)的故障處理恢復(fù)流程對數(shù)據(jù)進行相應(yīng)的恢復(fù)保護,確保數(shù)據(jù)的完整性,并且整個恢復(fù)過程完全不影響業(yè)務(wù)連續(xù)運行。而且由于故障自動恢復(fù)軟件能夠提供的是整個集群全局的數(shù)據(jù)恢復(fù),充分的利用了集群內(nèi)的空閑資源進行相應(yīng)的處理,能夠高出RAID據(jù)恢復(fù)速度確保數(shù)據(jù)完整性,為業(yè)務(wù)長期穩(wěn)定運行打下基礎(chǔ)。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE第頁PAGE45圖圖4-5硬件故障恢復(fù)示意圖(4)大目錄支持能力傳統(tǒng)的存儲方案都存在著文件數(shù)量、單目錄下文件數(shù)量等諸多限制,并且當存儲系統(tǒng)內(nèi)文件數(shù)量到達一定數(shù)量時,文件的檢索效率就會急劇下降,從而影響了業(yè)務(wù)的運行效率。圖4-6集群存數(shù)文件市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE48第頁PAGE48集群系統(tǒng)大目錄支持軟件打破了存儲系統(tǒng)在面向海量小文件時的種種限制,提供了幾乎無限的單目錄文件數(shù)量支持、高效的文件檢索效率支持,幫助企業(yè)解決海量小文件存儲帶來的煩惱。系統(tǒng)功能及特點海量數(shù)據(jù)高效管理隨著資料處理業(yè)務(wù)的增多,存儲系統(tǒng)中將積累大量的數(shù)據(jù),這就需要存儲系統(tǒng)能夠容納海量的數(shù)據(jù)。同時,存儲系統(tǒng)里面的文件數(shù)量也會快速增長,當文件數(shù)量增長到數(shù)千萬以上時,文件的檢索查找等操作將會給文件系統(tǒng)帶來巨大的壓力,特別是一個目錄下面存放的文件超過一定數(shù)量甚至會造成文件查找效率急劇下降。分布式集群存儲系統(tǒng)單卷可支持300PB以上的存儲空間,高效的管理上千億個文件,單目錄可以高效支持千萬級的文件數(shù)量。分布式集群存儲系統(tǒng)擁有高效的多元數(shù)據(jù)服務(wù)器集群技術(shù)和高效的海量文件檢索技術(shù),在存放上千億文件的同時保持極高的文件檢索效率。分布式集群存儲系統(tǒng)能夠在單個目錄下高效管理上千萬個文件的存儲系統(tǒng),在單目錄下存放上千萬數(shù)量文件時,仍然能夠提供每秒數(shù)萬的文件檢索效率。單目錄下高達千萬級的文件,單一文件系統(tǒng)文件數(shù)量支持超過千億(實際案例:260文件);單個共享文件系統(tǒng)支持上百PB級(4500TB、1024應(yīng)用節(jié)點支持實際案例);不停機在線擴展系統(tǒng)容量;數(shù)據(jù)讀寫性能分布式集群存儲系統(tǒng)通過多臺存儲服務(wù)器提供同時數(shù)據(jù)存取服務(wù)的方法以滿足大量應(yīng)用服務(wù)器的并發(fā)訪問需求。在應(yīng)用服務(wù)器端,當應(yīng)用程序往存儲系統(tǒng)上寫文件時,文件將會被根據(jù)一定大小進行分片存放到多臺存儲服務(wù)器上;在應(yīng)用程序讀文件時,則并發(fā)的從多個服務(wù)器上讀取數(shù)據(jù)。由于大量的數(shù)據(jù)IO請求都被分散到多臺存儲服務(wù)器上,使得所有的存儲服務(wù)器上的磁盤性能和網(wǎng)絡(luò)帶寬都可以同時得到充分的利用,這樣分布式集群存儲系統(tǒng)的聚合帶寬由多臺的存儲服務(wù)器上的IO帶寬相加而成,從而克服了NAS的單一出口點所造成性能瓶頸,可以滿足多臺應(yīng)用節(jié)點并發(fā)訪問的帶寬需求。通過實現(xiàn)多存儲服務(wù)器的并發(fā)數(shù)據(jù)訪問支持,消除了傳統(tǒng)存儲方案中常見的負載不均導(dǎo)致的熱點數(shù)據(jù)問題。分布式通過數(shù)據(jù)在存儲服務(wù)器集群中的條帶化分布實現(xiàn)高效、全面的負載均衡功能,充分利用硬件和網(wǎng)絡(luò)的性能,發(fā)揮出最高IO吞吐量。提供高達數(shù)百GB/s的IO帶寬和上百萬的單套存儲系統(tǒng)支撐數(shù)千個應(yīng)用節(jié)點并發(fā)訪問數(shù)據(jù);不停機在線擴展IO帶寬;系統(tǒng)故障自動恢復(fù)和負載均衡,保證性能隨規(guī)模線性增長;數(shù)據(jù)全局共享分布式大規(guī)模集群存儲系統(tǒng)采用文件系統(tǒng)全局命名空間,所有計算節(jié)點都可看到一致文件系統(tǒng)視圖。數(shù)據(jù)的全局共享可以加強各計算節(jié)點之間的協(xié)作,提高了作業(yè)的運行效率。而且數(shù)據(jù)的統(tǒng)一管理也方便用戶數(shù)據(jù)的統(tǒng)一管理,并簡化應(yīng)用系統(tǒng)的開發(fā)。
圖4-7多用戶訪問示意圖基于數(shù)據(jù)安全性方面的考慮,用戶可以通過分布式配置工具設(shè)置數(shù)據(jù)相應(yīng)的安全等級,選擇將數(shù)據(jù)和校驗數(shù)據(jù)分別存放在不同的存儲服務(wù)器上。分布式存儲系統(tǒng)可以同時使用多條高速數(shù)據(jù)通道,可消除網(wǎng)絡(luò)層的單點故障,進一步提高系統(tǒng)的高可用性。在這樣的情況下,即使出現(xiàn)存儲服務(wù)器宕機、網(wǎng)絡(luò)中斷、磁盤損壞時,仍然能夠保障數(shù)據(jù)完整性和數(shù)據(jù)服務(wù)的持續(xù)運系統(tǒng)將會立刻發(fā)現(xiàn)該異常并自發(fā)的啟動數(shù)據(jù)恢復(fù)流程,利用存放于其它存儲服務(wù)器中該部分數(shù)據(jù)的校驗數(shù)據(jù)重新生成一份以保證數(shù)據(jù)仍有一定的冗余度。由于分布式的數(shù)據(jù)恢復(fù)是基于真實丟失的數(shù)據(jù),并且數(shù)據(jù)恢復(fù)是通過整個存儲集群同時并發(fā)進行,所以相對于傳統(tǒng)的RAID具備更快的數(shù)據(jù)重建速度,這也能夠有效提升數(shù)據(jù)的安全性。通過將數(shù)據(jù)和校驗數(shù)據(jù)存放在不同存儲服務(wù)器的方法可以對一系列的軟硬件故障(網(wǎng)絡(luò)、主機、磁盤等)進行自動的隔離,消除了存儲系統(tǒng)的任何單點故障,而且也無需配置任何復(fù)雜的配置。用數(shù)據(jù)全局冗余技術(shù)取代Raid,提供了史無前例的可靠性;可根據(jù)不同數(shù)據(jù)定制的數(shù)據(jù)安全性保證;系統(tǒng)自動探測故障并恢復(fù),實現(xiàn)最高的業(yè)務(wù)連續(xù)性保證;系統(tǒng)可擴展性需中斷應(yīng)用的運行。用戶可以通過分布式的配置工具動態(tài)添加存儲服務(wù)器以擴大系統(tǒng)的容量和規(guī)模,而且隨著存儲服務(wù)器數(shù)據(jù)的增多,整套系統(tǒng)的聚合帶寬也會線性的增長,完全可以滿足業(yè)務(wù)不斷發(fā)展所產(chǎn)生的容量和性能需求。而工業(yè)標準的通用硬件良好的兼容性和可獲得性方便了整套存儲系統(tǒng)將來的使用和擴展,分布式支持在1小時內(nèi)部署上百TB的存儲系統(tǒng),無縫的在線增加存儲容量。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE第頁PAGE54圖4-8傳統(tǒng)與分布式擴展對比與現(xiàn)有環(huán)境無縫兼容環(huán)境,如使用通用的以太網(wǎng)絡(luò)作為數(shù)據(jù)傳輸通道可以確保充分利用現(xiàn)有的環(huán)境,并且可以無需對環(huán)境做出任何修改。另外分布式能夠直接支持Linux、Windows、Mac等常用的操作系統(tǒng)之間進行數(shù)據(jù)共享,無需對操作系統(tǒng)做任何修改,所以能夠無縫的接入到企業(yè)現(xiàn)有的軟硬件環(huán)境。系統(tǒng)的整體擁有成本分布式大規(guī)模集群存儲系統(tǒng)能夠極大的降低構(gòu)建和運維成本,主要有以下幾點:極大地提高了數(shù)據(jù)可用性:通過分布式內(nèi)置的高可用和故障自動恢復(fù)功能等卓越的功能,無需任何第三方軟件,極大減少了系統(tǒng)由于維護或備份恢復(fù)所需的大量時間,從而徹底提高了企業(yè)的生產(chǎn)效率。數(shù)據(jù)的充分共享:數(shù)據(jù)可以被前端的各種類型的主機共享,無需在Linux和Windows、Mac系統(tǒng)之間進行數(shù)據(jù)遷移。這允許一個數(shù)據(jù)拷貝被所有人員與進程共享,大大減少了對不同環(huán)境下相同的數(shù)據(jù)的多種形式的管理費用。存儲的運維成本:由于分布式采用了通用、企業(yè)級的硬件構(gòu)建,具有極高的性價比和兼容性。管理員可以輕易的掌握分布式的運維管理,使得培訓支出上的費用大大減少。使用分布式提高投資回報率真正的按需購買分布式存儲系統(tǒng)的動態(tài)可擴展技術(shù),使得用戶可以按需擴展存儲容量,無需一次性投入大量成本來構(gòu)建存儲系統(tǒng),有效降低了用戶投資的風險。內(nèi)置的高可用架構(gòu)在傳統(tǒng)的NAS和SAN系統(tǒng)中,高可用意味著價格高昂的軟件和冗余硬件。高存儲空間利用率分布式存儲系統(tǒng)將所有的存儲設(shè)備聚合成單一的存儲池,提供給所有的前端應(yīng)用服務(wù)器集群共享訪問,克服了使用傳統(tǒng)的DAS和SAN時所出現(xiàn)的存儲設(shè)備利用率不均衡的情況。安全應(yīng)用隔離分布式存儲系統(tǒng)可以將不同的應(yīng)用在邏輯上進行隔離,不同應(yīng)用之間的存儲內(nèi)容相互獨立,有效降低人為因素造成的數(shù)據(jù)損壞,大幅度提升了存儲內(nèi)容的安全性和數(shù)據(jù)的完整性。降低管理及運行成本——簡易存儲更低的存儲架構(gòu)規(guī)劃成本分布式存儲系統(tǒng)可與用戶的現(xiàn)有應(yīng)用環(huán)境無縫連接,便捷地加入到用戶的應(yīng)用環(huán)境中,并即時對外提供存儲服務(wù)。無需像傳統(tǒng)存儲系統(tǒng)一樣對大量復(fù)雜的硬件設(shè)備進行長期的分析、規(guī)劃和配置,大大節(jié)約了前期的規(guī)劃成本,極大提高了存儲系統(tǒng)部署的效率??焖俚陌惭b及配置用戶可在極短時間內(nèi)為分布式存儲系統(tǒng)部署上百TB存儲空間和上千臺應(yīng)用服務(wù)器。無需像SAN那樣對光纖交換機、光纖適配器等大量的專用硬件進行配置,極大簡化了配置流程。簡易管理分布式存儲系統(tǒng)簡單靈活的管理模塊極大降低了管理員對系統(tǒng)管理的參與程度,減化了管理員操作出錯風險,有效降低了系統(tǒng)的管理成本。減少培訓費用分布式存儲系統(tǒng)采用圖形化管理工具,極大簡化了對系統(tǒng)使用的復(fù)雜度,減短了對管理員的培訓時間。提高用戶應(yīng)用的生產(chǎn)力提高應(yīng)用服務(wù)器之間的協(xié)作效率分布式存儲系統(tǒng)對外提供單一的系統(tǒng)映像,所有的應(yīng)用服務(wù)器都看到相同的文件視圖。集中的數(shù)據(jù)共享存儲,方便用戶各業(yè)務(wù)部門之間進行數(shù)據(jù)協(xié)同處理,極大提高了用戶的整體生產(chǎn)效率。圖4-9應(yīng)用協(xié)作對比圖快速的數(shù)據(jù)交付市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE58第頁PAGE58分布式存儲系統(tǒng)提供的數(shù)據(jù)讀寫加速技術(shù)極大縮短了對應(yīng)用程序的響應(yīng)時間,每秒高達幾十萬個的文件檢索速度輕易的滿足互聯(lián)網(wǎng)等文件密集型應(yīng)用的需求。快速的故障恢復(fù)分布式存儲系統(tǒng)高效的自動數(shù)據(jù)恢復(fù)技術(shù),使得故障恢復(fù)時間是通用RAID之一,恢復(fù)過程不影響相應(yīng)業(yè)務(wù)的運行,保證業(yè)務(wù)的連續(xù)性。基于大數(shù)據(jù)的旅游數(shù)據(jù)管理與分析系統(tǒng)大數(shù)據(jù)經(jīng)濟情報綜合分析平臺和大數(shù)據(jù)交易數(shù)據(jù)管理與分析系統(tǒng)分別是兩款大數(shù)據(jù)平臺軟件產(chǎn)品,都是集成海量數(shù)據(jù)的采集、過濾、轉(zhuǎn)換、存儲、檢索、查詢、統(tǒng)計、分析、可視化與安全管理等全生命周期管理的綜合系統(tǒng),但對數(shù)的關(guān)注點和管理方式有很大的不同。系統(tǒng)不僅提供了常用的數(shù)據(jù)采集,檢索,分析功能,而且還提供了基本的檢索,分析功能單元,可以根據(jù)各種行業(yè)應(yīng)用和最終用戶的需求,進行不同的組合,適應(yīng)用戶的不同業(yè)務(wù)場景,完成大規(guī)模行業(yè)數(shù)據(jù)的挖掘分析和應(yīng)用對接。作為大數(shù)據(jù)分析平臺,系統(tǒng)具有如下特點:軟硬件國產(chǎn)自主可控多源異構(gòu)數(shù)據(jù)接入數(shù)據(jù)關(guān)聯(lián)融合、統(tǒng)一訪問大規(guī)模、高性能、可擴展高可靠、高可用大數(shù)據(jù)平臺介紹平臺功能框架大數(shù)據(jù)平臺必須是一個開放的體系,相關(guān)軟件系統(tǒng)和硬件設(shè)備應(yīng)是業(yè)界主流產(chǎn)品,遵循國家標準、行業(yè)標準,保證平臺、設(shè)備、管理系統(tǒng)能夠隨時無障礙地進行更新和移植。大數(shù)據(jù)管理平臺還應(yīng)遵循統(tǒng)一的標準規(guī)范,充分考慮與外部系統(tǒng)(務(wù)系統(tǒng)等)的接口。
4A及其它網(wǎng)管系統(tǒng)、業(yè)支撐數(shù)據(jù)挖掘、數(shù)據(jù)實時存儲和訪問、ETL計算平臺這三類業(yè)務(wù)應(yīng)用。分布式存儲功能基于XX布式KV存數(shù)據(jù)庫,以及面向用戶業(yè)務(wù)的各類工具軟件和庫支持?;诜植际酱鎯ζ脚_,用戶可以以非常低的時間代價構(gòu)建大規(guī)模企業(yè)大數(shù)據(jù)一體化解決方案。文檔數(shù)據(jù)庫圖片音視頻郵件消息關(guān)系型數(shù)據(jù)關(guān)系型數(shù)據(jù)非關(guān)系型數(shù)據(jù)流式數(shù)據(jù)多維數(shù)據(jù)Hbase
HDFS
DB DSQLGraphDB龍威集群存儲(申威國產(chǎn)平臺)圖4-1存儲組件的結(jié)構(gòu)圖圖是存儲組件的結(jié)構(gòu)圖,主要包括如下功能組件:分布式集群存儲:基于對象的高性能分布式文件存儲系統(tǒng)。DFS:分布式文件系統(tǒng)。HBase:分布式Key-Value數(shù)據(jù)庫。DSQL:分布式關(guān)系數(shù)據(jù)庫。GraphDB:并行圖數(shù)據(jù)庫。DB:傳統(tǒng)數(shù)據(jù)庫。集群存儲系統(tǒng)基于自主可控的XX硬件平臺,采用帶外分布式架構(gòu),隔離元數(shù)據(jù)信息與數(shù)據(jù)信息,降低二者之間的性能干擾,采用對象存儲技術(shù)將文件切片分布式存儲在存儲服務(wù)器集群上,充分利用所有存儲服務(wù)器硬件性能,并且同時對客戶端提供訪問服務(wù),形成高效聚合帶寬,增加業(yè)務(wù)讀寫效率。Hadoop分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem)能提供高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集方面的應(yīng)用。通過聚合數(shù)十上百臺,甚至數(shù)千臺服務(wù)器本地文件系統(tǒng)的吞吐能力,HDFS提供同時對超大數(shù)據(jù)文件的訪問能力。分布式計算功能MapReduce是一種簡化并行計算的編程模型,名字源于該模型中的兩項核心操作:Map和Reduce。Map將一個任務(wù)分解成為多個任務(wù),Reduce來,得出最終的分析結(jié)果。MapReduce適合于半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析。NoSQL功能HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),其設(shè)計目標是用來解決關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時的局限性。HBase使用場景有如下幾個特點:海量數(shù)據(jù)(TB或PB級別以上);需要很高的吞吐量;需要在海量數(shù)據(jù)中實現(xiàn)高效的隨機讀??;需要很好的伸縮能力;能夠同時處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù);不需要完全擁有傳統(tǒng)關(guān)系型數(shù)據(jù)庫所具備的ACID特性。UnitedHadoopHBase支持地理容災(zāi)、二級索引等高級特性,滿足極高可靠性和開發(fā)易用性要求。HBase詢、詳單查詢等業(yè)務(wù)。數(shù)據(jù)倉庫功能Hive是一個建立在Hadoop上的數(shù)據(jù)倉庫框架,提供類似SQL的HQL語言操作結(jié)構(gòu)化數(shù)據(jù),其基本原理是將HQL語言自動轉(zhuǎn)換成MapReduce任務(wù),從而完成對Hadoop儲的海量數(shù)據(jù)進行查詢和分析。Hive主要特點如下:通過HQL語言非常容易的完成數(shù)據(jù)提取、轉(zhuǎn)換和加載(通過HQL完成海量結(jié)構(gòu)化數(shù)據(jù)分析;靈活的數(shù)據(jù)存儲格式,支持 JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFIL等E存儲格式,并支持自定義擴展;Hive的主要應(yīng)用于海量數(shù)據(jù)的離線分析(如日志分析,集群狀態(tài)分析)、大規(guī)模的數(shù)據(jù)挖掘(區(qū)域展示)等場景下。為保證Hive服務(wù)的高可用性、用戶數(shù)據(jù)的安全及訪問服務(wù)的可控制,UnitedHadoop的Hive具有如下特性:基于kerberos技術(shù)的安全認證機制;數(shù)據(jù)文件加密機制;雙機熱備;完善的權(quán)限管理。Hive適合于結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析。分布式協(xié)調(diào)功能ZooKeeper是一個分布式、高可用性的協(xié)調(diào)服務(wù)。在Hadoop系統(tǒng)中主要提供兩個功能:一個功能是幫助系統(tǒng)避免單點故障,建立可靠的應(yīng)用程序,另一個功能是提供分布式協(xié)作服務(wù)和維護配置信息。ZooKeeper主要特點:順序一致性:按照客戶端發(fā)送請求的順序更新數(shù)據(jù)。原子性:更新要么成功,要么失敗,不會出現(xiàn)部分更新。單一性:無論客戶端連接哪個server,都會看到同一個視圖。可靠性:一旦數(shù)據(jù)更新成功,將一直保持,直到新的更新。及時性:客戶端會在一個確定的時間內(nèi)得到最新的數(shù)據(jù)。旅游工作數(shù)據(jù)流管理功能Oozie是一個用來管理Hadoopjob任務(wù)的工作流引擎,Oozie流程基于有向無環(huán)圖(DirectedAcyclicalGraph)來定義和描述,支持多種工作流模式及流程定時觸發(fā)機制。易擴展、易維護、可靠性高,與Hadoop生態(tài)系統(tǒng)各組件緊密結(jié)合。Oozie主要特點:支持分發(fā)、聚合、選擇等工作流流程模式;與Hadoop生態(tài)系統(tǒng)各組第頁PAGE59第頁PAGE59XX市旅游大數(shù)據(jù)平臺解決方案件緊密結(jié)合;流程變量支持參數(shù)化;支持流程定時觸發(fā);提供了HA機制;自帶一個WebConsole,提供了流程查看、流程監(jiān)控、日志查看等功能。維護管理功能提供的維護管理功能是Hadoop平臺的維護管理系統(tǒng),是Hadoop系統(tǒng)操作和維護的統(tǒng)一入口,提供操作的定義和流程引導(dǎo),并對于系統(tǒng)中的各項資源運行情況和操作進行監(jiān)控記錄,為系統(tǒng)的日常維護提供依據(jù);運維管理包括升級向?qū)?、日常向?qū)?、日志收集與分析、告警、監(jiān)控、安裝向?qū)?、配置管理、審計管理、用戶管理等。備份和容?zāi)、用戶和應(yīng)用接入安全、集群組件HA和數(shù)據(jù)私密性。集群管理系統(tǒng)負責整個系統(tǒng)的管理,包括北向接口、南向接口和本地管理GUI北向接口包括OM類的Syslog、SNMP,以及安全管理對接接口LDAP。本地管理GUI界面提供系統(tǒng)中各類軟硬件的圖形化維護入口,包括日常維護,以及安裝、升級和擴容向?qū)У?。旅游中心分析系統(tǒng)架構(gòu)系統(tǒng)管理設(shè)備管理軟件管理報表統(tǒng)計設(shè)備管理軟件管理報表統(tǒng)計自定義業(yè)務(wù)模型授權(quán)流程業(yè)務(wù)定義授權(quán)流程業(yè)務(wù)定義日志審計報表統(tǒng)計檢索消息中心用戶權(quán)限業(yè)務(wù)管理數(shù)據(jù)庫WEB服務(wù)器基本算子分類聚類圖形算子文件提取信令提取內(nèi)容分析信令提取內(nèi)容分析數(shù)據(jù)匯聚協(xié)議還原重點業(yè)務(wù)數(shù)據(jù)海量普通數(shù)據(jù)基礎(chǔ)數(shù)據(jù)分布式文件分布式數(shù)據(jù)庫采集 存儲、分析圖4-2旅游中心分析系統(tǒng)架構(gòu)圖
業(yè)務(wù)管理如上圖所示,作為一款綜合分析平臺,平臺可以分為四個大的子系統(tǒng)。包括:采集子系統(tǒng)、存儲分析子系統(tǒng)、業(yè)務(wù)管理子系統(tǒng)、系統(tǒng)管理子系統(tǒng)。市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE62第頁PAGE62存儲分析子系統(tǒng)又自下而上可以分三層,情報來源方式、數(shù)據(jù)類型存儲方式、關(guān)聯(lián)分析模型算法以及業(yè)務(wù)跟蹤與各種類型報表。非格式數(shù)據(jù)的分類存儲系統(tǒng)采用分布式文件、分布式數(shù)據(jù)庫、分布式集群計算等多種分布式技術(shù)作為構(gòu)建系統(tǒng)的基礎(chǔ)平臺,使得整個系統(tǒng)平臺具有了高擴展、高容錯、高性能、高可用的能力。采集子系統(tǒng)提供多種接口,支持對不同數(shù)據(jù)源的采集,支持對多種數(shù)據(jù)類型的提取信息,同時對采集的數(shù)據(jù)進行分析提取,對數(shù)據(jù)內(nèi)容進行匹配過濾,將各種類型的數(shù)據(jù)分門別類的存儲到存儲分析子系統(tǒng)中,供后者分析使用。子系統(tǒng)提供對多種文檔類型的導(dǎo)入功能,包括word,ppt,execl,pdf,rtf,txt等多種文件類型;以及各種視頻、圖片格式的支持。對格式化數(shù)據(jù)的全文檢索合多線索加權(quán)檢索業(yè)務(wù)管理子系統(tǒng)管理客戶的大數(shù)據(jù)分析業(yè)務(wù),系統(tǒng)提供用戶權(quán)限、業(yè)務(wù)管理、數(shù)據(jù)全文檢索、業(yè)務(wù)定義等功能模塊,滿足客戶業(yè)務(wù)分析的管理需求,通過全文檢索和加權(quán)檢索,可以把不同的旅游內(nèi)容針對一個時間、事件進行關(guān)聯(lián)起來,并形成事件發(fā)展趨勢的分析圖表,用來提供領(lǐng)導(dǎo)層對旅游項目的決策和分析。4-3旅游中心數(shù)據(jù)分析統(tǒng)計圖完善的旅游中心分析報表系統(tǒng)系統(tǒng)運維子系統(tǒng)管理整個系統(tǒng)的設(shè)定運行,實現(xiàn)系統(tǒng)的高可用性,高擴展性。存儲分析子系統(tǒng)是整個系統(tǒng)的核心部分。實現(xiàn)海量數(shù)據(jù)的存儲、檢索、分析等功能。實現(xiàn)對目標數(shù)據(jù)、圖像信息、聲音信息、視頻等各種文件類型的海量存儲,實現(xiàn)對這些類型的文件的關(guān)鍵字快速檢索結(jié)果,并形成各種形式的業(yè)務(wù)報表系統(tǒng)。國內(nèi)旅游形勢分析事件、非物質(zhì)旅游、民俗旅游數(shù)據(jù),分析每個地區(qū)的旅游發(fā)展趨勢;按照全國地域分析各地方旅游根據(jù)旅游名稱可以方便把各個地方旅游趨勢圖、經(jīng)濟熱點分布圖分析出來;按照全國人文風情數(shù)據(jù)技術(shù)分析民俗旅游的趨向;根據(jù)各個旅游部門每天的公開的信息數(shù)據(jù),可以分析各種活動的趨勢圖(技術(shù)分析)用戶可以定制所關(guān)心的數(shù)據(jù)統(tǒng)計圖根據(jù)存在的數(shù)據(jù)和定義的算法,用戶可以定義自己關(guān)心的數(shù)據(jù)統(tǒng)計圖;數(shù)據(jù)分類存儲與自動化數(shù)據(jù)引擎據(jù)的統(tǒng)一可靠的存儲管理,對外提供統(tǒng)一的分布式調(diào)用接口,提供文件、數(shù)據(jù)庫、索引等多種存儲形式。基本算法模塊層:提供大數(shù)據(jù)分析的各種基本算法模塊,支持多種計算模型的分布式計算框架,為上層業(yè)務(wù)系統(tǒng)提供專業(yè)的計算處理庫。業(yè)務(wù)處理層:基于底層提供的算法模塊和基礎(chǔ)數(shù)據(jù),完成各種業(yè)務(wù)分析處理,同時支持對基本算法的組合定義,實現(xiàn)客戶自定義的業(yè)務(wù)處理任務(wù)。數(shù)據(jù)總線是系統(tǒng)運行的一個重要基礎(chǔ)架構(gòu),整個系統(tǒng)中,包括子系統(tǒng)之間,子系統(tǒng)內(nèi)部均采用數(shù)據(jù)總線技術(shù),實現(xiàn)子系統(tǒng)之間和子系統(tǒng)內(nèi)部的數(shù)據(jù)和消息傳遞。數(shù)據(jù)總線支持數(shù)據(jù)和消息的緩存、中轉(zhuǎn)、分發(fā)、調(diào)度等。數(shù)據(jù)總線是計算與存儲的樞紐,同時是內(nèi)外數(shù)據(jù)交換的通道,完成數(shù)據(jù)在組件間及層次間中轉(zhuǎn)、緩沖及調(diào)度。產(chǎn)品特點:各種異構(gòu)數(shù)據(jù)接入海量數(shù)據(jù)存儲,高可用,高擴展提供各種基本算法,可以組合業(yè)務(wù)模型基于權(quán)限管理業(yè)務(wù),控制用戶訪問業(yè)務(wù)和數(shù)據(jù).2.4 旅游數(shù)據(jù)存儲管理分析系統(tǒng)架構(gòu)旅游大數(shù)據(jù)平臺通過運行在單獨的服務(wù)器上的云操作系統(tǒng)對服務(wù)器、存儲、網(wǎng)絡(luò)等資源進行虛擬化管理,提供可以自定義的虛擬機,在虛擬機上安裝 Hadoop、hbase等分布式數(shù)據(jù)庫集群,對現(xiàn)有的數(shù)據(jù)ETL采集、清洗、轉(zhuǎn)換、匯總進來,使用海量數(shù)據(jù)分布存儲技術(shù),用spark、storm等大數(shù)據(jù)處理軟件對hbase中的數(shù)據(jù)進行分析處理,挖掘數(shù)據(jù)價值。還可以在虛擬機上運行業(yè)務(wù)應(yīng)用系統(tǒng),提供負載均衡和冗余備份,達到系統(tǒng)的穩(wěn)定、高可用和方便的擴展性。主要用來儲存旅游數(shù)據(jù)的格式化數(shù)據(jù)系統(tǒng),通過把大量的格式化旅游數(shù)據(jù),通過數(shù)據(jù)采集量、采集時間段、采集算法、采集方式、采集內(nèi)容、采集性質(zhì)、采集IP址等關(guān)注的內(nèi)容,用來分析中國民俗旅游、非物質(zhì)旅游等他們的趨勢;市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE第頁PAGE64圖4-4旅游中心數(shù)據(jù)交互傳輸圖如上圖所示;從用戶訪問到數(shù)據(jù)信息交互、應(yīng)用、傳輸、分析、存儲、身份驗證;這些機制大大的提高了數(shù)據(jù)的應(yīng)用和安全;用戶層到應(yīng)用層再從數(shù)據(jù)庫中調(diào)取查詢信息,大數(shù)據(jù)分析并進行統(tǒng)計再反饋給查詢者,統(tǒng)一的身份認證層以及分析決策層面分布規(guī)律多節(jié)點集成方便用戶訪問。
(移動端pc端)、應(yīng)用層和數(shù)據(jù)數(shù)據(jù)按照旅游分類存儲系統(tǒng)根據(jù)各種民俗、人文領(lǐng)域的特性,分類存儲各種數(shù)據(jù)和其關(guān)聯(lián)的其他信息數(shù)據(jù);數(shù)據(jù)按照信息分類趨勢分析根據(jù)活動數(shù)據(jù)的大數(shù)據(jù)分析,系統(tǒng)能夠快速的分析出每種旅游領(lǐng)域的走勢圖,并根據(jù)技術(shù)分析,可以預(yù)測未來的發(fā)展趨向。.3大數(shù)據(jù)統(tǒng)一平臺分布式數(shù)據(jù)總線是分析系統(tǒng)的數(shù)據(jù)通路,其基于分布式內(nèi)存實現(xiàn),可實現(xiàn)高速的數(shù)據(jù)交換、緩沖及轉(zhuǎn)換、遷移等。各子系統(tǒng)之間和子系統(tǒng)內(nèi)部的各個組件之間通過分布式數(shù)據(jù)總線互聯(lián),實現(xiàn)數(shù)據(jù)在組件間的交換及同步;外部數(shù)據(jù)源接入內(nèi)部存儲組件前也要先經(jīng)過數(shù)據(jù)總線進行緩沖、交換等預(yù)處理操作;此外為支持一體機對異構(gòu)數(shù)據(jù)的關(guān)聯(lián)融合,提供對異構(gòu)數(shù)據(jù)的關(guān)聯(lián)加載,并可利用數(shù)據(jù)總線的高速緩沖區(qū)進行多集合數(shù)據(jù)的join統(tǒng)一格式轉(zhuǎn)換等處市旅游大數(shù)據(jù)平臺解決方案XX市旅游大數(shù)據(jù)平臺解決方案XX第頁PAGE72第頁PAGE72理;此外數(shù)據(jù)總線還可完成對異構(gòu)存儲組件內(nèi)數(shù)據(jù)聯(lián)合的功能,可支持上層一次操作對異構(gòu)數(shù)據(jù)集的聯(lián)合查詢。數(shù)據(jù)總線處于數(shù)據(jù)傳輸?shù)年P(guān)鍵路徑上,因而對數(shù)據(jù)傳輸流起到控制作用,可完成對數(shù)據(jù)的分發(fā)和調(diào)度。同時還可根據(jù)上層存儲訪問的不同需求自動將數(shù)據(jù)分發(fā)到相應(yīng)的存儲組件,同時做到對上層透明。提供如下關(guān)鍵特性:各組件間數(shù)據(jù)融合、緩存、交換提供異構(gòu)數(shù)據(jù)接入、分發(fā)及數(shù)據(jù)關(guān)聯(lián)操作的內(nèi)存融合數(shù)據(jù)流高速路由/分發(fā)基于配置策略的數(shù)據(jù)分發(fā)MQ/Buf/Mcache同時提供分布式消息隊列(MessageQueue分布式內(nèi)存管理提供邏輯統(tǒng)一視圖,同時支持高可靠基于流池的動態(tài)均載基于流粒度的均載策略,保證流內(nèi)一致性可定制分發(fā)策略動態(tài)可定制、基于數(shù)據(jù)特點、類型及標簽的分發(fā)策略內(nèi)存互備/硬盤同步支持節(jié)點間內(nèi)存互備以及內(nèi)存與硬盤的持久化動態(tài)擴展支持Broker節(jié)點的動態(tài)在線添加數(shù)據(jù)采集數(shù)據(jù)采集子系統(tǒng)的主要功能包括:實現(xiàn)多源數(shù)據(jù)的快速匯入、解析,分析,過濾等功能。提供便捷的數(shù)據(jù)交換API,支持多種方式接入數(shù)據(jù)。多樣化的協(xié)同代理,支持多種常用的數(shù)據(jù)獲取形式,并能根據(jù)需求快速增加新類型協(xié)同代理。支持多種常見的文檔數(shù)據(jù)格式導(dǎo)入:包括圖像數(shù)據(jù)、矢量實錄、目標數(shù)據(jù)、聲音數(shù)據(jù)、視頻數(shù)據(jù)等。數(shù)據(jù)采集子系統(tǒng)分為多源數(shù)據(jù)接入模塊、數(shù)據(jù)總線模塊、分析過濾模塊三部分。系統(tǒng)入口通過多個協(xié)同代理agent對接不同數(shù)據(jù)源,并在對數(shù)據(jù)進行格式統(tǒng)一轉(zhuǎn)換,封裝后以統(tǒng)一的格式發(fā)送到數(shù)據(jù)總線中。分析過濾模塊通過統(tǒng)一數(shù)據(jù)獲取接口從數(shù)據(jù)總線中訂閱數(shù)據(jù)。數(shù)據(jù)接入數(shù)據(jù)預(yù)處理模塊主要功能包括:實現(xiàn)多業(yè)務(wù)數(shù)據(jù)的分布式抽取,數(shù)據(jù)過濾,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)加載等 ETL操作對海量實時數(shù)據(jù)的規(guī)范化處理;數(shù)據(jù)接入模塊提供對多種接入數(shù)據(jù)的處理。對海量流式數(shù)據(jù)可提供過濾、識別、檢測、業(yè)務(wù)識別等預(yù)處理操作,同時可與后續(xù)流處理引擎對接;對web抓取數(shù)據(jù)可提供URL查重、實體抽取、數(shù)據(jù)格式封裝、數(shù)據(jù)清洗等預(yù)處理功能,處理完的數(shù)據(jù)進入數(shù)據(jù)總線,由分析模塊分析提取數(shù)據(jù)中的信息,為數(shù)據(jù)入庫做好準備。規(guī)則過濾據(jù)。模塊完成以下功能:任務(wù)輪詢模塊負責輪詢?nèi)蝿?wù)并加載規(guī)則。如果任務(wù)符合重建條件,則加載所有任務(wù)的規(guī)則,并出發(fā)規(guī)則重建。規(guī)則解析解析規(guī)則內(nèi)容。規(guī)則過濾獲取實時流文檔,并通過規(guī)則熱切換獲取最新的多模匹配狀態(tài)機。規(guī)則重建模塊根據(jù)任務(wù)輪詢獲取的任務(wù)列表,建立多模匹配狀態(tài)機。任務(wù)輪詢不斷查詢數(shù)據(jù)庫以獲取更新的任務(wù)列表,實時過濾輪詢定期輪詢?nèi)蝿?wù)數(shù)據(jù)庫,查時過濾模塊。規(guī)則重建主要是將任務(wù)輪詢獲取的所有有效任務(wù)進行規(guī)則解析,提取關(guān)鍵詞,構(gòu)建多模匹配狀態(tài)機。則,對文檔進行實時過濾。數(shù)據(jù)存儲數(shù)據(jù)存儲層提供企業(yè)級大數(shù)據(jù)平臺軟件一體化解決方案;并支持儲層不僅提供統(tǒng)一、穩(wěn)定、高效的存儲子系統(tǒng),還整合了先進的分布式集群資源管理和進程調(diào)度方案、高性能數(shù)據(jù)總線技術(shù)、全并行架構(gòu)分布式關(guān)系數(shù)據(jù)庫、分布式KV存數(shù)據(jù)庫,以及面向上層業(yè)務(wù)的各類工具軟件和庫支持。數(shù)據(jù)存儲層采用了存儲服務(wù)器集群和元數(shù)據(jù)服務(wù)器集群通過千兆以太網(wǎng)絡(luò)/萬兆以太網(wǎng)絡(luò)構(gòu)建,具備極高的擴展性和可靠性。消除集群內(nèi)的單點故障,避免因為故障而導(dǎo)致服務(wù)中斷或者數(shù)據(jù)丟失等影響,并且打破了傳統(tǒng)存儲系統(tǒng)架構(gòu)上的限制。分布式列數(shù)據(jù)庫可支持大于幾十個節(jié)點,PB存儲規(guī)模的scale-out;性能上其針對具體大數(shù)據(jù)應(yīng)用場景進行深度定制和調(diào)優(yōu),尤其對于高吞吐率入庫和實時檢索場景;功能上除了支持標準的K-V訪問接口之外,還可較好的兼容SQL標準及JDBC接口,可以很好的與既有數(shù)據(jù)分析業(yè)務(wù)對接。尤其在索引性能優(yōu)化及對后綴和全文索引的支持上都有顯著優(yōu)勢。在應(yīng)用場景方面,分布式列數(shù)據(jù)庫常被用作全量基礎(chǔ)數(shù)據(jù)的組織和存儲(包括結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)),同時提供對此全量數(shù)據(jù)的實時查詢;可兼容傳統(tǒng)數(shù)據(jù)倉庫OLAP場景,對復(fù)雜SQL分析可提供近實時的分析性能。從而可同時支持對大數(shù)據(jù)的實時查詢和復(fù)雜離線分析。計算引擎功能計算引擎是大數(shù)據(jù)綜合分析平臺中進行數(shù)據(jù)處理分析的基礎(chǔ)。其主要包括分布式計算框架及數(shù)據(jù)分析算子兩大部分。統(tǒng)一計算引擎系統(tǒng)滿足如下功能需求:提供支持大數(shù)據(jù)分析的計算框架,包括MapReduce、內(nèi)存計算等并行計算框架,具備靈活定制型、彈性擴展等特性。提供面向大規(guī)模異構(gòu)數(shù)據(jù)源的抽取功能和異構(gòu)數(shù)據(jù)源統(tǒng)一組織模型,具備異構(gòu)數(shù)據(jù)的融合能力?;诜植际接嬎憧蚣艿臋C器學習與數(shù)據(jù)挖掘、文本檢索、數(shù)值分析、地理位置計算、檢索統(tǒng)計等通用算子集;對海量實時數(shù)據(jù)的統(tǒng)計特征的快速提?。ㄈ鏼ax,min,average,sum等)。組成圖4-6:計算引擎結(jié)構(gòu)圖如上圖所示,計算引擎分兩個層次:分布式計算框架和其上的各種基本計算模型。分布式計算框架提供對主流計算框架的支持以及編程接口,包括MapReduce存計算框架等,分布式計算框架負責管理整個系統(tǒng)中的計算資源和數(shù)據(jù)資源,合理調(diào)度各個計算節(jié)點上的計算任務(wù)。計算框架提供一下功能:計算資源管理。計算任務(wù)跟蹤。計算任務(wù)容錯處理計算結(jié)果匯聚計算節(jié)點負載監(jiān)控.3.5.3 基本算子集基本算子集提供了數(shù)據(jù)分析中所需要的通用和基本的算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 以學生需求為中心的學校宿舍樓改造與施工管理
- 2024年中成藥制藥生產(chǎn)線項目提案報告模范
- 企業(yè)形象創(chuàng)意標貼的品牌傳播力量
- 2025模具購銷合同范本大全
- 初中化學實驗教學與環(huán)境保護的協(xié)同推進
- 從零開始建立自我驅(qū)動式的學習計劃
- 專業(yè)性體育特色課程的開發(fā)與實施研究
- 公司制度范例匯編【職工管理篇】
- 兒童早期教育與習慣培養(yǎng)的關(guān)系
- 2024-2025學年新教材高中歷史第3單元商業(yè)貿(mào)易與日常生活課時分層作業(yè)8世界市場與商業(yè)貿(mào)易含解析新人教版選擇性必修2
- 貴州民族建筑智慧樹知到期末考試答案章節(jié)答案2024年貴州民族大學
- 漢庭酒店經(jīng)營模式分析
- 2024年江蘇省高中學業(yè)水平合格性考試數(shù)學試卷試題(答案詳解1)
- 幼兒園班級常規(guī)檢查記錄表
- 隨班就讀語文課堂教學活動設(shè)計
- 有關(guān)大學生社會主義核心價值觀的調(diào)查報告論文
- 《火力發(fā)電建設(shè)工程機組調(diào)試技術(shù)規(guī)范》
- 白山市長白朝鮮族自治縣招聘邊境村穩(wěn)邊固邊公益性崗位人員筆試真題2023
- 交響音樂賞析智慧樹知到期末考試答案2024年
- 義務(wù)教育書法課程標準2023版
- 太平洋保險入職測評題答案
評論
0/150
提交評論