大數(shù)據(jù)倉庫建設方案設計_第1頁
大數(shù)據(jù)倉庫建設方案設計_第2頁
大數(shù)據(jù)倉庫建設方案設計_第3頁
大數(shù)據(jù)倉庫建設方案設計_第4頁
大數(shù)據(jù)倉庫建設方案設計_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

..第1章數(shù)據(jù)倉庫建設數(shù)據(jù)倉庫總體架構(gòu)TCMS線數(shù)據(jù),經(jīng)過一系列綜合診斷分析,以各種報表圖形或信息推送的形式向用戶展示分析結(jié)果.,為車輛的故障根因修復提供必要的支持.根據(jù)專家系統(tǒng)數(shù)據(jù)倉庫建設目標,結(jié)合系統(tǒng)數(shù)據(jù)業(yè)務規(guī),包括數(shù)據(jù)采集頻率、數(shù)據(jù)采集量等相關因素,設計專家系統(tǒng)數(shù)據(jù)倉庫架構(gòu)如下:數(shù)據(jù)倉庫架構(gòu)從層次結(jié)構(gòu)上分為數(shù)據(jù)采集、數(shù)據(jù)存、數(shù)據(jù)分析、數(shù)據(jù)服務等幾個方面的容:,StormFlume與傳統(tǒng)的ETL采集工具.Hdfs、HbaseRDBMS相結(jié)合的存儲模式支持海量數(shù)據(jù)的分布式存儲.OLAPSpark常規(guī)機器學習算法.,調(diào)度,并對外提供數(shù)據(jù)服務.數(shù)據(jù)采集專家系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)采集包括兩個局部容:外部數(shù)據(jù)聚集、部各層數(shù)據(jù)的提取與加載.TCMSODS間的數(shù)據(jù)提取、轉(zhuǎn)換與加載.外部數(shù)據(jù)聚集專家數(shù)據(jù)倉庫數(shù)據(jù)源包括列車監(jiān)控與檢測系統(tǒng)〔TCMS系統(tǒng),,實時數(shù)據(jù)采集主要對于各項檢測指標數(shù)據(jù);非實時采集包括日檢修數(shù)據(jù)等.根據(jù)項目信息聚集要求,列車指標信息采集具有采集數(shù)據(jù)量大,采集頻率高的特點,考慮到系統(tǒng)后期的擴展,因此在數(shù)據(jù)數(shù)據(jù)采集方面,要求采集體系支持高吞吐量、高頻率、海量數(shù)據(jù)采集,同時系統(tǒng)應該靈活可配置,可根據(jù)業(yè)務的需要進展靈活配置橫向擴展.Flume+Kafka+Storm的組合架構(gòu),FlumeETLKafkaStormKafkaConsumer,Storm可實現(xiàn)對海量數(shù)據(jù)的實時處理,與時對問題指標進展預警.具體采集系統(tǒng)技術結(jié)構(gòu)圖如下:數(shù)據(jù)聚集架構(gòu)功能Flumeconsole<控制臺>RPC<Thrift-RPC>text<文件tail<UNIXtail>、syslog<syslog日志系統(tǒng),TCPUDP2種模式命令執(zhí)行>等數(shù)據(jù)源上收集數(shù)據(jù)的能力.Flume,console<控制臺>text<>dfs<HDFS文件>、RPC<Thrift-RPC>syslogTCP<TCPsyslog日志系統(tǒng)>等.kafka來接收.Kafka分布式消息隊列,支撐系統(tǒng)性能橫向擴展,通過增加broker來提高系統(tǒng)的性能.Storm流處理技術,支撐Supervisor橫向擴展以提高系統(tǒng)的擴展性和數(shù)據(jù)處理的實時性.采集架構(gòu)優(yōu)勢(一)解耦 ,是極其困難的.消息隊列,實現(xiàn)這一接口.這允許你獨立的擴展或修改兩邊的處理過程,只要確保它們遵守同樣的接口約束.冗余冗余有些情況下,處理數(shù)據(jù)的過程會失敗.除非數(shù)據(jù)被持久化,否如此將造成丟失.消息隊列把數(shù)據(jù)進展持久化直到它們已經(jīng)被完全處理,通過這一方式躲避了數(shù)據(jù)丟失風險.在被許多消息隊列所采用的"插入-獲取-刪除〞式中,在把一個消息從隊列中刪除之前,需要你的處理過程明確的指出該消息已經(jīng)被處理完畢,確保你的數(shù)據(jù)被安全的保存直到你使用完畢.擴展性因為消息隊列解耦了你的處理過程擴展性因為消息隊列解耦了你的處理過程,所以增大消息入隊和處理的頻率是很容易的;只要另外增加處理過程即可.不需要改變代碼、不需要調(diào)節(jié)參數(shù).擴展就像調(diào)大電力按鈕一樣簡單.&峰值處理能力在訪問量劇增的情況下,應用仍然需要繼續(xù)發(fā)揮作用,但是這樣的突發(fā)流量并不常見;如果為以能處理這類峰值訪問為標準來投入資源隨時待命無疑是巨大的浪費不常見;如果為以能處理這類峰值訪問為標準來投入資源隨時待命無疑是巨大的浪費.使用消息隊列能夠使關鍵組件頂住突發(fā)的訪問壓力,而不會因為突發(fā)的超負荷的請求而完全崩潰.可恢復性可恢復性當體系的一局部組件失效,不會影響到整個系統(tǒng).消息隊列降低了進程間的耦合度,所以即使一個處理消息的進程掛掉,參加隊列中的消息仍然可以在系統(tǒng)恢復后被處理恢復后被處理.而這種允許重試或者延后處理請求的能力通常是造就一個略感不便的用戶和一個沮喪透頂?shù)挠脩糁g的區(qū)別.送達保證送達保證消息隊列提供的冗余機制保證了消息能被實際的處理,只要一個進程讀取了該隊列即可.在此根底上,IronMQ提供了一個〞只送達一次〞保證.無論有多少進程在從隊列中領取數(shù)據(jù),每一個消息只能被處理一次.這之所以成為可能,暫時把它移出了隊列.除非客戶端明確的表示已經(jīng)處理完了這個消息,否如此這個消息會被放回隊列中去,在一段可配置的時間之后可再次被處理.緩沖緩沖在任何重要的系統(tǒng)中,都會有需要不同的處理時間的元素.例如,加載一圖片比.消息隊列通過一個緩沖層來幫助任務最高效率的執(zhí)行—,束.該緩沖有助于控制和優(yōu)化數(shù)據(jù)流經(jīng)過系統(tǒng)的速度.異步通信異步通信很多時候,你不想也不需要立即處理消息.消息隊列提供了異步處理機制,允許你把一個消息放入隊列,但并不立即處理它.你想向隊列中放入多少消息就放多少,然后在你樂意的時候再去處理它們.部各層數(shù)據(jù)提取與加載ODS,換提取加載,采用傳統(tǒng)的ETL工具進展采集,數(shù)據(jù)倉庫間的各層次的數(shù)據(jù)采集的實效性根據(jù)具體的數(shù)據(jù)需求而定,ETL建模界面如圖:數(shù)據(jù)加工與處理對于數(shù)據(jù)倉庫平臺,應該建立一套標準化、規(guī)化的數(shù)據(jù)處理流程,例如:如何采集部和外部數(shù)據(jù)、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);如何清洗采集來的臟數(shù)據(jù)和無效數(shù)據(jù);如何對不同來源的數(shù)據(jù)進展打通;如何對非結(jié)構(gòu)化的數(shù)據(jù)進展結(jié)構(gòu)化加工;如何在結(jié)構(gòu)化數(shù)據(jù)的根底上進展商業(yè)建模和數(shù)據(jù)挖掘等等.大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構(gòu)建了一條完整的大數(shù)據(jù)處理流水線.這條流,件,供上層的大數(shù)據(jù)應用來拼裝調(diào)用,讓企業(yè)擁有創(chuàng)造數(shù)據(jù)資產(chǎn)的能力.存儲設計數(shù)據(jù)量估算500100條,18小時,160字節(jié)計算<監(jiān)測數(shù)據(jù)的數(shù)據(jù)項相對簡單>,67列列車計算.單列列車日監(jiān)測數(shù)據(jù)67列列車年數(shù)據(jù)量48T10年總數(shù)據(jù)量<乘上增長系數(shù)10%>≈530T <含操作系統(tǒng)>10年,它不可預測類數(shù)據(jù),530T.數(shù)據(jù)存儲專家系統(tǒng)數(shù)據(jù)采用混合存儲模式進展存儲,RDBMS存儲專家系統(tǒng)業(yè)務根本數(shù)據(jù)1年的監(jiān)測數(shù)據(jù),10NoSQLHBase數(shù)據(jù)庫進展存儲,以方便查詢,HBaseHdfs分布式文件系統(tǒng)搭建,具體存儲模式如如如下圖.RDBMS數(shù)據(jù)庫,支持專家?guī)斓暮诵臉I(yè)務,1,在數(shù)據(jù)庫系統(tǒng)上支撐各種統(tǒng)計分析與傳統(tǒng)的BI業(yè)務.考慮到操作系統(tǒng)存儲、緩存存儲、數(shù)據(jù)庫系統(tǒng)存儲、日志存儲等因素,RDBMS數(shù)據(jù)庫服務器預計每臺60T存儲,考慮數(shù)據(jù)安全與系統(tǒng)穩(wěn)定因素RDBMS采用雙機熱備技術互備.大數(shù)據(jù)平臺規(guī)劃存儲最近10年監(jiān)測數(shù)據(jù),日志文件備份與歷史數(shù)據(jù)采用大數(shù)據(jù)Hadoop和HBase存儲,大數(shù)據(jù)平臺數(shù)據(jù)采用節(jié)點間冗余備份,2倍冗余存儲,〔考慮平臺提供的壓縮技術,壓縮存儲可以節(jié)省30-55%的空間〕.10年數(shù)據(jù)量=530T*≈800T <2倍冗余存儲>分層存儲專家數(shù)據(jù)分三個層次進展聚集與存儲,ODS層,各層次數(shù)據(jù)存儲容如下ODSETL換和數(shù)據(jù)清洗轉(zhuǎn)換,不做關聯(lián)操作.未來也可用于準實時數(shù)據(jù)查詢.ODS通過對數(shù)據(jù)的加工處理,將單一的數(shù)據(jù)信息轉(zhuǎn)換成體系信息,將點信息數(shù)據(jù)變成面信息數(shù)據(jù).ODS數(shù)據(jù)分析建模伴隨著大數(shù)據(jù)時代的悄然降臨,伴隨著大數(shù)據(jù)時代的悄然降臨,數(shù)據(jù)的價值得到人們的廣泛認同,對數(shù)據(jù)的重視提到了前所未有的高度..據(jù)分析模型,以提供決策依據(jù)是很多用戶所迫切解決的問題.專家數(shù)據(jù)倉庫建立在Hadoop分布式系統(tǒng)之上,提供了多種豐富的算法模型,不同的應用通過借助不同的接口實現(xiàn)數(shù)據(jù)的多維呈現(xiàn)和結(jié)果展示,為用戶提供科學的決策支持.圖10-7hadoop算法模型圖OLAP常用算法模型:分類算法:分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別中.如政務網(wǎng)中將用戶在一段時間的網(wǎng)上辦理所遇到的問題劃分成不同的類,根據(jù)情況向用戶推薦關聯(lián)類的問題解決方案,從而方便用戶快速解決網(wǎng)上辦事審批中遇到的各類問題.回歸算法011,0,它可以應用到對數(shù)據(jù)序列的預如此這封就是垃圾.聚類算法的數(shù)據(jù)來說,一個數(shù)據(jù)就包含兩個特征,可通過聚類算法,給他們中不同的種類打上標簽,通過聚類算法計算出種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群.關聯(lián)算法出現(xiàn)推導出其他數(shù)據(jù)項的出現(xiàn).關聯(lián)規(guī)如此的挖掘過程主要包括兩個階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項目組;第二極端為從這些高頻項目組產(chǎn)生關聯(lián)規(guī)如此.推薦算法推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用.推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購置率,提升效益.神經(jīng)網(wǎng)絡模型神經(jīng)網(wǎng)絡模型,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以與那些以模糊、不完整、不嚴密的知識或數(shù)據(jù)為特征的處理問題,它的這一特點十分適合解決數(shù)據(jù)挖掘的問題.典型的神經(jīng)網(wǎng)絡模型主要分為三大類:第一類是以用于分類預測和模式識別的前饋式神經(jīng)網(wǎng)絡模型;第二類是用于聯(lián)想記憶和優(yōu)化算法的反響式神經(jīng)網(wǎng)絡模型.第三類是用于聚類的自組織映射方法.Adaboost其核心思想是針對同一個訓練集,訓練不同的分類器<弱分類器>,然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器<強分類器>.其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓練集之中每個樣本的分類是否正確,以與上次的總體分類的準確率,來確定每個樣本的權(quán)值.將修改正權(quán)值的新數(shù)據(jù)集送給下層分類器進展訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器.深度學習深度學習算法是對人工神經(jīng)網(wǎng)絡的開展.在計算能力變得日益廉價的今天,深度學習試圖建立大得多也復雜得多的神經(jīng)網(wǎng)絡,用來處理存在少量未標識數(shù)據(jù)的大數(shù)據(jù)集.數(shù)據(jù)資源管理,據(jù)的積累,數(shù)據(jù)資源的利用價值逐步表現(xiàn),提高數(shù)據(jù)的管理,是對數(shù)據(jù)資源充分利用的前提條件.據(jù)管理等.數(shù)據(jù)標準管理聚集整理數(shù)據(jù)資源管理所需的標準規(guī)信息,建立數(shù)據(jù)標準數(shù)據(jù)庫.利用專家系統(tǒng)數(shù)據(jù)標準管理系統(tǒng)的接口同步更新標準信息.包括數(shù)據(jù)元標準以與信息代碼標準.建設數(shù)據(jù)資源庫,集.實現(xiàn)與車輛檢修等數(shù)據(jù)源管理系統(tǒng)接口對接.建設信息代碼資源庫,息系統(tǒng)需要使用的其它代碼,建立字典代碼實體數(shù)據(jù)庫.應具備字典代碼定期同步功能.并建設信息代碼在線映射維護功能,以便對數(shù)據(jù)標準化轉(zhuǎn)換提供支持.數(shù)據(jù)監(jiān)控管理Oracle平臺等的運行狀態(tài)、性能指標以與數(shù)據(jù)更新情況進展持續(xù)監(jiān)控,與時發(fā)現(xiàn)存在的問題與隱患,輔助系統(tǒng)管理員與時采取措施,提高大數(shù)據(jù)資源庫的運行可靠性,保障大數(shù)據(jù)資源庫穩(wěn)定高效運行.發(fā)現(xiàn)異常問題時通過短信、等方式通知系統(tǒng)管理員與時處理,,降低運維工作量,提高運維效率.通過可視化圖表對監(jiān)控結(jié)果進展統(tǒng)計分析直觀展現(xiàn)平臺運行各類運行指標,輔助管理員從宏觀角度掌握平臺運行情況.性能指標監(jiān)控CPUOracleIOHadoop負載等各類性能相關指標進展監(jiān)控,以便掌握平臺負載情況,與時發(fā)現(xiàn)性能問題,平臺優(yōu)化.大數(shù)據(jù)庫日志監(jiān)控自動采集大數(shù)據(jù)相關組件運行日志,并根據(jù)既定規(guī)如此進展分析,發(fā)現(xiàn)異常與時告警.提供日志查詢檢索功能,可以按組件類型、時間、關鍵字等進展過濾.數(shù)據(jù)量監(jiān)控數(shù)據(jù)量監(jiān)控通過對數(shù)據(jù)總量以與增量進展定期監(jiān)控,可以掌握數(shù)據(jù)量變化情況,也可以從數(shù)據(jù)增量角度發(fā)現(xiàn)數(shù)據(jù)入庫異常.數(shù)據(jù)量監(jiān)測結(jié)果可同步到數(shù)據(jù)臺帳,以便數(shù)據(jù)臺帳統(tǒng)計數(shù)據(jù)總量情況.元數(shù)據(jù)管理元數(shù)據(jù)是數(shù)據(jù)倉庫中存儲的根本單元,實現(xiàn)對元數(shù)據(jù)的管理,數(shù)據(jù)倉庫的最根本功能之一.數(shù)據(jù)服務大數(shù)據(jù)平臺開放存儲訪問接口,提供基于Hadoop技術體系的HDFS、HBase訪問接口,以OpenAPI的方式,為應用提供大數(shù)據(jù)存儲服務.數(shù)據(jù)服務層主要由數(shù)據(jù)服務總線來建設,主要負責將大數(shù)據(jù)平臺的能力接口注冊進去,再以標準化接口開放給應用系統(tǒng)使用,支持多種協(xié)議轉(zhuǎn)換、服務質(zhì)量控制、訪問控制、規(guī)如此引擎等.數(shù)據(jù)服務層將大數(shù)據(jù)平臺的數(shù)據(jù)服務能力開放出去,供第三方平臺使用.如上圖:應用服務系統(tǒng)使用服務接口,來接入數(shù)據(jù)服務總線,經(jīng)過數(shù)據(jù)服務總線的接入端點,進展過濾.同時根據(jù)訪問控制、服務質(zhì)量、協(xié)議轉(zhuǎn)換、策略調(diào)度、規(guī)如此引擎的處理,接出到大數(shù)據(jù)平臺的能力接口.第2章大數(shù)據(jù)平臺大數(shù)據(jù)平臺根底架構(gòu)FitData產(chǎn)品,FitData主要集成了根底計算資源、網(wǎng)絡資源、存儲資源,在統(tǒng)一的安全體管理體系下,將這些資源再進展深度加工、處理、關聯(lián),形成多種類型的根底服務能力,構(gòu)建根底資源層,向應用提供根底資源的服務能力.,并通過訪問控制、服務質(zhì)量、協(xié)議轉(zhuǎn)換等,對應用提供多協(xié)議支持.平臺支撐體系的運維體系提供整體運維能力,,保障平臺的數(shù)據(jù)安全和使用安全;平臺采用分布式架構(gòu),支持巨量數(shù)據(jù)存儲與分析,保障專家管理系統(tǒng)的高性能、高可用性和易擴展性.FitData部.數(shù)據(jù)計算與存儲:是FitData大數(shù)據(jù)平臺的核心容,提供分布式存儲能力和分布式計算能力.提供的存儲框架能力,數(shù)據(jù)存儲和半結(jié)構(gòu)化數(shù)據(jù)存儲,其計算框架與存儲框架均是分布式集群方式部署,可以平滑的進展彈性擴容.,對應用提供數(shù)據(jù)支撐通過數(shù)據(jù)服務接口將平臺的數(shù)據(jù)資源以標準API接口的方式開放出來,不同的應用系統(tǒng)使用.數(shù)據(jù)應用層主要提供基于該平臺來構(gòu)建的專家系統(tǒng)應用.API,數(shù)據(jù)資源層獲取數(shù)據(jù)服務,API接口包括資源目錄瀏覽、數(shù)據(jù)查詢搜索等.,ETL數(shù)據(jù)集成工具來實現(xiàn).平臺,,也提供多種數(shù)據(jù)抽取方式,Sqoop抽取等.,主要集成了批處,HiveMahout、Spark等二次計算能力框架.平臺可將這些計算能力開放,供數(shù)據(jù)模型、數(shù)據(jù)挖掘、應用系統(tǒng)來使用.運維體系:運維體系提供面向?qū)<蚁到y(tǒng)完整運維方案,涵蓋了運行監(jiān)控到使用操作.安全體系提供面向?qū)<蚁到y(tǒng)大數(shù)據(jù)平臺的用戶權(quán)限管理、終端訪問控制、日志安全審計等能力.數(shù)據(jù)存與計算是FitData大數(shù)據(jù)平臺核心能力,將目前專家系統(tǒng)部業(yè)務數(shù)據(jù)源進展有效整合,.采用分層整合,靈活配置橫向擴展,縱向貫穿的大數(shù)據(jù)平臺服務能力,其計算框架、存儲框架都以容器的方式可輕松靈活的在線進展裝卸,以平滑擴大大數(shù)據(jù)平臺的集成能力.除此還集成了二級,和分析挖掘,處理后的數(shù)據(jù)可訂閱,充分表現(xiàn)數(shù)據(jù)即服務的大數(shù)據(jù)思想.分布式存儲框架:主要負責針對巨量數(shù)據(jù)的存儲,以分布式存儲技術,支持快速、巨量、多種類型的數(shù)據(jù)存取.支持從數(shù)據(jù)源抽取數(shù)據(jù)到大數(shù)據(jù)平臺存儲,種存儲方式,有針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的存儲.,動來分配和調(diào)度計算框架,加載數(shù)據(jù)處理算法,完成數(shù)據(jù)處理.數(shù)據(jù)倉庫:主要對計算框架完成后的結(jié)果進展存儲,支持Hbase、MSSQLServer等存儲,.型算法,配合以資源管理系統(tǒng)為主的計算存儲框架,進展數(shù)據(jù)處理.資源管理系統(tǒng),以容器的方式,來為計算框架和存儲框架分配資源,調(diào)度,彈性伸縮.數(shù)據(jù)服務總線:主要將根底平臺的能力和數(shù)據(jù)服務接口,以API出去,形成一個共享的、供應用使用的服務總線.FitData特點廣泛適應性:支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);支持實時數(shù)據(jù).PB線性擴展:存儲、計算均可增加節(jié)點進展線性擴展.統(tǒng)一運維管理:降低安裝部署、運營、維護本錢.X86數(shù)據(jù)可靠性.Spark、Storm、R.KerberosLDAP數(shù)據(jù)安全:支持數(shù)據(jù)加密.負載均衡:支持節(jié)點間存儲、技術負載均衡.HadoopFitData主要功能FitDataHadoopPB存儲和處理能力,支持數(shù)據(jù)加載、查詢、分析、挖掘等功能.節(jié)點批量自動部署通過以Web管理,以圖形界面的方式實現(xiàn)大數(shù)據(jù)平臺節(jié)點批量自動部署,只需添加主機名<或者IP地址>即可實現(xiàn)將節(jié)點服務器添加到集群中,截圖如下:圖向集群中添加節(jié)點節(jié)點動態(tài)管理webWebHadoopHadoop幾個方面:服務組件狀態(tài)監(jiān)控通過管理平臺可以看到所有目前已安裝的服務組件的健康狀況.圖服務組件運行狀況計算資源負載監(jiān)控CPUIOIO、HDFSIO,如如如下圖所示:圖計算資源監(jiān)控多任務實時監(jiān)控通過對集群運行任務的實時監(jiān)測,并根據(jù)任務優(yōu)先級和耗時不同對任務進展動Hadoop群的運行變得更加高效合理.〔1務隊列獲取的集群資源進展分配,而且不會出現(xiàn)集群資源的閑置浪費.〔2優(yōu)先級任務所在隊列獲得更多的集群資源.〔3動分配給其他繁忙的任務隊列,以使得集群資源利用最大化.磁盤性能監(jiān)控對集群機器的硬盤進展監(jiān)控,如如如下圖所示,詳細的展示出磁盤IO的利用率,讀寫速度,磁盤的等待時間.圖:磁盤性能監(jiān)控故障快速定位作業(yè)進度、狀態(tài)、資源利用情況進展監(jiān)控,并通過可視化圖形界面進展展示.當大數(shù)據(jù)平臺出現(xiàn)異常情況時,平臺能夠通過監(jiān)控系統(tǒng),對服務器節(jié)點宕機、集群異常、安全異常等異常事件進展預警、報警,并通過、短信報警手段進展告警通知.提供預制的恢復規(guī)如此和安全規(guī)如此,對集群異常進展自動修復、自動限制非安全行為的操作.于因故障無法繼續(xù)提供服務器的節(jié)點進展標記,將平臺的作業(yè)任務自動分配到其他再將該節(jié)點納入平臺的資源中,將作業(yè)任務分配到恢復后的節(jié)點上運行.日常運維監(jiān)控webservice的數(shù)據(jù)進展分析判斷,對異常的數(shù)據(jù)觸發(fā)告警,在前臺界面提醒,直至出發(fā)通知和處理等進一步動作.平臺的監(jiān)控圍涵蓋有:平臺管理資源的使用與分配看,包括當前設備的CPU寬占用情況、設備運行狀態(tài)等.管理員能夠根據(jù)監(jiān)控信息在管理平臺上有效調(diào)度分配系統(tǒng)資源.其中集群的監(jiān)控如如如下圖所示:針對服務器的監(jiān)控如如如下圖所示:當前作業(yè)數(shù),I/O監(jiān)控系統(tǒng)的運行情況態(tài)和流量等信息;數(shù)據(jù)存取過程監(jiān)控:提供針對數(shù)據(jù)存儲過程的監(jiān)控服務,包括系統(tǒng)平臺的I/OI/OI/OI/O和數(shù)據(jù)存取過程的任務列表;的數(shù)據(jù)源信息,作業(yè)進程運行狀況信息,使用時間/計劃完成時間等信息;間/計劃完成時間等信息;狀態(tài)、應用對數(shù)據(jù)的使用狀況,應用為用戶提供的查詢數(shù)量等;系統(tǒng)異常告警與處理問了超過其正常權(quán)限的數(shù)據(jù)等.系統(tǒng)資源緊等系統(tǒng)運行異常情況進展告警觸發(fā),并提醒用戶進展操作處理.FitData優(yōu)勢FitDataFitData1000HA的錘煉,FitDataPB據(jù)的秒級查詢與聚集.SmartASFitData術框架,通過應用系統(tǒng)使用,反響的情況不斷完善應用框架的通用功能,滿足業(yè)務系統(tǒng)快熟構(gòu)建的目標,具備良好用戶體驗第3章硬件部署按照專家系統(tǒng)安裝接口規(guī)要求,結(jié)合專家管理系統(tǒng)數(shù)據(jù)量估算值和數(shù)據(jù)存儲特點,本著數(shù)據(jù)安全、系統(tǒng)穩(wěn)定可靠的核心設計思路,設計專家系統(tǒng)大數(shù)據(jù)平臺數(shù)22臺,2臺,19臺,臺,RDBMS數(shù)據(jù)庫服務器臺,6臺,繪制專家系統(tǒng)部署邏輯結(jié)構(gòu)圖如下:第4章硬件清單編號服務器名配置數(shù)量說明最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速存配置128GBDDR4存配置9 塊900GB 15KSAS,編號服務器名配置數(shù)量說明最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速存配置128GBDDR4存配置9 塊900GB 15KSAS,14*4TNLSAS硬盤.最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速存1RDBMS數(shù)據(jù)庫服4*IntelXeonE7-4800/88002雙機備份務器v32大數(shù)據(jù)平臺管理2*IntelXeonE7-4800/88001Active節(jié)點v3128GBDDR4存配置6 塊600GB SAS,3*4TNLSAS硬.3大數(shù)據(jù)平臺管理2*IntelXeonE7-4800/88001Standby節(jié)點v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速存128GBDDR4存配置6 塊600GB SAS,3*4TNLSAS硬.4大數(shù)據(jù)平臺數(shù)據(jù)2*IntelXeonE7-4800/880019數(shù)據(jù)節(jié)點節(jié)點v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速存128GBDDR4存配置6 塊600GB SAS,12*4TNLSAS硬盤.5大數(shù)據(jù)集群性能2*IntelXeonE7-4800/88001監(jiān)控節(jié)點檢測服務器v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速存128GBDDR4存配置6 塊600GB SAS,3*4TNLSAS硬.6 應用服務器 CPU:2顆E5-2630v3 2 應用服務≥24個存插槽,最大支持器1.5TB2133MHz64GB支持SAS、SSD和PCIeSSD硬盤,支持寸和3.5支持24+2個2.5寸SAS/SATA14個寸SAS/SATA2個2.5寸SAS/SATA+16個1.8"SSD.6600GB15KSAS硬盤7交換機48 10/100/1000Base-TX,2網(wǎng)絡設備4 100/1000Base-XSFP8防火墻多功能防火墻,4口以上2安防設備9工作站Intel<R>XeonCPUE5,配置1TSATA硬盤.存:8GB2說明:硬件局部交換機、防火強與工作站,請根據(jù)標書確認!大數(shù)據(jù)服務器、RDBMS數(shù)據(jù)庫服務器與應用服務器的具體配置參數(shù)請硬件朋友和標書上進展重新確認,這邊只對存量、CPU顆數(shù)與存儲空間大小做了要求.第5章個人介紹吳宏勛:"烽火集成〞高級大數(shù)據(jù)架構(gòu)師,財稅大數(shù)據(jù)項目大數(shù)據(jù)架構(gòu)師,具有豐富的大數(shù)據(jù)項目實施經(jīng)驗,對高吞吐、高并發(fā)、海量數(shù)據(jù)實時聚集、PB級海量數(shù)據(jù)即席查詢與實時處理具有針對性方案和經(jīng)驗,Hadoop、HBase、Spark,Hadoop、HBase、Spark的原理有很深的理解,曾從事多個項目大數(shù)據(jù)平臺的調(diào)優(yōu)工作!第6章專家系統(tǒng)架構(gòu)設計本系統(tǒng)總共分為四個層次,從下到上依次為數(shù)據(jù)采集層、根底平臺層、應用支撐層、應用與展示層,各層在專家系統(tǒng)統(tǒng)一業(yè)務規(guī)、技術規(guī)、安全規(guī)下進展數(shù)據(jù)通信與集成.,,數(shù)據(jù)采集層提供多種數(shù)據(jù)采集方法:ETL、供多種數(shù)據(jù)采集方法:ETL、Flume、Kafka等,系統(tǒng)支持Flume+Kafka+Storm混合架構(gòu)的數(shù)據(jù)采集模式,以提高數(shù)據(jù)采集系統(tǒng)的吞吐量和并發(fā)量.,,包括HbaseHbaseYarn并行計算資源管理與監(jiān)控等,Spark機器學習算法庫,R等行業(yè)分析庫.,是系統(tǒng)數(shù)據(jù)層和應用層的連接紐帶.應用支撐層包括根底平臺和常規(guī)算法兩個局部層的連接紐帶.應用支撐層包括根底平臺和常規(guī)算法兩個局部,根底平臺負責數(shù)據(jù)的存儲與并行計算,RDBMS存儲等存儲方式,常規(guī)算法負責數(shù)據(jù)分析與業(yè)務建模.,主要包括資車輛故障.展示層是用戶同系統(tǒng)交互的窗口,.展示層是用戶同系統(tǒng)交互的窗口,是應用層對外提供服務的主要手段.支可視化展示.第7章平臺運維管理Hadoop集群監(jiān)控WebHadoop,包括大數(shù)據(jù)平臺的硬件資源、軟件資源、數(shù)據(jù)資源的監(jiān)控資源、軟件資源、數(shù)據(jù)資源的監(jiān)控,Hadoop集群的工作負載.主要包括以下幾個方面:服務組件狀態(tài)監(jiān)控,綠色圈表示運行狀態(tài)健康.圖:服務組件運行狀況存儲與存資源監(jiān)控..如果集群中的某臺機器的磁盤或者存的使用率達到指定的閥值,系統(tǒng)可以通過或者短信的方式進展預警.

圖:存儲和存資源監(jiān)控系統(tǒng)負載管理I通過管理平臺可以實時看到整個平臺的資源負載情況,通過管理平臺可以實時看到整個平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論