版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
軟件項(xiàng)目開發(fā)與設(shè)計(jì)大數(shù)據(jù)平臺(tái)工程技術(shù)方案建議概述項(xiàng)目整體概述隨著信息化程度的加深,以及移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的崛起,人們產(chǎn)生的數(shù)據(jù)急劇膨脹,傳統(tǒng)的數(shù)據(jù)處理技術(shù)難以支撐數(shù)據(jù)大量的增長和處理能力。經(jīng)過近幾年的發(fā)展,大數(shù)據(jù)技術(shù)逐步成熟,可以幫助企業(yè)整合更多的數(shù)據(jù),從海量數(shù)據(jù)中挖掘出隱藏價(jià)值。大數(shù)據(jù)已經(jīng)從“概念”走向“價(jià)值”,逐步進(jìn)入實(shí)施驗(yàn)證階段。人們?cè)絹碓狡谕軐?shí)現(xiàn)海量數(shù)據(jù)的處理,從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值。**平臺(tái)是為監(jiān)控基站告警信息、管理基站用戶設(shè)備和運(yùn)行情況、合理調(diào)度各地市維護(hù)人員、準(zhǔn)確掌握基站備用電源各階段數(shù)據(jù)、保障用戶設(shè)備在線及減少維護(hù)成本、并且支持內(nèi)部用戶和外部用戶的自動(dòng)派單功能而建設(shè)的IT服務(wù)平臺(tái)。該平臺(tái)包括以每個(gè)行業(yè)用戶為單位的智能推送點(diǎn)播應(yīng)答/報(bào)表智能推送、基站資源/電源數(shù)據(jù)的業(yè)務(wù)建模分析、天氣環(huán)保等相關(guān)數(shù)據(jù)、對(duì)內(nèi)外自動(dòng)派單、轄區(qū)郵政運(yùn)維狀態(tài)的大屏展示等主要功能模塊。**郵政服務(wù)平臺(tái)對(duì)前述功能的支撐,提供基站備用電池的監(jiān)控管理,進(jìn)行斷電保障、使用效能等方面的應(yīng)用分析,為備電時(shí)長提供修正依據(jù)。**公司已深刻認(rèn)識(shí)到數(shù)據(jù)戰(zhàn)略對(duì)企業(yè)運(yùn)營以及企業(yè)未來發(fā)展方向的重要性。基站行業(yè)的本質(zhì)是郵政信息管理管理與挖掘,核心是數(shù)據(jù),載體是平臺(tái),關(guān)鍵是用戶體驗(yàn),發(fā)展趨勢(shì)是互聯(lián)網(wǎng)與**的深度融合,要提升大數(shù)據(jù)處理基站數(shù)據(jù)貢獻(xiàn)度。因此,要深化互聯(lián)網(wǎng)思維理念,穩(wěn)步推進(jìn)互聯(lián)網(wǎng)金融產(chǎn)品和服務(wù)模式創(chuàng)新,積極利用移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)等新技術(shù)新手段,沉著應(yīng)對(duì)沖擊和挑戰(zhàn),實(shí)現(xiàn)傳統(tǒng)基站與互聯(lián)網(wǎng)融合發(fā)展。做好海量異構(gòu)數(shù)據(jù)的專業(yè)化整合集成、關(guān)聯(lián)共享、安全防護(hù)和維護(hù)管理,深度挖掘數(shù)據(jù)內(nèi)含的巨大價(jià)值,探索**業(yè)務(wù)創(chuàng)新,實(shí)現(xiàn)數(shù)據(jù)資源的綜合應(yīng)用、深度應(yīng)用,已成為提升企業(yè)核心競(jìng)爭(zhēng)力,實(shí)現(xiàn)企業(yè)信息化可持續(xù)發(fā)展的關(guān)鍵途徑。以大數(shù)據(jù)項(xiàng)目建設(shè)作為契機(jī),凝聚中國**優(yōu)勢(shì)力量,全面梳理數(shù)據(jù)資源,完善數(shù)據(jù)體系架構(gòu),自主掌握大數(shù)據(jù)分析郵政信息關(guān)鍵技術(shù),加速大數(shù)據(jù)郵政信息資源的開發(fā)利用,將數(shù)據(jù)決策化貫穿到經(jīng)營管理全流程,建設(shè)智慧基站,提升核心競(jìng)爭(zhēng)力。(一)對(duì)xx運(yùn)行設(shè)備的集中監(jiān)測(cè)管理提供基站監(jiān)控告警、合理調(diào)度;提供基站備用電池的監(jiān)控管理、進(jìn)行斷電保障等。。(二)開發(fā)大數(shù)據(jù)資源,支撐全行經(jīng)營管理創(chuàng)新構(gòu)建基站大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)更廣泛的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)集中采集、存儲(chǔ)、加工、分析和應(yīng)用,極大地豐富中國**的信息資源,同現(xiàn)有的企業(yè)級(jí)數(shù)據(jù)倉庫和歷史數(shù)據(jù)存儲(chǔ)系統(tǒng)一起,形成基礎(chǔ)數(shù)據(jù)體系,提供支撐經(jīng)營管理的各類數(shù)據(jù)應(yīng)用。(三)對(duì)xx整體設(shè)備運(yùn)行周期內(nèi)的統(tǒng)計(jì)分析建設(shè)xx基站離線數(shù)據(jù)分析、實(shí)時(shí)數(shù)據(jù)/流數(shù)據(jù)分析集群和各類數(shù)據(jù)分析集群,提供高性能可擴(kuò)展的分布式計(jì)算引擎,通過數(shù)據(jù)挖掘、計(jì)量分析和機(jī)器學(xué)習(xí)等手段,對(duì)豐富的基站大數(shù)據(jù)資源進(jìn)行開發(fā)使用,并將數(shù)據(jù)決策化過程結(jié)合到風(fēng)控、營銷、營運(yùn)等經(jīng)營管理活動(dòng)。(四)對(duì)內(nèi)部和外部運(yùn)維人員系統(tǒng)派單管理結(jié)合基站大數(shù)據(jù)項(xiàng)目的落地實(shí)施,建立起一支基站大數(shù)據(jù)技術(shù)和分析人員隊(duì)伍,具備自主運(yùn)營和開發(fā)基站大數(shù)據(jù)分析的能力,以更好推動(dòng)業(yè)務(wù)創(chuàng)新,提升中國**核心競(jìng)爭(zhēng)力。(五)郵政信息服務(wù)平臺(tái)及后臺(tái)分權(quán)分域管理能力通過統(tǒng)一權(quán)限管理,從后臺(tái)分權(quán)分域進(jìn)行信息化建設(shè)。另外可視化角度進(jìn)行操作,方便查看和管理。(六)支持在微信、PC端不同入口下業(yè)務(wù)處理及系統(tǒng)間數(shù)據(jù)交互實(shí)現(xiàn)同一數(shù)據(jù)存儲(chǔ)中心,確保微信、PC端與系統(tǒng)服務(wù)器之間的數(shù)據(jù)交互能力。提升在微信、PC端業(yè)務(wù)處理中的用戶體驗(yàn)度。近年來,中國**大力發(fā)展面向用戶的新一代核心業(yè)務(wù)系統(tǒng),信息系統(tǒng)建設(shè)日趨完備,提升用戶體驗(yàn)和風(fēng)險(xiǎn)管控能力、滿足監(jiān)管各項(xiàng)要求的同時(shí),形成并儲(chǔ)存了龐大的可用數(shù)據(jù)資源。大數(shù)據(jù)技術(shù)在通信基站行業(yè)的應(yīng)用范圍包括:業(yè)務(wù)信息稽核、查詢、分析、預(yù)警等、用戶洞察、營銷支撐、風(fēng)險(xiǎn)管控和營運(yùn)優(yōu)化等領(lǐng)域?;緲I(yè)務(wù)功能滿足業(yè)務(wù)部門在監(jiān)控基站告警信息管理、智能推送點(diǎn)播應(yīng)答/報(bào)表智能推送管理、基站資源/電源數(shù)據(jù)的業(yè)務(wù)建模分析管理、重點(diǎn)業(yè)務(wù)、重點(diǎn)基站管理的需要,為各級(jí)領(lǐng)導(dǎo)、職能部門及專業(yè)人員管理提供支撐。用戶洞察分析用戶的各種數(shù)據(jù),包括電話語音、網(wǎng)絡(luò)的監(jiān)控錄像、點(diǎn)播應(yīng)答信息、基站資源、電源數(shù)據(jù)以及相關(guān)的基站數(shù)據(jù)信息,從而實(shí)現(xiàn)對(duì)用戶進(jìn)行分類和服務(wù)。對(duì)現(xiàn)有基站數(shù)據(jù)系統(tǒng)中的用戶分層的數(shù)據(jù)要素進(jìn)行延伸。營銷支撐實(shí)時(shí)營銷:是根據(jù)用戶的使用平臺(tái)的實(shí)時(shí)狀態(tài)來進(jìn)行營銷,如用戶點(diǎn)播時(shí)段內(nèi)容等信息來有針對(duì)地進(jìn)行營銷。事件式營銷:將改變工作方式的事件視為營銷機(jī)會(huì),如換人工服務(wù)變成智能提醒或者操作、改變工作方式等。風(fēng)險(xiǎn)管控信用評(píng)級(jí):運(yùn)用時(shí)間、故障概率、區(qū)域、設(shè)備質(zhì)量等多個(gè)維度對(duì)基站綜合評(píng)級(jí),運(yùn)用大量的指標(biāo)構(gòu)建多重模型,以識(shí)別基站故障信用風(fēng)險(xiǎn)。營運(yùn)優(yōu)化改善用戶體驗(yàn):運(yùn)用大數(shù)據(jù)能夠處理海量基站信息數(shù)據(jù)的能力,將傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)分析等業(yè)務(wù)切換到數(shù)據(jù)處理能力更強(qiáng)的平臺(tái),來解決查詢歷史數(shù)據(jù)的困難,提升用戶體驗(yàn)。降低運(yùn)營成本:運(yùn)用綜合分析結(jié)果,優(yōu)化**運(yùn)輸資源的配置,降低企業(yè)運(yùn)營成本,提升整體競(jìng)爭(zhēng)力。平臺(tái)建設(shè)原則平臺(tái)是大數(shù)據(jù)的基礎(chǔ)實(shí)施,其建設(shè)、設(shè)計(jì)和系統(tǒng)實(shí)現(xiàn)過程中,應(yīng)遵循如下指導(dǎo)原則:經(jīng)濟(jì)性:基于現(xiàn)有場(chǎng)景分析,對(duì)三到五年內(nèi)的數(shù)據(jù)量進(jìn)行合理評(píng)估,確定大數(shù)據(jù)平臺(tái)規(guī)模,后續(xù)根據(jù)實(shí)際情況再逐步優(yōu)化擴(kuò)容??蓴U(kuò)展性:架構(gòu)設(shè)計(jì)與功能劃分模塊化,考慮各接口的開放性、可擴(kuò)展性,便于系統(tǒng)的快速擴(kuò)展與維護(hù),便于第三方系統(tǒng)的快速接入??煽啃裕合到y(tǒng)采用的系統(tǒng)結(jié)構(gòu)、技術(shù)措施、開發(fā)手段都應(yīng)建立在已經(jīng)相當(dāng)成熟的應(yīng)用基礎(chǔ)上,在技術(shù)服務(wù)和維護(hù)響應(yīng)上同用戶積極配合,確保系統(tǒng)的可靠;對(duì)數(shù)據(jù)指標(biāo)要保證完整性,準(zhǔn)確性。安全性:針對(duì)系統(tǒng)級(jí)、應(yīng)用級(jí)、網(wǎng)絡(luò)級(jí),均提供合理的安全手段和措施,為系統(tǒng)提供全方位的安全實(shí)施方案,確保企業(yè)內(nèi)部信息的安全。大數(shù)據(jù)技術(shù)必須自主可控。先進(jìn)性:涵蓋結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和分析的特點(diǎn)。借鑒互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)及分析的實(shí)踐,使平臺(tái)具有良好的先進(jìn)性和彈性。支撐當(dāng)前及未來數(shù)據(jù)應(yīng)用需求,引入對(duì)應(yīng)大數(shù)據(jù)相關(guān)技術(shù)。平臺(tái)性:歸納整理大數(shù)據(jù)需求,形成統(tǒng)一的大數(shù)據(jù)存儲(chǔ)服務(wù)和大數(shù)據(jù)分析服務(wù)。利用多租戶,實(shí)現(xiàn)計(jì)算負(fù)荷和數(shù)據(jù)訪問負(fù)荷隔離。多集群統(tǒng)一管理。分層解耦:大數(shù)據(jù)平臺(tái)提供開放的、標(biāo)準(zhǔn)的接口,實(shí)現(xiàn)與各應(yīng)用產(chǎn)品的無縫對(duì)接。系統(tǒng)技術(shù)架構(gòu)數(shù)據(jù)來源說明數(shù)據(jù)來源主要有應(yīng)用系統(tǒng)數(shù)據(jù)源(如ERP、CRM等),具體數(shù)據(jù)包括基站設(shè)備、維護(hù)人員、備用電池等數(shù)據(jù)。絕大部分?jǐn)?shù)據(jù)可以加載到mysql數(shù)據(jù)庫中。經(jīng)過數(shù)據(jù)源及其質(zhì)量分析后,分別從各業(yè)務(wù)應(yīng)用系統(tǒng)及一些外部數(shù)據(jù)源中獲取數(shù)據(jù)。然后將系統(tǒng)從源系統(tǒng)采集業(yè)務(wù)源數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn)、清洗、計(jì)算、匯總、分類。對(duì)于**郵政外部數(shù)據(jù)源,需要綜合考慮數(shù)據(jù)獲取的方式、頻率、內(nèi)容等多方面因素,可以適當(dāng)考慮選擇開源的工具。如網(wǎng)頁數(shù)據(jù),可以參考使用數(shù)據(jù)網(wǎng)頁爬取器把互聯(lián)網(wǎng)上有價(jià)值的網(wǎng)頁都抓取下來。系統(tǒng)架構(gòu)設(shè)計(jì)對(duì)于用戶提出郵政大數(shù)據(jù)平臺(tái)主要分成六大部分,因?yàn)閺墓δ苌嫌胁糠值闹丿B,我們建議在系統(tǒng)解決放案在結(jié)構(gòu)上分為數(shù)據(jù)獲取層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層(含數(shù)據(jù)集市、經(jīng)營分析、決策支持、數(shù)據(jù)分析與挖掘)、數(shù)據(jù)管控以及數(shù)據(jù)可視化層五個(gè)層次架構(gòu)。如下圖所示:上圖中每個(gè)層次的主要功能和使用的產(chǎn)品如下:數(shù)據(jù)獲取層:通過ETL工具-SAPDataServices將原有業(yè)務(wù)系統(tǒng)或者功能性平臺(tái)的數(shù)據(jù)抽取到大數(shù)據(jù)平臺(tái)。數(shù)據(jù)存儲(chǔ)層:由Hadoop廠商Cloudera的CDH和SAPHANA共同構(gòu)成,其中CDH用于存儲(chǔ)全量數(shù)據(jù)。在HadoopHDFS存儲(chǔ)之上,運(yùn)用HABSE、HIVE、SPARK等組件,滿足用戶不同分析場(chǎng)景的需求,這些組件將通過數(shù)據(jù)分析層調(diào)用?;趦?nèi)存的關(guān)系型數(shù)據(jù)庫-HANA作為熱數(shù)據(jù)管理,主要用于實(shí)時(shí)和大規(guī)模、高并發(fā)的復(fù)雜分析場(chǎng)景。數(shù)據(jù)分析層:數(shù)據(jù)分析層構(gòu)建在數(shù)據(jù)存儲(chǔ)層之上,主要利用Hadoop生態(tài)系統(tǒng)的組件以及HANA提供的數(shù)據(jù)分析能力實(shí)現(xiàn)郵政業(yè)務(wù)分析場(chǎng)景,如量收系統(tǒng)等。數(shù)據(jù)分析層即包含用戶的業(yè)務(wù)應(yīng)用也包含具體的分析類型,如實(shí)時(shí)查詢、數(shù)據(jù)挖掘等。數(shù)據(jù)管控:在用戶原有的主數(shù)據(jù)、元數(shù)據(jù)平臺(tái)上進(jìn)行擴(kuò)展,與大數(shù)據(jù)平臺(tái)進(jìn)行對(duì)接,并通過建立數(shù)據(jù)安全管理策略、梳理數(shù)據(jù)標(biāo)準(zhǔn)等方式逐步完善大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管控功能。數(shù)據(jù)可視化層:本方案均采用業(yè)界主流的通用產(chǎn)品,如ClouderaCDH、HANA等,這些產(chǎn)品支持通用的數(shù)據(jù)標(biāo)準(zhǔn)以及應(yīng)用接口,為了降低成本、減少工作量,推薦用戶利用原有Cognos軟件,通過開發(fā)部分前端界面滿足大數(shù)據(jù)平臺(tái)對(duì)分析結(jié)果展現(xiàn)的要求。故障派單設(shè)計(jì)郵政網(wǎng)點(diǎn)或服務(wù)基站的設(shè)備故障自動(dòng)派單是通過平臺(tái)監(jiān)控,對(duì)指定故障種類的故障自動(dòng)生成系統(tǒng)維護(hù)工單或者問題工單,提交相關(guān)運(yùn)維負(fù)責(zé)人或者接口人,并發(fā)送相關(guān)通知;相應(yīng)的接口人對(duì)系統(tǒng)自動(dòng)派發(fā)的工單進(jìn)行判斷并進(jìn)行后續(xù)處理,處理后直接關(guān)閉工單即可;自動(dòng)派單功能支持派發(fā)人對(duì)工單的轉(zhuǎn)派和回退處理,并填寫相關(guān)處理意見??傮w業(yè)務(wù)流程圖如下:系統(tǒng)硬件和軟件配置方案軟件配置方案產(chǎn)品名稱產(chǎn)品功能描述用途單位數(shù)量ClouderaHadoop發(fā)行版Cloudera一個(gè)提供全面的數(shù)據(jù)存儲(chǔ)和處理引擎的發(fā)行版。它包括了:HDFS、HBASE、Spark、YARN、MapReduce、Hive等處理引擎以及工具組件**大數(shù)據(jù)平臺(tái)核心數(shù)據(jù)存儲(chǔ)與處理引擎SAPHANA企業(yè)版SAP基于內(nèi)存的數(shù)據(jù)庫引擎,并集成了數(shù)據(jù)集成工具,高級(jí)數(shù)據(jù)分析、數(shù)據(jù)挖掘等功能實(shí)時(shí)數(shù)據(jù)分析(可用于大規(guī)模交互式查詢)SAPHANAVora構(gòu)建在HANA之上基于Spark/Hadoop的內(nèi)存查詢引擎實(shí)現(xiàn)HANA與Spark之間的聯(lián)邦數(shù)據(jù)處理硬件配置方案Hadoop部分Hadoop集群服務(wù)器按照節(jié)點(diǎn)承擔(dān)的任務(wù)分為管理節(jié)點(diǎn)和工作節(jié)點(diǎn)。管理節(jié)點(diǎn)上一般部署各組件的管理角色,工作節(jié)點(diǎn)一般部署有各角色的存儲(chǔ)、容器或計(jì)算角色。中國**的大數(shù)據(jù)平臺(tái)屬于在線分析業(yè)務(wù)集群:在線分析業(yè)務(wù)一般基于Spark等MPPSQL引擎,復(fù)雜的SQL計(jì)算對(duì)內(nèi)存容量有較高要求,因此需要配置128G甚至更多的內(nèi)存。管理節(jié)點(diǎn)工作節(jié)點(diǎn)處理器兩路Intel?至強(qiáng)處理器,可選用E5-2630處理器兩路Intel?至強(qiáng)處理器,可選用E5-2650處理器內(nèi)核數(shù)6核/CPU(或者可選用8核/CPU),主頻2.3GHz或以上6核/CPU(或者可選用8核/CPU),主頻2.0GHz或以上內(nèi)存64GBECCDDR3128GB-256GBECCDDR3硬盤2個(gè)2TB的SAS硬盤(3.5寸),7200RPM,RAID112個(gè)4TB的SAS硬盤(3.5寸),7200RPM,不使用RAID網(wǎng)絡(luò)至少兩個(gè)1GbE以太網(wǎng)電口,推薦使用光口提高性能??梢詢蓚€(gè)網(wǎng)口鏈路聚合提供更高帶寬。至少兩個(gè)1GbE以太網(wǎng)電口,推薦使用光口提高性能??梢詢蓚€(gè)網(wǎng)口鏈路聚合提供更高帶寬。硬件尺寸1U或2U2U接入交換機(jī)48口千兆交換機(jī),要求全千兆,可堆疊聚合交換機(jī)(可選)4口SFP+萬兆光纖核心交換機(jī),一般用于50節(jié)點(diǎn)以上大規(guī)模集群關(guān)鍵技術(shù)大數(shù)據(jù)平臺(tái)的核心數(shù)據(jù)存儲(chǔ)與處理分布式文件系統(tǒng)-HDFSHDFS(HadoopDistributedFileSystem),是一個(gè)分布式文件系統(tǒng)。它具有高容錯(cuò)性的特點(diǎn),可以被廣泛的部署于廉價(jià)的PC之上。它以流式訪問模式訪問應(yīng)用程序的數(shù)據(jù),這大大提高了整個(gè)系統(tǒng)的數(shù)據(jù)吞吐量,能夠滿足多來源、多類型、海量的數(shù)據(jù)存儲(chǔ)要求,因而非常適用于日志詳單類非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。HDFS架構(gòu)采用主從架構(gòu)(master/slave)。一個(gè)典型的HDFS集群包含一個(gè)NameNode節(jié)點(diǎn)和多個(gè)DataNode節(jié)點(diǎn)。NameNode節(jié)點(diǎn)負(fù)責(zé)整個(gè)HDFS文件系統(tǒng)中的文件的元數(shù)據(jù)保管和管理,集群中通常只有一臺(tái)機(jī)器上運(yùn)行NameNode實(shí)例,DataNode節(jié)點(diǎn)保存文件中的數(shù)據(jù),集群中的機(jī)器分別運(yùn)行一個(gè)DataNode實(shí)例。在HDFS中,NameNode節(jié)點(diǎn)被稱為名字節(jié)點(diǎn),DataNode節(jié)點(diǎn)被稱為數(shù)據(jù)節(jié)點(diǎn),DataNode節(jié)點(diǎn)通過心跳機(jī)制與NameNode節(jié)點(diǎn)進(jìn)行定時(shí)的通信。HDFS可以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)可靠的分布式讀寫。HDFS針對(duì)的使用場(chǎng)景是數(shù)據(jù)讀寫具有“一次寫,多次讀”的特征,而數(shù)據(jù)“寫”操作是順序?qū)?,也就是在文件?chuàng)建時(shí)的寫入或者在現(xiàn)有文件之后的添加操作。HDFS保證一個(gè)文件在一個(gè)時(shí)刻只被一個(gè)調(diào)用者執(zhí)行寫操作,而可以被多個(gè)調(diào)用者執(zhí)行讀操作。其主要特性如下:靈活:統(tǒng)一的存儲(chǔ)可以存放結(jié)構(gòu)化,半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)可擴(kuò)展:根據(jù)業(yè)務(wù)需要增加PC服務(wù)器實(shí)現(xiàn)存儲(chǔ)擴(kuò)容容錯(cuò):數(shù)據(jù)有多個(gè)副本以保障數(shù)據(jù)的可靠性開放:基于開源的存儲(chǔ)格式,避免廠商鎖定分布式數(shù)據(jù)庫–HBaseHBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),它利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng),利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)。HBase不是一個(gè)關(guān)系型數(shù)據(jù)庫,其設(shè)計(jì)目標(biāo)是用來解決關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時(shí)的理論和實(shí)現(xiàn)上的局限性。HBase從一開始就是為Terabyte到Petabyte級(jí)別的海量數(shù)據(jù)存儲(chǔ)和高速讀寫而設(shè)計(jì),這些數(shù)據(jù)要求能夠被分布在數(shù)千臺(tái)普通服務(wù)器上,并且能夠被大量并發(fā)用戶高速訪問。存儲(chǔ)在HBase中的表的典型特征:大表(BigTable):一個(gè)表可以有上億行,上百萬列面向列:面向列(族)的存儲(chǔ)、檢索與權(quán)限控制稀疏:表中為空(null)的列不占用存儲(chǔ)空間SQL-on-HBase的支持ClouderaCDH企業(yè)版支持SQLonHBase特性,支持對(duì)數(shù)據(jù)表建立LocalIndex和GlobalIndex,執(zhí)行速度遠(yuǎn)遠(yuǎn)超過原生HBaseAPI,同時(shí)提供完善的SQL接口供用戶端使用。HBase對(duì)象存儲(chǔ)ClouderaCDH支持HBase的大對(duì)象存儲(chǔ)(LOB)功能,將HBase進(jìn)化為文檔數(shù)據(jù)庫,特別適合存儲(chǔ)單個(gè)大小數(shù)十K至數(shù)十M的非結(jié)構(gòu)化文檔,即使對(duì)于十億級(jí)別的LOB文檔數(shù)據(jù)表仍能做到毫秒級(jí)增刪改查操作,同時(shí)支持所有HBase原生特性,與上層HBase應(yīng)用100%兼容。集群協(xié)調(diào)服務(wù)ZookeeperZooKeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn),是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。ZooKeeper包含一個(gè)簡單的原語集,提供Java和C的接口。分布式批處理引擎–MapReduceMapReduce是Hadoop的核心,是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念“Map(映射)”和“Reduce(化簡)”,及他們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce(化簡)函數(shù),用來保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。MapReduce是用于并行處理大數(shù)據(jù)集的軟件框架。MapReduce的根源是函數(shù)性編程中的map和reduce函數(shù)。Map函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個(gè)鍵/值對(duì)列表,輸入域中的每個(gè)元素對(duì)應(yīng)一個(gè)鍵/值對(duì)。Reduce函數(shù)接受Map函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對(duì)列表。MapReduce起到了將大事務(wù)分散到不同設(shè)備處理的能力,這樣原本必須用單臺(tái)較強(qiáng)服務(wù)器才能運(yùn)行的任務(wù),在分布式環(huán)境下也能完成了。數(shù)據(jù)倉庫組件–HiveHive是建立在Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive定義了簡單的類SQL查詢語言,稱為HQL,它允許熟悉SQL的用戶查詢數(shù)據(jù)。同時(shí),這個(gè)語言也允許熟悉MapReduce開發(fā)者的開發(fā)自定義的mapper和reducer來處理內(nèi)建的mapper和reducer無法完成的復(fù)雜的分析工作。Hive體系結(jié)構(gòu):用戶接口:用戶接口主要有三個(gè):CLI,Client和WUI。其中最常用的是CLI,Cli啟動(dòng)的時(shí)候,會(huì)同時(shí)啟動(dòng)一個(gè)Hive副本。Client是Hive的用戶端,用戶連接至HiveServer。在啟動(dòng)Client模式的時(shí)候,需要指出HiveServer所在節(jié)點(diǎn),并且在該節(jié)點(diǎn)啟動(dòng)HiveServer。WUI是通過瀏覽器訪問Hive。元數(shù)據(jù)存儲(chǔ):Hive將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中,如mysql、derby。Hive中的元數(shù)據(jù)包括表的名字,表的列和分區(qū)及其屬性,表的屬性(是否為外部表等),表的數(shù)據(jù)所在目錄等。分布式內(nèi)存計(jì)算框架–ApacheSparkApacheSpark是一個(gè)開源的,通用的分布式集群計(jì)算引擎。Spark發(fā)展歷程:2013年6月,成為Apache孵化器項(xiàng)目2014年2月,成為Apache的頂級(jí)項(xiàng)目2010年貢獻(xiàn)給開源社區(qū)2009年UCBAMPLab實(shí)驗(yàn)室開發(fā)Spark2013年6月,成為Apache孵化器項(xiàng)目2014年2月,成為Apache的頂級(jí)項(xiàng)目2010年貢獻(xiàn)給開源社區(qū)2009年UCBAMPLab實(shí)驗(yàn)室開發(fā)SparkClouderaSpark是一個(gè)開源的,并行數(shù)據(jù)處理框架,能夠幫助用戶簡單的開發(fā)快速,統(tǒng)一的大數(shù)據(jù)應(yīng)用,對(duì)數(shù)據(jù)進(jìn)行,協(xié)處理,流式處理,交互式分析等等。Spark具有如下特點(diǎn):快速:數(shù)據(jù)處理能力,比Mapreduce快10-100倍。易用:可以通過Java,Scala,Python,簡單快速的編寫并行的應(yīng)用處理大數(shù)據(jù)量,Spark提供了超過80種高層的操作符來幫助用戶組件并行程序。普遍性:Spark提供了眾多高層的工具,例如SparkSQL,MLib,GraphX,SparkStreaming,可以在一個(gè)應(yīng)用中,方便的將這些工具進(jìn)行組合。與Hadoop集成:Spark能夠直接運(yùn)行于Hadoop2.0以上的集群,并且能夠直接讀取現(xiàn)存的Hadoop數(shù)據(jù)。尤其,Spark和CDH緊密結(jié)合,可以通過ClouderaManager部署安裝Spark,并有效管理監(jiān)控Spark集群。Spark提供了一個(gè)快速的計(jì)算,寫入,以及交互式查詢的框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢(shì)。Spark使用in-memory的計(jì)算方式,通過這種方式來避免一個(gè)Mapreduce工作流中的多個(gè)任務(wù)對(duì)同一個(gè)數(shù)據(jù)集進(jìn)行計(jì)算時(shí)的IO瓶頸。Spark利用Scala語言實(shí)現(xiàn),Scala能夠使得處理分布式數(shù)據(jù)集時(shí),能夠像處理本地化數(shù)據(jù)一樣。 除了交互式的數(shù)據(jù)分析,Spark還能夠支持交互式的數(shù)據(jù)挖掘,由于Spark是基于內(nèi)存的計(jì)算,很方便處理迭代計(jì)算,而數(shù)據(jù)挖掘的問題通常都是對(duì)同一份數(shù)據(jù)進(jìn)行迭代計(jì)算。除此之外,Spark能夠運(yùn)行于安裝Hadoop2.0Yarn的集群。之所以Spark能夠在保留Mapreduce容錯(cuò)性,數(shù)據(jù)本地化,可擴(kuò)展性等特性的同時(shí),能夠保證性能的高效,并且避免繁忙的磁盤IO,主要原因是因?yàn)镾park創(chuàng)建了一種叫做RDD(ResilientDistributedDataset)的內(nèi)存抽象結(jié)構(gòu)。 原有的分布式內(nèi)存抽象,例如key-valuestore以及數(shù)據(jù)庫,支持對(duì)于可變狀態(tài)的細(xì)粒度更新,這一點(diǎn)要求集群需要對(duì)數(shù)據(jù)或者日志的更新進(jìn)行備份來保障容錯(cuò)性。這樣就會(huì)給數(shù)據(jù)密集型的工作流帶來大量的IO開銷。而對(duì)于RDD來說,它只有一套受限制的接口,僅僅支持粗粒度的更新,例如map,join等等。通過這種方式,Spark只需要簡單的記錄建立數(shù)據(jù)的轉(zhuǎn)換操作的日志,而不是完整的數(shù)據(jù)集,就能夠提供容錯(cuò)性。這種數(shù)據(jù)的轉(zhuǎn)換鏈記錄就是數(shù)據(jù)集的溯源。由于并行程序,通常是對(duì)一個(gè)大數(shù)據(jù)集應(yīng)用相同的計(jì)算過程,因此之前提到的粗粒度的更新限制并沒有想象總的大。事實(shí)上,Spark論文中天闡述了RDD完全可以作為多種不同計(jì)算框架,例如Mapreduce,Pregel等的編程模型。 并且,Spark同時(shí)提供了操作允許用戶顯示的將數(shù)據(jù)轉(zhuǎn)換過程持久化到硬盤。對(duì)于數(shù)據(jù)本地化,是通過允許用戶能夠基于每條記錄的鍵值,控制數(shù)據(jù)分區(qū)實(shí)現(xiàn)的。(采用這種方式的一個(gè)明顯好處是,能夠保證兩份需要進(jìn)行關(guān)聯(lián)的數(shù)據(jù)將會(huì)被同樣的方式進(jìn)行哈希)。如果內(nèi)存的使用超過了物理限制,Spark將會(huì)把這些比較大的分區(qū)寫入到硬盤,由此來保證可擴(kuò)展性。 Spark首先是一個(gè)批處理的引擎,下圖給出了一個(gè)Spark批處理的例子,闡述了多個(gè)RDD以及操作如何被分組到不同的轉(zhuǎn)換步驟?;趦?nèi)存計(jì)算的關(guān)系型數(shù)據(jù)庫-SAPHANA大數(shù)據(jù)量存儲(chǔ)特性SAPHANA是一個(gè)基于行存儲(chǔ)和列存儲(chǔ),以及對(duì)象存儲(chǔ)的最先進(jìn)的數(shù)據(jù)庫技術(shù)的混合應(yīng)用,這樣設(shè)計(jì)的主要目的是用來充分挖掘和使用現(xiàn)代多核CPU架構(gòu)設(shè)計(jì)所帶來的并發(fā)處理能力,毫無疑問,企業(yè)應(yīng)用程序能從中受益頗多,SAP內(nèi)存數(shù)據(jù)庫是整個(gè)HANA應(yīng)用的核心組件。HANA單機(jī)服務(wù)器目前支持最大12TB內(nèi)存的單臺(tái)服務(wù)器,當(dāng)用戶需要分析更多的數(shù)據(jù)時(shí),使用多臺(tái)服務(wù)器橫向擴(kuò)展的方式,目前測(cè)試通過的集群達(dá)到100臺(tái)總共100TB的內(nèi)存,支持的原始數(shù)據(jù)量達(dá)到PB級(jí)別,而且因?yàn)镠ANA采用的是Sharenothing的體系架構(gòu),理論上是集群沒有上限,所以HANA對(duì)于大數(shù)據(jù)的存儲(chǔ)支持將會(huì)非常好,企業(yè)可以根據(jù)自身的數(shù)據(jù)量將HANA整體可用容量做到按需擴(kuò)展?;诹惺綌?shù)據(jù)庫的天然優(yōu)勢(shì),HANA具有極高的數(shù)據(jù)壓縮比,取決于用戶實(shí)際數(shù)據(jù)的不同,HANA數(shù)據(jù)表具有高達(dá)7-20倍的壓縮率。而且列式存儲(chǔ)基本上可以不用在數(shù)據(jù)庫表上建索引,這樣可以去掉很大的索引空間。HANA通過先進(jìn)的數(shù)據(jù)壓縮功能和列式去索引化特點(diǎn),可以很好的做到對(duì)大數(shù)據(jù)的有效地存儲(chǔ)。性能特性SAPHANA使用的是內(nèi)存計(jì)算技術(shù),數(shù)據(jù)的主要的存儲(chǔ)和運(yùn)算都在內(nèi)存中完成,去掉了一直困擾數(shù)據(jù)庫性能的I/O問題,所以相對(duì)傳統(tǒng)的磁盤數(shù)據(jù)庫,天然具備高效計(jì)算的優(yōu)勢(shì)。HANA數(shù)據(jù)庫提供靈活的存儲(chǔ)方式,可以針對(duì)不同業(yè)務(wù)符合的類型,采用最適合的存儲(chǔ)方式,例如,在OLTP場(chǎng)景采用行式存儲(chǔ),在OLAP場(chǎng)景采用列式存儲(chǔ)。在數(shù)據(jù)倉庫系統(tǒng)中使用列存儲(chǔ)方式,數(shù)據(jù)列可以按查詢的需要被任意檢索,避免行式數(shù)據(jù)庫必須一次讀取表中所有列帶來的無謂開銷。HANA數(shù)據(jù)庫引擎可以利用服務(wù)器多核處理器的特點(diǎn),并行執(zhí)行查詢語句。同樣,在多臺(tái)服務(wù)器架構(gòu)下,HANA可以將查詢語句在多個(gè)服務(wù)器上同時(shí)運(yùn)行,以提高系統(tǒng)整體利用率,加速業(yè)務(wù)響應(yīng)。負(fù)載均衡特性SAPHANA在多機(jī)運(yùn)行的情況下,采用的是分布式計(jì)算的理論,有著比較經(jīng)典的MapReduce的特點(diǎn),可以將大數(shù)據(jù)塊以非常智能的算法拆分成小數(shù)據(jù)塊,分布在不同的機(jī)器上進(jìn)行負(fù)載均衡,充分發(fā)揮多機(jī)和多核的特點(diǎn),并行計(jì)算來達(dá)到一個(gè)很好的計(jì)算性能。目前,SAPHANA的研發(fā)過程中和硬件合作伙伴保存了非常緊密的協(xié)作,整體的體系架構(gòu)基于IntelX處理器平臺(tái)支持多服務(wù)器、多處理器的高效并行處理。首先在底層開發(fā)中,Intel為SAP提供專門的開發(fā)包,讓HANA的應(yīng)用能夠最高效、充分的利用多處理器的并發(fā)能力。HANA在應(yīng)用層的架構(gòu)設(shè)計(jì)上也能夠?qū)?shù)據(jù)處理和運(yùn)算拆分并部署到多個(gè)處理器。例如計(jì)算引擎可以將數(shù)據(jù)模型拆解,將一些SQL腳本拆分成可以并行執(zhí)行的步驟。這些操作將遞交給數(shù)據(jù)庫優(yōu)化器來決定最佳的訪問行存儲(chǔ)和列存儲(chǔ)的方案。高可靠性SAPHANA支持帶有failover節(jié)點(diǎn)的高可用性解決方案。當(dāng)集群中有一臺(tái)機(jī)器節(jié)點(diǎn)因?yàn)橛布收匣蚱渌虿荒芄ぷ鞯臅r(shí)候,系統(tǒng)中的主節(jié)點(diǎn)會(huì)監(jiān)測(cè)到故障節(jié)點(diǎn)發(fā)生的位置并指定另一臺(tái)備用(Standby)節(jié)點(diǎn)來接替故障節(jié)點(diǎn)的工作,來達(dá)到集群系統(tǒng)的穩(wěn)定運(yùn)行。如下圖所示,節(jié)點(diǎn)A,B,C都為系統(tǒng)中的工作節(jié)點(diǎn),而A節(jié)點(diǎn)充當(dāng)了主節(jié)點(diǎn)的功能,三個(gè)節(jié)點(diǎn)都是共享的數(shù)據(jù)區(qū),只有工作節(jié)點(diǎn)A和B有自己的數(shù)據(jù)區(qū),當(dāng)B節(jié)點(diǎn)出現(xiàn)故障的時(shí)候,主節(jié)點(diǎn)A會(huì)監(jiān)測(cè)到B節(jié)點(diǎn)的故障,然后啟用C節(jié)點(diǎn)來工作并接替B節(jié)點(diǎn)的數(shù)據(jù)區(qū),來達(dá)到系統(tǒng)的穩(wěn)定運(yùn)行的目的。當(dāng)然,目前在HANA的集群系統(tǒng)中,可以有多個(gè)主節(jié)點(diǎn),所以如果在下圖場(chǎng)景中如果A節(jié)點(diǎn)出現(xiàn)故障的時(shí)候,B節(jié)點(diǎn)也可以接替主節(jié)點(diǎn)的功能并完成如下一系列的系統(tǒng)的調(diào)度工作,最終使整個(gè)系統(tǒng)能一直穩(wěn)定地處于運(yùn)行狀態(tài),給企業(yè)提供一個(gè)企業(yè)級(jí)的應(yīng)用和服務(wù)。目前SAPHANA已認(rèn)證通過的節(jié)點(diǎn)有56個(gè)(每臺(tái)機(jī)器最多1TB內(nèi)存),測(cè)試通過的節(jié)點(diǎn)達(dá)到100個(gè),這樣通過大比率的數(shù)據(jù)壓縮比,HANA能支撐的原始數(shù)據(jù)量將會(huì)非常大。而且目前SAPHANA中的工作節(jié)點(diǎn)和備節(jié)點(diǎn)的數(shù)量是可以自由調(diào)配的,這樣可以不滿足不同的企業(yè)對(duì)高性能的需求??蓴U(kuò)展性SAPHANA支持縱向和橫向的擴(kuò)展,靈活的滿足由于數(shù)據(jù)量,并發(fā)用戶數(shù)查詢負(fù)荷增加帶來的擴(kuò)展性需求。在服務(wù)器硬件配置不能滿足業(yè)務(wù)需要的情況下,可以通過增加服務(wù)器CPU,內(nèi)存的方式實(shí)現(xiàn)縱向擴(kuò)展。在單臺(tái)服務(wù)器硬件無法繼續(xù)擴(kuò)展的情況下,可以通過多臺(tái)服務(wù)器組成一個(gè)大的服務(wù)器集群的方式,實(shí)現(xiàn)系統(tǒng)橫向擴(kuò)展。技術(shù)方案優(yōu)勢(shì)方案整體優(yōu)勢(shì)全球領(lǐng)先的技術(shù)產(chǎn)品Cloudera成立于2008年,由來自如于Google、Yahoo、Oracle和Facebook的技術(shù)高管聯(lián)手創(chuàng)立。Cloudera是全球第一個(gè)企業(yè)級(jí)ApacheHadoop產(chǎn)品和服務(wù)提供商,無論在產(chǎn)品、專業(yè)服務(wù)、技術(shù)支持和培訓(xùn)方面都處于明顯的業(yè)界領(lǐng)袖地位。Cloudera自2008年成立以來,專注于Hadoop全球生態(tài)系統(tǒng)的建設(shè),主導(dǎo)了最多Hadoop模塊的開發(fā)工作,代碼貢獻(xiàn)量,bug修復(fù)數(shù)量,Hadoopcommitter數(shù)量穩(wěn)居全球首位,Cloudera對(duì)Hadoop開放社區(qū)的代碼貢獻(xiàn)度高達(dá)40%以上,是無可爭(zhēng)議的Hadoop開源領(lǐng)導(dǎo)廠商。CDH(ClouderaDistributedHadoop)是Cloudera基于ApacheHadoop的發(fā)行版本版本。除了提供Hadoop的核心組件以外,CDH是唯一一個(gè)提供全面的數(shù)據(jù)存儲(chǔ)和處理引擎的發(fā)行版。在整個(gè)商業(yè)化的Hadoop領(lǐng)域,Cloudera無論是從產(chǎn)品的更新速度、技術(shù)支持、周邊生態(tài)系統(tǒng)等方面都由于其它Hadoop產(chǎn)品。選擇ClouderaCDH對(duì)**項(xiàng)目最終能夠成功提供了極大的保障。SAPHANA是一個(gè)內(nèi)存數(shù)據(jù)庫,將數(shù)據(jù)處理、分析數(shù)據(jù)處理以及業(yè)務(wù)邏輯處理功能組合至內(nèi)存中,突破了傳統(tǒng)關(guān)系型數(shù)據(jù)庫諸多性能限制,同時(shí)通過高度可擴(kuò)展的MPP架構(gòu),HANA可以輕松支持大數(shù)據(jù)場(chǎng)景。TheForresterWave:《2015年第三季度大數(shù)據(jù)預(yù)測(cè)分析解決方案》報(bào)告中,SAP被評(píng)為該領(lǐng)域的領(lǐng)軍企業(yè)。此次評(píng)選活動(dòng)中,SAP憑借強(qiáng)大的架構(gòu)和戰(zhàn)略被譽(yù)為市場(chǎng)領(lǐng)導(dǎo)者。據(jù)相關(guān)消息稱,SAP將SAPHANA內(nèi)存計(jì)算平臺(tái)作為產(chǎn)品的核心平臺(tái),這使其在眾多競(jìng)爭(zhēng)對(duì)手中脫穎而出、拔得頭籌Forrester研究中的亮點(diǎn)“SAP內(nèi)存數(shù)據(jù)庫技術(shù)開始得到市場(chǎng)的認(rèn)可.”–NoelYuhanna,ForresterSAPHANA平臺(tái)在策略和現(xiàn)階段能力的評(píng)分都得到了最高SAP是唯一一個(gè)在遠(yuǎn)見得到滿分的公司SAP是唯一一個(gè)在數(shù)據(jù)管理和交易能力方面得到滿分的公司SAP還在其他方面得到了滿分,其中包括執(zhí)行,市場(chǎng)表現(xiàn),合作伙伴,分析能力等Forrester2015年第三季度內(nèi)存計(jì)算平臺(tái)內(nèi)存wave報(bào)告在平臺(tái)集成工具方面,除了可以利用Cloudera的Sqoop外,與HANA集成到一起的還包括了SAPBusinessObjectsDataServices工具,DataServices是當(dāng)今市場(chǎng)上效率和擴(kuò)展性最高的數(shù)據(jù)集成平臺(tái)之一。它使企業(yè)能夠方便地、隨時(shí)隨地抽取、清洗、轉(zhuǎn)換和裝載數(shù)據(jù)。DataServices有利于確保BI最終用戶總是能掌握及時(shí)、準(zhǔn)確、可靠的信息。Hadoop與關(guān)系型數(shù)據(jù)庫的完美結(jié)合隨著**原有數(shù)據(jù)倉庫數(shù)據(jù)的格式也越來越多越來越復(fù)雜。單一依靠傳統(tǒng)數(shù)據(jù)庫很將趨于瓶頸。而綜合使用Hadoop生態(tài)系統(tǒng)組件產(chǎn)品能夠很好的解決這一問題。其底層的分布式文件系統(tǒng)具有高拓展性,通過數(shù)據(jù)冗余保證數(shù)據(jù)不丟失和提交計(jì)算效率,同時(shí)可以存儲(chǔ)各種格式的數(shù)據(jù)。同時(shí)其還支持多種計(jì)算框架,既可以進(jìn)行離線計(jì)算也可以進(jìn)行在線實(shí)時(shí)計(jì)算。Hadoop生態(tài)系統(tǒng)環(huán)境提供了一系列組件支持大數(shù)據(jù)平臺(tái)應(yīng)用場(chǎng)景,其中,數(shù)據(jù)存儲(chǔ)方面主要提供三種存儲(chǔ)和應(yīng)用方式,即Hbase,Hive,Spark。其中三者都是基于底層的hdfs分布式文件系統(tǒng)。hive重點(diǎn)是sql-batch查詢,海量數(shù)據(jù)的統(tǒng)計(jì)類查詢分析,而Spark的重點(diǎn)是ad-hoc和交互式查詢。hive和Spark都可以看作是基于OLAP模式的。而Hbase庫是支撐業(yè)務(wù)的CRUD操作,各種業(yè)務(wù)操作下的處理和查詢。Hadoop在大數(shù)據(jù)平臺(tái)場(chǎng)景的優(yōu)勢(shì)是在超大規(guī)模數(shù)據(jù)集里,Hadoop及其生態(tài)組件非常適用于批量操作(如數(shù)據(jù)處理、匯總等)、明細(xì)查詢(利用Hbase)、OLAP查詢(在并發(fā)不高的情況下)、統(tǒng)計(jì)分析(如各種業(yè)務(wù)指標(biāo)的計(jì)算)。但是,通過對(duì)**業(yè)務(wù)的了解,無論在**郵政服務(wù)信息平臺(tái)還是在綜合分析平臺(tái)中都存在著大量大規(guī)模復(fù)雜的實(shí)時(shí)查詢需求,而這些場(chǎng)景恰恰是傳統(tǒng)關(guān)系型數(shù)據(jù)庫擅長的。結(jié)合數(shù)據(jù)倉庫業(yè)務(wù)遷移的需求,我們認(rèn)為應(yīng)該綜合利用Hadoop與關(guān)系型數(shù)據(jù)庫的技術(shù),發(fā)揮二者優(yōu)勢(shì)。在關(guān)系型數(shù)據(jù)庫中,我們推薦使用基于最新內(nèi)存計(jì)算技術(shù)的產(chǎn)品-SAPHANA。SAPHANA是一個(gè)軟硬件結(jié)合體,提供高性能的數(shù)據(jù)查詢功能,用戶可以直接對(duì)大量實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢和分析,而不需要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行建模、聚合等。為了解決HANA中存儲(chǔ)數(shù)據(jù)有限的問題,我們引入了SAPHANAVora,SAPHANAVora是一款全新的內(nèi)存查詢引擎,通過利用并延展ApacheSpark運(yùn)行框架,在Hadoop上提供更豐富的交互式分析功能。SAPHANAVora運(yùn)用在**大數(shù)據(jù)平臺(tái)主要的優(yōu)勢(shì)在于:SAPHANAVora橫跨Hadoop、SAPHANA、Spark等多個(gè)平臺(tái),將成為HANA與Hadoop的橋梁,把HANA的分析能力搬到Hadoop上,而不再需要在Hadoop和HANA之間不停地移動(dòng)數(shù)據(jù)?;贛ap-Reduce模式的Hadoop擅長數(shù)據(jù)批處理,但不是特別符合即時(shí)查詢的場(chǎng)景。通過聯(lián)機(jī)分析處理(OLAP)方法,SAPHANAVora可以幫助開源框架更好地理解商業(yè)語言,將SAP在內(nèi)存計(jì)算上的經(jīng)驗(yàn)帶給Hadoop生態(tài)圈。借助SAPHANAVora,SAP將在Hadoop領(lǐng)域拓展新生態(tài)。而SAP大數(shù)據(jù)生態(tài)圈的擴(kuò)大也將為合作伙伴帶來新的發(fā)展機(jī)會(huì),幫助他們打造更具競(jìng)爭(zhēng)力的差異化解決方案。更高的性能Hadoop性能提升Hadoop使用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時(shí)候只需要將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上,即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算,Hadoop中的集群存儲(chǔ)節(jié)點(diǎn)也是計(jì)算節(jié)點(diǎn)。通過在架構(gòu)方面的精心設(shè)計(jì)以及利用適合的工具滿足各個(gè)業(yè)務(wù)場(chǎng)景,Hadoop的部署能夠取得非常好的性能高性能:具有和目前領(lǐng)先的MPP數(shù)據(jù)庫有匹配的性能,比Apahcehive/Stinger快10-100倍Spark提供了一個(gè)快速的計(jì)算,寫入,以及交互式查詢的框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢(shì)。Spark使用in-memory的計(jì)算方式,通過這種方式來避免一個(gè)Mapreduce工作流中的多個(gè)任務(wù)對(duì)同一個(gè)數(shù)據(jù)集進(jìn)行計(jì)算時(shí)的IO瓶頸。Spark利用Scala語言實(shí)現(xiàn),Scala能夠使得處理分布式數(shù)據(jù)集時(shí),能夠像處理本地化數(shù)據(jù)一樣。HANA的高性能HANA代表著下一代企業(yè)級(jí)運(yùn)算,這一點(diǎn)在數(shù)據(jù)庫技術(shù)上尤為突出。它是針對(duì)實(shí)時(shí)分析和應(yīng)用的現(xiàn)代數(shù)據(jù)平臺(tái)。它能讓組織實(shí)時(shí)分析大量而又冗雜的數(shù)據(jù),同時(shí)在真正意義上實(shí)時(shí)避免延時(shí)和減少OLTP和OLAP之間的層次交流。HANA的優(yōu)勢(shì)在于它是一套緊密集成的系統(tǒng),實(shí)現(xiàn)了不同組成部份之間的良好交互和系統(tǒng)整合優(yōu)化。無論向上還是向外擴(kuò)展,HANA對(duì)所有部份,如OLTP,OLAP(業(yè)務(wù)以及存儲(chǔ)業(yè)務(wù)),文字,計(jì)劃和純應(yīng)用開發(fā)都能實(shí)現(xiàn)良好的承接。通過HANA,簡易的部署不再是夢(mèng)想,沒有主機(jī)動(dòng)物園(虛擬主機(jī)),沒有內(nèi)部同步,沒有物化聚集,更沒有一堆的引擎!SAPHANA能向外擴(kuò)展無限的內(nèi)核/節(jié)點(diǎn),并減少硬件開銷。HANA是建立在新架構(gòu)典范上的純內(nèi)存數(shù)據(jù)庫。考慮到所有的數(shù)據(jù)庫都是在內(nèi)存中,所以HANA不緩存數(shù)據(jù)。具備世界級(jí)的查詢優(yōu)化器,能輕易實(shí)現(xiàn)大規(guī)模并行查詢的操作,包括運(yùn)算符內(nèi)部和運(yùn)算符之間的并行查詢(interandintra-operatorparallelism)。SAPHANA將所有數(shù)據(jù)以整體形式存儲(chǔ)在列中。另外還采取了發(fā)展中的向量運(yùn)算處理器(CPUdevelopmentsinvectoroperations)這類英特爾最新的優(yōu)勢(shì)技術(shù)進(jìn)行了優(yōu)化。SAPHANA的前瞻性架構(gòu)(next-generationarchitecture)和芯片級(jí)創(chuàng)新(chiplevelinnovations)使它遠(yuǎn)遠(yuǎn)超越了市場(chǎng)上的任何競(jìng)爭(zhēng)對(duì)手。**公司早在2012年就運(yùn)用SAPHANA技術(shù)進(jìn)行了一系列性能測(cè)試,當(dāng)時(shí)基于**郵政服務(wù)信息平臺(tái)中的網(wǎng)運(yùn)和報(bào)刊中出現(xiàn)性能瓶頸的報(bào)表在SAPHANA中進(jìn)行了加速,在兩個(gè)場(chǎng)景中HANA的運(yùn)算能力較目前正在使用的Teradata以及Oracle查詢性能分別提升了400多倍和千倍以上。此測(cè)試結(jié)果得到了**相關(guān)技術(shù)負(fù)責(zé)人的高度認(rèn)可。系統(tǒng)的開放性傳統(tǒng)單一軟件供應(yīng)商、單一硬件平臺(tái)的組合方式以不再適用于大型國有化集團(tuán)的大數(shù)據(jù)平臺(tái)。大數(shù)據(jù)平臺(tái)在設(shè)計(jì)時(shí)應(yīng)充分考慮到平臺(tái)的開放性與可移植性。Cloudera自2008年成立以來,專注于Hadoop全球生態(tài)系統(tǒng)的建設(shè),主導(dǎo)了最多Hadoop模塊的開發(fā)工作,代碼貢獻(xiàn)量,bug修復(fù)數(shù)量,Hadoopcommitter數(shù)量穩(wěn)居全球首位,是無可爭(zhēng)議的Hadoop開源領(lǐng)導(dǎo)廠商。Cloudera的CDH是100%的開源解決方案,并且完全和Hadoop開源社區(qū)保持一致,CDH可以算是Hadoop領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)版,其他任何國內(nèi)外廠商的Hadoop發(fā)行版就算要增加一些私有特性,首先也需要保證和CDH的100%兼容,因此用戶使用CDH不會(huì)擔(dān)心被特定廠商綁架,隨時(shí)擁有自由選擇的能力。SAPHANA作為通用的關(guān)系型數(shù)據(jù)庫軟件產(chǎn)品,具有很強(qiáng)的硬件兼容能力,能夠搭建在業(yè)界主流十余家主流廠商的PC服務(wù)器平臺(tái)之上。而且,為了保證系統(tǒng)的性能,SAP與這些硬件廠商采用聯(lián)合認(rèn)證的模式,推薦使用固定的配置以為用戶提供更高的品質(zhì)。豐富的用戶案例作為開源Hadoop技術(shù),以及內(nèi)存技術(shù)的最主流品牌,ClouderaCDH與SAPHANA在國內(nèi)外都有著廣泛的大型用戶案例。Cloudera在國內(nèi)大型企業(yè)的項(xiàng)目案例包括:銀聯(lián)大數(shù)據(jù)平臺(tái)、湖南移動(dòng)CDR平臺(tái)、北京聯(lián)通CDR平臺(tái)、上海電信等。SAPHANA從2011年發(fā)布以來在全球范圍內(nèi)積累了上萬家用戶,僅在中國就有近千家用戶在使用SAPHANA,其中不乏大型企業(yè)的數(shù)據(jù)倉庫系統(tǒng)和大數(shù)據(jù)平臺(tái):如中國石油、中石化、華能集團(tuán)、海關(guān)總署、中國核工業(yè)集團(tuán)公司、聯(lián)想、福建電力等。產(chǎn)品優(yōu)勢(shì)領(lǐng)先的Hadoop品牌-ClouderaCDH完全開源開放,避免被私有閉源平臺(tái)綁架Cloudera自2008年成立以來,專注于Hadoop全球生態(tài)系統(tǒng)的建設(shè),主導(dǎo)了最多Hadoop模塊的開發(fā)工作,代碼貢獻(xiàn)量,bug修復(fù)數(shù)量,Hadoopcommitter數(shù)量穩(wěn)居全球首位,是無可爭(zhēng)議的Hadoop開源領(lǐng)導(dǎo)廠商。Cloudera的CDH是100%的開源解決方案,并且完全和Hadoop開源社區(qū)保持一致,CDH可以算是Hadoop領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)版,其他任何國內(nèi)外廠商的Hadoop發(fā)行版就算要增加一些私有特性,首先也需要保證和CDH的100%兼容,因此用戶使用CDH不會(huì)擔(dān)心被特定廠商綁架,隨時(shí)擁有自由選擇的能力。業(yè)內(nèi)最完整的Hadoop堆棧ClouderaCDH企業(yè)版包括分布式存儲(chǔ)、數(shù)據(jù)庫、SQL引擎、機(jī)器學(xué)習(xí)引擎、全文檢索、實(shí)時(shí)流處理、分布式數(shù)據(jù)總線服務(wù)、ETL工作流引擎、內(nèi)存計(jì)算引擎、元數(shù)據(jù)生命周期管理、統(tǒng)一多層次安全模塊、平臺(tái)管理、云平臺(tái)自動(dòng)部署等企業(yè)級(jí)Hadoop軟件模塊,在企業(yè)級(jí)解決方案完整性方面已超越其他Hadoop廠商,向傳統(tǒng)數(shù)據(jù)庫巨頭看齊。ClouderaCDH采用周期性更新升級(jí)的方式,以最快的速度整合開源社區(qū)的最新成果,一般最新的開源Hadoop版本發(fā)布后,CDH會(huì)在2至3個(gè)月內(nèi)提供新版本整合,這一速度超過全球絕大多數(shù)Hadoop廠商。業(yè)內(nèi)最廣泛的合作伙伴生態(tài)圈Cloudera作為Hadoop生態(tài)環(huán)境的領(lǐng)導(dǎo)者,擁有業(yè)內(nèi)最廣泛的生態(tài)環(huán)境支持,大多第三方工具首先會(huì)提供對(duì)CDH的兼容,然后才會(huì)擴(kuò)展到其他Hadoop發(fā)行版,CDH與各個(gè)主流的數(shù)據(jù)庫廠商,包括Oracle,TeraData,IBM,MongoDB等,各個(gè)主流的ETL工具,如Informatica,Pentahoo,各種可視化工具,如Tableau,ZoomData等都具有官方的雙向全面認(rèn)證支持,這種官方認(rèn)證支持意味著這些軟件的新功能都能保證和CDH兼容,如果只是單方面宣稱支持Tableau等工具,不能保證100%的兼容性。國內(nèi)外最多商業(yè)部署案例Cloudera擁有超過1000家大型用戶和1000多家合作伙伴,業(yè)務(wù)遍及全球,大部分用戶都是全球500強(qiáng)的大型企業(yè),同時(shí)CDH也是目前全球最流行的Hadoop發(fā)行版,具有最廣泛的影響力和各行各業(yè)廣泛的實(shí)施案例。Cloudera在國內(nèi)也擁有許多大型的實(shí)施案例,包括農(nóng)行,中國銀聯(lián),廣東移動(dòng),招商銀行等利用CDH部署了數(shù)百個(gè)節(jié)點(diǎn)的大型集群,Cloudera中國團(tuán)隊(duì)的前身為IntelHadoop中國團(tuán)隊(duì),在國內(nèi)擁有豐富的Hadoop項(xiàng)目實(shí)施經(jīng)驗(yàn)。卓越的實(shí)時(shí)計(jì)算引擎-SAPHANA中國**大數(shù)據(jù)平臺(tái)主要運(yùn)用Hadoop技術(shù)以及外圍的組件實(shí)現(xiàn)企業(yè)內(nèi)部信息的分析、預(yù)測(cè)和挖掘等功能,但對(duì)于兼具大規(guī)模并發(fā)、復(fù)雜的實(shí)時(shí)分析場(chǎng)景,Hadoop方案效率并不能滿足用戶需求,這種場(chǎng)景下,我們建議使用基于內(nèi)存計(jì)算技術(shù)的關(guān)系型數(shù)據(jù)庫-SAPHANA。SAPHANA平臺(tái)實(shí)現(xiàn)了數(shù)據(jù)處理中新的業(yè)務(wù)途徑。事實(shí)上,它遠(yuǎn)遠(yuǎn)超過了數(shù)據(jù)庫的傳統(tǒng)定義,并且其性質(zhì)遠(yuǎn)不只是內(nèi)存中磁盤數(shù)據(jù)結(jié)構(gòu)上的本地緩存。SAPHANA概念圖如下圖所示:SAPHANA,首先也是最重要的是,它集成了一個(gè)完整的數(shù)據(jù)庫管理系統(tǒng)(DBMS):使用標(biāo)準(zhǔn)的SQL接口、事務(wù)的隔離和恢復(fù)(ACID[原子性,一致性,隔離性,耐久性])性能和高可用性。SAPHANA支持ANSISQL92。使用OpenSQL的SAP應(yīng)用程序可以在SAPHANA平臺(tái)上運(yùn)行,而不用改變。HANA的開放性使得其比較適合于大數(shù)據(jù)平臺(tái)場(chǎng)景。純內(nèi)存計(jì)算內(nèi)存作為主存儲(chǔ),不再僅作為數(shù)據(jù)庫的緩存。與Hadoop的Spark將中間結(jié)果集緩存至內(nèi)存不同,HANA的數(shù)據(jù)全部存儲(chǔ)在內(nèi)存中,完全不受磁盤交換的限制。另外HANA所有的計(jì)算基于內(nèi)存中的明細(xì)數(shù)據(jù),不需要再存放冗余的匯總數(shù)據(jù),數(shù)據(jù)庫性能較傳統(tǒng)數(shù)據(jù)庫有本質(zhì)提升。而且HANA采用的是基于內(nèi)存計(jì)算的關(guān)系型數(shù)據(jù)庫技術(shù),其在大規(guī)模并發(fā)查詢和復(fù)雜的分析計(jì)算時(shí)性能方面較開源技術(shù)有一定優(yōu)勢(shì)??梢耘cHadoop產(chǎn)品結(jié)合使用,發(fā)揮各自優(yōu)勢(shì)。并行數(shù)據(jù)流計(jì)算模型為了直接利用大規(guī)模并行多核處理器,SAPHANA對(duì)SQL的處理指令進(jìn)行管理,使之成為一個(gè)優(yōu)化的模型,從而允許并行執(zhí)行,并極大地?cái)U(kuò)展了內(nèi)核的數(shù)量。這種優(yōu)化包括分區(qū)中的數(shù)據(jù)部分,在這些分區(qū)中計(jì)算可以并行執(zhí)行。SAPHANA支持不同主機(jī)上的分布。為了由多個(gè)主機(jī)并行處理,大表可能進(jìn)行分區(qū)。下圖總結(jié)了英特爾團(tuán)隊(duì)與SAP合作執(zhí)行的規(guī)模測(cè)試結(jié)果。測(cè)試表明了規(guī)模是接近線性的。使用雙核的處理時(shí)間為16.8秒,使用32內(nèi)核提高到了1.4秒。超線程增加了一個(gè)額外的20%的改善。應(yīng)用邏輯擴(kuò)展特定應(yīng)用程序的邏輯延伸了并行數(shù)據(jù)流的計(jì)算模型,該邏輯在處理節(jié)點(diǎn)上是模型的一部分。功能語言SQLScript和命令式語言_“L”能夠支持它,它可以要求SAPHANA預(yù)測(cè)分析庫中的已組裝程序算法執(zhí)行先進(jìn)的統(tǒng)計(jì)計(jì)算。應(yīng)用邏輯的語言和概念在SAP開發(fā)者社區(qū)的內(nèi)部和外部中演變成為了協(xié)作的結(jié)果。商務(wù)功能庫和預(yù)測(cè)分析庫SAP在具體的端口和SAPHANA內(nèi)基礎(chǔ)設(shè)施的應(yīng)用程序功能業(yè)務(wù)上,充分利用了其深厚的應(yīng)用專業(yè)知識(shí),從而充分地直接在主存儲(chǔ)器中通過優(yōu)化計(jì)算和應(yīng)用技術(shù),處理利用內(nèi)存中的計(jì)算。實(shí)例包括貨幣兌換,這是作為一個(gè)全球性的公司根本上的第一步。否則關(guān)于貨幣兌換的許多報(bào)告就可能利用簡單的SQL,利用并行處理。另一個(gè)例子是轉(zhuǎn)換業(yè)務(wù)日歷:不同的國家使用不同的民用或商業(yè)日歷,對(duì)一個(gè)財(cái)政年度也有不同的定義。列式和行式數(shù)據(jù)存儲(chǔ)SAPHANA的特有屬性是行存儲(chǔ)和列存儲(chǔ)位于同一引擎中。使得SAPHANA有更高的數(shù)據(jù)壓縮能力、數(shù)十倍甚至千倍快于傳統(tǒng)行式存儲(chǔ)的分析功能。Hadoop支持SAPHANA支持Hadoop技術(shù)架構(gòu),與主流的Hadoop廠商Cloudera,Hortonworks,MapR都進(jìn)行了深度的集成。從技術(shù)層面HANA可以與Hadoop通過幾個(gè)層面進(jìn)行融合:HANA提供了智能訪問接口SDA(SmartDataAccess),可以直接連接HDFS數(shù)據(jù)源在HANA內(nèi)部可以定義虛擬的UDF,vUDF是可以使用數(shù)據(jù)聯(lián)邦的自定義函數(shù),利用這種函數(shù)可以直接定義MapReduce函數(shù),并將在SQL中調(diào)用這種函數(shù),合理地編寫vUDF可以大大提高HANA基于Hadoop的執(zhí)行效率。SAPHANAVora-為訪問Hadoop數(shù)據(jù)平臺(tái)提供的更為便捷的途徑。HANAVora是一款內(nèi)存查詢引擎,可以接入ApacheSpark框架,支持使用者交互式分析存儲(chǔ)在Hadoop中的數(shù)據(jù)。利用SAPHANA的實(shí)時(shí)分析能力與Hadoop海量數(shù)據(jù)處理能力結(jié)合,為中國**的大數(shù)據(jù)平臺(tái)建設(shè)提供更大的價(jià)值。文本分析、R語言、地理空間信息處理能力SAPHANA為文本分析檢索、R語言、地理空間信息處理提供技術(shù)支持接口,為基于SAPHANA構(gòu)建的數(shù)據(jù)分析平臺(tái)提供了多樣化的應(yīng)用創(chuàng)新可能??蓴U(kuò)展性SAPHANA支持縱向和橫向的擴(kuò)展,靈活的滿足由于數(shù)據(jù)量,并發(fā)用戶數(shù)查詢負(fù)荷增加帶來的擴(kuò)展性需求。在服務(wù)器硬件配置不能滿足業(yè)務(wù)需要的情況下,可以通過增加服務(wù)器CPU,內(nèi)存的方式實(shí)現(xiàn)縱向擴(kuò)展。在單臺(tái)服務(wù)器硬件無法繼續(xù)擴(kuò)展的情況下,可以通過多臺(tái)服務(wù)器組成一個(gè)大的服務(wù)器集群的方式,實(shí)現(xiàn)系統(tǒng)橫向擴(kuò)展。強(qiáng)大的ETL工具SAPDataServices是當(dāng)今市場(chǎng)上效率和擴(kuò)展性最高的數(shù)據(jù)集成平臺(tái)之一。它使企業(yè)能夠方便地、隨時(shí)隨地抽取、清洗、轉(zhuǎn)換和裝載數(shù)據(jù)。DataServices有利于確保BI最終用戶總是能掌握及時(shí)、準(zhǔn)確、可靠的信息。DataServices支持廣泛的數(shù)據(jù)源和目標(biāo),可以在**系統(tǒng)范圍內(nèi)集成更多的數(shù)據(jù)源,這些數(shù)據(jù)源包括:支持主流數(shù)據(jù)庫系統(tǒng):包括Oracle、MicrosoftSQLServer、Teradata、IBMDB2、SybaseASE、SybaseIQ支持非關(guān)系型數(shù)據(jù)源:如各種文件格式、xml、MQSeries等支持通用的數(shù)據(jù)庫接口:如ODBC支持Hadoop數(shù)據(jù)源支持企業(yè)應(yīng)用系統(tǒng):如SAPERP,OracleEBS,Peoplesoft,S等提供數(shù)據(jù)清洗功能提供數(shù)據(jù)剖析功能(dataprofile),進(jìn)行數(shù)據(jù)屬性分析,可以幫助描述數(shù)據(jù)的質(zhì)量、結(jié)構(gòu)信息??梢暬缑娌榭丛春湍繕?biāo)數(shù)據(jù)的質(zhì)量、數(shù)據(jù)關(guān)系。使用Validation轉(zhuǎn)換,依據(jù)一組預(yù)定義的業(yè)務(wù)規(guī)則比較輸入的數(shù)據(jù),并在必要時(shí)采取任何糾正措施。同時(shí)具備強(qiáng)大的數(shù)據(jù)質(zhì)量監(jiān)控工具,幫助我們監(jiān)控各來源的數(shù)的有效程度,通過建立清洗包,可以幫助我們大幅提升各來源數(shù)據(jù)的有效程度提供審核功能,可確保數(shù)據(jù)流將正確的數(shù)據(jù)加載到數(shù)據(jù)倉庫中。支持?jǐn)?shù)據(jù)轉(zhuǎn)換利用DataServices,用戶可以執(zhí)行多種數(shù)據(jù)轉(zhuǎn)換功能。用戶可以選擇一系列功能強(qiáng)大、可擴(kuò)展、可重復(fù)使用的數(shù)據(jù)轉(zhuǎn)換組件,如父子結(jié)構(gòu)的XML數(shù)據(jù)展平組件、行和列轉(zhuǎn)換組件、漸變維組件、數(shù)據(jù)匹配和合并組件、變化數(shù)據(jù)捕捉組件及數(shù)據(jù)校驗(yàn)組件等,最大程度地提高開發(fā)人員的工作效率??罩堤幚恚嚎刹东@字段空值,進(jìn)行加載或替換為其他含義數(shù)據(jù),并可根據(jù)字段空值實(shí)現(xiàn)分流加載到不同目標(biāo)庫。DataServices可以定義多種異常處理機(jī)制,其中包含對(duì)空值的判斷和校驗(yàn)。提供規(guī)范化數(shù)據(jù)格式支持:可實(shí)現(xiàn)字段格式約束定義,對(duì)于數(shù)據(jù)源中的時(shí)間、數(shù)值、字符等數(shù)據(jù),提供對(duì)時(shí)間、數(shù)字、字符校驗(yàn)的函數(shù),并可以靈活定義格式。提供字段映射:映射源和目標(biāo)字段之間的匹配;字段的拆分;多字段的混合運(yùn)算。記錄間合并或計(jì)算;記錄拆分;排序、統(tǒng)計(jì),按行按列的分組聚合等功能。DataServices提供豐富的lookup函數(shù)(lookup,lookup_seq,look_ext),可以實(shí)現(xiàn)復(fù)雜的lookup算法,例如根據(jù)數(shù)據(jù)范圍lookup,數(shù)據(jù)拆分后lookup。DataServices還提供數(shù)據(jù)替換功能,配合校驗(yàn)函數(shù)的使用,可以實(shí)現(xiàn)基于業(yè)務(wù)規(guī)則,進(jìn)行無效數(shù)據(jù)、缺失數(shù)據(jù)的替換。支持自動(dòng)產(chǎn)生有效時(shí)間(Data_Generation),設(shè)計(jì)人員可以根據(jù)需要設(shè)定時(shí)間序列的增長間隔等相關(guān)屬性。提供自動(dòng)主鍵生成功能,自動(dòng)生成可自增長的主鍵。提供層次數(shù)據(jù)展平的轉(zhuǎn)換功能(Hierarchy_Flattern),將有自連接的表展開,以便將來的統(tǒng)計(jì)分析處理。提供多套數(shù)據(jù)集合并(Merge)成一個(gè)數(shù)據(jù)集的功能。提供歷史數(shù)據(jù)操作保留的功能,例如源數(shù)據(jù)表中某一條記錄被更新,在目標(biāo)數(shù)據(jù)表中,保留原有記錄,并增加一條新的記錄以描述該記錄的最新情況。提供列到行(Pivot)以及行到列(ReversePivot)的轉(zhuǎn)換。提供表數(shù)據(jù)集合比較的功能(TableComparison),并根據(jù)比較所得到的結(jié)果集進(jìn)行相應(yīng)操作。還可以在轉(zhuǎn)換流程中通過圖形方式加入特定的SQL代碼DataServices還提供了操作映射功能(MapOperataion),即對(duì)源數(shù)據(jù)表的insert,delete以及update操作,根據(jù)業(yè)務(wù)需要映射成目標(biāo)表的insert,delete以及update,此種映射并不是同等操作的映射,可以按需定義,例如:用戶可以將源表的update映射成目標(biāo)表的insert,源表的delete映射成update。DataServices除
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 茶葉品牌授權(quán)合同
- 二手架管交易合同范本
- 商業(yè)廣告包裝印刷合同
- 借門卡部分房屋合同協(xié)議范本
- 信息中心2024年終工作總結(jié)
- 季度財(cái)務(wù)工作計(jì)劃
- 2024餐飲店鋪轉(zhuǎn)讓合同范本
- 廠房租賃居間合同范本
- 2025年文秘年度個(gè)人工作計(jì)劃
- 電工年終工作總結(jié)2
- 上海市浦東新區(qū)2023-2024學(xué)年一年級(jí)上學(xué)期期末考試數(shù)學(xué)試題
- 足球教練員管理制度模版
- IQC來料檢驗(yàn)記錄表
- 成長生涯發(fā)展展示
- 申報(bào)市級(jí)高技能人才培訓(xùn)基地申報(bào)工作匯報(bào)
- 2024年高考作文素材積累:人民日?qǐng)?bào)9大主題時(shí)評(píng)
- 設(shè)立出國留學(xué)服務(wù)公司商業(yè)計(jì)劃書
- 法院安保工作管理制度
- 2023年簽證專員年度總結(jié)及下一年規(guī)劃
- 國培教師個(gè)人成長案例3000字
- 員工素質(zhì)教育課件
評(píng)論
0/150
提交評(píng)論