Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹課件_第1頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹課件_第2頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹課件_第3頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹課件_第4頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹1OLAP在互聯(lián)網(wǎng)公司的實踐與思考Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹1OLAP在互聯(lián)網(wǎng)公Greenplum狀態(tài)描述2三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum狀態(tài)描述2三Greenplum體系架構(gòu)二數(shù)數(shù)據(jù)倉庫體系架構(gòu)3數(shù)據(jù)倉庫架構(gòu)要點數(shù)據(jù)生命周期業(yè)務(wù)數(shù)據(jù)特點OLAP場景舉例OLAP架構(gòu)示意數(shù)據(jù)流轉(zhuǎn)過程具體技術(shù)實現(xiàn)數(shù)據(jù)認識業(yè)務(wù)認識業(yè)務(wù)需求整體框架數(shù)據(jù)流轉(zhuǎn)實現(xiàn)方式數(shù)據(jù)倉庫體系架構(gòu)3數(shù)據(jù)倉庫架構(gòu)要點數(shù)據(jù)生命周期數(shù)據(jù)認識數(shù)據(jù)倉庫體系架構(gòu)4數(shù)據(jù)生命周期與業(yè)務(wù)歸類時間維度:過去

-現(xiàn)在

-未來 (數(shù)據(jù)的生命周期)“現(xiàn)在”的數(shù)據(jù)

——

OLTP“過去”的數(shù)據(jù)

——

OLAP“未來”的數(shù)據(jù)

——

趨勢分析數(shù)據(jù)倉庫體系架構(gòu)4數(shù)據(jù)生命周期與業(yè)務(wù)歸類時間維度:過去-數(shù)據(jù)倉庫體系架構(gòu)5業(yè)務(wù)數(shù)據(jù)特點現(xiàn)在的數(shù)據(jù)

——

OLTP?實時,在線系統(tǒng),客戶使用?事務(wù)小,頻率高,并發(fā)高過去的數(shù)據(jù)

——

OLAP?非實時(T+1,或小時級),離線系統(tǒng),分析決策?事務(wù)大,頻率相對小,并發(fā)低未來的數(shù)據(jù)

——

趨勢分析?非實時,離線+在線流系統(tǒng),趨勢分析?算法分析,持續(xù)計算數(shù)據(jù)倉庫體系架構(gòu)5業(yè)務(wù)數(shù)據(jù)特點現(xiàn)在的數(shù)據(jù)——OLTP數(shù)據(jù)倉庫體系架構(gòu)6OLAP場景舉例業(yè)務(wù)相關(guān)場景?用戶狀態(tài)

(注冊數(shù),活躍數(shù),并發(fā)量,峰值)?金幣狀態(tài)?道具/物品狀態(tài)?對賬狀態(tài)?活動反饋架構(gòu)相關(guān)場景?不同數(shù)據(jù)量,不同事務(wù)特點,不同查詢需求?歷史數(shù)據(jù)歸檔與冷熱分離?實時與延時需求的權(quán)衡數(shù)據(jù)倉庫體系架構(gòu)6OLAP場景舉例業(yè)務(wù)相關(guān)場景數(shù)據(jù)倉庫體系架構(gòu)數(shù)據(jù)架構(gòu)示意圖7數(shù)據(jù)倉庫體系架構(gòu)數(shù)據(jù)架構(gòu)示意圖7數(shù)據(jù)倉庫體系架構(gòu)8數(shù)據(jù)流轉(zhuǎn)過程1

業(yè)務(wù)數(shù)據(jù)的產(chǎn)生

——

OLTP2

業(yè)務(wù)數(shù)據(jù)的中轉(zhuǎn)

——

ETL服務(wù)器3

數(shù)據(jù)的存儲和計算

——

OLAP集群4

結(jié)果數(shù)據(jù)的展現(xiàn)

——

數(shù)據(jù)集市5

訪問接口的封裝

——

API接口服務(wù)器6

最終數(shù)據(jù)的顯示

——

前端界面7

結(jié)果數(shù)據(jù)的交互

——

OLTP,趨勢分析8

OLAP數(shù)據(jù)流轉(zhuǎn)

——

dbsync平臺數(shù)據(jù)倉庫體系架構(gòu)8數(shù)據(jù)流轉(zhuǎn)過程1業(yè)務(wù)數(shù)據(jù)的產(chǎn)生——OL數(shù)據(jù)倉庫體系架構(gòu)9架構(gòu)的具體技術(shù)實現(xiàn)輕量級數(shù)據(jù)倉庫

——

Inforbright與MySQL數(shù)據(jù)庫結(jié)合,易使用,冷熱分離數(shù)據(jù)庫歸檔,只能load,不支持DML對特定OLAP類查詢有很好的支持作用通用性數(shù)據(jù)倉庫

——

Greenplum獨立的數(shù)據(jù)庫倉庫解決方案可以很好支持各種方式的數(shù)據(jù)加載和DML操作具備海量的數(shù)據(jù)存儲和計算性能數(shù)據(jù)倉庫體系架構(gòu)9架構(gòu)的具體技術(shù)實現(xiàn)輕量級數(shù)據(jù)倉庫——IGreenplum狀態(tài)描述10三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum狀態(tài)描述10三Greenplum體系架構(gòu)二greenplum體系架構(gòu)11體系結(jié)構(gòu)要點postgresql體系結(jié)構(gòu)pg邏輯和物理結(jié)構(gòu)Greenplum體系結(jié)構(gòu)GP架構(gòu)特點與功能單元結(jié)構(gòu)單元分解集群結(jié)構(gòu)集群特點greenplum體系架構(gòu)11體系結(jié)構(gòu)要點postgresqgreenplum體系架構(gòu)postgresql體系結(jié)構(gòu)12greenplum體系架構(gòu)postgresql體系結(jié)構(gòu)12greenplum體系架構(gòu)13postgresql體系結(jié)構(gòu)pg結(jié)構(gòu)組成連接關(guān)系系統(tǒng)編譯執(zhí)行系統(tǒng)存儲執(zhí)行系統(tǒng)事務(wù)系統(tǒng)系統(tǒng)表pg邏輯和物理結(jié)構(gòu)instance實例

-user-tablesapcedatabase-schema-table,view,function-data

row物理文件

-oid

-表空間

-數(shù)據(jù)文件命名greenplum體系架構(gòu)13postgresql體系結(jié)構(gòu)pgreenplum體系架構(gòu)greenplum的體系結(jié)構(gòu)14greenplum體系架構(gòu)greenplum的體系結(jié)構(gòu)14greenplum體系架構(gòu)greenplum的體系結(jié)構(gòu)15greenplum體系架構(gòu)greenplum的體系結(jié)構(gòu)15greenplum體系架構(gòu)16greenplum的體系結(jié)構(gòu)greenplum的架構(gòu)特點MPP

ShareNothing 海量并行處理+完全無共享cpu計算能力數(shù)據(jù)從Disk上的I/O吞吐性能master管理節(jié)點segment數(shù)據(jù)節(jié)點greenplum的核心功能無共享MPP多態(tài)存儲(gpfdist+外部表,每小時4TB+)高效數(shù)據(jù)加載分布分區(qū)數(shù)據(jù)壓縮外部訪問greenplum體系架構(gòu)16greenplum的體系結(jié)構(gòu)gGreenplum狀態(tài)描述17三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum狀態(tài)描述17三Greenplum體系架構(gòu)二Greenplum現(xiàn)狀說明18Greenplum集群現(xiàn)狀概述三大Greenplum集群體系公司IDC_01機房Greenplum體系公司IDC_02機房Greenplum體系公司IDC_03機房Greenplum體系Greenplum現(xiàn)狀說明18Greenplum集群現(xiàn)狀概述Greenplum現(xiàn)狀說明19三大Greenplum集群定位分類公司IDC_01機房Greenplum體系公司第一套Greenplum集群,網(wǎng)絡(luò)環(huán)境為千兆網(wǎng)數(shù)據(jù)來源為OLTP庫,針對小數(shù)據(jù)量傳輸和計算,部分實時交互操作以對賬業(yè)務(wù)為主,統(tǒng)計計算為輔公司IDC_02機房Greenplum體系針對數(shù)據(jù)來源主要是kfk產(chǎn)生csv文件的業(yè)務(wù),不直接從數(shù)據(jù)庫傳數(shù)以重點業(yè)務(wù)線、活動數(shù)據(jù)、非OLTP業(yè)務(wù)數(shù)據(jù)的任務(wù)計算為主公司IDC_03機房Greenplum體系數(shù)據(jù)來源來源為OTLP庫庫,針對大數(shù)據(jù)量傳輸和計算,采用T+1方式以核心業(yè)務(wù)的數(shù)據(jù)計算、統(tǒng)計為主Greenplum現(xiàn)狀說明19三大Greenplum集群定位Greenplum現(xiàn)狀說明數(shù)據(jù)架構(gòu)示意圖20Greenplum現(xiàn)狀說明數(shù)據(jù)架構(gòu)示意圖20Greenplum現(xiàn)狀說明21三大Greenplum集群關(guān)系數(shù)據(jù)來源不同數(shù)據(jù)處理不同時效速度不同體系架構(gòu)相同年表劃分相同平臺整體定位定位不同,多集群配合形成邏輯大集群Greenplum現(xiàn)狀說明21三大Greenplum集群關(guān)系Greenplum現(xiàn)狀說明Greenplum多層業(yè)務(wù)規(guī)劃圖22Greenplum現(xiàn)狀說明Greenplum多層業(yè)務(wù)規(guī)劃圖2Greenplum狀態(tài)描述23三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum狀態(tài)描述23三Greenplum體系架構(gòu)二Greenplum運維體系24運維要點環(huán)境規(guī)劃與部署系統(tǒng)狀態(tài)監(jiān)控數(shù)據(jù)庫備份數(shù)據(jù)傳輸與同步任務(wù)調(diào)度構(gòu)建系統(tǒng)監(jiān)控系統(tǒng)保障系統(tǒng)流轉(zhuǎn)系統(tǒng)計算系統(tǒng)Greenplum運維體系24運維要點環(huán)境規(guī)劃與部署構(gòu)建系統(tǒng)Greenplum運維體系25環(huán)境創(chuàng)建與部署部署流程規(guī)劃部署方案準備硬件資源修改系統(tǒng)參數(shù)安裝

Greenplum

軟件

/

postgresql軟件初始化實例修改實例參數(shù)文件

?

初始化業(yè)務(wù)所需庫表環(huán)境、用戶環(huán)境?

加載數(shù)據(jù)業(yè)務(wù)程序訪問Greenplum運維體系25環(huán)境創(chuàng)建與部署部署流程Greenplum運維體系26環(huán)境創(chuàng)建與部署部署注意點資源要充足(ETL,管理節(jié)點,數(shù)據(jù)節(jié)點,數(shù)據(jù)集市)萬兆網(wǎng)絡(luò)

(網(wǎng)絡(luò)環(huán)境對功能和性能的影響)節(jié)點規(guī)劃

(數(shù)據(jù)節(jié)點6-10個segment節(jié)點)參數(shù)調(diào)整

(操作系統(tǒng)參數(shù),greenplum集群參數(shù))Greenplum運維體系26環(huán)境創(chuàng)建與部署部署注意點Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控

-

gpcc

-公司IDC_01機房27Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控-gpcc-公司Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控

-

gpcc

-公司IDC_02

機房28Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控-gpcc-公司Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控

-

gpcc

-公司IDC_03機房29Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控-gpcc-公司Greenplum運維體系30數(shù)據(jù)庫備份配置與結(jié)構(gòu)備份多機房級聯(lián)備份Greenplum在本機進行第一次備份備份通過rsync傳輸?shù)酵瑱C房ETL服務(wù)器各機房ETL服務(wù)器在備份到備份服務(wù)器結(jié)果數(shù)據(jù)備份Greenplum集群與postgresql集市備份結(jié)果數(shù)據(jù)csv文件備份結(jié)果數(shù)據(jù)到備份postgresql實例Greenplum運維體系30數(shù)據(jù)庫備份配置與結(jié)構(gòu)備份Greenplum運維體系31數(shù)據(jù)庫數(shù)據(jù)傳輸與同步數(shù)據(jù)同步情況分類reader端與writer端全量,id列增量,date列增量datax,csv,load,copy數(shù)據(jù)同步結(jié)果確認與顯示數(shù)據(jù)同步方式gpfdist+外部表

UMGW大表db_sync同步程序

底層庫

+

同步邏輯

+

Django界面臨時同步需求:

datax,

copyGreenplum運維體系31數(shù)據(jù)庫數(shù)據(jù)傳輸與同步數(shù)據(jù)同步情Greenplum運維體系數(shù)據(jù)庫數(shù)據(jù)傳輸與同步-db_sync32Greenplum運維體系數(shù)據(jù)庫數(shù)據(jù)傳輸與同步-db_synGreenplum運維體系數(shù)據(jù)庫數(shù)據(jù)傳輸與同步-db_sync33Greenplum運維體系數(shù)據(jù)庫數(shù)據(jù)傳輸與同步-db_synGreenplum運維體系34Greenplum任務(wù)調(diào)度greenplum內(nèi)部存儲過程調(diào)度?大批量任務(wù)采用

kettle調(diào)度?單個存儲過程,可以在shell中

select

func_name()

的方式調(diào)度外部任務(wù)調(diào)度?將整個過程封裝成shell腳本,或

Python腳本?用crontab在操作系統(tǒng)調(diào)用腳本?用

opencron在圖形界面調(diào)用腳本Greenplum運維體系34Greenplum任務(wù)調(diào)度grGreenplum運維體系Greenplum任務(wù)調(diào)度-opencron35Greenplum運維體系Greenplum任務(wù)調(diào)度-opeGreenplum狀態(tài)描述36三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum狀態(tài)描述36三Greenplum體系架構(gòu)二Greenplum開發(fā)規(guī)范37開發(fā)規(guī)范要點不規(guī)范容易出現(xiàn)的問題業(yè)務(wù)庫表設(shè)計規(guī)范用戶與權(quán)限規(guī)范Greenplum使用規(guī)范規(guī)范必要性庫表設(shè)計權(quán)限控制操作注意Greenplum開發(fā)規(guī)范37開發(fā)規(guī)范要點不規(guī)范容易出現(xiàn)的問Greenplum開發(fā)規(guī)范38不規(guī)范容易出現(xiàn)的問題GP架構(gòu)易出現(xiàn)問題資源不足

?

連接、語句執(zhí)行失敗

?多任務(wù)沖突庫表使用易出現(xiàn)問題表定義過大表類型單一表的散列鍵不恰當分區(qū)表的分區(qū)鍵性能不佳加載易出現(xiàn)問題文件加載出現(xiàn)特殊字符數(shù)據(jù)校驗標準問題Greenplum開發(fā)規(guī)范38不規(guī)范容易出現(xiàn)的問題GP架構(gòu)易Greenplum開發(fā)規(guī)范39業(yè)務(wù)庫表設(shè)計規(guī)范GP中表的范圍最大時間為年表數(shù)據(jù)量小,可用單表多種表類型堆表

(選好常用列作為三列鍵)分區(qū)表

(按照

yyyymmdd

分區(qū),建議都添加

datenumint8)append表列存儲表多種表類型結(jié)合表的命名GP內(nèi)所有名稱都小寫table_name命名要符合命名規(guī)則,做到見名知義Greenplum開發(fā)規(guī)范39業(yè)務(wù)庫表設(shè)計規(guī)范GP中表的范圍Greenplum開發(fā)規(guī)范40用戶與權(quán)限規(guī)范四層授權(quán)保保障角色

role

管理數(shù)據(jù)庫內(nèi)對象權(quán)限用戶

user

用戶認證權(quán)限pg_hba.conf:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論