Greenplum開源數據倉庫介紹_第1頁
Greenplum開源數據倉庫介紹_第2頁
Greenplum開源數據倉庫介紹_第3頁
Greenplum開源數據倉庫介紹_第4頁
Greenplum開源數據倉庫介紹_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Greenplum開源數據倉庫介紹實現100億監(jiān)控數據的秒級分析Greenplum開源數據倉庫 APM監(jiān)控行業(yè)應用 Greenplum重返開源的10個月 100億級監(jiān)控數據秒級分析PostGIS結合地理信息監(jiān)控數據數學函數及MADlib實現SQL復雜分析 結合OSS云存儲擴展海量級數據Greenplum重返開源的10個月2005 Bizgres基于PostgreSQL結合BI特性的開源數據庫2005 推出Greenplum商業(yè)版本的MPP分布式數據倉庫2010 被EMC收購2013 成為EMC旗下Pivotal公司核心產品2015年10月正式重回開源,基于Apache協議Greenplum重返

2、開源的10個月在GitHub中Fork出432個新版本共有28607次commit吸引了全球90位contributor代碼貢獻者已經解決的request 820個,解決中的問題33個在阿里云于2016年7月11日正式對外公測 云數據庫Greenplum版 以上數據截止至2016年8月14日Greenplum開源數據倉庫 APM監(jiān)控行業(yè)應用Greenplum重返開源的10個月 100億級監(jiān)控數據秒級分析 PostGIS結合地理信息監(jiān)控數據數學函數及MADlib實現SQL復雜分析結合OSS云存儲擴展海量級數據100億級監(jiān)控數據秒級分析- 1年有525600分鐘,如果每臺設備有25個要監(jiān)控的指標-

3、 100億/ 525600 / 25,約761臺設備每分鐘采樣分布式分庫分表P2主P1id mod 3 = 1id mod 3 = 2id mod 3 = 0P3100億級監(jiān)控數據秒級分析數據傾斜:每個設備活躍度不同,如關機、無信號不同用戶查詢頻率不同導致問題:服務器壓力傾斜 / 用戶性能傾斜P2主P1id mod 3 = 1id mod 3 = 2id mod 3 = 0P3100億級監(jiān)控數據秒級分析- Greenplum中的分片處理圖片來源:/wp-content/uploads/2011/2-/greenplum-system-configuration.png100億級監(jiān)控數據秒級分析

4、- Greenplum中的CREATE TABLE語法CREATE GLOBAL | LOCAL TEMPORARY | TEMP TABLEtable_name ( column_name data_type DEFAULT default_expr column_constraint . ENCODING ( storage_directive ,. ) | table_constraint| LIKE other_table INCLUDING | EXCLUDINGDEFAULTS | CONSTRAINTS ., . ) INHERITS ( parent_table , . ) W

5、ITH ( storage_parameter=value , . ) PARTITION BY partition_type (column) SUBPARTITION BY partition_type (column) SUBPARTITION TEMPLATE ( template_spec ) .( partition_spec )| SUBPARTITION BY partition_type (column) .( partition_spec ( subpartition_spec (.) ) ON COMMIT PRESERVE ROWS | DELETE ROWS | DR

6、OP TABLESPACE tablespace DISTRIBUTED BY (column, . ) | DISTRIBUTED RANDOMLY 讓分析計算時,每臺服務器計算量趨于平衡100億級監(jiān)控數據秒級分析- Greenplum中的行列混存儲合支持圖片來源:http:/blog.pivotal.io/wp-content/uploads/2014/10/Polymorphic.png100億級監(jiān)控數據秒級分析- Greenplum中的CREATE TABLE語法CREATE GLOBAL | LOCAL TEMPORARY | TEMP TABLE table_name ( colu

7、mn_name data_type DEFAULT default_expr column_constraint . ENCODING ( storage_directive ,. ) | table_constraint| LIKE other_table INCLUDING | EXCLUDINGDEFAULTS | CONSTRAINTS ., . ) INHERITS ( parent_table , . ) WITH ( storage_parameter=value , . ) ON COMMIT PRESERVE ROWS | DELETE ROWS | DROP TABLESP

8、ACE tablespace DISTRIBUTED BY (column, . ) | DISTRIBUTED RANDOMLY 100億級監(jiān)控數據秒級分析Greenplum中的表分區(qū)針對Where條件查詢按條件減少查詢范圍降低磁盤IO提高性能圖片來源:/gpdb-sandbox-tutorials/100億級監(jiān)控數據秒級分析- Greenplum中的CREATE TABLE語法CREATE GLOBAL | LOCAL TEMPORARY | TEMPTABLE table_name ( column_name data_type DEFAULT default_expr column_c

9、onstraint . ENCODING ( storage_directive ,. ) | table_constraint| LIKE other_table INCLUDING | EXCLUDINGDEFAULTS | CONSTRAINTS ., . ) INHERITS ( parent_table , . ) WITH ( storage_parameter=value , . ) ON COMMIT PRESERVE ROWS | DELETE ROWS | DROP TABLESPACE tablespace DISTRIBUTED BY (column, . ) | DI

10、STRIBUTED RANDOMLY PARTITION BY partition_type (column) SUBPARTITION BY partition_type (column) SUBPARTITION TEMPLATE ( template_spec ) .( partition_spec )| SUBPARTITION BY partition_type (column) .( partition_spec ( subpartition_spec (.) )Greenplum開源數據倉庫 APM監(jiān)控行業(yè)應用Greenplum重返開源的10個月100億級監(jiān)控數據秒級分析 Pos

11、tGIS結合地理信息監(jiān)控數據 數學函數及MADlib實現SQL復雜分析 結合OSS云存儲擴展海量級數據PostGIS結合地理信息監(jiān)控數據用戶在不同區(qū)域(公園、商場、地鐵)的App使用頻率各個區(qū)域用戶的App組合使用習慣區(qū)域化精準用戶App推薦圖片來源:/2015/04/24/postgis-o-arcgis-comparando-rendimientos/PostGIS結合地理信息監(jiān)控數據SELECT ST_AsText(ST_Intersection( ST_Buffer(POINT(0 0), 2),ST_Buffer(POINT(3 0), 2);SELECT b.the_geom As

12、 bgeom, p.the_geom As pgeom,ST_Intersection(b.the_geom, p.the_geom) As intersect_bpFROM buildings b INNER JOIN parcels p ON ST_Intersection(b,p)WHEREST_Overlaps(b.the_geom, p.the_geom)LIMIT 1;圖片來源:/questions/25797/select-bounding-box-using-postgisGreenplum開源數據倉庫 APM監(jiān)控行業(yè)應用Greenplum重返開源的10個月100億級監(jiān)控數據秒

13、級分析PostGIS結合地理信息監(jiān)控數據 數學函數及MADlib實現SQL復雜分析 結合OSS云存儲擴展海量級數據數學函數及MADlib實現SQL復雜分析- 求方差(一), Variance求總體方差:postgres=# select var_pop(c1) from (values(1),(2),(3),(4),(5) as t(c1); var_pop-2.0000000000000000(1 row)postgres=# select var_pop(c1) from (values(1),(2),(3),(4),(5),(1000) as t(c1); var_pop-138058.

14、472222222222(1 row)數學函數及MADlib實現SQL復雜分析- 求方差(二), Variance求樣本方差:postgres=# select var_samp(c1) from (values(1),(2),(3),(4),(5) as t(c1); var_samp-2.5000000000000000(1 row)postgres=# select var_samp(c1) from (values(1),(2),(3),(4),(5),(1000) as t(c1); var_samp-165670.166666666667數學函數及MADlib實現SQL復雜分析-

15、相關性, 線性相關性, Correlation表示兩組數據的相關性, 相關值從0到1取值 趨向1表示完全相關, 趨向0 表示完全不相關postgres=# select corr(c1,c2) from (values(1,2),(2,3),(3,4),(4,5),(5,6),(1000,1001) as t(c1,c2); corr- 1(1 row)postgres=# select corr(c1,c2) from (values(1,2),(2,3),(3,4),(4,5),(5,6),(1000,1) as t(c1,c2); corr-0.652023240836194(1 row)Greenplum開源數據倉庫 APM監(jiān)控行業(yè)應用Greenplum重返開源的10個月100億級監(jiān)控數據秒級分析 PostGIS結合地理信息監(jiān)控數據數學函數及MADlib實現SQL復雜分析 結合OSS云存儲擴展海量數據 在阿里云中Greenplum的擴展傳統(tǒng)環(huán)境打通阿

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論