




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據的技術環(huán)節(jié)與平臺建設第1頁,共45頁。大數據產業(yè)鏈第2頁,共45頁。目錄一、大數據的技術環(huán)節(jié)二、大數據的平臺建設三、參考學習培訓第3頁,共45頁。大數據的技術環(huán)節(jié)第一第4頁,共45頁。數據特征數據的特征簡單來說就是數據庫。比如企業(yè)ERP、財務系統(tǒng)。結構化數據ABC它是結構化的數據,但是結構變化很大。因為我們要了解數據的細節(jié)所以不能將數據簡單的組織成一個文件按照非結構化數據處理,由于結構變化很大也不能夠簡單的建立一個表和他對應。半結構化數據像圖片、聲音、視頻等等。這類信息無法直接知道他的內容,數據庫也只能將它保存在一個BLOB字段中。一般的做法是,建立一個包含三個字段的表(編號number、內容描述varchar(1024)、內容blob)。引用通過編號,檢索通過內容描述。非結構化數據第5頁,共45頁。點擊此處添加標題結構化數據任何一列的數據不可以再細分任何一列的數據都有相同的數據類型半結構化數據存在列的分割存在不同類型數據第6頁,共45頁。大數據的技術環(huán)節(jié)數據采集數據預處理數據存儲數據分析數據挖掘數據結果的可視化數據管理第7頁,共45頁。數據采集感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現對海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監(jiān)控、初步處理和管理等?;A支撐層:提供大數據服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環(huán)境。智能識別感知適配傳輸接入分布式虛擬存儲技術可視化接口技術網絡傳輸與壓縮技術隱私保護技術第8頁,共45頁。信息化技術的發(fā)展使得數據被物聯網及互聯網記錄并應用物聯網數據多指通過連接網絡的傳感器所采集的環(huán)境數據?;ヂ摼W數據則多指由用戶使用電腦、智能手機、平板電腦等不同聯網終端所產生的基本信息與行為數據。第9頁,共45頁。傳感器是物聯網數據的重要采集方法安裝在物聯網上的傳感器是大數據時代獲取環(huán)境數據的重要采集方法之一,擁有數據來源范圍廣、數據準確度高、傳輸穩(wěn)定等特點。第10頁,共45頁。App數據抓取成為互聯網數據主要采集方式之一隨著智能終端的不斷普及,App成為繼網站之后了解用戶在互聯網上的信息與行為的又一重要數據來源。目前國內外通過App抓取用戶在互聯網上行為數據的采集商主要有AppAnnie、TalkingData、友盟等。AppAnnie是一家移動應用數據采集服務商,通過從AppStore抓取數據,為企業(yè)用戶提供涵蓋iOS、Android、Windows等系統(tǒng)下各類App數據下載排名、用戶使用行為及應用平臺數據等相關服務。第11頁,共45頁。PC端的網站流量及點擊軌跡抓取是互聯網數據的另一種采集方式互聯網時代除了抓取移動終端上各App的用戶數據,還有在PC端通過API接口等工具抓取企業(yè)官網及其他網站上數據的方法。目前國內主要有友盟、聚合數據、發(fā)源地等企業(yè)提供網站數據抓取。第12頁,共45頁。數據預處理——數據抽取ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。數據抽取數據清洗數據整合第13頁,共45頁。數據預處理——數據清洗對于大數據,并不全是有價值的,有些數據并不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾“去噪”從而提取出有效數據。原則基礎資料的統(tǒng)一關鍵業(yè)務編碼的統(tǒng)一建立不同主題域間的關聯關系第14頁,共45頁。數據預處理——數據整合源數據分類方式數據操作分類
數據特征
流水型增長(INSERT)數據按增量方式產生,不涉及對已有數據的更新操作變化更新(UPDATE)對已有數據進行更新兩者結合(INSERT/DELETE+UPDATE)按增量方式產生新數據的同時,還對已有數據進行更新數據量大相對較小第15頁,共45頁。數據存儲與管理——三種典型的數據存儲技術采用MPP架構的新型數據庫集群,重點面向行業(yè)大數據,采用SharedNothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環(huán)境多為低成本PCServer,具有高性能和高擴展性的特點,在企業(yè)分析類應用領域獲得極其廣泛的應用。這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統(tǒng)數據庫技術無法勝任的。對于企業(yè)新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP數據庫。MPP架構圖第16頁,共45頁。數據存儲與管理——三種典型的數據存儲技術基于Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統(tǒng)關系型數據庫較難處理的數據和場景。NoSQL(NotOnlySQL)數據庫泛指非關系型數據庫,能夠解決大規(guī)模數據集合的處理問題,特別是針對非關聯性數據。NoSQL數據庫包括Key-Value存儲、列存儲、文檔型等多種類型,適用于多種場景。第17頁,共45頁。數據存儲與管理——三種典型的數據存儲技術第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬件結合的產品,由一組集成的服務器、存儲設備、操作系統(tǒng)、數據庫管理系統(tǒng)以及為數據查詢、處理、分析用途而特別預先安裝及優(yōu)化的軟件組成,高性能大數據一體機具有良好的穩(wěn)定性和縱向擴展性。SDA50000單柜滿配備注數據分發(fā)節(jié)點2固定計算交換機2固定管理交換機2固定KVM1固定數據庫節(jié)點12?配、半配、滿配總內存1.5T總核數192C硬盤總數量96可用裸容量56TB建議使用容量(3副本)18.75TB大數據分析系統(tǒng)軟件:MPP數據庫應用場景:數據倉庫應用/OLAP多維分析
第18頁,共45頁。數據分析即席查詢Ad-HocQuery批量處理Batch
ProcessingMap/Reduce流式計算Stream
Computing數據承載響應時間適用場景磁盤秒級(準實時)自然人交互式經營分析磁盤分鐘級至小時級(準實時)事前/事后大批量數據處理內存(事件窗口非全量數據)秒級(實時)實時事件分析實時風險干預針對不同的業(yè)務領域,需要采用不同的數據計算分析方式,快速發(fā)現數據價值。第19頁,共45頁。數據分析——即席查詢即席查詢(AdHoc)是用戶根據自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據用戶的選擇生成相應的統(tǒng)計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發(fā)的,而即席查詢是用戶自定義查詢條件。StorageDistribute
File
SystemColumn
DatabaseResource
ManagementParallelCompute
FrameworkSQL
Syntax+
Compute
FrameworkSQL
SyntaxMetaDataBatch
ProcessingAd-Hoc
Query實時性:高第20頁,共45頁。數據分析——批處理StorageDistribute
File
SystemColumn
DatabaseResource
ManagementParallelCompute
FrameworkSQL
Syntax+
Compute
FrameworkSQL
SyntaxMetaDataBatch
ProcessingAd-Hoc
QueryMapReduce是一種編程模型,用于大規(guī)模數據集的并行批量計算。概念Map和Reduce當前的主流實現是指定一個Map函數,用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。形成這種模型的原因是:數據的分布式存儲、計算資源的分布式、并行計算減少計算時長。實時性:低第21頁,共45頁。數據分析——流式計算流數據的實時計算注重對流數據的快速高效處理、計算和分析。其特點是計算過程數據不落地,所有數據在內存中完成。其計算模型是根據規(guī)則生成容器,當數據流經過容器時,實時產生分析結果。InputAdapterOutputAdapterEngine
ClusterClusterManagementRule
RepositoryNoSQL實時性:高第22頁,共45頁。數據挖掘——常用技術和算法人工神經網絡決策樹遺傳算法近鄰算法規(guī)則推導算法:分類、回歸、分割、關聯、順序分析第23頁,共45頁。數據挖掘——常用方法數據挖掘的常用方法A分類將數據庫中的數據項映射到某個給定的類別回歸分析研究數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等聚類一組數據按照相似性和差異性分為幾類關聯規(guī)則描述數據庫中數據項之間所存在的關系的規(guī)則第24頁,共45頁。數據挖掘——常用方法數據挖掘的常用方法B特征從數據庫中的一組數據中提取出關于這些數據的特征式,這些特征式表達了該數據集的總體特征變化與偏差分析偏差包括很大一類潛在有趣的知識,其目的是尋找觀察結果與參照量之間有意義的差別Web頁挖掘第25頁,共45頁。數據挖掘——功能數據挖掘的功能自動預測趨勢和行為關聯分析聚類概念描述偏差檢測第26頁,共45頁。數據挖掘的流程(1).確定業(yè)務對象(2).數據準備
1)、數據的選擇
2)、數據的預處理
3)、數據的轉換(3).數據挖掘(4).結果分析(5).知識的同化數據挖掘需要的人員業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,并根據各業(yè)務對象確定出用于數據定義和挖掘算法的業(yè)務需求.數據分析人員:精通數據分析技術,并對統(tǒng)計學有較熟練的掌握,有能力把業(yè)務需求轉化為數據挖掘的各步操作,并為每步操作選擇合適的技術.數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據.第27頁,共45頁。數據挖掘工作量分配第28頁,共45頁。數據結果的可視化數據的可視化綜合運用計算機圖形學、圖像、人機交互等技術,將采集或模擬的數據映射為可識別的圖形、圖像、視頻或動畫,并允許用戶對數據進行交互分析的理論、方法和技術什么是數據可視化?ABC圖形能將不可見現象轉化為可見的圖形符號,并直截了當和清晰直觀的表達出來,加深人對于數據的理解和記憶。為什么要進行數據可視化?Datameer、Tableau等怎樣實現數據可視化?第29頁,共45頁。點擊此處添加標題圖例:Tableau可視化產品案例-互聯網信息傳播速度分析Datameer是一家數據分析工具提供商,通過對Hadoop分布式計算框架的易用性處理降低了客戶使用Hadoop的門檻,類似電子表格的可視化數據分析界面能夠幫助客戶快速理解數據處理結果。Tableau主要向客戶提供數據可視化服務及數據分析功能。客戶無需編寫代碼,只需簡單的鼠標操作即可實現數據的可視化。第30頁,共45頁。大數據商業(yè)智能加可視化服務為企業(yè)提供商業(yè)決策服務通過對產品、企業(yè)、用戶及市場等多個維度的數據進行分析,企業(yè)能夠準確把握用戶喜好及市場脈絡,及時調整產品規(guī)劃與企業(yè)發(fā)展方向,并進行市場營銷等經營活動。目前國外提供通用型商業(yè)智能服務的企業(yè)有QlikTech、GoodData、Domo、PowerBI等,國內有國云數據、拓爾思等企業(yè)提供大數據解決方案。其中部分企業(yè)在提供商業(yè)智能服務的同時還提供數據可視化軟件。第31頁,共45頁。數據管理數據管控,是為解決數據標準管理、元數據管理、數據質量管理、數據服務管理、數據安全管理等問題。第32頁,共45頁。存儲、安全防護與交易是數據管理的重要環(huán)節(jié)目前,大數據行業(yè)的存儲多依托于云存儲技術,將海量數據保存在云端,既能夠降低數據存儲成本,又能夠提高數據處理效率。但目前我國網絡安全形勢嚴峻,存儲于云端的數據還需進行安全防護。此外,隨著數據的爆發(fā)式增長及數據價值越來越得到凸顯,行業(yè)內逐漸產生了一種新的商業(yè)模式,即數據分享與交易平臺,通過搭建數據共享、交換、交易平臺,為數據資源供給方和需求方提供便捷的交易環(huán)節(jié)和服務。第33頁,共45頁。存儲與安全兩項服務相輔相成,通用型與數據專業(yè)型企業(yè)并存?zhèn)鹘y(tǒng)的線下存儲方式因其高昂的成本漸漸轉向云存儲。目前國外提供數據存儲服務的企業(yè)有NimbleStorage、Qumulo等,還有同時提供存儲與安全兩項服務的企業(yè)如Cloudera等。NimbleStorage是一家數據存儲解決方案供應商,其自適應閃存平臺能夠提供廣泛的應用場景支持,同時還能夠根據用戶需求用戶調整閃存策略,選擇全閃存方式或者混合式存儲服務。第34頁,共45頁。大數據平臺的建設第二第35頁,共45頁。農業(yè)大數據HADOOP基礎平臺運用HADOOP2.0和Spark技術,搭建農業(yè)大數據HADOOP基礎平臺,支撐分布式內存分析引擎、分布式機器學習引擎、分布式實時在線數據引擎和流處理引擎的功能實現。第36頁,共45頁。分布式內存分析引擎在語法上,兼容HiveQL、SQL,支持控制流、函數、存儲過程;在存儲上,支持堆外列存、支持索引、支持在SSD上建列存、支持對Hyperbase/HBase進行高效SQL運算;在訪問上,支持JDBC/ODBC接口、支持R語言,同時提供多種常用的數據挖掘和機器學習的并行算法;同時,支持安全認證、授權和訪問控制,穩(wěn)定支持100GB以上到數十TB的數據,支持IBMCognos,SAS,OBIEE,SAPBO等BT工具。第37頁,共45頁。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025國內技術轉讓合同的范本
- 2025招標采購合同管理考點之合同談判技巧要求
- 2025石油購銷合同范本2
- 2025成都寫字樓租賃合同范本
- 2025關于設備租賃承包合同范本
- 2025年的設備安裝合同范本
- 2025標準辦公室租賃合同協議
- 2025年上海市寬帶互聯網接入服務合同
- 《統(tǒng)計與分析方法》課件
- 2025上海市企業(yè)單位勞動合同
- 氨吹脫塔單元設計示例
- 中國移動-安全-L3
- 骨齡評測方法課件
- GB/T 42314-2023電化學儲能電站危險源辨識技術導則
- 人教小學數學五年級下冊綜合與實踐《怎樣通知最快》示范公開課教學課件
- 海陸熱力性質差異的說課課件
- 科學院大學博士入學復試匯報個人介紹PPT模板
- 四川省稅務局財行處土增稅清算復審指導口徑(2021年6月22日)
- 迎春杯2023年-2023年中高年級初賽復賽試題真題整理
- GB/T 6322-1986光滑極限量規(guī)型式和尺寸
- GB/T 31052.5-2015起重機械檢查與維護規(guī)程第5部分:橋式和門式起重機
評論
0/150
提交評論