《大數(shù)據(jù)金融》 課件 第3章大數(shù)據(jù)相關技術_第1頁
《大數(shù)據(jù)金融》 課件 第3章大數(shù)據(jù)相關技術_第2頁
《大數(shù)據(jù)金融》 課件 第3章大數(shù)據(jù)相關技術_第3頁
《大數(shù)據(jù)金融》 課件 第3章大數(shù)據(jù)相關技術_第4頁
《大數(shù)據(jù)金融》 課件 第3章大數(shù)據(jù)相關技術_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第三章大數(shù)據(jù)相關技術Bigdatarelatedtechnologies大數(shù)據(jù)金融CONTENTS01大數(shù)據(jù)存儲bigdatastorage02大數(shù)據(jù)處理與計算Bigdataprocessingandcomputing03大數(shù)據(jù)挖掘方法Bigdataminingmethods大數(shù)據(jù)存儲bigdatastorage第一節(jié)一、分布式文件系統(tǒng)分布式文件系統(tǒng)需要解決的關鍵技術問題包括可擴展性、數(shù)據(jù)冗余性、數(shù)據(jù)一致性、緩存等。常見的分布式文件系統(tǒng)有GFS、HDFS、Lustre、Ceph等,它們各自適用于不同的領域,其中GFS和HDFS最具有代表性。一、分布式文件系統(tǒng)(一)HDFS系統(tǒng)的概念和特性

第一,HDFS系統(tǒng)是一個文件系統(tǒng),用于存儲文件,通過統(tǒng)一的命名空間——目錄樹來定位文件。

第二,HDFS系統(tǒng)是分布式的,由很多服務器聯(lián)合起來實現(xiàn)其功能,集群中的服務器有各自的角色。一、分布式文件系統(tǒng)(一)HDFS系統(tǒng)的概念和特性不支持文件隨機寫入。需要客戶端與HDFS交互。適合大文件讀取場景。吞吐和并發(fā)能力具備可橫向擴展性不適合高響應系統(tǒng)一、分布式文件系統(tǒng)(二)HDFS的結構1.NameNodeNameNode是一個通常在HDFS實例中的單獨機器上運行的軟件。它負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。2.DataNodeDataNode也是一個獨立運行的軟件。通常以機架的形式組織,機架通過一個交換機將所有系統(tǒng)連接起來。3.ClientClient一般用于實現(xiàn)客戶端文件存儲的所有操作,包括文件的增刪以及查詢等。一、分布式文件系統(tǒng)(三)HDFS文件寫入與讀取(1)客戶端創(chuàng)建的文件,然后Client通過RPC方式與NameNode通信,創(chuàng)建一個新文件映射關系。(2)客戶端寫數(shù)據(jù):FSDataOutputStream把寫入的數(shù)據(jù)分成包(packet)并放入一個中間隊列——數(shù)據(jù)隊列(dataqueue)中。(3)FSDataOutputStream也維護著確認隊列(ackqueue)。(4)所有文件寫入完成后,關閉文件寫入流。二、非關系型分布式數(shù)據(jù)庫非關系型分布式數(shù)據(jù)庫(notonlysQL,NoSQL)是分布式存儲的主要技術。相比于傳統(tǒng)數(shù)據(jù)庫,它的主要特點包括易擴展、靈活的數(shù)據(jù)模型、高可用性、大數(shù)據(jù)量、高性能等。(一)NoSQL簡介與特性

1.不需要預定義模式

2.BASE特性

3.分區(qū)

4.異步復制

5.彈性可擴展二、非關系型分布式數(shù)據(jù)庫(二)NoSQL的分類1.列存儲數(shù)據(jù)庫

(1)HBase基于HadoopHDFSappend方式進行數(shù)據(jù)追加操作,非常適合列族文件存儲架構。

(2)HBase寫請求,都會先寫redolog,然后更新內(nèi)存中的緩存。

(3)當某一列的MapFile數(shù)量超過配置的閾值時,一個后臺線程就開始將現(xiàn)有的MapFile合并為一個文件,這個操作稱為Compaction。

(4)讀操作會先檢查緩存,若未命中,則從最新的MapFile開始,依次往最老的MapFile找數(shù)據(jù)。二、非關系型分布式數(shù)據(jù)庫(二)NoSQL的分類

列存儲數(shù)據(jù)庫鍵值存儲數(shù)據(jù)庫文檔型數(shù)據(jù)庫圖數(shù)據(jù)庫1234三、虛擬存儲技術與云存儲技術(一)虛擬存儲技術虛擬存儲技術是指將存儲系統(tǒng)的內(nèi)部功能從應用程序、計算服務器、網(wǎng)絡資源中進行抽象、隱藏或隔離,最終使其獨立于應用程序、網(wǎng)絡存儲與數(shù)據(jù)管理。(二)云存儲技術云存儲是一種以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng),它是指利用集群應用、分布式文件和網(wǎng)絡技術系統(tǒng)等功能,通過應用軟件協(xié)同網(wǎng)絡中大量的各種不同類型的存儲設備,共同建設一個具有數(shù)據(jù)存儲和業(yè)務訪問功能的系統(tǒng),以保證數(shù)據(jù)的安全性,節(jié)約存儲空間。大數(shù)據(jù)處理與計算Bigdataprocessingandcomputing第二節(jié)一、基于并行計算的分布式數(shù)據(jù)處理技術HadoopMapReduce是一種分布式海量數(shù)據(jù)處理框架。它采用主從結構,在一個MapReduce集群中有一個控制節(jié)點和多個工作節(jié)點。設計思想:其一,大規(guī)模數(shù)據(jù)并行處理,即“分而治之”的思想;其二,MapReduce編程模型;其三,分布式運行時環(huán)境。二、分布式內(nèi)存計算處理技術對于一些需要快速實時分析的業(yè)務操作,需要快速地對最新的業(yè)務數(shù)據(jù)進行分析處理。在線實時分析計算框架是為集群計算中特定類型的工作負載而設計的,引進了內(nèi)存集群計算的概念。Spark引進了名為彈性分布式數(shù)據(jù)集(resilientdistributeddatasets,RDD)的抽象。RDD是分布在一組節(jié)點中的只讀對象集合。這些集合是彈性的,如果數(shù)據(jù)集的一部分丟失,則可以對它們進行重建。三、分布式流處理技術對于現(xiàn)在大量存在的實時數(shù)據(jù),如股票交易數(shù)據(jù),實時性強、數(shù)據(jù)量大且不間斷,這種實時數(shù)據(jù)被稱為流數(shù)據(jù)。(一)流式數(shù)據(jù)的概念流式數(shù)據(jù)是指所產(chǎn)生的數(shù)據(jù)不是批量地傳輸過來,而是連續(xù)不斷地像水一樣流過來。1.靜態(tài)數(shù)據(jù)2.動態(tài)數(shù)據(jù)3.實時處理三、分布式流處理技術(二)流式數(shù)據(jù)源傳感器數(shù)據(jù)圖像數(shù)據(jù)互聯(lián)網(wǎng)及Web流量流媒體傳輸三、分布式流處理技術(三)大數(shù)據(jù)的計算模式1.大數(shù)據(jù)流式計算模型在流式計算中,無法確定數(shù)據(jù)的到來時刻和到來順序,也無法將全部數(shù)據(jù)存儲起來。因此,不再進行流式數(shù)據(jù)的硬盤存儲,而是當流動的數(shù)據(jù)到來之后在內(nèi)存中直接進行數(shù)據(jù)的實時輸入、實時計算、實時輸出。三、分布式流處理技術(三)大數(shù)據(jù)的計算模式2.流式計算與批量計算的比較大數(shù)據(jù)挖掘方法Bigdataminingmethods.第三節(jié)一、數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(datamining,DM)是從大量的、有噪聲的、不完全的、模糊的、隨機的數(shù)據(jù)中提取出隱含在其中的、人們事先不知道的、具有潛在利用價值的信息和知識的過程。數(shù)據(jù)挖掘的特點:(1)數(shù)據(jù)量巨大(2)動態(tài)性(3)適用性(4)系統(tǒng)性二、數(shù)據(jù)挖掘的原理數(shù)據(jù)挖掘的實質(zhì)是綜合應用各種技術,對與業(yè)務相關的數(shù)據(jù)進行一系列科學的處理,這個過程中需要用到數(shù)據(jù)庫、應用數(shù)學、統(tǒng)計學、機器學習、可視化、信息科學、程序開發(fā)及其他學科。三、數(shù)據(jù)挖掘常用的方法數(shù)據(jù)挖掘常用方法01分類分析02回歸分析06序列分析05聚類分析03預測04關聯(lián)分析07偏差分析三、數(shù)據(jù)挖掘常用的方法(一)分類分析分類分析是指運用訓練數(shù)據(jù)集,通過分析數(shù)據(jù)的特征和運用一定的算法求得分類規(guī)則,該分類規(guī)則就是數(shù)據(jù)分類的模型。1.決策樹分類法決策樹學習是以實例為基礎的歸納學習算法,它著眼于從一組無次序、規(guī)則的實例中推理出以決策樹表示的分類規(guī)則。三、數(shù)據(jù)挖掘常用的方法(一)分類分析2.貝葉斯分類法貝葉斯分類法是利用統(tǒng)計學中的貝葉斯定理來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。3.k-近鄰分類法k-近鄰分類法不是事先通過數(shù)據(jù)來選好分類模型,再對未知樣本進行分類,而是存儲帶有標記的樣本集,給一個沒有標記的樣本,用樣本集中k個與之相近的樣本對其進行即時分類。k-近鄰分類法就是找出k個相似的樣本來建立目標函數(shù)逼近。三、數(shù)據(jù)挖掘常用的方法(二)回歸分析1.線性回歸線性回歸是利用數(shù)理統(tǒng)計中的回歸分析來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法,運用十分廣泛。2.Logistic回歸分析Logistic回歸模型是一種概率模型,適合于病例對照研究、隨訪研究和橫斷面研究,且結果發(fā)生的變量取值必須是二分的或多項分類。三、數(shù)據(jù)挖掘常用的方法(三)預測三、數(shù)據(jù)挖掘常用的方法(四)關聯(lián)分析關聯(lián)分析主要用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系,所發(fā)現(xiàn)的聯(lián)系可以用關聯(lián)規(guī)則或頻繁項集的形式表示。1.Apriori算法:使用候選項集找頻繁項集2.基于劃分的算法3.FP-樹頻集算法三、數(shù)據(jù)挖掘常用的方法(五)聚類分析聚類是根據(jù)相似度將數(shù)據(jù)分組,使同一聚類內(nèi)的個體距離較近或變異較小、不同聚類間的個體距離較遠或變異較大。其中,相似度可以利用不同的距離或相關來定義。三、數(shù)據(jù)挖掘常用的方法(六)序列分析序列分析是對序列數(shù)據(jù)進行分析以發(fā)現(xiàn)蘊藏其中的模式和規(guī)律。序列數(shù)據(jù)和時間序列都是連續(xù)的觀測值,觀測值之間相互依賴。(七)偏差分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論