基于spark實時交易數(shù)據(jù)分析_第1頁
基于spark實時交易數(shù)據(jù)分析_第2頁
基于spark實時交易數(shù)據(jù)分析_第3頁
基于spark實時交易數(shù)據(jù)分析_第4頁
基于spark實時交易數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄TOC\o"1-2"\h\u摘要 摘要隨著經(jīng)濟的不斷增長,我國各方面的水平也得到了很大的提升,特別是在生產方面的提升,我們的生產方式不在是以傳統(tǒng)的生產方式為主,生產方式從傳統(tǒng)的模式轉變?yōu)樽詣由a為主,利用spark技術數(shù)據(jù)分析就是其中之一,而且對于這些數(shù)據(jù)的分析,被運用得越來越廣泛。spark技術其實是一個數(shù)據(jù)分析的框架,利用spark技術,能夠為我們減少一系列的麻煩,提高了我們的工作效率,利用spark技術,我們可以根據(jù)自己的需求,來設置我們所需要的數(shù)據(jù)進行分析,spark技術的設計主要有四個模塊,分別是:數(shù)據(jù)源、輸入模型、模型訓練及校對和日志查看。本文通過對spark的實時交易數(shù)據(jù)平臺設計進行分析,從spark的實時交易數(shù)據(jù)平臺設計出發(fā),針對設計spark的實時交易問題,得出了以下結論和參考意見。關鍵詞:生產方式;spark技術;數(shù)據(jù)分析;實時交易

AbstractWiththecontinuousgrowthoftheeconomy,thelevelofvariousaspectsofourcountryhasbeengreatlyimproved,especiallyinproduction,ourproductionmodeisnotthetraditionalproductionmode,productionmodefromthetraditionalmodetoautomaticproduction,usingsparktechnologydataanalysisisoneofthem,andfortheanalysisofthesedata,isusedmoreandmorewidely.Thesparktechnologyisactuallyadataanalysisframework,usingsparktechnology,canreduceaseriesoftrouble,improveourworkefficiency,usingsparktechnology,wecansettherequireddataanalysisaccordingtoourneeds,sparktechnologydesignmainlyhasfourmodules,respectively:datasource,inputmodel,modeltrainingandproofreadingandlogview.Throughanalyzingthedesignofthereal-timetradingdataplatformofspark,wedrawthefollowingconclusionsandreferenceopinionsbasedonthedesignofspark,andstartingfromthereal-timetradingdataplatformdesignofspark.Keywords:productionmode;sparktechnology;dataanalysis;real-timetrading

第1章緒論spark技術通過數(shù)據(jù)分析,就會實現(xiàn)透明化,因為通過spark技術,對于客戶來說就比較透明。隨著經(jīng)濟的發(fā)展,我們在很多領域中也得到了提升,經(jīng)濟基礎決定上層建筑,只有把經(jīng)濟發(fā)展好,我們才能在其它領域發(fā)展起來,而我們的生產方式也得到了改變,就比如說數(shù)據(jù)分析一樣,最初的時候,我們對于數(shù)據(jù)分析都是利用記錄的方式,通過人工來完成,而現(xiàn)在,數(shù)據(jù)分析是依靠智能化來完成的,就比如說,我們利用spark技術,對數(shù)據(jù)分析,就減少了很多環(huán)節(jié),對于工作人員來說,也是比較快捷的,這樣在工作效率方面就得到了很大的提升。當今時代,是一個大數(shù)據(jù)時代,對于大數(shù)據(jù)而言,數(shù)據(jù)分析對于我們來說,是非常重要的,因為大數(shù)據(jù)時代就相當于是信息時代,對于信息時代而言,就是各方面的信息都是利用網(wǎng)絡來記錄,就比如說我們把汽車開去審車完成之后,就會有電子檔為我們記錄審車信息,就不需要在進行把檢查標準貼在車上。spark技術給我們帶來了很多便利,減少了一些不必要的流程和麻煩。1.1研究背景在當今社會,經(jīng)濟水平不斷提升,人類的生活水平也得到了提高,記得我國剛成立之初,只是為了解決溫飽問題,而很多人還是吃不上飯,現(xiàn)在,我們卻要以奔小康為主,說明了我們的生活水平得到了提升,而如今,由于經(jīng)濟發(fā)展,使得我們無論是在生產方面還是在科技方面,都得到了很大的提升。如今,我們在很多方面對于互聯(lián)網(wǎng)的利用越來越大,很多數(shù)據(jù)分析都是通過計算機來完成的,而利用得很好的是weka系統(tǒng),它是在java上開發(fā)出來的,通過這個工具,就能夠為我們進行數(shù)據(jù)分析。其中Hadoop的誕生就是為進行數(shù)據(jù)分析,而MapReduce引擎也是一樣,也是為對數(shù)據(jù)進行分析,它們?yōu)閿?shù)據(jù)分析提供了很好的條件。其中MapReduce一開始并不被人們接受,后來因為進入到互聯(lián)網(wǎng)之后,才開始被人們接受,它其實是一種長時間運作的,而且比較容易擴展。spark技術其實是為了補足MapReduce技術的,因為spark技術并沒有MapReduce的一些缺點存在,它保持了容易擴展的優(yōu)勢,為數(shù)據(jù)分析提供了更有利的條件,對于數(shù)據(jù)分析,也是越來越快。1.2國內外研究現(xiàn)狀對于spark技術,國內外的研究是不一樣的,對于我國而言,由于我國的人口比較多,這樣在很多時候,對于人口的統(tǒng)計就會有很多問題,我們需要的數(shù)據(jù)就會變得非常大,而我國的電商平臺主要是淘寶,而淘寶每天的購買力都是非常龐大的,這樣就會形成難以對數(shù)據(jù)進行統(tǒng)計和分析。每次雙十一的時候,電商交易額都會做統(tǒng)計,而統(tǒng)計的這些數(shù)字是非常龐大的,而通過Pehtaho的Kettle進行數(shù)據(jù)分析,這樣就會有很多功能,為我們帶來很多方便,為我們在分析數(shù)據(jù)方面提供了有利條件。而國外對于數(shù)據(jù)分析而言,起步是比較早的,尤其是美國,在1993年的時候,美國每年都會對數(shù)據(jù)挖掘技術進行研究和討論,這個討論會議被成為KDD。數(shù)據(jù)挖掘在國際上是被廣泛使用的,被用于很多領域,比如說:醫(yī)療、金融、電信等方面,而且美國在汽車方面有全球最大的汽車互聯(lián)網(wǎng),因為美國不管是經(jīng)濟方面、科技方面還是生產技術方面,在世界上都是處于領先地位的。第2章相關理論技術spark技術其實是為了對數(shù)據(jù)分析,通過上述分析,我們了解到,通過spark技術,可以為我們解決很多東西,現(xiàn)在是信息時代,對于信息時代而言,數(shù)據(jù)分析就顯得很重要。當今社會,全球人口越來越多,各種數(shù)據(jù)分析就非常重要。2.1PureMVCWeb系統(tǒng)設計MVC是很重要的,PureMVC是分為層次的,其中被分為了模型層、視圖層、最后就是控制層,它是由這三個層次組成,它的設計是非常模塊化的。其中MVC模式是少不了Model、View、Com,它們是統(tǒng)一管理,管理方式是由一個單列類管理的,創(chuàng)建也是通過其他方面來實現(xiàn)的,主要是通過Facade實現(xiàn)的,之后就提供一系列的數(shù)據(jù)支持,然后為我們實現(xiàn)一些操作,比如說像啟停和初始化等,都是通過它來完成的。2.2元數(shù)據(jù)理論對于元數(shù)據(jù)的理解,從廣義上來說,它是用來定義數(shù)據(jù)的,主要是被用作數(shù)據(jù)分析,其實就是很多業(yè)務通過數(shù)據(jù)分析得出來的,就比如在我們推廣廣告的過程中,是需要對數(shù)據(jù)進行分析的,就比如說你每天投放的廣告有多少展示,然后又有多少點擊,然后轉化是多少,這些都是非常重要的,如果說展示不高,那么問題是出自什么地方,如如果展示很高但是卻沒有點擊,那么肯定是你的廣告不夠吸引人,如果點擊很高,轉化卻很低,說明了廣告活動并不吸引人,我們只有每天通過數(shù)據(jù)分析,才能總結出很多問題,針對問題,我們才能解決好問題所在,就像元數(shù)據(jù)一樣。2.3Sparkspark其實是一個針對解決大數(shù)據(jù)計算問題而設計的,它本身就沒有延遲,很有效的解決了Mepreduce的問題,因為Mepreduce只能夠做離線分析和反復訪問的鍵盤問題。對于spark而言,它的概念就是RDD,RDD其實代表了多臺機器上的集合,就像函數(shù)一樣,它是有很多個區(qū)間一樣,而每一個區(qū)間所代表的東西都是不一樣的,spark除了這個概念,其實它還有一個概念。spark另一個概念為DAG有向無還圖,它其實是描述RDD的依賴關系的,當我們輸入A和B時,就會有兩個RDD,輸入之后,它就會進行轉化,轉化并不是每個都對應的,一個RDD可能會有多個結果。第3章需求分析基于spark其實就是一種數(shù)據(jù)分析,而近年來,數(shù)據(jù)分析對于我們而言,是非常重要的,我們生活中和工作中,對于數(shù)據(jù)分析就顯得相當重要,就比如說我們在淘寶上購買的產品,就需要實時更新數(shù)據(jù),更新包裹的地址,一般情況下,包裹每到一個地方,物流就會自動更新,讓我們能夠更方便的了解包裹的情況,其實什么時候到,什么時候發(fā)貨,這些都是很重要,因為只有通過數(shù)據(jù)分析,我們才能夠了解我們購買的東西,通過分析得出,我們的包裹是否需要退貨,是否正常運轉?;趕park技術的數(shù)據(jù)分析,對于我們來說,是不可缺少的,對我們生活中方方面面都是影響很大的。3.1分析系統(tǒng)需求基于spark的數(shù)據(jù)系統(tǒng)分析,它和其他數(shù)據(jù)分析系統(tǒng)是有很多差異的,很多人對于數(shù)據(jù)分析的理解,認為數(shù)據(jù)分析主要是輸入、輸出還有處理?;趕park的數(shù)據(jù)分析主要針對數(shù)據(jù)處理問題,數(shù)據(jù)處理問題并不只是單純的數(shù)據(jù)處理,而是包括了比較傳統(tǒng)的數(shù)據(jù)處理,其實有:過濾、轉化和加載等方面,它還能夠自行計算,數(shù)據(jù)分析中,對于數(shù)據(jù)計算問題也是非常有必要的。3.2分析系統(tǒng)可行性本次設計利用了Flash,利用Flash就能夠實現(xiàn)瀏覽器的可擴展性,可能很多人都知道,F(xiàn)lash是基于RIA,而且它的相應速度比較快,在某些方面提高了客戶的體驗,所以這個設計在技術方面是可行的。對于客戶而言,在感知方面是很好的,頁面的風格比較一致,而且整體的設計是比較簡單大方的,對于客戶就會有很強的體驗感,操作就比較可行。本設計,對于客戶的管理,是很有意義的,因為客戶在操作之后,就會留下相應的信息,管理是可行的。第4章系統(tǒng)設計基于spark對于數(shù)據(jù)分析是很重要的,設計過程中,系統(tǒng)設計就顯得比較重要,就像一個軟件的設計,前期對于系統(tǒng)設計,是非常重要的,首先要考慮到它的功能,需要實現(xiàn)的是什么,進入系統(tǒng)的畫面,這些都是很重要的。4.1系統(tǒng)架構規(guī)劃其實系統(tǒng)的設計就是為了完成數(shù)據(jù)分析,主要任務就是通過UI來實現(xiàn)的,系統(tǒng)架構如下圖4.1所示:圖4.1:系統(tǒng)結構通過架構,我們得出了本系統(tǒng)一共被分為兩部分,有元數(shù)據(jù)系統(tǒng)和數(shù)據(jù)分析系統(tǒng),它們各司其職。元數(shù)據(jù)系統(tǒng)主要完成的是把我們需要的元數(shù)據(jù)進行配置,數(shù)據(jù)分析系統(tǒng)就是分析數(shù)據(jù),為我們處理一些數(shù)據(jù)。4.2程序設計思想與原則設計首先要做到簡單大方,整體風格要保持一致。設計的思想方面,元數(shù)據(jù)要遵從客戶,遵從它的使用習慣,對于前臺來說,要利用到PureMVC,后臺則要利用Service,還有就是Dao的結構,它的代碼如下圖所示:圖4.2:類圖4.3頁面功能設計本次設計的頁面功能如下圖所示:圖4.3:頁面功能設計4.4系統(tǒng)詳細設計元數(shù)據(jù)是本次系統(tǒng)設計的核心,它有很多子系統(tǒng),這些子系統(tǒng)則是單獨運行的,還有就是要有一些輔助功能。系統(tǒng)設計中,是需要數(shù)據(jù)源管理的,除了數(shù)據(jù)源以為,還包括了輸入模型管理等,具體設計如下圖所示:圖4.4.1:數(shù)據(jù)處理功能圖圖4.4.2:數(shù)據(jù)管理源模塊圖4.4.3:輸入模型管理模塊圖4.4.4:模型訓練流程圖4.4.5:模型訓練與校驗模塊圖4.4.6:算法設計第5章系統(tǒng)實現(xiàn)通過上述分析,我們得出了基于spark技術對于數(shù)據(jù)分析的重要性是不言而喻的,系統(tǒng)也是為了實現(xiàn)數(shù)據(jù)分析,數(shù)據(jù)處理已經(jīng)數(shù)據(jù)輸入等,通過設計,為我們實現(xiàn)了進行快速分析數(shù)據(jù),快速處理一系列的數(shù)據(jù)問題。5.1代碼開發(fā)規(guī)范代碼開發(fā)是有流程的,對于系統(tǒng)設計,代碼編寫就非常重要,代碼就相當于一篇文章主要表達的意思是什么,文章的結構是什么,對于本次系統(tǒng)設計,代碼編寫之前,我們要考慮的是系統(tǒng)的功能有什么,需要為我們解決的是什么問題等。5.2系統(tǒng)登錄和首頁系統(tǒng)登錄是有登錄入口的,一般Facade就是程序入口,一般情況下,首次登錄都會進入到默認模塊,界面會彈出logo,排列方法則是橫排列的方法,具體如下所示:圖5.2:登錄界面5.3輸入模型管理管理系統(tǒng)當中,是有輸入模型的,頁面的設計和數(shù)據(jù)分析是大同小異的,系統(tǒng)設計中,除了有基本信息之外,還是需要一個模型的,這個模型綁定了數(shù)據(jù)源的,很多人會認為,有很多信息是需要手動填入的,其實并不是,編輯輸入模型如下圖所示:圖5.3:編輯輸入模型第6章結論本文通過了基于spark數(shù)據(jù)分析系統(tǒng)的設計和實現(xiàn)進行研究和分析,系統(tǒng)的設計為我們解決了很多問題,通過spark數(shù)據(jù)分析,使我們在數(shù)據(jù)分析中帶來了很多方便,為我們解決了一系列的數(shù)據(jù)分析問題,而系統(tǒng)設計的理念也有很多優(yōu)點:1)為我們解決了傳統(tǒng)的代碼編寫問題,設計和使用更靈活。2)利用spark增加了集群節(jié)點,還為我們提供了擴展問題。3)為我們提供了很多方便,數(shù)據(jù)分析減少延遲。

參考文獻[1]TomWhites著華東師范大學數(shù)據(jù)科學與工程學院譯.Haoop權威指南[M].清華大學出版社,2015[2]謝桂蘭羅省賢.基于HadoopMapReduce模型的應用研究[J].微型機與應用,2010,29(8):4-7.[3]MichaelSteinbach,VipinKumar著.范明,范宏建譯.數(shù)據(jù)挖掘導論[M].人民郵電出版社,2011.[4]欒麗華,吉根林

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論