大數(shù)據(jù)分析模型深度介紹_第1頁
大數(shù)據(jù)分析模型深度介紹_第2頁
大數(shù)據(jù)分析模型深度介紹_第3頁
大數(shù)據(jù)分析模型深度介紹_第4頁
大數(shù)據(jù)分析模型深度介紹_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、白鴿學(xué)吧大數(shù)據(jù)分析模型深度介紹白鴿學(xué)吧6白鴿學(xué)吧i.數(shù)據(jù)分析多層模型介紹這個金字塔圖像是數(shù)據(jù)分析的多層模型,從下往上一共有六層:MakingD<kionsEnd UserOaia PresentadonsVisualizmronData MiningInformation DiveryData ExptorationStatistical Analysis. Querying & ReportingData Warehouses / Data MartsOn Line Analytic I P,cc肝is leg COLAP)Dat» SourcesPqpe* FH嶼

2、Information Pfovid電r* Database Systems.Business AnahitDMa Anal/s!DBA底下第一層稱為Data Sources元數(shù)據(jù)層。比如說在生產(chǎn)線上,在生產(chǎn)的數(shù)據(jù)庫里面,各種各樣的數(shù)據(jù),可能是銀行的業(yè)務(wù)數(shù)據(jù),也可能是電信運(yùn)營商在交換機(jī)里面采集下來的數(shù)據(jù)等等,然后這些生產(chǎn)的數(shù)據(jù)通過ETL,是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract )、轉(zhuǎn)換(transform )、加載(load)至目的端的過程,通過這個過程,我們可以把需要的數(shù)據(jù)放到數(shù)據(jù) 倉庫里面,那這個數(shù)據(jù)倉庫就是多層模型中的第二

3、層。數(shù)據(jù)倉庫主要是給我們需要存放的數(shù)據(jù)提供一個物理基礎(chǔ),我們對數(shù)據(jù)進(jìn)行分析,原材料都放在這個數(shù)據(jù)倉庫里面, 這幾年以來,除了數(shù)據(jù)倉庫這個概念,還興起了數(shù)據(jù)集市這個概念,數(shù)據(jù)集市其實(shí)就是部門級的數(shù)據(jù)倉庫,規(guī)模比較小一點(diǎn)的數(shù)據(jù)倉庫。再上面一層是Data Exploration ,這層主要做統(tǒng)計(jì)分析的事情,比如我們算均值、標(biāo)準(zhǔn)差、方差、排序、求最小 大值、中 位數(shù)、眾數(shù)等等,這些統(tǒng)計(jì)學(xué)比較常用的指標(biāo),另外還有些 SQL查詢語句,總的來說主要是做一些目標(biāo)比較明確,計(jì)算方 法比較清楚的事情。m鴿學(xué)電第四層是Data Mining 數(shù)據(jù)挖掘?qū)?,?shù)據(jù)挖掘與數(shù)據(jù)分析(統(tǒng)計(jì)分析)有什么區(qū)別呢,數(shù)據(jù)分析往往是統(tǒng)計(jì)

4、量和算法比較清楚,數(shù)據(jù)挖掘往往是目標(biāo)不是很清楚,在實(shí)現(xiàn)目標(biāo)的過程中采用什么方法不能確定,所以數(shù)據(jù)挖掘比數(shù)據(jù)分析難度要高很多。第五層是數(shù)據(jù)展現(xiàn)層, 把數(shù)據(jù)分析和數(shù)據(jù)挖掘得出來的結(jié)果通過數(shù)據(jù)展現(xiàn)層的圖表、報表把他展現(xiàn)出來,也可以稱為數(shù)據(jù)可視化。最后把這些圖表、報表交給決策者,以這個為基礎(chǔ)做一些決策。2 .數(shù)據(jù)分析工具簡介常用的數(shù)據(jù)分析工具,包括一些廠商的數(shù)據(jù)庫產(chǎn)品,包括舊M的DB2、甲骨文的Oracle數(shù)據(jù)庫。這些廠商的數(shù)據(jù)庫本身帶有一些統(tǒng)計(jì)分析的包,里面有些標(biāo)準(zhǔn)的功能可以做數(shù)據(jù)分析工作,但用這些自帶的數(shù)據(jù)分析工具功能相對不夠?qū)I(yè)。主要反映在缺乏標(biāo)準(zhǔn)的統(tǒng)計(jì)函數(shù),比如做一個線性回歸模型,需要寫一大堆

5、SQL語句,甚至要寫一個 plsql程序才能完成。但是在專業(yè)的統(tǒng)計(jì)軟件只需要寫一個簡單的函數(shù)就可以完成。IX INt'Tcrystal; w 二上分析工具場PPT Swiff ColprWwl Ycd靂HFlex KC,NatDrAUjEnterpriie Miner ClemcnHnc目前最主流的統(tǒng)計(jì)軟件有 R、SAS、SPSS, R是一個免費(fèi)的開源軟件。SAS大概是歷史最悠久的統(tǒng)計(jì)軟件,是一個商業(yè)軟件,在60年代就誕生,在70年代以后逐漸商業(yè)化,發(fā)展到現(xiàn)在SAS已經(jīng)成為國際標(biāo)準(zhǔn)。SPSS也是一個歷史悠久的統(tǒng)計(jì)軟件,SPSS 一開始是一個仿真軟件,后來演變成一個統(tǒng)計(jì)軟件,目前已經(jīng)發(fā)展

6、成為一個數(shù) 據(jù)挖掘軟件,目前被 舊M收購,變成 舊M旗下的一個產(chǎn)品,在社會學(xué)研究院領(lǐng)域有很多的應(yīng)用。其他的還有一些軟件,比如說水晶報表(Crystal Reports ),在做BI和報表非常擅長,另外如 UCINET也是在社會學(xué)比較常用的軟件,它可以畫群體的網(wǎng)絡(luò)圖,社交關(guān)系圖非常擅長。3 .常用統(tǒng)計(jì)方法使用統(tǒng)計(jì)方法,有目的地對收集到的數(shù)據(jù)進(jìn)行分析處理,并且解讀分析結(jié)果:即平均蠹,11 Xn)t均喝甘耦利甲沂號一篤信號,出果同居室值(勢己可信大值)出第曷徘落后居于中間面3鴕浦山;造茁尺展蕓用;不皎充分利用已犯的麗育簧堂0里,型不受壽某值的史 前'出現(xiàn)山蛭貝的期H,代里號和中能嘉*I* &

7、#163;文兄廈f時對卻遢第用 最十信與最小囤工重* gngHEMJt.EjM 按受制輯常度鼾 離場裝的正值與均道三詞典至俸看的均僮: v ar= 1/(n-1 )*5 um(Xi-in«i 釉據(jù)分布而分26®瓶為閶,方差理大: 萬差的平方福8d*”SQRTb叫; 可芟據(jù)本身可相同的維叼力用 丁不扇杳梯在均值由曾畫至百百施麗 M 秫分布,mtan£m«dL »ia mode 右偏分櫛:skevne«>(ki mean>rMdtan>mode 1 左調(diào)分行: skewnessO an<niode t丁麗麗蔽麗3&

8、#165;5S1 kuitosis33i 正二士鉆jNormd閭nbuti口n/-kmgi2箝一杵曲粽比正右臺花工抬,* km。下悔金曰,分弗圓球比正與上手工*;常用算法&:白鷗學(xué)吧畬QLHM掰式有悌C31IT34 .數(shù)據(jù)挖掘數(shù)據(jù)挖掘是以查找隱藏在數(shù)據(jù)中的信息為目標(biāo)的技術(shù),是應(yīng)用算法從大型數(shù)據(jù)庫中提取知識的過程,這些算法確定信息項(xiàng)之間的隱性關(guān)聯(lián),并且向用戶顯示這些關(guān)聯(lián)。數(shù)據(jù)挖掘思想來源:假設(shè)檢驗(yàn),模式識別,人工智能,機(jī)器學(xué)習(xí)常見數(shù)據(jù)挖掘任務(wù):關(guān)聯(lián)分析,聚類分析,孤立點(diǎn)分析等等例:啤酒與尿布的故事5 .展現(xiàn)層:報表與圖形展現(xiàn)層在數(shù)據(jù)分析中是一個很重要的組成部分,在大家的心目中數(shù)據(jù)分析軟件

9、只是讀數(shù)據(jù)和算數(shù)據(jù),結(jié)果算出來就OK 了但其實(shí)結(jié)果算出來以后對于數(shù)據(jù)分析還遠(yuǎn)沒有結(jié)束,還需要把結(jié)果展現(xiàn)出來,有些時候可能結(jié)果的展現(xiàn)比計(jì)算花的時間還要多。下圖是一個比較老土的報表。,如6卑青金北葬獨(dú)發(fā)執(zhí)打情* % £,tt星:4rht <- -tvau# ftVVJ u1 »,修d»r<0 VIAIf 44* *11*10 J1MVWwa IIJIJtK 1)S41|70IJ修MMon|】1iniJ4MJIM31 1w”>ioi1*,itl r4H14THSiHi削u4H14It414HF!if!VifllIt194”itStt illtliJfl

10、lT1 hl*1涮!>1it1144二3jrM)Il 111>"*Il1 1*«ti例* JJ*”1 111口加M01i ntI11Srr. 1 nn1>HI 1443rf.上a辦toll發(fā),)iKiiUliHU川1111imIITlJOJI1詡11Wnnin*ViTlM踴ftJI中Hitn»DOTjVH>311J3f3i11 hW3»ti11rtJJI,J1Mn>i彳mi蛇方E.>Wlit*,r,小驚*4,M imta*Ml«I0311 kilfl 9制”川外JjlJItJ JllD一晦寤14骷百i* *If IMtaMinlh-11suitHlO-1 JTii*巾 #H,】JIMUMtJ1T14mt如果那這種報表給老板看, 那體驗(yàn)效果肯定很差, 其實(shí)人的特點(diǎn)對數(shù)字的感覺不敏感,如果你那一大堆數(shù)字組成的報表給老板看,老板肯定不是很高興。人對圖形會比較敏感, 所以在統(tǒng)計(jì)學(xué)里面通常有比較標(biāo)準(zhǔn)的圖,如餅圖、柱形圖(垂直和水平)、虛線圖、水泡圖、魚骨圖、箱線圖等等。白秀膽下面是一張?jiān)诘貓D上展現(xiàn)數(shù)據(jù)的展現(xiàn)形式下圖是關(guān)于使用安卓手機(jī)的數(shù)據(jù)展現(xiàn)根據(jù)信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論