版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)模式目錄數(shù)據(jù)使用模式原子模式處理模式2訪問模式存儲(chǔ)模式復(fù)合模式3大數(shù)據(jù)模式大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。簡單舉例大數(shù)據(jù)模式:原子模式數(shù)據(jù)使用模式:可視化模式、即席發(fā)現(xiàn)模式處理模式:預(yù)處理原始數(shù)據(jù)模式訪問模式:web和社交媒體訪問模式存儲(chǔ)模式:分布式非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模式、分布式結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模式復(fù)合模式:存儲(chǔ)和探索模式、可操作的分析模式原子模式4原子模式:有助于識(shí)別數(shù)據(jù)如何是被使用、處理、存儲(chǔ)和訪問的。它們還有助于識(shí)別所需的組件。訪問、存儲(chǔ)和處理來自不同數(shù)據(jù)源的多種數(shù)據(jù)需要不同的方法。每種模式都用于滿足特定的需求:例如,可視化、歷史數(shù)據(jù)分析、社交媒體數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。可以將多種原子模式結(jié)合使用,組成一個(gè)復(fù)合模式。這些原子模式?jīng)]有進(jìn)行分層或排序。例如,可視化模式可以與社交媒體的數(shù)據(jù)訪問模式直接交互,可視化模式還可以與高級(jí)分析處理模式進(jìn)行交互。原子模式5數(shù)據(jù)使用模式6可視化模式即席發(fā)現(xiàn)模式數(shù)據(jù)使用模式一可視化模式7可視化數(shù)據(jù)的傳統(tǒng)方式以圖表、儀表板和摘要報(bào)告為基礎(chǔ)。這些傳統(tǒng)的方法并不總是用來可視化數(shù)據(jù)的最佳方式。大數(shù)據(jù)可視化的典型需求(包括新出現(xiàn)的需求)如下所示:執(zhí)行流數(shù)據(jù)的實(shí)時(shí)分析和顯示基于上下文,以交互方式挖掘數(shù)據(jù)執(zhí)行高級(jí)搜索,并獲得建議并行可視化信息獲得先進(jìn)的硬件,支持未來的可視化需求可視化數(shù)據(jù)的目的是為了更容易、更直觀地使用數(shù)據(jù),并且可以為用戶提供使用應(yīng)用程序控制業(yè)務(wù)活動(dòng)和結(jié)果的能力。數(shù)據(jù)使用模式一即席發(fā)現(xiàn)模式8創(chuàng)建滿足所有業(yè)務(wù)需求的標(biāo)準(zhǔn)報(bào)告往往是不可行的,因?yàn)槠髽I(yè)的業(yè)務(wù)數(shù)據(jù)查詢會(huì)有不同的需求。用戶在查找特定信息時(shí),可能需要獲得根據(jù)問題的上下文執(zhí)行即席查詢的能力。即席分析可以幫助數(shù)據(jù)科學(xué)家和關(guān)鍵業(yè)務(wù)用戶了解業(yè)務(wù)數(shù)據(jù)的行為。即席處理中涉及的復(fù)雜性來自多種因素:多個(gè)數(shù)據(jù)源可用于相同的域。單一的查詢可以有多個(gè)結(jié)果。輸出可以是靜態(tài)的,并具有多種格式(視頻、音頻、圖形和文本)。輸出可以是動(dòng)態(tài)和交互式的。9處理模式無論數(shù)據(jù)是處于靜止?fàn)顟B(tài)還是在運(yùn)動(dòng)中,都可以處理大數(shù)據(jù)。具體情況取決于分析的復(fù)雜性,有可能不需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。這種模式解決了對(duì)大數(shù)據(jù)進(jìn)行實(shí)時(shí)、近實(shí)時(shí)或批量處理的方式。我們下面舉例:預(yù)處理原始數(shù)據(jù)模式。10處理模式一預(yù)處理原始數(shù)據(jù)模式從多個(gè)數(shù)據(jù)源訪問的非結(jié)構(gòu)化數(shù)據(jù)可以按原樣存儲(chǔ),然后被轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)(例如
JSON),并被再次存儲(chǔ)到大數(shù)據(jù)存儲(chǔ)系統(tǒng)中。非結(jié)構(gòu)化文本可以轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。同樣,圖像、音頻和視頻數(shù)據(jù)需要轉(zhuǎn)換成可用于分析的格式。此外,使用預(yù)測和統(tǒng)計(jì)算法的高級(jí)分析的準(zhǔn)確性和正確性取決于用來訓(xùn)練其模型的數(shù)據(jù)和算法的數(shù)量。下面的列表顯示了將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)所需的算法和活動(dòng):文檔和文本分類特征提取圖像和文本分割關(guān)聯(lián)特征、變量和時(shí)間,然后提取包含時(shí)間的值輸出的準(zhǔn)確度檢查使用了混淆矩陣(confusionmatrix)等技術(shù)和其他手動(dòng)活動(dòng)11訪問模式一web和社交媒體訪問模式非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)中的Web
媒體訪問步驟
A-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟
A-2.數(shù)據(jù)被存儲(chǔ)在非結(jié)構(gòu)化存儲(chǔ)中。Web
媒體訪問為結(jié)構(gòu)化存儲(chǔ)預(yù)處理數(shù)據(jù)步驟
B-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟
B-2.對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟
B-3.數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化存儲(chǔ)中。12訪問模式一web和社交媒體訪問模式Web
媒體訪問預(yù)處理非結(jié)構(gòu)化數(shù)據(jù)步驟
C-1.在極少數(shù)情況下,來自供應(yīng)商的數(shù)據(jù)可以是非結(jié)構(gòu)化數(shù)據(jù)。步驟
C-2.對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟
C-3.數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化存儲(chǔ)中。非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)的
Web媒體訪問步驟
D-1.數(shù)據(jù)供應(yīng)商提供結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。步驟
D-2.數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化或非結(jié)構(gòu)化存儲(chǔ)中。13訪問模式一web和社交媒體訪問模式Web
媒體訪問預(yù)處理非結(jié)構(gòu)化數(shù)據(jù)步驟E-1.不能使用在存儲(chǔ)時(shí)未經(jīng)過預(yù)處理的非結(jié)構(gòu)化數(shù)據(jù),除非它是結(jié)構(gòu)化格式的數(shù)據(jù)。步驟
E-2.對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟
E-3.經(jīng)過預(yù)處理的結(jié)構(gòu)化數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化存儲(chǔ)中。大數(shù)據(jù)訪問步驟14存儲(chǔ)模式一分布式非結(jié)構(gòu)化數(shù)據(jù)15大部分大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),而且可以通過不同的方式針對(duì)不同的上下文提取它所擁有的信息。大多數(shù)時(shí)候,非結(jié)構(gòu)化數(shù)據(jù)必須按原樣并以其原始格式進(jìn)行存儲(chǔ)。這樣的數(shù)據(jù)可以存儲(chǔ)在分布式文件系統(tǒng)(如
HDFS)和
NoSQL
文檔存儲(chǔ)(如
MongoDB)中。這些系統(tǒng)提供了檢索非結(jié)構(gòu)化數(shù)據(jù)的有效方法。存儲(chǔ)模式一分布式結(jié)構(gòu)化數(shù)據(jù)16結(jié)構(gòu)化數(shù)據(jù)包括從數(shù)據(jù)源到達(dá)的已經(jīng)是結(jié)構(gòu)化格式的數(shù)據(jù),以及經(jīng)過預(yù)處理,被轉(zhuǎn)換為
JSON數(shù)據(jù)等格式的非結(jié)構(gòu)化數(shù)據(jù)。必須存儲(chǔ)已經(jīng)過轉(zhuǎn)換的數(shù)據(jù),避免從原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的頻繁數(shù)據(jù)轉(zhuǎn)換??梢允褂?/p>
的
BigTable
等技術(shù)來存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。BigTable是一個(gè)大規(guī)模容錯(cuò)式自我管理系統(tǒng),包括
TB級(jí)的內(nèi)存和
PB級(jí)的存儲(chǔ)。Hadoop
中的
HBase可媲美BigTable。它使用了
HDFS作為底層存儲(chǔ)。復(fù)合模式一存儲(chǔ)和探索模式17僅存儲(chǔ)的示例是,數(shù)據(jù)的獲取和存儲(chǔ)只是為了將來能夠滿足合規(guī)性或法律的要求。在處理和使用的情況下,分析的結(jié)果可以被處理和使用??梢詮淖罱l(fā)現(xiàn)的來源或從現(xiàn)有的數(shù)據(jù)存儲(chǔ)訪問數(shù)據(jù)。復(fù)合模式一可操作的分析模式18大數(shù)據(jù)解決方案的最高級(jí)形式是,對(duì)數(shù)據(jù)集執(zhí)行分析,并且基于可重復(fù)的過去的行動(dòng)或行動(dòng)矩陣來暗示行動(dòng)。該操作可以是手動(dòng)、半自動(dòng)或全自動(dòng)的。基礎(chǔ)分析需要高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 時(shí)尚品牌店裝修合同樣本
- 2025年度特種設(shè)備安全管理停薪留職協(xié)議
- 夜間快遞運(yùn)輸線路外包合同
- 保險(xiǎn)公司裝修質(zhì)量保證協(xié)議
- 產(chǎn)業(yè)園裝修貸款合同范本
- 2025年度網(wǎng)絡(luò)安全應(yīng)急響應(yīng)工程師聘請(qǐng)合同-@-1
- 學(xué)校教室半包裝修合同樣本
- 工廠車間裝修包工協(xié)議
- 家電賣場展位裝修合同書
- 保險(xiǎn)公司裝修制式合同樣本
- 自卸車司機(jī)實(shí)操培訓(xùn)考核表
- 教師個(gè)人基本信息登記表
- 中考現(xiàn)代文閱讀理解題精選及答案共20篇
- ESD測試作業(yè)指導(dǎo)書-防靜電手環(huán)
- 高頻變壓器的制作流程
- 春季開學(xué)安全第一課PPT、中小學(xué)開學(xué)第一課教育培訓(xùn)主題班會(huì)PPT模板
- JJG30-2012通用卡尺檢定規(guī)程
- 部編版人教版二年級(jí)上冊語文教材分析
- 艾賓浩斯遺忘曲線復(fù)習(xí)方法表格模板100天
- APR版制作流程
- 《C++程序設(shè)計(jì)》完整教案
評(píng)論
0/150
提交評(píng)論