談?wù)剶?shù)據(jù)編織與數(shù)據(jù)網(wǎng)格、數(shù)據(jù)虛擬化、數(shù)據(jù)湖的區(qū)別_第1頁
談?wù)剶?shù)據(jù)編織與數(shù)據(jù)網(wǎng)格、數(shù)據(jù)虛擬化、數(shù)據(jù)湖的區(qū)別_第2頁
談?wù)剶?shù)據(jù)編織與數(shù)據(jù)網(wǎng)格、數(shù)據(jù)虛擬化、數(shù)據(jù)湖的區(qū)別_第3頁
談?wù)剶?shù)據(jù)編織與數(shù)據(jù)網(wǎng)格、數(shù)據(jù)虛擬化、數(shù)據(jù)湖的區(qū)別_第4頁
談?wù)剶?shù)據(jù)編織與數(shù)據(jù)網(wǎng)格、數(shù)據(jù)虛擬化、數(shù)據(jù)湖的區(qū)別_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

什么是數(shù)據(jù)虛擬化根據(jù)Gartner的定義,虛擬化是IT資源的抽象,它向資源用戶掩蓋了它們的物理性質(zhì)和邊界。將定義擴展到數(shù)據(jù),數(shù)據(jù)虛擬化是數(shù)據(jù)集成的概念,它通過消除數(shù)據(jù)孤島和連接所有數(shù)據(jù)資產(chǎn)來創(chuàng)建虛擬抽象層。它為數(shù)據(jù)生態(tài)系統(tǒng)中的不同應(yīng)用程序提供了一個通用層。DAMA(國際數(shù)據(jù)管理協(xié)會)是這樣定義數(shù)據(jù)虛擬化的:數(shù)據(jù)虛擬化使分布式數(shù)據(jù)庫和多個異構(gòu)數(shù)據(jù)存儲能夠作為單個數(shù)據(jù)庫進行訪問和查看。因此,數(shù)據(jù)虛擬化服務(wù)器不是使用轉(zhuǎn)換引擎對數(shù)據(jù)進行物理ETL,而是虛擬地執(zhí)行數(shù)據(jù)提取、轉(zhuǎn)換和集成。數(shù)據(jù)虛擬化的目標(biāo)是構(gòu)建所有數(shù)據(jù)的單一視圖,無論來源或格式如何,而無需物理復(fù)制或移動該數(shù)據(jù)。什么是數(shù)據(jù)湖數(shù)據(jù)湖是存儲從各種源系統(tǒng)(事務(wù)數(shù)據(jù)庫、傳感器設(shè)備、SaaS應(yīng)用程序、文件共享系統(tǒng)等)收集的信息副本的存儲庫,以其本機格式供ML解決方案處理、備份和歸檔、大數(shù)據(jù)分析等。首先,從各種來源獲取的信息進入著陸區(qū),在那里它暫時保持原樣。當(dāng)一家公司建立了持續(xù)攝取、提取、轉(zhuǎn)換和加載(ETL)和變更數(shù)據(jù)捕獲(CDC)能力時,多類型信息可以在創(chuàng)建后立即進入數(shù)據(jù)湖。一旦數(shù)據(jù)進入湖中,每組數(shù)據(jù)都會被分配一個唯一的指示符或索引,以及一個元數(shù)據(jù)標(biāo)簽,以加快查詢速度并幫助用戶快速查找請求的數(shù)據(jù)。之后,數(shù)據(jù)可能會經(jīng)過清洗、重復(fù)數(shù)據(jù)刪除、重新格式化、豐富等操作,然后移至可信區(qū)域進行永久存儲。當(dāng)信息準(zhǔn)備好供下游用戶使用時,它可能會直接進入報告和儀表板,或者經(jīng)過另一輪ETL并存儲在數(shù)據(jù)倉庫中以供進一步處理。什么是數(shù)據(jù)編織數(shù)據(jù)編織是一種設(shè)計方法,它意味著將數(shù)據(jù)生態(tài)系統(tǒng)的復(fù)雜組件組合到一個統(tǒng)一的平臺中,以提供完整和有凝聚力的數(shù)據(jù)管理。與數(shù)據(jù)湖不同,數(shù)據(jù)編織不需要將數(shù)據(jù)移動到集中位置,而是依賴強大的數(shù)據(jù)治理策略來實現(xiàn)數(shù)據(jù)管理統(tǒng)一。為了促進跨不同系統(tǒng)訪問信息、管理其生命周期并將其公開給最終用戶,DataFabric架構(gòu)支持:數(shù)據(jù)整合任何信息,無論其類型、數(shù)量和位置如何,都可以被用戶整合和訪問,因為數(shù)據(jù)編織允許利用數(shù)據(jù)虛擬化層來整合數(shù)據(jù),而無需移動數(shù)據(jù)和創(chuàng)建大量副本。除此之外,為了保證數(shù)據(jù)的完整性,DataFabric可以采用ETL、CDC、流處理等。智能數(shù)據(jù)目錄數(shù)據(jù)目錄是企業(yè)擁有的所有數(shù)據(jù)的詳細清單。隨著數(shù)據(jù)編織統(tǒng)一了大量信息,數(shù)據(jù)目錄維護元數(shù)據(jù)以幫助數(shù)據(jù)消費者(包括分析師、數(shù)據(jù)庫工程師、科學(xué)家、業(yè)務(wù)用戶等)查找和理解數(shù)據(jù)、跟蹤其沿襲、評估和管理數(shù)據(jù)等等。動態(tài)元數(shù)據(jù)管理數(shù)據(jù)編織通常采用人工智能功能,幫助自動檢測、分析、收集和激活元數(shù)據(jù)。數(shù)據(jù)治理數(shù)據(jù)治理確保數(shù)據(jù)消費者在各自的策略(訪問策略、屏蔽策略、數(shù)據(jù)質(zhì)量策略等)的幫助下只能訪問他們需要的高質(zhì)量信息,這些策略由于元數(shù)據(jù)激活功能而自動執(zhí)行。什么是數(shù)據(jù)網(wǎng)格數(shù)據(jù)網(wǎng)格是一種分布式數(shù)據(jù)架構(gòu),在集中管理和互操作性標(biāo)準(zhǔn)化下,由共享和協(xié)調(diào)的自助數(shù)據(jù)基礎(chǔ)設(shè)施支持。數(shù)據(jù)網(wǎng)格模式代表分散的和特定領(lǐng)域的數(shù)據(jù)所有權(quán),這些數(shù)據(jù)所有權(quán)很容易被發(fā)現(xiàn)并可供組織中的每個人使用。數(shù)據(jù)網(wǎng)格有幾個區(qū)別于其他模式的關(guān)鍵特征:數(shù)據(jù)所有權(quán):數(shù)據(jù)網(wǎng)格跨不同域存儲數(shù)據(jù)。此數(shù)據(jù)由領(lǐng)域?qū)<揖S護和管理。數(shù)據(jù)作為產(chǎn)品:每個數(shù)據(jù)域都被視為一個產(chǎn)品,用戶就是它的客戶。自助數(shù)據(jù)平臺:數(shù)據(jù)網(wǎng)格提倡建立一個生態(tài)系統(tǒng),支持創(chuàng)建、使用和維護數(shù)據(jù)產(chǎn)品,而無需專業(yè)知識或復(fù)雜工具和技術(shù)方面的專業(yè)知識。聯(lián)合計算治理:分散的數(shù)據(jù)產(chǎn)品可能導(dǎo)致數(shù)據(jù)孤島。聯(lián)合治理方法將與數(shù)據(jù)相關(guān)的規(guī)則、定義和過程標(biāo)準(zhǔn)化。數(shù)據(jù)網(wǎng)格脫離了集中存儲、轉(zhuǎn)換和處理分析數(shù)據(jù)的概念。相反,它提倡每個業(yè)務(wù)領(lǐng)域負責(zé)托管、準(zhǔn)備數(shù)據(jù)并將其提供給自己的領(lǐng)域和更大的受眾。比較:數(shù)據(jù)編織與數(shù)據(jù)虛擬化數(shù)據(jù)編制是一種用于現(xiàn)代數(shù)據(jù)管理的端到端架構(gòu)。數(shù)據(jù)結(jié)構(gòu)用于簡化數(shù)據(jù)發(fā)現(xiàn)、治理和主動元數(shù)據(jù)管理。當(dāng)組織需要一個集中式平臺來訪問、管理和治理所有數(shù)據(jù)時,應(yīng)使用數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)虛擬化創(chuàng)建了一個數(shù)據(jù)抽象層來集成所有數(shù)據(jù),而無需物理移動數(shù)據(jù)。當(dāng)需要快速集成數(shù)據(jù)時,使用數(shù)據(jù)虛擬化。數(shù)據(jù)虛擬化應(yīng)被視為數(shù)據(jù)結(jié)構(gòu)架構(gòu)的核心元素之一。數(shù)據(jù)虛擬化改變了數(shù)據(jù)到達分析師、數(shù)據(jù)科學(xué)家、企業(yè)或應(yīng)用程序手中的方式。它不是將數(shù)據(jù)物理地移動到云端或本地,而是創(chuàng)建一個抽象層或數(shù)據(jù)虛擬化層。因此,它連接到不同的數(shù)據(jù)源、攝取數(shù)據(jù)、執(zhí)行ETL過程并創(chuàng)建虛擬數(shù)據(jù)層,從而允許用戶實時利用來自多個來源的數(shù)據(jù)。DataVirtualization是支持

DataFabric

的技術(shù)之一。DataFabric是一個端到端數(shù)據(jù)管理架構(gòu),其目標(biāo)或用例不僅僅是在云端或業(yè)務(wù)分析師手中獲取數(shù)據(jù),而是處理更廣泛的情況,如客戶智能或客戶360度視圖或物聯(lián)網(wǎng)分析。DataFabric適用于更大范圍的技術(shù)堆棧。比較:數(shù)據(jù)編織與數(shù)據(jù)湖數(shù)據(jù)湖是數(shù)據(jù)和數(shù)據(jù)資產(chǎn)的存儲庫,而數(shù)據(jù)編織是提取和利用此類信息的方法。許多專家認為這兩個短語是同義詞,使用數(shù)據(jù)編織從存儲的數(shù)據(jù)中提取最大價值是最好的方法。但是,它們之間存在顯著差異。數(shù)據(jù)湖是未排序或索引的原始形式的數(shù)據(jù)存儲庫。數(shù)據(jù)可能是從簡單文件到大型二進制對象的任何內(nèi)容,例如視頻、音頻、圖像或多媒體文件。提取數(shù)據(jù)后,會對其進行評估和操作以使其可用。術(shù)語“數(shù)據(jù)編織”是指一個組織的數(shù)據(jù)在所有存儲和使用場景中使用的系統(tǒng),它使用同一組協(xié)議、流程、組織和安全性。比較:數(shù)據(jù)編織與數(shù)據(jù)網(wǎng)格盡管數(shù)據(jù)編織和數(shù)據(jù)網(wǎng)格這兩個術(shù)語有時可以互換使用,但它們代表了截然不同的概念。一般來說,數(shù)據(jù)編織和數(shù)據(jù)網(wǎng)格的相似之處在于它們都是識別企業(yè)如何管理大量存儲信息的技術(shù)。數(shù)據(jù)編織方法旨在通過在數(shù)據(jù)保存的地方構(gòu)建一個管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論