




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第4章數(shù)據采集《數(shù)據治理概論》提綱4.1數(shù)據采集的概念4.2數(shù)據采集的范圍4.3數(shù)據采集的方法4.1數(shù)據采集的概念4.1.1數(shù)據采集的概念數(shù)據采集是指在數(shù)據處理和分析過程中,從不同來源收集和獲取數(shù)據的過程。廣義的數(shù)據采集可以理解為人類為了傳遞和分享信息所采取的記錄方式,從最早的巖畫、甲骨文、到現(xiàn)在我們用紙張做筆記,拍照、錄像,再到通過各種傳感器進行信號收集都屬于數(shù)據采集。狹義的數(shù)據采集我們特指通過各種電子設備將信息轉化成計算機能夠存儲和傳遞的數(shù)據的過程。包括電子照片、文件掃描件、人們通過鍵盤輸入的信息、傳感器采集的各種信號等。什么是數(shù)據采集?4.1.2數(shù)據采集的定義與重要性定義數(shù)據采集是指從各種數(shù)據源獲取數(shù)據,并利用各種手段和技術對數(shù)據進行預處理、清洗、轉換和分析,以滿足不同領域和場景的數(shù)據需求。重要性在當今信息時代,數(shù)據已成為一種重要的生產要素,數(shù)據采集是實現(xiàn)數(shù)據價值的關鍵環(huán)節(jié)。通過對數(shù)據的采集、清洗、整合和分析,可以為企業(yè)、政府和社會組織提供決策支持、優(yōu)化運營、預測趨勢等重要價值。4.1.3數(shù)據采集的類型分為內部數(shù)據采集和外部數(shù)據采集:內部數(shù)據采集主要來自企業(yè)或組織的業(yè)務系統(tǒng)、數(shù)據庫等內部數(shù)據源;外部數(shù)據采集主要來自公開數(shù)據來源、第三方數(shù)據提供商等。按來源4.1.3數(shù)據采集的類型分為結構化數(shù)據采集、半結構化數(shù)據采集和非結構化數(shù)據采集。結構化數(shù)據采集是指針對關系型數(shù)據庫中的數(shù)據進行采集;半結構化數(shù)據采集是指針對如XML、JSON等半結構化數(shù)據源的數(shù)據采集;非結構化數(shù)據采集則是指針對如文本、圖像、音頻等非結構化數(shù)據源的數(shù)據采集。按性質4.1.3數(shù)據采集的類型分為實時數(shù)據采集和離線數(shù)據采集:實時數(shù)據采集是指對實時生成或變化的數(shù)據進行即時采集;離線數(shù)據采集則是指對歷史數(shù)據或非實時數(shù)據進行批量采集。按時效性4.1.4數(shù)據采集的步驟數(shù)據采集通常包括以下幾個步驟:數(shù)據采集是數(shù)據交換、共享、分析和應用的基礎,數(shù)據的質量和準確性直接影響著后續(xù)的數(shù)據處理和分析結果。因此,在進行數(shù)據采集時需要注意數(shù)據的來源和質量,以確保采集到的數(shù)據能夠滿足后續(xù)的數(shù)據分析和應用需求。0102數(shù)據采集范圍的確定明確需要收集哪些數(shù)據,包括數(shù)據類型、數(shù)據格式、數(shù)據來源等。03數(shù)據采集方法的選擇選擇數(shù)據采集工具,根據數(shù)據需求,選擇合適的數(shù)據采集工具,包括手動采集和自動采集兩種方式。收集數(shù)據通過數(shù)據采集工具,從不同來源收集和獲取數(shù)據,包括數(shù)據源、數(shù)據庫、文件、API等。4.2數(shù)據采集的范圍4.2數(shù)據采集的范圍數(shù)據采集范圍的確定業(yè)務范圍的確定數(shù)據采集范圍的管理213數(shù)據采集的范圍主要從以下三個方面來確定:4.2.1業(yè)務范圍的確定在確定業(yè)務范圍時考慮以下5個方面:1確定業(yè)務重點2了解企業(yè)業(yè)務模式確定企業(yè)的業(yè)務重點可以幫助企業(yè)更好地規(guī)劃數(shù)字化轉型的方向。可以通過分析企業(yè)的核心競爭力、市場需求、行業(yè)趨勢等方面來確定企業(yè)的業(yè)務重點。企業(yè)業(yè)務模式是企業(yè)數(shù)字化轉型的基礎,了解企業(yè)的業(yè)務模式可以幫助企業(yè)確定業(yè)務范圍。可以通過了解企業(yè)的產品和服務、客戶群體、銷售渠道等方面來了解企業(yè)的業(yè)務模式。4.2.1業(yè)務范圍的確定3分析業(yè)務流程4考慮數(shù)字化技術應用對企業(yè)的業(yè)務流程進行分析。通過梳理業(yè)務流程圖來詳細了解企業(yè)的業(yè)務流程,確定業(yè)務流程中存在的效率瓶頸。通過分析企業(yè)的業(yè)務流程、業(yè)務需求等方面,確定哪些業(yè)務可以通過數(shù)字化技術進行改進和優(yōu)化,從而進一步確定企業(yè)的業(yè)務范圍。5考慮未來發(fā)展通過分析企業(yè)的業(yè)務流程、業(yè)務需求等方面,確定哪些業(yè)務可以通過數(shù)字化技術進行改進和優(yōu)化,從而進一步確定企業(yè)的業(yè)務范圍。4.2.2數(shù)據采集范圍的確定在明確了業(yè)務范圍的基礎上進一步確定數(shù)據范圍,數(shù)據范圍的確定采用從總體范圍確定到支撐業(yè)務目標的精準數(shù)據范圍確定兩步反復迭代的方式開展。總體范圍確定的目標是助力企業(yè)進行統(tǒng)一數(shù)據納管服務的,精準數(shù)據范圍確定的目標是面向具體的業(yè)務目標提升的。(1)總體數(shù)據范圍確定(2)精準數(shù)據采集范圍確定(3)精準數(shù)據范圍與總體數(shù)據范圍之間的迭代4.2.2數(shù)據采集范圍的確定(1)總體數(shù)據范圍確定1)以組織劃分為依據確定各組織單元的信息系統(tǒng)支撐;2)以組織劃分為依據確定各組織單元的線下數(shù)據范圍;3)以企業(yè)總體視角關注跨業(yè)務流程所涉及的系統(tǒng)范圍。4.2.2數(shù)據采集范圍的確定(2)精準數(shù)據采集范圍確定1)明確業(yè)務目標和提升點;2)采用業(yè)務分析建模方法將業(yè)務目標拆分成關鍵影響因素;3)將關鍵影響因素作為新的業(yè)務目標再繼續(xù)向下拆分,分析該目標的影響因素;4)如此迭代至具體的業(yè)務活動或終端數(shù)據采集點為止;5)最終的業(yè)務活動或終端數(shù)據采集點所形成的數(shù)據形成了精準的數(shù)據范圍。4.2.2數(shù)據采集范圍的確定(3)精準數(shù)據范圍與總體數(shù)據范圍之間的迭代1)將精準數(shù)據范圍與總體數(shù)據范圍比對,發(fā)現(xiàn)未納管到總體數(shù)據范圍內的數(shù)據采集需求;2)將未納管的數(shù)據范圍歸入到總體數(shù)據采集范圍中,以完善總體數(shù)據采集范圍。3)該過程一直伴隨著企業(yè)整個數(shù)字化轉型過程,并非一次確定后就不再變化,而是隨著企業(yè)數(shù)字化轉型過程中業(yè)務階段工作目標變化而不斷變化。4.2.3數(shù)據采集范圍的管理企業(yè)不同業(yè)務對于數(shù)據的要求是不同的。例如:是滿足現(xiàn)場作業(yè)的及時性要求,還是經營管控要求,還是知識沉淀、提供決策依據,或者是應急響應。不同的業(yè)務應用目標對于數(shù)據的時效性、質量、更新周期都有著不同的要求。所以在進行數(shù)據采集前需要明確業(yè)務目標,才能進一步確定數(shù)據范圍和采集方式。同時,因為數(shù)據采集范圍根據企業(yè)業(yè)務目標、業(yè)務模式、經營模式的變化隨時都會發(fā)生變化,所以需要動態(tài)的根據企業(yè)變化進行數(shù)據采集范圍的動態(tài)管理。4.2.3數(shù)據采集范圍的管理業(yè)務流程管理:動態(tài)管理企業(yè)的業(yè)務流程,明確每個業(yè)務流程所涉及的數(shù)據類型、數(shù)據來源、數(shù)據格式等。業(yè)務需求管理:動態(tài)管理企業(yè)的業(yè)務需求,確定需要收集哪些數(shù)據來支持業(yè)務需求。數(shù)據源管理:以業(yè)務為總牽引確定數(shù)據來源,包括內部數(shù)據源和外部數(shù)據源,例如企業(yè)內部數(shù)據、第三方數(shù)據、開放數(shù)據等。數(shù)據類型管理:以業(yè)務為總牽引確定需要收集的數(shù)據類型,包括結構化數(shù)據、半結構化數(shù)據和非結構化數(shù)據。數(shù)據采集范圍管理主要涉及到一下7個方面的內容:4.2.3數(shù)據采集范圍的管理數(shù)據格式管理:以業(yè)務為總牽引確定需要收集的數(shù)據格式,例如文本、圖像、音頻、視頻等。數(shù)據質量需求管理:從業(yè)務視角考慮數(shù)據質量問題,需要根據業(yè)務實際情況對數(shù)據準確性、完整性、一致性的實際涵義,從真實的業(yè)務需求出發(fā)來確定數(shù)據質量需求。數(shù)據安全需求管理:考慮數(shù)據安全問題,包括數(shù)據的機密性、完整性和可用性等。數(shù)據安全性要求直接決定了采集方式方法的合法性和合規(guī)性??偟膩碚f,數(shù)據采集范圍管理是一個復雜的過程,需要從多個方面進行考慮和規(guī)劃。只有通過科學合理的管理方法,我們才能確保數(shù)據的準確性和可靠性,同時提高工作效率和安全性。4.2.3數(shù)據采集范圍的管理數(shù)據采集范圍的確定方法如下:采訪法:通過與業(yè)務部門的負責人、數(shù)據分析師等進行采訪,了解業(yè)務需求和數(shù)據需求,從而確定數(shù)據范圍。文件分析法:通過分析企業(yè)的業(yè)務流程圖、業(yè)務需求文檔等,確定需要收集的數(shù)據類型、數(shù)據格式等,從而確定數(shù)據范圍。數(shù)據字典法:通過建立數(shù)據字典,明確每個數(shù)據元素的定義、數(shù)據類型、數(shù)據格式等信息,從而確定數(shù)據范圍。會議法:組織業(yè)務部門、數(shù)據分析師等開會討論,確定業(yè)務需求和數(shù)據需求,從而確定數(shù)據范圍。綜上所述,從業(yè)務范圍到數(shù)據范圍的確定需要綜合考慮業(yè)務流程、業(yè)務需求、數(shù)據源、數(shù)據類型、數(shù)據格式、數(shù)據質量和數(shù)據安全等因素,采用采訪法、文件分析法、數(shù)據字典法和會議法等方法來確定數(shù)據范圍。4.3數(shù)據采集的方法4.3數(shù)據采集的方法4.3.2數(shù)據獲取手段的選擇4.3.1數(shù)據獲取的典型技術手段4.3.1數(shù)據獲取的典型技術手段數(shù)據采集不同的數(shù)據源和需求需要選擇不同的采集方法,以便獲取準確、完整的數(shù)據。常見的采集方法有以下六種:123456傳感器采集問卷調查數(shù)據交換手工錄入自動化采集網絡爬蟲4.3.1數(shù)據獲取的典型技術手段手工錄入是最基本的數(shù)據采集方法,通過人工輸入采集數(shù)據。手工錄入的優(yōu)點是簡單易行,但缺點是速度慢、易出錯。(1)手工錄入4.3.1數(shù)據獲取的典型技術手段自動化采集是通過計算機程序自動從數(shù)據源中獲取數(shù)據。自動化采集的優(yōu)點是速度快、準確性高,但需要一定的技術和資源支持。(2)自動化采集4.3.1數(shù)據獲取的典型技術手段網絡爬蟲是一種自動化采集的方法,通過模擬瀏覽器行為從網頁中獲取數(shù)據。網絡爬蟲的優(yōu)點是可以采集大量的數(shù)據,但需要注意法律法規(guī)和倫理道德問題。(3)網絡爬蟲4.3.1數(shù)據獲取的典型技術手段傳感器采集是通過傳感器獲取物理世界中的數(shù)據。傳感器采集的優(yōu)點是可以獲取實時的物理數(shù)據,但需要一定的硬件和技術支持。(4)傳感器采集4.3.1數(shù)據獲取的典型技術手段問卷調查是一種主動采集的方法,它通過設計調查問卷來獲取數(shù)據。問卷調查的優(yōu)點是可以獲取人的主觀意見和感受,但需要注意問卷設計和樣本選擇的問題。(5)問卷調查4.3.1數(shù)據獲取的典型技術手段數(shù)據交換是指通過數(shù)據接口或數(shù)據格式來獲取數(shù)據。數(shù)據交換的優(yōu)點是可以獲取第三方數(shù)據,但需要注意數(shù)據安全和合法性的問題。(6)數(shù)據交換4.3.2數(shù)據獲取手段的選擇(1)手工錄入數(shù)據的應用場景數(shù)據源較少數(shù)據格式不規(guī)范數(shù)據內容需要人為分析和處理數(shù)據采集成本低當需要采集的數(shù)據源較少且數(shù)據量不大時,手工錄入數(shù)據是一種簡單易行的方法。當數(shù)據源的格式不規(guī)范,無法通過自動化采集或網絡爬蟲等方式獲取數(shù)據時,手工錄入數(shù)據是一種有效的方法。很多現(xiàn)場工作以及管理工作需要人員進行分析、判斷和總結,此類數(shù)據只能通過手工錄入。當自動化采集數(shù)據的成本較高,而手工錄入數(shù)據的成本較低時,選擇手工錄入。4.3.2數(shù)據獲取手段的選擇(2)自動化采集數(shù)據的應用場景0105040302數(shù)據源格式規(guī)范當數(shù)據源的格式規(guī)范,可以通過計算機程序進行自動化采集數(shù)據時,自動化采集數(shù)據是一種高效的方法。數(shù)據無須人工二次處理當數(shù)據質量已經穩(wěn)定,只需要進行簡單的數(shù)據清洗和驗證時,以及大批量的采集,自動化采集數(shù)據是一種快速、高效的方法。數(shù)據量較大當需要采集的數(shù)據量較大時,手工錄入數(shù)據的效率會很低,而自動化采集數(shù)據可以大大提高數(shù)據采集的效率。數(shù)據采集頻度要求較高在業(yè)務要求數(shù)據采集頻度較高,人力無法滿足的情況下,可考慮采用自動化采集數(shù)據方法。數(shù)據采集成本高當手工錄入數(shù)據的成本較高,而自動化采集數(shù)據的成本較低時,可以選擇自動化采集數(shù)據作為數(shù)據采集方法。4.3.2數(shù)據獲取手段的選擇(3)網絡爬蟲的應用場景外部開放數(shù)據源:當企業(yè)需要通過外部數(shù)據輔助企業(yè)進行管理決策時,考慮采用網絡爬蟲。1數(shù)據源較多:當需要采集的數(shù)據源較多時,網絡爬蟲可以自動從網頁中獲取數(shù)據,提高數(shù)據采集的效率。2345數(shù)據源格式規(guī)范:當數(shù)據源的格式規(guī)范,可以通過網絡爬蟲進行自動化采集數(shù)據時,網絡爬蟲是一種高效的方法。數(shù)據量較大:當需要采集的數(shù)據量較大時,網絡爬蟲可以采集大量的數(shù)據。數(shù)據質量要求不高:當數(shù)據質量要求不高,特別是采集大量的非結構化文本數(shù)據時,網絡爬蟲更快速、高效。4.3.2數(shù)據獲取手段的選擇(4)傳感器采集數(shù)據的應用場景數(shù)據需要實時采集:當需要實時獲取數(shù)據時,傳感器采集數(shù)據是一種高效的方法,可以在短時間內獲取大量數(shù)據。數(shù)據需要高精度采集:傳感器可以高精度地采集數(shù)據,可以滿足對數(shù)據精度要求較高的場景。數(shù)據源難以接觸:當數(shù)據源難以接觸或需要采集的數(shù)據難以通過其他數(shù)據采集方法獲取時,傳感器采集數(shù)據是一種有效的方法。數(shù)據需要自動化采集:傳感器可以通過自動化的方式進行數(shù)據采集,可以大大提高數(shù)據采集的效率。4.3.2數(shù)據獲取手段的選擇(5)通過調查問卷收集數(shù)據的應用場景當需要獲取人們的主觀意見、看法或態(tài)度時,調查問卷是一種有效的方法。需要獲取人們的主觀意見通過量化分析的方式對數(shù)據統(tǒng)計和分析,得出具有代表性的結論。數(shù)據需要量化分析通過開放式問題和深度訪談等方式,深度挖掘受訪者的需求和心理,獲取更全面的數(shù)據。數(shù)據需要深度挖掘通過網絡、電話、郵寄等方式,獲取各種來源的數(shù)據。數(shù)據來源廣泛4.3.2數(shù)據獲取手段的選擇(6)通過數(shù)據交換采集數(shù)據的應用場景數(shù)據源來自多個系統(tǒng)當從多個系統(tǒng)或數(shù)據源獲取數(shù)據時,數(shù)據交換可以有效將數(shù)據從不同的系統(tǒng)匯總到一個系統(tǒng)。數(shù)據需要實時同步當需要實時同步數(shù)據時,數(shù)據交換是一種高效的方法,在數(shù)據更新時自動同步數(shù)據。數(shù)據需要加工處理數(shù)據交換可以將數(shù)據從一個系統(tǒng)提取出來,加工處理后再導入另一個系統(tǒng),滿足數(shù)據加工處理的需求.數(shù)據需要共享和共用當多個系統(tǒng)需要共享或共用同一份數(shù)據時,數(shù)據交換可以實現(xiàn)數(shù)據的共享和共用。4.4數(shù)據采集關鍵技術4.4數(shù)據采集技術的分類從數(shù)據類型的角度來分類,數(shù)據采集技術(數(shù)據接入技術)可以分為以下5個分類:0302010405結構化數(shù)據接入技術半結構化數(shù)據接入技術非結構化數(shù)據接入技術流式數(shù)據接入技術多模態(tài)數(shù)據接入技術4.4數(shù)據采集技術的分類結構化數(shù)據接入結構化數(shù)據是按照預定義的模式和格式組織的數(shù)據,如關系數(shù)據庫中的表格數(shù)據。結構化數(shù)據接入技術包括使用SQL、ODBC/JDBC驅動程序等與關系數(shù)據庫進行交互。01姓名學號年齡班級李勇20240506162402劉晨20240508152406王敏20240509162403張力20240556172412SELECT姓名,學號,年齡,班級FROM學生信息表4.4數(shù)據采集技術的分類半結構化數(shù)據接入半結構化數(shù)據是沒有嚴格的預定義模式和格式的數(shù)據,如XML、JSON等格式的數(shù)據。半結構化數(shù)據接入技術包括XPath、JSONPath等查詢語言和解析器。024.4數(shù)據采集技術的分類非結構化數(shù)據接入非結構化數(shù)據是沒有明確結構和格式的數(shù)據,如文本文檔、圖像、音頻、視頻等。非結構化數(shù)據接入技術包括文本分析、圖像處理、語音識別等技術。034.4數(shù)據采集技術的分類流式數(shù)據接入流式數(shù)據是以連續(xù)的、實時的方式產生的數(shù)據,如傳感器數(shù)據、日志數(shù)據等。流式數(shù)據接入技術包括流處理框架和流處理算法等。044.4數(shù)據采集技術的分類多模態(tài)數(shù)據接入多模態(tài)數(shù)據是包含多種數(shù)據類型的復合數(shù)據,如同時包含文本、圖像和音頻的數(shù)據。多模態(tài)數(shù)據接入技術包括多模態(tài)處理和分析技術。044.4數(shù)據接入技術的要點從數(shù)據接入環(huán)節(jié)來看,涉及到以下6個關鍵技術點:數(shù)據提取與抽取數(shù)據源連接與集成數(shù)據傳輸與傳輸協(xié)議213數(shù)據質量與驗證數(shù)據格式轉換與映射數(shù)據安全與權限控制5464.4數(shù)據接入技術的要點數(shù)據源連接與集成建立與數(shù)據源的連接,并將不同數(shù)據源的數(shù)據進行集成。14.4數(shù)據接入技術的要點數(shù)據提取與抽取從數(shù)據源中提取所需的數(shù)據,并將其抽取到目標系統(tǒng)中。24.4數(shù)據接入技術的要點數(shù)據傳輸與傳輸協(xié)議將數(shù)據從數(shù)據源傳輸?shù)侥繕讼到y(tǒng),可以使用不同的傳輸協(xié)議和技術,如HTTP、FTP、MQTT等。3系統(tǒng)A系統(tǒng)BTCP/IP協(xié)議發(fā)送數(shù)據格式:helloname:張三age:18響應報文格式:ok/erromessage:成功4.4數(shù)據接入技術的要點數(shù)據格式轉換與映射將數(shù)據從數(shù)據源的原始格式轉換為目標系統(tǒng)所需的格式。44.4數(shù)據接入技術的要點數(shù)據質量與驗證對數(shù)據進行質量檢查和驗證,以確保數(shù)據的完整性、準確性和一致性。54.4數(shù)據接入技術的要點數(shù)據安全與權限控制確保數(shù)據在接入過程中的安全性和隱私性。64.4.1數(shù)據源連接技術在數(shù)據接入環(huán)節(jié)中,數(shù)據源連接可以使用以下6種技術方式:JDBCODBC數(shù)據庫連接器/連接庫RESTfulAPIWeb服務文件導入4.4.1數(shù)據源連接技術添加標題JDBC是一種Java編程語言的API,用于連接和操作關系型數(shù)據庫。通過使用JDBC驅動程序,可以建立與數(shù)據庫的連接,并執(zhí)行SQL查詢、插入、更新和刪除等操作。JDBC添加標題ODBC是一種開放的數(shù)據庫連接標準,允許應用程序通過統(tǒng)一的接口連接和訪問不同類型的數(shù)據庫。ODBC提供了一套API和驅動程序,使得應用程序可以通過ODBC接口與數(shù)據庫進行通信。ODBC添加標題許多關系型數(shù)據庫提供了自己的連接器或連接庫,用于與特定數(shù)據庫進行連接和交互。這些連接器通常是針對特定數(shù)據庫的,提供了一些特定的功能和優(yōu)化,以提高數(shù)據訪問的性能和效率。數(shù)據庫連接器/連接庫4.4.1數(shù)據源連接技術添加標題許多數(shù)據源提供了基于RESTful風格的API接口,通過HTTP協(xié)議進行數(shù)據交互。使用RESTfulAPI可以通過發(fā)送HTTP請求和接收響應來連接和訪問數(shù)據源,可以執(zhí)行查詢、插入、更新和刪除等操作。RESTfulAPI添加標題一些數(shù)據源提供了基于Web服務的接口,通過SOAP或其他協(xié)議進行數(shù)據交互。通過調用Web服務的方法,可以連接和訪問數(shù)據源,并進行數(shù)據操作。Web服務添加標題將半結構化數(shù)據文件(如CSV、JSON、XML等)導入到目標系統(tǒng)中。這種方式適用于數(shù)據規(guī)模較小、數(shù)據源文件相對簡單的情況。文件導入4.4.2數(shù)據抽取技術在數(shù)據抽取中,數(shù)據的同步技術主要有以下9種:日志表方式時間戳方式全表比對方式系統(tǒng)日志分析方式觸發(fā)器方式CDC郵件解析自動化RPA數(shù)據流處理4.4.2數(shù)據抽取技術時間戳方式指增量抽取時,抽取進程通過比較系統(tǒng)時間與抽取源表的時間戳字段的值來決定抽取哪些數(shù)據。假設我們有一個數(shù)據庫表Orders,其中包含一個last_updated時間戳字段。我們可以編寫一個簡單的SQL查詢來實現(xiàn)增量抽取:SELECT*FROMOrdersWHERElast_updated>'上次抽取的時間戳';4.4.2數(shù)據抽取技術觸發(fā)器方式在被抽取的源表上建立插入、修改、刪除3個觸發(fā)器,每當源表中的數(shù)據發(fā)生變化,就被相應的觸發(fā)器將變化的數(shù)據寫入一個臨時表,ETL的增量抽取則是從臨時表中而不是直接在源表中抽取數(shù)據,同時臨時表中抽取過的數(shù)據被標記或刪除。觸發(fā)器方式適用于需要實時數(shù)據同步的場景,尤其是在數(shù)據變化頻繁且需要快速響應的系統(tǒng)中。具有以下優(yōu)點:實時性:觸發(fā)器可以即時響應數(shù)據變化,實現(xiàn)數(shù)據的實時同步。減少對源表的影響:通過在臨時表中進行抽取,減少了對源表的直接訪問,降低了對源表性能的影響。靈活性:可以針對不同的數(shù)據變化類型(插入、更新、刪除)分別處理,提供靈活的數(shù)據同步策略。4.4.2數(shù)據抽取技術是指通過軟件機器人實現(xiàn)業(yè)務流程自動化的一種技術。自動化RPA假設某公司需要自動化其發(fā)票處理流程,RPA可以實現(xiàn)以下步驟:機器人登錄到電子郵件系統(tǒng),搜索包含發(fā)票的郵件;機器人下載附件并提取必要的信息;機器人將提取的數(shù)據輸入到會計系統(tǒng)中;機器人生成報告并發(fā)送給相關人員。4.4.2數(shù)據抽取技術日志表方式系統(tǒng)中添加系統(tǒng)日志表,當業(yè)務數(shù)據發(fā)生變化時,更新維護日志表內容,增量抽取數(shù)據時,通過讀日志表數(shù)據決定抽取那些數(shù)據。日志表方式適用于需要詳細記錄數(shù)據變更歷史的場景,尤其是在數(shù)據一致性要求高、需要進行數(shù)據審計或需要進行復雜數(shù)據同步的系統(tǒng)中。維護策略如下:歸檔策略:定期將舊的日志記錄轉移到歸檔表中,以減少日志表的大小。清理策略:定期清理不再需要的日志記錄,例如,超過一定時間范圍的記錄。索引優(yōu)化:為日志表添加適當?shù)乃饕?,以提高查詢效率?.4.2數(shù)據抽取技術系統(tǒng)日志分析方式關系型數(shù)據庫系統(tǒng)都會將所有的DML操作存儲在日志文件中,ETL增量抽取進程通過對數(shù)據庫的日志進行分析,提取對相關源表在特定時間后發(fā)生的DML操作信息,就可以得知自上次抽取時刻以來該表的數(shù)據變化情況,從而指導增量抽取動作。系統(tǒng)日志分析方式適用于需要高效率和細粒度數(shù)據同步的場景,尤其是在數(shù)據量較大、數(shù)據變化頻繁的系統(tǒng)中。注意如下:日志管理:需要確保數(shù)據庫的日志文件得到妥善管理,包括日志的歸檔和清理。安全性:分析系統(tǒng)日志可能涉及到敏感數(shù)據,需要確保操作的安全性和合規(guī)性。工具支持:使用專業(yè)的日志分析工具可以提高效率和準確性。4.4.2數(shù)據抽取技術通過解析電子郵件中的內容,提取其中的半結構化數(shù)據。郵件解析假設我們需要從收到的電子郵件中提取訂單信息,可以使用以下步驟:使用郵件客戶端或API接收電子郵件;提取郵件正文中的HTML內容;使用XPath或正則表達式定位訂單號、日期、金額等信息;將提取的數(shù)據保存到數(shù)據庫或CSV文件中。4.4.2數(shù)據抽取技術全表比對方式是在增量抽取時,ETL進程逐條比較源表和目標表的記錄,將新增和修改的記錄讀取出來。工作原理數(shù)據抽取準備:ETL系統(tǒng)在開始抽取前,需要記錄上一次抽取的狀態(tài),如時間戳或抽取的記錄數(shù)。記錄比較:ETL進程通過比較源表和目標表中的記錄,逐條檢查是否有新增或修改的數(shù)據。識別變化:通過比較,ETL系統(tǒng)識別出那些在源表中存在但在目標表中不存在(新增)或內容不一致(修改)的記錄。抽取操作:ETL系統(tǒng)將這些新增和修改的記錄從源表中抽取出來,并進行必要的轉換和清洗。加載數(shù)據:將抽取的數(shù)據加載到目標表中,更新目標表的數(shù)據狀態(tài)。4.4.2數(shù)據抽取技術CDCCDC特性是在Oracle9i數(shù)據庫中引入的。利用CDC,在對源表進行INSERT、UPDATE或DELETE等操作的同時就可以提取數(shù)據,并且變化的數(shù)據被保存在數(shù)據庫的變化表中。這樣就可以捕獲發(fā)生變化的數(shù)據。工作原理捕獲變化:數(shù)據庫中的CDC服務監(jiān)控源表上的所有DML操作,并將這些變化實時捕獲。記錄變化:捕獲到的變化數(shù)據被記錄在變化表中,這些表可能與源表結構相似,但包含額外的元數(shù)據,如操作類型、時間戳等。數(shù)據抽?。篍TL或其他數(shù)據同步進程可以從變化表中讀取數(shù)據,而不是直接從源表抽取,這樣可以減少對源表的直接訪問和性能影響。應用變化:將抽取的數(shù)據應用到目標系統(tǒng),如數(shù)據倉庫或數(shù)據湖,以保持數(shù)據的一致性和最新狀態(tài)。4.4.2數(shù)據抽取技術通過實時接收和處理數(shù)據流,從中提取半結構化數(shù)據。數(shù)據流處理工作原理數(shù)據接收:數(shù)據流處理系統(tǒng)通過各種數(shù)據源接收數(shù)據流,這些數(shù)據源可以是API、消息隊列、日志文件等。數(shù)據解析:系統(tǒng)解析接收到的數(shù)據流,識別數(shù)據的結構和格式,提取關鍵信息。實時處理:使用流處理框架或引擎對數(shù)據進行實時分析和處理,如過濾、聚合、窗口計算等。數(shù)據轉換:將處理后的數(shù)據轉換為所需的格式或結構,以便于存儲或進一步分析。結果輸出:將處理結果輸出到目標系統(tǒng),如數(shù)據庫、數(shù)據倉庫或實時監(jiān)控儀表板。4.4.3數(shù)據傳輸與傳輸協(xié)議在數(shù)據接入中,常見的數(shù)據傳輸協(xié)議有以下8種:HTTPFTPSCPHTTPSSFTPMQTTSMTPSFTP4.4.3數(shù)據傳輸與傳輸協(xié)議HTTP:是一種應用層協(xié)議,用于在客戶端和服務器之間傳輸超文本。它是Web應用程序常用的協(xié)議,可以通過HTTP請求和響應來傳輸數(shù)據。FTP:FTP是一種用于在客戶端和服務器之間傳輸文件的協(xié)議。它提供了文件上傳、下載和刪除等功能,可以用于傳輸數(shù)據文件。HTTPS:在HTTP協(xié)議基礎上添加了安全性的協(xié)議,使用SSL(SecureSocketsLayer)或TLS(TransportLayerSecurity)協(xié)議進行加密和身份驗證。SFTP:是在SSH(SecureShell)協(xié)議基礎上添加了文件傳輸功能的協(xié)議。SFTP通過加密和身份驗證來保護數(shù)據傳輸?shù)陌踩?,可以用于傳輸結構化數(shù)據文件。4.4.3數(shù)據傳輸與傳輸協(xié)議SCP:SCP是一種基于SSH協(xié)議的安全文件傳輸協(xié)議。它使用SSH協(xié)議進行加密和身份驗證,可以在客戶端和服務器之間進行安全的文件傳輸。SMTP:SMTP是一種用于在網絡上傳輸電子郵件的協(xié)議。它使用TCP作為傳輸協(xié)議,支持將非結構化數(shù)據以郵件的形式進行傳輸。MQTT:MQTT是一種輕量級的消息傳輸協(xié)議,用于在物聯(lián)網和傳感器網絡中傳輸數(shù)據。它適用于低帶寬和不穩(wěn)定網絡環(huán)境,可以用于傳輸數(shù)據。AMQP:AMQP是一種面向消息的中間件協(xié)議,用于在應用程序之間傳輸消息。它支持傳輸各種類型的非結構化數(shù)據,并提供高度可靠性和靈活性。4.4.4數(shù)據格式轉換與映射技術CSV010203040506XMLParquetJSONAvroORC07YAMLBSON080910111213音頻格式日志格式圖像格式視頻格式二進制格式14HTML在數(shù)據接入中,常見的數(shù)據格式轉換與映射技術有以下14種:4.4.4數(shù)據格式轉換與映射技術CSV010203040506XMLParquetJSONAvroORC07YAML一種簡單的文本格式,用逗號或其他分隔符來分隔不同字段的值,廣泛用于電子表格和數(shù)據庫中,易于閱讀和編輯。一種輕量級的數(shù)據交換格式,易于閱讀和編寫,使用鍵值對(Key-Value)的方式表示數(shù)據,支持復雜的嵌套結構和數(shù)組。一種可擴展的標記語言,用于描述和傳輸數(shù)據。XML使用標簽來標識數(shù)據的結構和屬性,具有良好的可讀性和靈活性。一種數(shù)據序列化系統(tǒng),用于將數(shù)據結構化為二進制格式,支持動態(tài)類型、架構演化和跨語言的數(shù)據傳輸,適用于大規(guī)模數(shù)據處理和存儲。一種列式存儲格式,用于高效地存儲和處理大規(guī)模結構化數(shù)據。它使用壓縮和列式存儲優(yōu)化技術,提供了高性能和高壓縮比。一種優(yōu)化的行列混合存儲格式,用于高效地存儲和處理大規(guī)模結構化數(shù)據。它支持列式存儲和索引,提供了高性能和高壓縮比。一種人類可讀的數(shù)據序列化格式,常用于存儲和傳輸非結構化數(shù)據,以縮進和換行符來表示數(shù)據的層次結構,易于閱讀和編寫。4.4.4數(shù)據格式轉換與映射技術BSON080910111213音頻格式日志格式圖像格式視頻格式二進制格式14HTML一種二進制的JSON擴展格式,常用于存儲和傳輸非結構化數(shù)據,在JSON的基礎上添加了更多的數(shù)據類型和功能,適用于處理大規(guī)模的非結構化數(shù)據。常見的圖像格式包括JPEG、PNG、GIF等。這些格式適用于存儲和傳輸非結構化的圖像數(shù)據。常見的音頻格式包括MP3、WAV、AAC等。這些格式適用于存儲和傳輸非結構化的音頻數(shù)據。常見的視頻格式包括MP4、AVI、MOV等。這些格式適用于存儲和傳輸非結構化的視頻數(shù)據。日志數(shù)據通常以特定的格式進行存儲和傳輸,如Apache日志格式、Syslog格式等。這些格式適用于存儲和傳輸非結構化的日志數(shù)據。有些非結構化數(shù)據可能以二進制格式進行存儲和傳輸,如圖像文件、音頻文件等,適用于存儲和傳輸非結構化的二進制數(shù)據。一種用于創(chuàng)建網頁的標準標記語言,也可以用于存儲和傳輸非結構化的文本和媒體數(shù)據。4.4.5數(shù)據質量驗證技術在數(shù)據接入中,常見的數(shù)據質量驗證技術手段包括以下7種:數(shù)據完整性檢查數(shù)據一致性檢查數(shù)據規(guī)則驗證數(shù)據準確性驗證數(shù)據唯一性驗證數(shù)據異常檢測數(shù)據質量度量4.4.5數(shù)據質量驗證技術數(shù)據完整性檢查:檢查數(shù)據是否完整,包括缺失值、空值、重復值等??梢酝ㄟ^統(tǒng)計計數(shù)、查找空值或缺失值、比較唯一性等方式進行驗證。4.4.5數(shù)據質量驗證技術2.數(shù)據準確性驗證:驗證數(shù)據的準確性,包括數(shù)據格式、數(shù)據范圍、數(shù)據類型等。可以通過正則表達式、數(shù)據類型轉換、范圍檢查等方式進行驗證。注意事項:業(yè)務對齊:確保數(shù)據準確性規(guī)則與業(yè)務需求和邏輯對齊。性能考慮:在大數(shù)據集上執(zhí)行數(shù)據準確性驗證時,考慮性能和效率。持續(xù)監(jiān)控:數(shù)據準確性驗證應該是一個持續(xù)的過程,特別是在數(shù)據源或業(yè)務規(guī)則變化時。4.4.5數(shù)據質量驗證技術3.數(shù)據一致性檢查:檢查數(shù)據在不同數(shù)據源或不同表之間的一致性,包括數(shù)據值、數(shù)據關系等。可以通過數(shù)據比對、數(shù)據關聯(lián)、數(shù)據合并等方式進行驗證。4.4.5數(shù)據質量驗證技術數(shù)據唯一性驗證:驗證數(shù)據的唯一性,確保沒有重復的數(shù)據。可以通過唯一性約束、索引、數(shù)據比對等方式進行驗證。4.4.5數(shù)據質量驗證技術5.數(shù)據規(guī)則驗證:驗證數(shù)據是否符合預定義的規(guī)則和約束,包括業(yè)務規(guī)則、數(shù)據格式規(guī)則等。可以通過規(guī)則引擎、數(shù)據校驗規(guī)則、數(shù)據轉換規(guī)則等方式進行驗證。注意事項:規(guī)則管理:確保數(shù)據規(guī)則的可維護性和可更新性。性能影響:考慮數(shù)據規(guī)則驗證對系統(tǒng)性能的影響,尤其是在處理大規(guī)模數(shù)據時。用戶界面:如果使用規(guī)則引擎,提供一個用戶友好的界面來定義和管理規(guī)則。自動化:盡可能自動化數(shù)據規(guī)則驗證過程,以減少人工干預和錯誤。4.4.5數(shù)據質量驗證技術6.數(shù)據異常檢測:檢測數(shù)據中的異常值、異常模式或異常行為,包括異常值、異常趨勢、異常分布等??梢酝ㄟ^統(tǒng)計分析、機器學習算法、異常檢測模型等方式進行驗證。注意事項:上下文理解:異常檢測應考慮數(shù)據的上下文和業(yè)務背景。平衡檢測:在檢測準確性和計算資源之間找到平衡。模型更新:隨著數(shù)據和業(yè)務環(huán)境的變化,定期更新異常檢測模型。解釋性:確保異常檢測結果具有可解釋性,以便業(yè)務用戶理解。4.4.5數(shù)據質量驗證技術7.數(shù)據質量度量:使用數(shù)據質量度量指標來評估數(shù)據的質量,包括數(shù)據完整性、準確性、一致性、唯一性等。可以通過定義和計算數(shù)據質量度量指標來進行驗證。序號考核內容指標定義計分規(guī)則數(shù)據來源1數(shù)據準確性得分=數(shù)據準確率*100系統(tǒng)數(shù)據2數(shù)據質量整改得分=質量整改完成率*100系統(tǒng)數(shù)據4.4.5常見的數(shù)據異常值處理技術手段5、數(shù)據分箱4、數(shù)據平滑3、離群值檢測與處理2、替換異常值1、刪除異常值6、異常值修正7、異常值標記在數(shù)據接入中,常見的數(shù)據異常值處理技術手段包括7種:4.4.5常見的數(shù)據異常值處理技術手段2、替換異常值將異常值替換為合理的值。替換的方式可以是使用均值、中位數(shù)、眾數(shù)等代表性統(tǒng)計量,或者通過插值方法進行填充。1、刪除異常值將包含異常值的數(shù)據記錄從數(shù)據集中刪除。這種方法適用于異常值數(shù)量較少且對整體數(shù)據分析影響較小的情況。4.4.5常見的數(shù)據異常值處理技術手段3、離群值檢測與處理使用離群值檢測算法(如Z-score、箱線圖等)來識別和處理離群值??梢詫㈦x群值替換為合理的值,或者將其視為缺失值進行處理。4、數(shù)據平滑通過平滑算法(如移動平均、指數(shù)平滑等)來減少數(shù)據中的噪聲和波動,從而減少異常值的影響。4.4.5常見的數(shù)據異常值處理技術手段5、數(shù)據分箱6、異常值修正將數(shù)據分為多個箱子(bin),對每個箱子內的數(shù)據進行統(tǒng)計分析,可以減少異常值的影響。通過對異常值進行修正,使其符合合理的范圍。修正的方式可以是基于業(yè)務規(guī)則、數(shù)據分布特征等進行調整。7、異常值標記將異常值標記為特定的標識,以便后續(xù)的數(shù)據分析和處理中進行特殊處理。4.4.6典型的數(shù)據采集工具管控數(shù)據采集工具工控數(shù)據采集工具大文件數(shù)據采集工具管控數(shù)據采集工具主要用于企業(yè)管理信息系統(tǒng)及管理決策系統(tǒng)的數(shù)據采集和監(jiān)控。以下5個是一些常見的管控數(shù)據采集工具:4.4.6典型的數(shù)據采集工具管控數(shù)據采集工控數(shù)據采集大文件數(shù)據采集表單構建工具數(shù)據調查工具移動數(shù)據采集工具數(shù)據爬蟲工具數(shù)據集成工具表單構建工具如MicrosoftForms、GoogleForms、Wufoo等,這些工具可以幫助用戶快速構建各種類型的在線表單,用于收集數(shù)據。數(shù)據調查工具如SurveyMonkey、Qualtrics、Typeform等,這些工具提供了豐富的問卷設計功能和調查管理功能,用于進行數(shù)據調查和收集用戶反饋。4.4.6典型的數(shù)據采集工具管控數(shù)據采集工控數(shù)據采集大文件數(shù)據采集如iFormBuilder、Fulcrum、Magpi等,這些工具可以在移動設備上進行數(shù)據采集,支持離線采集、GPS定位、照片上傳等功能。如Scrapy、BeautifulSoup、Octoparse等,這些工具可以自動化地從網頁或其他數(shù)據源中提取數(shù)據,用于大規(guī)模的數(shù)據采集。移動數(shù)據采集工具數(shù)據爬蟲工具數(shù)據集成工具如Talend、Informatica、Pentaho等,這些工具提供了數(shù)據抽取、轉換和加載功能,用于將數(shù)據從不同的數(shù)據源集成到目標系統(tǒng)中。4.4.6典型的數(shù)據采集工具管控數(shù)據采集工控數(shù)據采集大文件數(shù)據采集工控數(shù)據采集工具主要用于工業(yè)控制系統(tǒng)(ICS)和工控設備的數(shù)據采集與監(jiān)控。以下6個是一些常見的工控數(shù)據采集工具:SCADAPLC數(shù)據采集模塊4.4.6典型的數(shù)據采集工具管控數(shù)據采集工控數(shù)據采集大文件數(shù)據采集HMIDCSOPC一種常見的工控數(shù)據采集和監(jiān)控系統(tǒng),用于實時監(jiān)控和控制工業(yè)過程??梢圆杉瘉碜詡鞲衅鳌x表和控制設備的數(shù)據,并提供可視化界面和報警功能。一種專門用于工業(yè)自動化控制的設備,可以采集與處理傳感器和執(zhí)行器的數(shù)據,并根據預設的邏輯進行控制操作。通常與其他工控設備和系統(tǒng)配合使用。一種硬件設備,用于采集和轉換工控設備的模擬信號和數(shù)字信號??梢詫⒉杉降臄?shù)據傳輸給上層系統(tǒng)進行處理和分析。SCADA(SupervisoryControlandDa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025關于農村土地租賃合同范本
- 2025年地標建筑施工項目合同提前終止
- 拆除舊房合同范本
- 2025資產抵押合同協(xié)議書
- 《2025重型機械租賃合同》
- 2025建筑排水施工合同范本
- 第03講 分式(3考點+13題型)2025年中考數(shù)學一輪復習講練測(廣東專用)
- 信息工程建設合同范本
- 魚類增養(yǎng)殖技術知到課后答案智慧樹章節(jié)測試答案2025年春黑龍江農業(yè)工程職業(yè)學院(松北校區(qū))
- 2025標準短期房屋租賃合同模板
- 11項國家標準針灸技術操作規(guī)范2024
- 電商倉庫貨架布局方法
- 英國歷史年代簡要整理
- 基于單片機的停車場計數(shù)系統(tǒng)設計
- 氬弧焊培訓課件-氬弧焊焊接技術培訓
- 公司法務管理手冊全部程序葵花寶典
- 弱電工程施工進度表(甘特圖)
- 大航海時代4威力加強版各種寶物遺跡
- 幼兒園故事課件:《胸有成竹》
- GB/T 43200-2023機器人一體化關節(jié)性能及試驗方法
- 五年級下冊綜合實踐活動說課稿-合理消費 全國通用
評論
0/150
提交評論