大數(shù)據(jù)治理(高級) 課件 西財(cái) 第1篇:概論篇_第1頁
大數(shù)據(jù)治理(高級) 課件 西財(cái) 第1篇:概論篇_第2頁
大數(shù)據(jù)治理(高級) 課件 西財(cái) 第1篇:概論篇_第3頁
大數(shù)據(jù)治理(高級) 課件 西財(cái) 第1篇:概論篇_第4頁
大數(shù)據(jù)治理(高級) 課件 西財(cái) 第1篇:概論篇_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1第1章大數(shù)據(jù)治理概論2大數(shù)據(jù)治理背景1大數(shù)據(jù)治理相關(guān)概念2大數(shù)據(jù)治理的框架3大數(shù)據(jù)治理的原則4大數(shù)據(jù)治理的方法5目錄學(xué)習(xí)目標(biāo)掌握大數(shù)據(jù)治理的概念掌握大數(shù)據(jù)治理的框架掌握大數(shù)據(jù)治理的主要方法4政府需求岷山集團(tuán)需求數(shù)據(jù)治理背景1.1數(shù)據(jù)爆炸式增長管理深度信息化:企業(yè)建設(shè)信息化系統(tǒng)來提高管理效率、降低管理成本。各式各樣的企業(yè)信息化管理系統(tǒng),例如:客戶關(guān)系管理系統(tǒng)、核算系統(tǒng)、預(yù)算系統(tǒng)、供應(yīng)商管理系統(tǒng)、金稅系統(tǒng)、報表系統(tǒng)、銷售系統(tǒng)、采購系統(tǒng)等。如此繁多的信息化管理系統(tǒng),會導(dǎo)致數(shù)據(jù)量日益劇增,如何組織、管理、應(yīng)用爆炸式增加數(shù)據(jù)成為了關(guān)注的焦點(diǎn)。擁抱轉(zhuǎn)型、業(yè)務(wù)創(chuàng)新:以信息技術(shù)為代表的技術(shù)革命從根本上改變著我們的社會經(jīng)濟(jì)生活。社會形態(tài)已由工業(yè)社會發(fā)展為信息社會,傳統(tǒng)的農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)正在被知識經(jīng)濟(jì)逐漸取代。在新境界的浪潮中,企業(yè)面臨的競爭環(huán)境也發(fā)生了巨大變化,促使企業(yè)盡快進(jìn)行發(fā)展模式、管理模式、商業(yè)模式的升級轉(zhuǎn)型。技術(shù)創(chuàng)新與發(fā)展:隨著大數(shù)據(jù)時代的發(fā)展,技術(shù)不斷更新迭代,數(shù)據(jù)處理速度也在不斷的提升。主要技術(shù)內(nèi)容包括:數(shù)據(jù)采集技術(shù)、數(shù)據(jù)清洗技術(shù)、數(shù)據(jù)安全技術(shù)、數(shù)據(jù)建模技術(shù)、數(shù)據(jù)加速計(jì)算技術(shù)、元數(shù)據(jù)管理技術(shù)、數(shù)據(jù)生命周期管理技術(shù)。數(shù)據(jù)資產(chǎn)價值驅(qū)動:數(shù)據(jù)是一種未經(jīng)加工的原始資料,是對客觀事物的邏輯歸納。用符號、字母等方式對客觀事物進(jìn)行直觀描述。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為了信息;數(shù)據(jù)是一種資產(chǎn),對于組織具有價值,因此需要妥善保護(hù)、利用,從而為企業(yè)帶來經(jīng)濟(jì)利益的流入。數(shù)據(jù)資產(chǎn)是有企業(yè)擁有和控制。能夠?yàn)槠髽I(yè)帶來未來經(jīng)濟(jì)利益的信息資源。具有以下基本特性:共享性、增值性、實(shí)效性、低安全性。其價值主要體現(xiàn)在以下幾方面。數(shù)據(jù)資產(chǎn)是一種企業(yè)生產(chǎn)經(jīng)營活動的經(jīng)濟(jì)資源;數(shù)據(jù)資產(chǎn)是支持企業(yè)發(fā)展戰(zhàn)略的重要資源;數(shù)據(jù)資產(chǎn)是現(xiàn)代化企業(yè)最大的價值來源。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2大數(shù)據(jù)咨詢公司Gartner認(rèn)為:大數(shù)據(jù)是指需要借助新的處理模式才能擁有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的具有海量、多樣化和高增長率等特點(diǎn)的信息資產(chǎn)。麥肯錫認(rèn)為:大數(shù)據(jù)是指在一定時間內(nèi)無法用傳統(tǒng)數(shù)據(jù)庫軟件工具采集、存儲、管理和分析其內(nèi)容的數(shù)據(jù)集合。國際數(shù)據(jù)公司IDC認(rèn)為:大數(shù)據(jù)一般會涉及兩種或兩種以上的數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù),并且是高速、實(shí)時的數(shù)據(jù)流,或者是從小數(shù)據(jù)開始,但數(shù)據(jù)量每年會增長60%以上。維基百科的定義是:大數(shù)據(jù)指的是需要處理的資料量規(guī)模巨大,無法在合理時間內(nèi),通過當(dāng)前主流的軟件工具擷取、管理、處理并整理的資料,它成為幫助企業(yè)經(jīng)營決策的資訊。特性:4V,體量(Volume)、速度(Velocity)、多樣性(Variety)、價值(Value)。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2大數(shù)據(jù)治理IBM認(rèn)為,數(shù)據(jù)治理是根據(jù)企業(yè)的數(shù)據(jù)管控政策,利用組織人員、流程和技術(shù)的相互協(xié)作,使企業(yè)能將“數(shù)據(jù)作為資產(chǎn)”(dataasenterpriseasset)來管理和應(yīng)用。根據(jù)伯森(Berson)和杜波夫(Dubov)的定義,數(shù)據(jù)治理是一個關(guān)注于管理信息的質(zhì)量(Quality)、一致性(Consistency)、可用性(Usability)、安全性(Security)和可得性(Availability)的過程。這個過程與數(shù)據(jù)的擁有(Ownership)和管理職責(zé)(Stewardship)緊密相關(guān)。國際數(shù)據(jù)管理協(xié)會(DAMA)給出的定義:數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動集合(規(guī)劃、監(jiān)控和執(zhí)行)。ReneAbraham等在2019年發(fā)表的論文中提出:大數(shù)據(jù)治理是一個跨功能框架,把數(shù)據(jù)作為組織、企業(yè)或者國家的戰(zhàn)略資產(chǎn)進(jìn)行管理。綜合上述定義,可以認(rèn)為,大數(shù)據(jù)治理,是把大數(shù)據(jù)作為組織、企業(yè)或者國家的戰(zhàn)略資產(chǎn)進(jìn)行管理,以及在管理流程中進(jìn)行分析、控制和決策的活動集合。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策。數(shù)據(jù)倉庫是以關(guān)系數(shù)據(jù)庫、并行處理和分布式技術(shù)為基礎(chǔ)的信息新技術(shù)。特點(diǎn):面向主題:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。集成:通常,構(gòu)造數(shù)據(jù)倉庫是將多個異構(gòu)數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。時變:數(shù)據(jù)存儲從歷史的角度(例如,過去5-10年)提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素。非易失:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2元數(shù)據(jù)元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),是數(shù)據(jù)倉庫的一部分不可或缺的重要數(shù)據(jù)。它是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,描述的是數(shù)據(jù)倉庫中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、碼以及索引等。分類:第一種元數(shù)據(jù)包含了所有原數(shù)據(jù)項(xiàng)名、屬性以及它在數(shù)據(jù)倉庫中的轉(zhuǎn)換,它是為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的。第二種元數(shù)據(jù)稱為DSS元數(shù)據(jù),是在數(shù)據(jù)倉庫中用來在終端用戶的多維商業(yè)模型以及前端工具間建立映射,一般是為了開發(fā)出更加先進(jìn)的決策支持工具而創(chuàng)建的。作用:定義數(shù)據(jù)倉庫中有什么;指明數(shù)據(jù)倉庫中信息的內(nèi)容及位置;刻畫數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則;存儲和數(shù)據(jù)倉庫主題相關(guān)的各種商業(yè)信息。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的框架1.3核心層大數(shù)據(jù)治理框架的核心層是大數(shù)據(jù)處理的過程,包括了數(shù)據(jù)采集、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)統(tǒng)計(jì)分析和挖掘以及結(jié)果可視化。方法層大數(shù)據(jù)治理的方法層,包括數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全、隱私保護(hù)、主數(shù)據(jù)管理及數(shù)據(jù)融合。領(lǐng)域?qū)宇I(lǐng)域?qū)?,即領(lǐng)域知識。領(lǐng)域知識是指用以指導(dǎo)和約束搜索感興趣知識行為的知識,也稱背景知識,包括特定領(lǐng)域的背景信息和專家知識。主數(shù)據(jù)管理大數(shù)據(jù)處理隱私保護(hù)數(shù)據(jù)融合數(shù)據(jù)安全質(zhì)量管理知識領(lǐng)域政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的原則1.4有效性原則有效性原則體現(xiàn)了大數(shù)據(jù)治理過程中數(shù)據(jù)的標(biāo)準(zhǔn)、質(zhì)量、價值、管控的有效性、高效性。價值化原則價值化原則指大數(shù)據(jù)治理過程中以數(shù)據(jù)資產(chǎn)為價值核心,最大化大數(shù)據(jù)平臺的數(shù)據(jù)價值。統(tǒng)一性原則統(tǒng)一性原則是在數(shù)據(jù)標(biāo)準(zhǔn)管理組織架構(gòu)的推動和指導(dǎo)下,遵循協(xié)商一致制定的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,借助標(biāo)準(zhǔn)化管控流程得以實(shí)施數(shù)據(jù)統(tǒng)一性的原則。開放性原則在大數(shù)據(jù)和云環(huán)境下,要以開放的理念確立起信息公開的政策思想,運(yùn)用開放、透明、發(fā)展、共享的信息資源管理理念對數(shù)據(jù)進(jìn)行處理,提高數(shù)據(jù)治理的透明度。安全性原則大數(shù)據(jù)治理的安全性原則體現(xiàn)了安全的重要性、必要性,保障大數(shù)據(jù)平臺數(shù)據(jù)安全和數(shù)據(jù)治理過程中數(shù)據(jù)的安全可控。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5大數(shù)據(jù)質(zhì)量管理的概念大數(shù)據(jù)質(zhì)量管理,是指對數(shù)據(jù)計(jì)劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡的生命周期中每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平,使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。大數(shù)據(jù)質(zhì)量評估(1)完整性(2)準(zhǔn)確性(3)有效性(4)一致性(5)及時性政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5大數(shù)據(jù)安全大數(shù)據(jù)安全存在著多個層次,如制度安全、技術(shù)安全、運(yùn)算安全、存儲安全、傳輸安全、產(chǎn)品和服務(wù)安全等。大數(shù)據(jù)安全防護(hù)技術(shù)(1)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)(2)社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)(3)數(shù)據(jù)水印技術(shù)(4)數(shù)據(jù)溯源技術(shù)(5)訪問控制技術(shù)政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5隱私保護(hù)大數(shù)據(jù)隱私保護(hù)是指通過技術(shù)和管理手段來確保大數(shù)據(jù)環(huán)境下數(shù)據(jù)的保密性、完整性和可用性,以及分析并解決大數(shù)據(jù)活動對國家安全、社會影響、公共利益、個人的生命財(cái)產(chǎn)安全等造成的影響。大數(shù)據(jù)隱私保護(hù)技術(shù)(1)威脅發(fā)現(xiàn)技術(shù)(2)大數(shù)據(jù)認(rèn)證技術(shù)(3)數(shù)據(jù)真實(shí)性分析技術(shù)(4)數(shù)據(jù)失真處理技術(shù)(5)數(shù)據(jù)加密技術(shù)(6)限制發(fā)布技術(shù)政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5主數(shù)據(jù)主數(shù)據(jù)(MasterData)是指具有高業(yè)務(wù)價值的、可以在企業(yè)內(nèi)跨越各個業(yè)務(wù)部門被重復(fù)使用的數(shù)據(jù),是單一、準(zhǔn)確、權(quán)威的數(shù)據(jù)來源。主數(shù)據(jù)包含元數(shù)據(jù)、屬性、定義、角色、關(guān)聯(lián)關(guān)系、分類方法等內(nèi)容,被不同的應(yīng)用所使用,涉及企業(yè)多數(shù)組織及業(yè)務(wù)單元。主數(shù)據(jù)管理主數(shù)據(jù)管理描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。數(shù)據(jù)融合從數(shù)據(jù)來源的角度,大數(shù)據(jù)融合包括組織內(nèi)部的數(shù)據(jù)和組織外部數(shù)據(jù)的融合;從數(shù)據(jù)結(jié)構(gòu)的角度,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的融合;從數(shù)據(jù)狀態(tài)的角度,包括靜態(tài)數(shù)據(jù)和流數(shù)據(jù)的融合。第2章大數(shù)據(jù)治理應(yīng)用16疫情防控與復(fù)工案例1中國人民銀行個人信用評分案例2目錄學(xué)習(xí)目標(biāo)理解大數(shù)據(jù)治理的應(yīng)用18政府需求岷山集團(tuán)需求疫情防控與復(fù)工案例2.1案例背景新冠肺炎疫情在全球持續(xù)蔓延,已有6大洲180多個國家出現(xiàn)確診病例,超過180萬人確診。新冠疫情已經(jīng)對世界的正常運(yùn)轉(zhuǎn)帶來嚴(yán)重的影響,全球的恐慌情緒正在蔓延。因此,為了更科學(xué)的防范疫情的進(jìn)一步蔓延,必須對疫情的暴發(fā)進(jìn)行回顧性分析,深入了解疾病傳播方式,從而提出前瞻性的建議。天府大數(shù)據(jù)國際戰(zhàn)略與技術(shù)研究院院長石勇帶領(lǐng)的科研團(tuán)隊(duì)聯(lián)合香港浸會大學(xué)計(jì)算機(jī)科學(xué)系劉際明教授、中國疾病預(yù)防控制中心寄生蟲病所周曉農(nóng)研究員所帶領(lǐng)的智能化疾病監(jiān)控聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)通過前期研究,基于不同年齡組人群在典型社交場合的接觸模式,用數(shù)據(jù)驅(qū)動的模型刻畫了新冠肺炎的潛在傳播方式,量化分析了不同時間段疫情風(fēng)險與多種復(fù)工方案的利弊關(guān)系,為國家制定疫情防控策略提供了科學(xué)有效的決策支持。政府需求岷山集團(tuán)需求疫情防控與復(fù)工案例2.1案例分析該研究通過對不同年齡段人群在典型社交環(huán)境中的接觸進(jìn)行刻畫,對新冠肺炎疫情的傳播特征進(jìn)行精準(zhǔn)描述與分析,包括不同時刻不同地區(qū)的傳播風(fēng)險趨勢、不同干預(yù)措施的有效性、以及恢復(fù)正常社會經(jīng)濟(jì)秩序所伴隨的風(fēng)險等。具體來說,該研究構(gòu)建了一個數(shù)據(jù)驅(qū)動的計(jì)算模型用于揭示人群之間的接觸模式,針對每種社交環(huán)境,計(jì)算模型將推斷出相應(yīng)的各年齡組人群間的接觸強(qiáng)度,并由此刻畫新冠肺炎在不同人群之間的傳播方式。政府需求岷山集團(tuán)需求疫情防控與復(fù)工案例2.1該研究得出的結(jié)論不僅為中國的新冠肺炎傳播方式提供了更深入的解釋,更為重要的是,研究中所提出的基于社交接觸模式的疫情風(fēng)險分析方法可被其他國家借鑒來指導(dǎo)其新冠疫情的防控策略與干預(yù)措施,從而減輕疫情大流行所帶來的社會與經(jīng)濟(jì)影響。截至目前,已有72個國家及智庫機(jī)構(gòu),引用了該研究,對世界疫情防控及經(jīng)濟(jì)恢復(fù)決策支撐提供了重要支撐。2020年12月,石勇教授因此獲得國家先進(jìn)個人表彰。政府需求岷山集團(tuán)需求中國人民銀行個人信用評分案例2.2案例背景中國人民銀行征信系統(tǒng)包括企業(yè)信用信息基礎(chǔ)數(shù)據(jù)庫和個人信用信息基礎(chǔ)數(shù)據(jù)庫。其中企業(yè)信用信息基礎(chǔ)數(shù)據(jù)庫始于1997年,并在2006年7月份實(shí)現(xiàn)全國聯(lián)網(wǎng)查詢。個人信用信息基礎(chǔ)數(shù)據(jù)庫建設(shè)最早始于1999年,2005年8月底完成與全國所有商業(yè)銀行和部分有條件的農(nóng)信社的聯(lián)網(wǎng)運(yùn)行,2006年1月,個人信用信息基礎(chǔ)數(shù)據(jù)庫正式運(yùn)行。2019年4月,新版?zhèn)€人征信報告已上線,拖欠水費(fèi)也可能影響其個人信用。2019年6月19日,中國已建立全球規(guī)模最大的征信系統(tǒng)。2020年1月19日,征信中心面向社會公眾和金融機(jī)構(gòu)提供二代格式信用報告查詢服務(wù)。中國個人信用分?jǐn)?shù),也被稱作“中國分?jǐn)?shù)”,是中國科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心與央行(中國人民銀行)合作開發(fā)完成的。石勇教授領(lǐng)銜研究團(tuán)隊(duì),經(jīng)過3年的開發(fā)與測試,不僅讓中國人民銀行征信中心信用評分系統(tǒng)模型建設(shè)成功,也通過后期的商業(yè)銀行數(shù)據(jù)獲得驗(yàn)證,并取得良好效果。中國的征信系統(tǒng),為大數(shù)據(jù)的典型應(yīng)用。截至2019年,征信系統(tǒng)累計(jì)收錄9.9億自然人、2591萬戶企業(yè)和其他組織的有關(guān)信息,個人信用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論