




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材數(shù)據(jù)清洗第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標(biāo)準(zhǔn)化1.3 數(shù)據(jù)倉庫大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題1.1數(shù)據(jù)清洗概述1.1.1 數(shù)據(jù)科學(xué)過程 數(shù)據(jù)科學(xué)則是一門新興的以數(shù)據(jù)為研究中心的學(xué)科。作為一門學(xué)科,數(shù)據(jù)科學(xué)以數(shù)據(jù)的廣泛性和多樣性為基礎(chǔ),探尋數(shù)據(jù)研究的共性。 數(shù)據(jù)科學(xué)是一門關(guān)于數(shù)據(jù)的工程,它需要同時(shí)具備理論基礎(chǔ)和工程經(jīng)驗(yàn),需要掌握各種工具的用法。數(shù)據(jù)科學(xué)主要包括兩個(gè)方面:用數(shù)據(jù)的方法來研究科學(xué)和用科學(xué)的方法來研究數(shù)據(jù)。 數(shù)據(jù)清洗是數(shù)據(jù)科學(xué)家完成數(shù)據(jù)分析和處理任務(wù)過程中必須面對(duì)的重要一環(huán)。具體來說,數(shù)據(jù)科學(xué)的一般處理過程包括如下幾個(gè)步驟: 問題陳述,明確需要解決的
2、問題和任務(wù)。 數(shù)據(jù)收集與存儲(chǔ),通過多種手段采集和存放來自眾多數(shù)據(jù)源的數(shù)據(jù)。數(shù)據(jù)清洗,對(duì)數(shù)據(jù)進(jìn)行針對(duì)性地整理和規(guī)范以便于后面的分析和處理。數(shù)據(jù)分析和挖掘,運(yùn)用特定模型和算法來尋求數(shù)據(jù)中隱含的知識(shí)和規(guī)律。數(shù)據(jù)呈現(xiàn)和可視化,以恰當(dāng)?shù)姆绞匠绦驍?shù)據(jù)分析和挖掘的結(jié)果??茖W(xué)決策:根據(jù)數(shù)據(jù)分析和處理結(jié)果來決定問題的解決方案。1.1.2 數(shù)據(jù)清洗定義 來自多樣化數(shù)據(jù)源的數(shù)據(jù)內(nèi)容并不完美,存在著許多“臟數(shù)據(jù)”,即數(shù)據(jù)不完整有缺失、存在錯(cuò)誤和重復(fù)的數(shù)據(jù),數(shù)據(jù)的不一致和沖突等缺陷。數(shù)據(jù)清洗(Data Cleaning/Cleansing)對(duì)數(shù)據(jù)進(jìn)行審查和校驗(yàn),發(fā)現(xiàn)不準(zhǔn)確、不完整或不合理數(shù)據(jù),進(jìn)而刪除重復(fù)信息、糾正存在
3、的錯(cuò)誤,并保持?jǐn)?shù)據(jù)的一致性、精確性、完整性和有效性以提高數(shù)據(jù)的質(zhì)量。 數(shù)據(jù)清洗并沒有統(tǒng)一的定義,其定義依賴于具體的應(yīng)用領(lǐng)域。從廣義上講,數(shù)據(jù)清洗是將原始數(shù)據(jù)進(jìn)行精簡(jiǎn)以去除冗余和消除不一致,并使剩余的數(shù)據(jù)轉(zhuǎn)換成可接收的標(biāo)準(zhǔn)格式的過程;而狹義上的數(shù)據(jù)清洗特指在構(gòu)建數(shù)據(jù)倉庫和實(shí)現(xiàn)數(shù)據(jù)挖掘前對(duì)數(shù)據(jù)源進(jìn)行處理,使數(shù)據(jù)實(shí)現(xiàn)準(zhǔn)確性、完整性、一致性、唯一性和有效性以適應(yīng)后續(xù)操作的過程。一般而言,凡是有助于提高信息系統(tǒng)數(shù)據(jù)質(zhì)量的處理過程,都可認(rèn)為是數(shù)據(jù)清洗。1.1數(shù)據(jù)清洗概述1.1.3 數(shù)據(jù)清洗任務(wù) 數(shù)據(jù)清洗就是對(duì)原始數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并使得數(shù)據(jù)保持精確性、完整
4、性、一致性、有效性及唯一性,還可能涉及數(shù)據(jù)的分解和重組,最終將原始數(shù)據(jù)轉(zhuǎn)換為滿足數(shù)據(jù)質(zhì)量或應(yīng)用要求的數(shù)據(jù)。 數(shù)據(jù)清洗對(duì)保持?jǐn)?shù)據(jù)的一致和更新起著重要的作用,因此被用于如銀行、保險(xiǎn)、零售、電信和交通的多個(gè)行業(yè)3。數(shù)據(jù)清洗主要有三個(gè)應(yīng)用領(lǐng)域:數(shù)據(jù)倉庫(Data Warehouse, DW)、數(shù)據(jù)庫中知識(shí)的發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)和數(shù)據(jù)質(zhì)量管理(Data Quality Management, DQM)。 數(shù)據(jù)清洗對(duì)隨后的數(shù)據(jù)分析非常重要,因?yàn)樗芴岣邤?shù)據(jù)分析的準(zhǔn)確性。但是數(shù)據(jù)清洗依賴復(fù)雜的關(guān)系模型,會(huì)帶來額外的計(jì)算和延遲開銷,必須在數(shù)據(jù)清洗模型
5、的復(fù)雜性和分析結(jié)果的準(zhǔn)確性之間進(jìn)行平衡。1.1數(shù)據(jù)清洗概述1.1.4 數(shù)據(jù)清洗流程 數(shù)據(jù)清洗通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用數(shù)據(jù)溯源的思想,從“臟數(shù)據(jù)”產(chǎn)生的源頭開始分析數(shù)據(jù),對(duì)數(shù)據(jù)流經(jīng)環(huán)節(jié)進(jìn)行考察,提取數(shù)據(jù)清洗的規(guī)則和策略,對(duì)原始數(shù)據(jù)集應(yīng)用數(shù)據(jù)清洗規(guī)則和策略來發(fā)現(xiàn)“臟數(shù)據(jù)”并通過特定的清洗算法來清洗“臟數(shù)據(jù)”,從而得到滿足預(yù)期要求的數(shù)據(jù)。具體而言,數(shù)據(jù)清洗流程包含以下基本步驟:1.1數(shù)據(jù)清洗概述1分析數(shù)據(jù)并定義清洗規(guī)則 2搜尋并標(biāo)識(shí)錯(cuò)誤實(shí)例3糾正發(fā)現(xiàn)的錯(cuò)誤4干凈數(shù)據(jù)回流5數(shù)據(jù)清洗的評(píng)判數(shù)據(jù)清洗是一項(xiàng)十分繁重的工作,數(shù)據(jù)清洗在提高數(shù)據(jù)質(zhì)量的同時(shí)要付出一定的代價(jià),包括投入的時(shí)間、人力
6、和物力成本。通常情況下,大數(shù)據(jù)集的數(shù)據(jù)清洗是一個(gè)系統(tǒng)性的工作,需要多方配合以及大量人員的參與,需要多種資源的支持。1.1.5 數(shù)據(jù)清洗環(huán)境1.1數(shù)據(jù)清洗概述 數(shù)據(jù)清洗環(huán)境是指為進(jìn)行數(shù)據(jù)清洗所提供的基本硬件設(shè)備和軟件系統(tǒng),特別是已得到廣泛應(yīng)用的開源軟件和工具。 終端窗口和命令行界面,比如Mac OS X上的Terminal程序或Linux上的bash程序。 適合程序員使用的編輯器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime編輯器等。Python客戶端程序,如Enthought Canopy。另外,還需要足夠的權(quán)限
7、來安裝一些程序包文件。電子表格程序,如Microsoft Excel和Google Spreadsheets。數(shù)據(jù)呈現(xiàn)和可視化,以恰當(dāng)?shù)姆绞匠绦驍?shù)據(jù)分析和挖掘的結(jié)果。數(shù)據(jù)庫軟件,如MySQL數(shù)據(jù)庫和Microsoft Access。1.1.6 數(shù)據(jù)清洗實(shí)例說明1.1數(shù)據(jù)清洗概述 以網(wǎng)站文件下載為例,假定一組記錄文件下載時(shí)間長度的原始數(shù)據(jù)集如表1-1所示。直接計(jì)算網(wǎng)站文件平均下載時(shí)長,計(jì)算結(jié)果約為23000秒,約6小時(shí),與實(shí)際情況嚴(yán)重不符,說明這一數(shù)據(jù)集受到了顯著的噪聲的影響而導(dǎo)致部分?jǐn)?shù)據(jù)值出現(xiàn)嚴(yán)重偏差。為此,必須對(duì)原始數(shù)據(jù)集做異常值識(shí)別并盡可能剔除錯(cuò)誤數(shù)據(jù)。表1-1 各個(gè)文件的下載時(shí)間1.1.
8、6 數(shù)據(jù)清洗實(shí)例說明1.1數(shù)據(jù)清洗概述 具體來說,可以基于數(shù)據(jù)的分布特征利用分箱法或聚類法來識(shí)別上例數(shù)據(jù)集中的噪聲數(shù)據(jù)。對(duì)于表1中的數(shù)據(jù),清洗數(shù)據(jù)時(shí)首先將數(shù)據(jù)集等分為2403個(gè)區(qū)間,找到數(shù)據(jù)的集中域0, 3266。然后,利用分箱法對(duì)取值在0, 3266之間的數(shù)據(jù)作進(jìn)一步分析,對(duì)新數(shù)據(jù)組剔除離群值,得到清洗后的離群數(shù)據(jù)組。最后,統(tǒng)計(jì)計(jì)算清洗后的目標(biāo)數(shù)據(jù)源的平均下載時(shí)長為192.93秒,約3.22分鐘,符合網(wǎng)站文件下載的實(shí)際情況。從這個(gè)簡(jiǎn)單的例子可看出,基于數(shù)據(jù)的分布特征,數(shù)據(jù)清洗可以采用分箱法或聚類方法較為快捷地識(shí)別和剔除數(shù)據(jù)集中的噪聲數(shù)據(jù),從而獲得良好的清洗效果。圖1 基于聚類的孤立點(diǎn)識(shí)別大數(shù)
9、據(jù)應(yīng)用人才培養(yǎng)系列教材第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標(biāo)準(zhǔn)化1.3 數(shù)據(jù)倉庫習(xí)題1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化概念 數(shù)據(jù)標(biāo)準(zhǔn)化/規(guī)范化(Data Standardization/Normalization)是機(jī)構(gòu)或組織對(duì)數(shù)據(jù)的定義、組織、分類、記錄、編碼、監(jiān)督和保護(hù)進(jìn)行標(biāo)準(zhǔn)化的過程,有利于數(shù)據(jù)的共享和管理,可以節(jié)省費(fèi)用,提高數(shù)據(jù)使用效率和可用性。 數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對(duì)不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,必須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對(duì)測(cè)評(píng)方案的作用力同趨化,然后再加總才能得出正確結(jié)果
10、。 數(shù)據(jù)無量綱化處理主要用于消除變量間的量綱關(guān)系,解決數(shù)據(jù)評(píng)價(jià)分析中數(shù)據(jù)的可比性。例如,多指標(biāo)綜合評(píng)價(jià)方法需要把描述評(píng)價(jià)對(duì)象不同方面的多個(gè)信息綜合起來得到一個(gè)綜合指標(biāo),由此對(duì)評(píng)價(jià)對(duì)象做整體評(píng)判,并進(jìn)行橫向或縱向比較。1.2數(shù)據(jù)標(biāo)準(zhǔn)化1.2數(shù)據(jù)標(biāo)準(zhǔn)化1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化常用方法max-min標(biāo)準(zhǔn)化對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過max-min標(biāo)準(zhǔn)化映射成在區(qū)間0,1中的值x,其公式為:x=(x-minA)/(maxA-minA)z-score 標(biāo)準(zhǔn)化基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行
11、數(shù)據(jù)的標(biāo)準(zhǔn)化,將A的原始值x標(biāo)準(zhǔn)化到x,其公式為:x=(x-mean)/ standard deviation。12Decimal scaling標(biāo)準(zhǔn)化通過移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)移動(dòng)多少位取決于屬性A的取值中的最大絕對(duì)值。將屬性A的原始值x到x的計(jì)算方法公式為:x=x/(10j)。其中,j是滿足條件的最小整數(shù)。其他標(biāo)準(zhǔn)化方法還有一些標(biāo)準(zhǔn)化方法的做法是將原始數(shù)據(jù)除以某一值,如將原始數(shù)據(jù)除以行或列的和,稱總和標(biāo)準(zhǔn)化;如果原始數(shù)據(jù)除以每行或每列中的最大值,叫做最大值標(biāo)準(zhǔn)化;如果原始數(shù)據(jù)除以行或列的和的平方根,則稱為模標(biāo)準(zhǔn)化(norm standardization)。34大數(shù)據(jù)應(yīng)用
12、人才培養(yǎng)系列教材第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標(biāo)準(zhǔn)化1.3 數(shù)據(jù)倉庫習(xí)題1.3數(shù)據(jù)倉庫簡(jiǎn)介1.3.1 數(shù)據(jù)倉庫定義 數(shù)據(jù)倉庫(Data Warehouse, DW)是基于信息系統(tǒng)業(yè)務(wù)發(fā)展需要,基于傳統(tǒng)數(shù)據(jù)庫系統(tǒng)技術(shù)發(fā)展形成能夠并逐步獨(dú)立出來的一系列新的應(yīng)用技術(shù),目標(biāo)是通過提供全面、大量的數(shù)據(jù)存儲(chǔ)來有效支持高層決策分析。 W.H.Inmon在書中對(duì)數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫是決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Varian
13、t)的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。 數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),而數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計(jì),數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì)。數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì)。數(shù)據(jù)庫一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)倉庫一般存儲(chǔ)的是歷史數(shù)據(jù)。1.3數(shù)據(jù)倉庫簡(jiǎn)介1.3.2 數(shù)據(jù)倉庫組成要素 數(shù)據(jù)倉庫不是一種提供戰(zhàn)略信息的軟件或硬件產(chǎn)品,而是一個(gè)便于用戶找到戰(zhàn)略信息和做出更好決策的計(jì)算環(huán)境,是一個(gè)以用戶為中心的環(huán)境。數(shù)據(jù)倉庫需要提供數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載和數(shù)據(jù)存儲(chǔ)功能,并為用戶提供交互接口。典型數(shù)據(jù)倉庫的基本
14、組成要素包括:1源數(shù)據(jù)單元 2數(shù)據(jù)準(zhǔn)備單元3數(shù)據(jù)存儲(chǔ)單元4信息傳遞單元5元數(shù)據(jù)單元6管理控制單元 傳統(tǒng)數(shù)據(jù)倉庫 企業(yè)把數(shù)據(jù)分成內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)包括OLTP交易系統(tǒng)和OLAP分析系統(tǒng)的數(shù)據(jù)。企業(yè)首先需要將這些數(shù)據(jù)集中起來,經(jīng)過轉(zhuǎn)換放到這類數(shù)據(jù)庫中,然后在數(shù)據(jù)庫上對(duì)數(shù)據(jù)進(jìn)行加工,建立各種主題模型,再提供報(bào)表分析業(yè)務(wù)。 數(shù)據(jù)集市 數(shù)據(jù)集市一般是用于某一類功能需求的數(shù)據(jù)倉庫的簡(jiǎn)單模式,往往是由一些業(yè)務(wù)部門構(gòu)建,也可以構(gòu)建在企業(yè)數(shù)據(jù)倉庫上。一般來說數(shù)據(jù)集市的數(shù)據(jù)源較少,但往往對(duì)數(shù)據(jù)分析的延時(shí)有很高的要求,并需要和各種報(bào)表工具有很好的對(duì)接。1.3數(shù)據(jù)倉庫簡(jiǎn)介1.3.3 數(shù)據(jù)倉庫分類 關(guān)聯(lián)發(fā)現(xiàn)數(shù)
15、據(jù)倉庫 在一些場(chǎng)景下,企業(yè)可能不知道數(shù)據(jù)的內(nèi)聯(lián)規(guī)則,而是需要通過數(shù)據(jù)挖掘的方式找出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,隱藏的聯(lián)系和模式等,從而挖掘出數(shù)據(jù)的價(jià)值。很多行業(yè)的新業(yè)務(wù)都有這方面的需求,如金融行業(yè)的風(fēng)險(xiǎn)控制,反欺詐等業(yè)務(wù)。上下文無關(guān)聯(lián)的數(shù)據(jù)倉庫一般需要在架構(gòu)設(shè)計(jì)上支持?jǐn)?shù)據(jù)挖掘能力,并提供通用的算法接口來操作數(shù)據(jù)。 實(shí)時(shí)處理數(shù)據(jù)倉庫 隨著業(yè)務(wù)的發(fā)展,企業(yè)客戶需要對(duì)實(shí)時(shí)的數(shù)據(jù)做一些商業(yè)分析,譬如零售行業(yè)需要根據(jù)實(shí)時(shí)的銷售數(shù)據(jù)來調(diào)整庫存和生產(chǎn)計(jì)劃。這類行業(yè)用戶對(duì)數(shù)據(jù)的實(shí)時(shí)性要求很高,傳統(tǒng)的離線批處理的方式不能滿足需求,因此需要構(gòu)建實(shí)時(shí)處理的數(shù)據(jù)倉庫。數(shù)據(jù)可以通過各種方式完成采集,然后數(shù)據(jù)倉庫可以在指定的時(shí)間
16、限期內(nèi)對(duì)數(shù)據(jù)進(jìn)行處理和統(tǒng)計(jì)分析等,再將數(shù)據(jù)存入數(shù)據(jù)倉庫以滿足一些其他業(yè)務(wù)的需求。1.3數(shù)據(jù)倉庫簡(jiǎn)介1.3.3 數(shù)據(jù)倉庫分類1.3數(shù)據(jù)倉庫簡(jiǎn)介1.3.4 數(shù)據(jù)倉庫相關(guān)技術(shù)數(shù)據(jù)清洗數(shù)據(jù)倉庫需要從種類各異的多個(gè)數(shù)據(jù)源中導(dǎo)入大量數(shù)據(jù),數(shù)據(jù)倉庫的一個(gè)重要任務(wù)就通過數(shù)據(jù)清洗保證數(shù)據(jù)的一致性與正確性。數(shù)據(jù)粒度數(shù)據(jù)倉庫中存儲(chǔ)的數(shù)據(jù)粒度將直接影響到數(shù)據(jù)倉庫中數(shù)據(jù)的存儲(chǔ)量及查詢質(zhì)量,并進(jìn)一步影響數(shù)據(jù)倉庫能否滿足最終用戶的分析需求。設(shè)計(jì)數(shù)據(jù)倉庫時(shí)要合理確定數(shù)據(jù)粒度。12索引優(yōu)化不論是數(shù)據(jù)庫還是數(shù)據(jù)倉庫,索引查找是優(yōu)化查詢響應(yīng)時(shí)間的重要方法,索引建立的好壞直接影響數(shù)據(jù)訪問效率。物化視圖選擇和維護(hù)數(shù)據(jù)倉庫中以物化視圖(
17、Materialized View)的形式存儲(chǔ)大量來自多個(gè)異質(zhì)數(shù)據(jù)源中的數(shù)據(jù),數(shù)據(jù)倉庫中采用物化視圖進(jìn)行快速查詢和分析,能有效提高查詢速度和響應(yīng)時(shí)間。34數(shù)據(jù)倉庫的管理維護(hù)為了減少數(shù)據(jù)更新量,數(shù)據(jù)倉庫一般采用增量式更新策略。此外,數(shù)據(jù)倉庫必須建立有效的安全策略和授權(quán)訪問控制機(jī)制。最后,數(shù)據(jù)倉庫必須提供穩(wěn)定可靠的數(shù)據(jù)備份和恢復(fù)策略。51.3數(shù)據(jù)倉庫簡(jiǎn)介1.3.5 常用工具簡(jiǎn)介 數(shù)據(jù)倉庫不是一門純粹的技術(shù),更是一種架構(gòu)和理念,核心在于對(duì)數(shù)據(jù)的整合集成,把企業(yè)原始數(shù)據(jù)進(jìn)行集成、歸類、分析,從而提供了企業(yè)決策分析需要的目標(biāo)數(shù)據(jù)。SQL Server、Sybase、DB2和Oracle都是傳統(tǒng)的關(guān)系數(shù)據(jù)
18、庫,但是只要經(jīng)過合理的數(shù)據(jù)模型設(shè)計(jì)或參數(shù)設(shè)置也可將其轉(zhuǎn)變?yōu)楹芎玫臄?shù)據(jù)倉庫實(shí)體。 目前,OLAP已逐漸融合到數(shù)據(jù)倉庫中,例如微軟的Analysis Service和DB2的OLAP Server,通過自身提供的專用接口可以加快多維數(shù)據(jù)的轉(zhuǎn)換處理。當(dāng)然,也有如Essbase這樣純粹的OLAP產(chǎn)品,實(shí)際上許多大型OLAP都采用Essbase。 對(duì)于ETL而言,廣泛使用的ETL工具主要包括Informatica PowerCenter、IBM的Datastage、SQLServer搭配的SSIS、Oracle的OWB和ODI以及開源的Kettle等。 數(shù)據(jù)倉庫可用的報(bào)表工具很多,專業(yè)性的報(bào)表工具有Hyperion、B0、Congos和Brio,這些產(chǎn)品價(jià)格相對(duì)昂貴。便宜的報(bào)表工具可選用微軟的ReportService。大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標(biāo)準(zhǔn)化1.3 數(shù)據(jù)倉庫習(xí)題1什么是數(shù)據(jù)科學(xué),請(qǐng)簡(jiǎn)要闡述
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 5 animal friends Lesson 2 教學(xué)設(shè)計(jì) -2024-2025學(xué)年冀教版英語七年級(jí)上冊(cè)
- 2025年城鎮(zhèn)化并購重組基金資金監(jiān)管協(xié)議
- 《總復(fù)習(xí)解決問題練習(xí)課》(教案)2024-2025學(xué)年數(shù)學(xué)二年級(jí)上冊(cè)
- Unit 3 Sports Lesson 2 Let's practice(教學(xué)設(shè)計(jì))-2024-2025學(xué)年北師大版(三起)英語六年級(jí)上冊(cè)
- 2025年學(xué)習(xí)雷鋒精神六十二周年主題活動(dòng)方案 (合計(jì)3份)
- 北師大版數(shù)學(xué)三年級(jí)上冊(cè)單元測(cè)試卷-第六單元-乘法含答案
- 8-數(shù)學(xué)廣角-搭配(二)-人教版三年級(jí)下冊(cè)數(shù)學(xué)單元測(cè)試卷含答案和解析
- 2025年度東莞市入學(xué)積分制教育培訓(xùn)機(jī)構(gòu)招生合作協(xié)議
- 2025年度咖啡連鎖店轉(zhuǎn)讓與區(qū)域管理合同
- 2025年度應(yīng)屆畢業(yè)生就業(yè)安置與跟蹤服務(wù)協(xié)議
- 2024-2025年中國鋰電池隔膜行業(yè)未來發(fā)展趨勢(shì)分析及投資規(guī)劃建議研究報(bào)告
- 軟件系統(tǒng)項(xiàng)目實(shí)施方案(共3篇)
- 2025年山東藥品食品職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年常考版參考題庫含答案解析
- 中華人民共和國保守國家秘密法實(shí)施條例
- 《環(huán)境影響評(píng)價(jià)》全套教學(xué)課件
- XX小學(xué)法治副校長(派出所民警)法制教育課講稿
- (2024年)肺栓塞的護(hù)理課件
- 休閑農(nóng)業(yè)與鄉(xiāng)村旅游(課件)
- D502-15D502等電位聯(lián)結(jié)安裝圖集
- 鄉(xiāng)村醫(yī)生執(zhí)業(yè)再注冊(cè)申請(qǐng)表
- 日本道德教育
評(píng)論
0/150
提交評(píng)論