版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
財務(wù)大數(shù)據(jù)分析項目二大數(shù)據(jù)采集、清洗與集成前言大數(shù)據(jù)開啟了一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代,它給技術(shù)和商業(yè)帶來了巨大的變化。麥肯錫研究表明,在醫(yī)療、零售和制造業(yè)領(lǐng)域,大數(shù)據(jù)每年可以提高勞動生產(chǎn)率0.5-1個百分點。大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)清理集成、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。然而調(diào)查顯示,未被使用的信息比例高達99.4%,很大程度都是由于高價值的信息無法獲取采集完成數(shù)據(jù)清理集成。目錄頁數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)集成任務(wù)一數(shù)據(jù)采集任務(wù)一數(shù)據(jù)采集【任務(wù)描述】1.單企業(yè)財報數(shù)據(jù)采集:采集江西銅業(yè)2021年的年報數(shù)據(jù),報表類型為基本信息表。2.采集多家企業(yè)的基本信息表,企業(yè)可在上交所上市的公司中任選,比如選擇“貴州茅臺”、“美克家居”、“柳鋼股份”、“三一重工”四家公司的基本信息表。3.采集4家企業(yè)(比如選擇“貴州茅臺”、“美克家居”、“柳鋼股份”、“三一重工”)的資產(chǎn)負債表、利潤表、現(xiàn)金流量表。任務(wù)一數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是數(shù)據(jù)分析的入口,也是數(shù)據(jù)分析過程中相當(dāng)重要環(huán)節(jié),它通過各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實時或非實時地采集并加以利用。數(shù)據(jù)采集是每個數(shù)據(jù)分析項目的第一個步驟。在數(shù)據(jù)分析的道路上,數(shù)據(jù)采集是重中之重。數(shù)據(jù)采集的質(zhì)量直接決定了后續(xù)的分析是否準(zhǔn)確。如圖。(一)數(shù)據(jù)采集的數(shù)據(jù)源
數(shù)據(jù)的獲取來源主要分為外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)。內(nèi)部數(shù)據(jù)是指機構(gòu)日常業(yè)務(wù)中積累的業(yè)務(wù)數(shù)據(jù)和財務(wù)數(shù)據(jù),外部數(shù)據(jù)主要有國家統(tǒng)計數(shù)據(jù)、地方政府公開數(shù)據(jù)、研究機構(gòu)的調(diào)研報告、上司公司的年報、季報等。如圖所示。任務(wù)一數(shù)據(jù)采集(二)數(shù)據(jù)采集的三大要點
1.全面性
數(shù)據(jù)量足夠具有分析價值、數(shù)據(jù)面足夠支撐分析需求。比如對于“查看商品詳情”這一行為,需要采集用戶觸發(fā)時的環(huán)境信息、會話、以及背后的用戶ID,最后需要統(tǒng)計這一行為在某一時段觸發(fā)的人數(shù)、次數(shù)、人均次數(shù)、活躍比等。
2.多維性
數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。3.高效性
高效性包含技術(shù)執(zhí)行的高效性、團隊內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實現(xiàn)的高效性。任務(wù)一數(shù)據(jù)采集(三)數(shù)據(jù)采集準(zhǔn)備1.明確數(shù)據(jù)驅(qū)動目標(biāo)帶數(shù)據(jù)采集切忌大而全,數(shù)據(jù)分析需求也是隨著產(chǎn)品不斷迭代的,明確長遠和當(dāng)前階段的分析需求,讓分析更有目的性,技術(shù)執(zhí)行更高效。
2.按需采集數(shù)據(jù)帶著需求和分析目標(biāo)去采數(shù)據(jù),不只避免了數(shù)據(jù)冗余帶來的無從下手,也避免了全量采集以后殊不知道要分析什么的尷尬。
3.選擇數(shù)據(jù)采集的工具和手段為了高效采集大數(shù)據(jù),依據(jù)采集環(huán)境及數(shù)據(jù)類型選擇適當(dāng)?shù)拇髷?shù)據(jù)采集方法及平臺至關(guān)重要。(四)數(shù)據(jù)采集工具常用的大數(shù)據(jù)采集平臺和工具有:
1.火車采集器
是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。任務(wù)一數(shù)據(jù)采集3.八爪魚八爪魚是一款通用的網(wǎng)頁數(shù)據(jù)采集神器,它突破了網(wǎng)頁數(shù)據(jù)采集的傳統(tǒng)思維方法,沒有編程基礎(chǔ)一樣可以采集,讓用戶在網(wǎng)站上抓取資料變得更加簡單容易。如圖所示。4.網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。如圖所示。八爪魚網(wǎng)絡(luò)爬蟲
2.集搜客是一款簡單易用的網(wǎng)頁信息抓取軟件,能夠抓取網(wǎng)頁文字、圖表、超鏈接等多種網(wǎng)頁元素,可以提供好用的網(wǎng)頁抓取軟件、數(shù)據(jù)挖掘攻略、行業(yè)資訊和前沿科技等。如圖所示。集搜客任務(wù)一數(shù)據(jù)采集二、網(wǎng)絡(luò)爬蟲簡介(一)什么是網(wǎng)絡(luò)爬蟲?網(wǎng)絡(luò)爬蟲(webcrawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來自動瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機器人。其早期目的一般為編纂網(wǎng)絡(luò)索引。之后廣泛應(yīng)用在數(shù)據(jù)采集、信息監(jiān)控等領(lǐng)域。簡單來說,網(wǎng)絡(luò)爬蟲就是獲取網(wǎng)頁并提取和保存信息的自動化程序。某些信息散布在多個網(wǎng)站、頁面里,為了提取它們,我們可編寫網(wǎng)絡(luò)爬蟲程序或使用具有網(wǎng)絡(luò)爬蟲功能的工具,實現(xiàn)規(guī)?;?、自動化的數(shù)據(jù)采集。任務(wù)一數(shù)據(jù)采集(二)網(wǎng)絡(luò)爬蟲的幾個基本術(shù)語1.URL(UniformResourceLocator)統(tǒng)?資源定位符,?叫URL(UniformResourceLocator),是專為標(biāo)識Internet?上資源位置?設(shè)置的?種編址?式,我們平時所說的?頁地址指的即是URL。2.客戶端(Client)
客戶端(Client)或稱為用戶端,是指與服務(wù)器相對應(yīng),為客戶提供本地服務(wù)的程序。主要功能是請求訪問文本或圖像等資源。其行為過程是根據(jù)目標(biāo)URL,編制請求報文并發(fā)送,并獲取資源。3.web服務(wù)器(webserver)
Web服務(wù)器一般指網(wǎng)站服務(wù)器,是指駐留于因特網(wǎng)上某種類型計算機的程序,可以向瀏覽器等Web客戶端提供文檔,也可以放置網(wǎng)站文件,讓全世界瀏覽;可以放置數(shù)據(jù)文件,讓全世界下載。主要功能是提供資源響應(yīng)。其行為過程是接收請求,按照既定規(guī)則返回相應(yīng)文件資源。任務(wù)一數(shù)據(jù)采集(三)爬蟲基本原理簡單來說這段過程發(fā)生了以下四個步驟:1.查找域名對應(yīng)的IP地址。2.向IP對應(yīng)的服務(wù)器發(fā)送請求。3.服務(wù)器響應(yīng)請求,發(fā)回網(wǎng)頁內(nèi)容。4.瀏覽器解析網(wǎng)頁內(nèi)容。(四)網(wǎng)絡(luò)爬蟲的基本工作流程網(wǎng)絡(luò)爬蟲的基本工作流程如下:
1.確定數(shù)據(jù)源:一個或多個網(wǎng)站的某些頁面的某部分信息。2.構(gòu)造并發(fā)送請求:根據(jù)頁面的URL和請求報文,模擬真實的瀏覽器,構(gòu)造HTTP請求。3.獲取響應(yīng)數(shù)據(jù):如果上一步的請求能夠成功獲取到正常的響應(yīng)數(shù)據(jù),獲取響應(yīng)報文中的響應(yīng)數(shù)據(jù)。可能是HTML、JSON、圖片、視頻等類型的文件。4.解析、處理、保存數(shù)據(jù):數(shù)據(jù)可能是不同編碼,首先要轉(zhuǎn)換為需要的編碼格式,再做進一步的數(shù)據(jù)解析、提取,獲取到目標(biāo)數(shù)據(jù),之后目標(biāo)數(shù)據(jù)可能不是我們需要的形式,需要做進一步的處理,最后將數(shù)據(jù)保存。任務(wù)一數(shù)據(jù)采集【任務(wù)實施】1.單企業(yè)財報數(shù)據(jù)采集:采集江西銅業(yè)2021年的年報數(shù)據(jù),報表類型為基本信息表。如圖2-1-7所示。步驟一:點擊任務(wù)“單企業(yè)數(shù)據(jù)采集”,點擊“開始任務(wù)”,在平臺提供的代碼頁面,修改其中的企業(yè)信息為(“600362”,“江西銅業(yè)”,“jxty”)、年份信息修改為“2021”。步驟二:點擊【運行】,系統(tǒng)執(zhí)行代碼,從仿真的上交所網(wǎng)站上采集江西步銅業(yè)2021年的基礎(chǔ)信息表。運行完畢,提示采集成功,如圖2-1-8所示。
步驟三:點擊【查看數(shù)據(jù)】,系統(tǒng)顯示出采集結(jié)果,如圖2-1-9所示??梢渣c擊【下載】,將采集結(jié)果下載到本地。任務(wù)一數(shù)據(jù)采集任務(wù)二數(shù)據(jù)清洗12354【任務(wù)描述】1.字段拆分(客戶)
將任務(wù)1清洗完的數(shù)據(jù),進行客戶分布分析,將客戶ID字段拆分為兩列值為“-”和空格的替換為NULLB公司是一家銷售辦公用品、辦公家具和辦公電子設(shè)備的公司,旗下有多家直營店,每月月底各直營店都會向財務(wù)提供本月的銷售數(shù)據(jù)表?,F(xiàn)公司的財務(wù)分析師手上有一份匯總多年的銷售數(shù)據(jù)。數(shù)據(jù)表中的單元格有“-”和空值,有的單元格有特殊字符。清洗要求∶將表格中值為“-”和空格的替換為NULL,為2.字段拆分(產(chǎn)品名稱)
將“產(chǎn)品名稱”列切分為三列“品牌”、“客戶名稱”和“客戶ID”?!捌访薄ⅰ耙?guī)格”。【知識準(zhǔn)備】一、數(shù)據(jù)清洗的概念
數(shù)據(jù)清洗(Datacleaning)是對數(shù)據(jù)進行重新審查和校驗的過程,是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別錯誤的最后一道程序,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。二、數(shù)據(jù)清洗主要內(nèi)容及處理方法
數(shù)據(jù)清洗的主要內(nèi)容有:缺失值清洗、格式內(nèi)容清洗、邏輯錯誤清洗、非需求性數(shù)據(jù)清洗、關(guān)聯(lián)性驗證。任務(wù)二數(shù)據(jù)清洗。三、數(shù)據(jù)清洗設(shè)計
數(shù)據(jù)清洗不是一次性工作,需要多次、多環(huán)節(jié)進行。因此,要做好數(shù)據(jù)清洗、保證數(shù)據(jù)質(zhì)量,首先需要對整個數(shù)據(jù)處理的流程進行設(shè)計或了解,在了解了數(shù)據(jù)流程后再進行相應(yīng)環(huán)節(jié)設(shè)計數(shù)據(jù)清洗流程。(一)數(shù)據(jù)清洗遵循原則
數(shù)據(jù)清洗可以遵循下列原則:1.少量數(shù)據(jù)時,先對數(shù)據(jù)進行合并、聯(lián)接,再進行數(shù)據(jù)清洗;2.大數(shù)據(jù)源接入時,先按照統(tǒng)一標(biāo)準(zhǔn)清洗數(shù)據(jù),再進行接入;3.當(dāng)有多個計算層時,每個數(shù)據(jù)計算層先清洗再計算;4.分析結(jié)果發(fā)現(xiàn)存在數(shù)據(jù)問題時,向前溯源,新增、修訂清洗規(guī)則。(二)數(shù)據(jù)清洗設(shè)計原則1.一個清洗步驟用一條清洗規(guī)則;2.多拆分清洗步驟時,每個步驟進行數(shù)據(jù)備份,方便出問題時回退;3.一般先做全局清洗(即對全部數(shù)據(jù)進行清洗),再做個別字段的清洗;4.清洗的輸出結(jié)果不要直接放在正式數(shù)據(jù)任務(wù)二數(shù)據(jù)清洗【任務(wù)實施】
1.將表格中值為“-”和空格的替換為NULLB公司是一家銷售辦公用品、辦公家具和辦公電子設(shè)備的公司,旗下有多家直營店,每月月底各直營店都會向財務(wù)提供本月的銷售數(shù)據(jù)表?,F(xiàn)公司的財務(wù)分析師手上有一份匯總多年的銷售數(shù)據(jù)。數(shù)據(jù)表中的單元格有“-”和空值,有的單元格有特殊字符。清洗要求∶將表格中值為“-”和空格的替換為NULL。
步驟一:進入課程平臺,項目三-數(shù)據(jù)清洗-數(shù)據(jù)清洗實戰(zhàn),點擊“任務(wù)∶全局清洗規(guī)則”,點擊【開始任務(wù)】,進入數(shù)據(jù)清洗頁面,如圖所示。任務(wù)二數(shù)據(jù)清洗
步驟二:點擊“選擇數(shù)據(jù)源”,要清洗的表已經(jīng)內(nèi)置在課程平臺中,所以直接點擊空白框向下的箭頭,選擇內(nèi)置的表“清洗實例-超市-1210精簡”,如圖所示。任務(wù)二數(shù)據(jù)清洗
步驟三:點擊【查看數(shù)據(jù)源】,可以看到“折扣”列有的值為“-”,有的值為空,如圖所示。
任務(wù)二數(shù)據(jù)清洗
步驟四:點擊“配置全局規(guī)則”,左側(cè)出現(xiàn)“配置全局清洗規(guī)則”區(qū),選擇“字符替換”下的“-(僅有)替換為Null”和“空格(僅有)替換為Null”,如圖所示。圖2-2-4選擇全局清洗規(guī)則任務(wù)二數(shù)據(jù)清洗步驟五:此處也可以選擇“-(僅有)替換為0”和“空格(僅有)替換為0”。點擊“開始清洗”,系統(tǒng)彈出“確定要開始清洗嗎”,點擊【確定】,如圖所示。任務(wù)二數(shù)據(jù)清洗
步驟六:清洗完成,點擊“查看清洗結(jié)果”,可以看到折扣列原來的“-”變成了空值null。如圖所示??梢詫⒃撉逑唇Y(jié)果下載,作為下一步清洗的數(shù)據(jù)源表?!咀⒁狻看舜吻逑磿r不要選擇“非法字符清洗”,“產(chǎn)品名稱”列的非法字符后續(xù)會統(tǒng)一替換,此處不做清洗。任務(wù)二數(shù)據(jù)清洗2.字段拆分(客戶)
將任務(wù)1清洗完的數(shù)據(jù),進行客戶分布分析,將客戶ID字段拆分為兩列,為“客戶名稱”和“客戶ID”。步驟一:點擊“任務(wù)∶客戶分布分析”,點擊【開始任務(wù)】,進入數(shù)據(jù)清洗頁面,點擊“選擇數(shù)據(jù)源”,下拉選擇“超市銷售數(shù)據(jù)”(注∶也可以將上一步清洗后的結(jié)果在此處上傳),點擊【保存】,如圖所示。任務(wù)二數(shù)據(jù)清洗步驟二:點擊“添加規(guī)則”,選擇“字段切分”,彈出“選擇字段”窗口,將“客戶ID”移到右側(cè),如圖所示。任務(wù)二數(shù)據(jù)清洗步驟三:在“字段清洗規(guī)則”區(qū),切分分割符為“-”,客戶ID切分后的字段名分別設(shè)為“客戶名稱”和“客戶ID”,如圖所示。任務(wù)二數(shù)據(jù)清洗步驟四:點擊【保存】,保存規(guī)則,之后點擊“開始清洗”,系統(tǒng)自動按清洗規(guī)則執(zhí)行清洗任務(wù),清洗完畢,點擊“查看數(shù)據(jù)”,可以看到原“客戶ID”列,變?yōu)椤翱蛻裘Q”和“客戶ID”兩列,如圖所示。任務(wù)二數(shù)據(jù)清洗3.字段拆分(產(chǎn)品名稱)
將“產(chǎn)品名稱”列切分為三列“品牌”、“品名”、“規(guī)格”。
在字段拆分前,需要將“產(chǎn)品名稱”列中的切分符統(tǒng)一,需要將現(xiàn)有字段中的特殊字符進行逐一的替換,最終替換為統(tǒng)一的切分符。其替換步驟見下圖。任務(wù)二數(shù)據(jù)清洗步驟一:
字段里的非法字符和分隔符統(tǒng)一
點擊“任務(wù)∶受歡迎商品分析-產(chǎn)品名稱切分”,點擊【開始任務(wù)】,進入數(shù)據(jù)清洗頁面,點擊“選擇數(shù)據(jù)源”,下拉選擇“超市銷售數(shù)據(jù)”(注∶也可以將上一步清洗后的結(jié)果在此處上傳),點擊【保存】,如圖所示。任務(wù)二數(shù)據(jù)清洗點擊“配置按字段清洗規(guī)則”,點擊“添加規(guī)則”,選擇“字符替換”-“產(chǎn)品名稱”,將*替換為空(什么也不輸入),將/替換為空(什么也不輸入),將\替換為空(什么也不輸入),如圖1所示。將|替換為空格(空格需要輸入,按空格鍵),如圖2所示。圖2字符替換為空格圖1字符替換為空任務(wù)二數(shù)據(jù)清洗
點擊【保存】,點擊“開始清洗”,清洗完成,查看清洗結(jié)果,“產(chǎn)品名稱”列中的特殊字符都被清理了,如圖所示。任務(wù)二數(shù)據(jù)清洗點擊【下載】,將該清洗結(jié)果下載到本地。步驟二:將“產(chǎn)品名稱”切分為兩列為“品牌”和“品名規(guī)格”。點擊退回,回到數(shù)據(jù)清洗頁面,如圖所示。任務(wù)二數(shù)據(jù)清洗點擊【重置】,重新選擇數(shù)據(jù)源,點擊【上傳數(shù)據(jù)】,將上一步下載的數(shù)據(jù)表進行上傳,如圖所示。任務(wù)二數(shù)據(jù)清洗點擊“配置字段清洗規(guī)則”,點擊“添加規(guī)則”,選擇“字段切分”,切分字段為“產(chǎn)品名稱”,切分分隔符為空格(按空格鍵輸入),切分后的字段分別為“品牌”、“品名規(guī)格”。如圖所示。任務(wù)二數(shù)據(jù)清洗
點擊【保存】,點擊“開始清洗”,系統(tǒng)執(zhí)行清洗任務(wù),清洗完成后點擊“查看清洗結(jié)果”,可以看到新拆分的兩列∶“品牌”列和“品名規(guī)格”列。任務(wù)二數(shù)據(jù)清洗點擊【下載】,將清洗結(jié)果保存到本地。步驟三:將“品名規(guī)格”列拆分為“品名”和“規(guī)格”兩列點擊退回,回到數(shù)據(jù)清洗頁面,點擊【重置】,重新選擇數(shù)據(jù)源,點擊【上傳數(shù)據(jù)】,將上一步下載的數(shù)據(jù)表進行上傳。任務(wù)二數(shù)據(jù)清洗
點擊“配置按字段清洗規(guī)則”,點擊“添加規(guī)則”,選擇“字符替換”,字段為“品名規(guī)格”,空格(輸入空格鍵),替換為空(什么也不輸);再次點擊“添加規(guī)則”,選擇“字段切分”,字段為“品名規(guī)格”,切分分隔符為英文的逗號,切分后的字段名為“品名”和“規(guī)格”,如圖所示。
點擊【保存】,點擊“開始清洗”,系統(tǒng)執(zhí)行清洗任務(wù),清洗完成后點擊“查看清洗結(jié)果”,可以看到新拆分的兩列∶“品名”列和“規(guī)格”列,如圖所示。任務(wù)二數(shù)據(jù)清洗任務(wù)三數(shù)據(jù)集成【任務(wù)描述】1.數(shù)據(jù)關(guān)聯(lián)
2.數(shù)據(jù)合并【知識準(zhǔn)備】一、數(shù)據(jù)集成的概念
從廣義上來說,在企業(yè)中,由于開發(fā)時間或開發(fā)部門的不同,往往有多個異構(gòu)的、運行在不同軟硬件平臺上的信息系統(tǒng)同時運行,這些系統(tǒng)的數(shù)據(jù)源彼此獨立、相互封閉,這使得數(shù)據(jù)難以在系統(tǒng)之間交流、共享和融合,從而形成了“信息孤島”。
從狹義上來說,數(shù)據(jù)集成是一個數(shù)據(jù)整合的過程。就是指將多份數(shù)據(jù)進行合并,形成數(shù)據(jù)集的過程和方法。通過綜合各數(shù)據(jù)源,將擁有不同結(jié)構(gòu)、不同屬性的數(shù)據(jù)合并,存放在一個一致的數(shù)據(jù)存儲中。這些數(shù)據(jù)源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件等,以產(chǎn)生更高的數(shù)據(jù)價值和更豐富的數(shù)據(jù)。
數(shù)據(jù)集成最常見的兩種方法是數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)合并。前者用于將不同數(shù)據(jù)內(nèi)容的表格根據(jù)條件進行左右連接,后者用于將相同或相似數(shù)據(jù)內(nèi)容的表格進行上下連接,如圖所示。任務(wù)三數(shù)據(jù)集成二、數(shù)據(jù)集成的主要內(nèi)容(一)數(shù)據(jù)關(guān)聯(lián)1.數(shù)據(jù)關(guān)聯(lián)的概念
數(shù)據(jù)關(guān)聯(lián)必須要有關(guān)聯(lián)條件,一般是指左表的主鍵或其他唯一約束字段(即沒有重復(fù)值)與右表的主鍵或其他唯一約束字段相等(相同),即表之間有關(guān)鍵字段(列名),不同的表根據(jù)列名將數(shù)據(jù)進行關(guān)聯(lián)。如表A、表B都有共同的字段ID,通過ID將表A與表B進行連接,如圖所示。任務(wù)三數(shù)據(jù)集成2.數(shù)據(jù)關(guān)聯(lián)的方式數(shù)據(jù)關(guān)聯(lián)有四種方式:左連接(leftjoin)、右連接(rightjoin)、內(nèi)連接(innerjoin)、全連接(fulljoin),如圖所示。(1)左連接左連接是以左表為基礎(chǔ),根據(jù)兩表的關(guān)聯(lián)條件將兩表連接起來。結(jié)果會將左表所有的數(shù)據(jù)條目列出,而右表只列出與左表關(guān)聯(lián)條件滿足的部分。左連接全稱為左外連接,屬于外連接的一種方式,如圖4示。任務(wù)三數(shù)據(jù)集成(2)右連接右連接是以右表為基礎(chǔ),根據(jù)兩表的關(guān)聯(lián)條件將兩表連接起來。結(jié)果會將右表所有的數(shù)據(jù)條目列出,而左表只列出與右表關(guān)聯(lián)條件滿足的部分。右連接全稱為右外連接,屬于外連接的一種方式,如圖所示。(3)內(nèi)連接內(nèi)連接只顯示滿足關(guān)聯(lián)條件的左右兩表的數(shù)據(jù)記錄,不符合條件的數(shù)據(jù)不顯示,如圖所示。圖
右連接圖
內(nèi)連接任務(wù)三數(shù)據(jù)集成(4)全連接全連接即為滿足關(guān)聯(lián)條件的左右表數(shù)據(jù)相連,但不滿足條件的各表數(shù)據(jù)仍保留,兩表之間無對應(yīng)數(shù)據(jù)的內(nèi)容為空值,如圖所示?!咀⒁狻績蓚€數(shù)據(jù)集進行關(guān)聯(lián)時,每個數(shù)據(jù)集中的列名在各自數(shù)據(jù)集中都必須是唯一的,但兩個數(shù)據(jù)集之間的列名可以重復(fù),因為只有兩個數(shù)據(jù)集中有相同列,數(shù)據(jù)關(guān)聯(lián)才有實際意義。任務(wù)三數(shù)據(jù)集成(二)數(shù)據(jù)合并數(shù)據(jù)合并,也稱數(shù)據(jù)追加,是指對多份數(shù)據(jù)字段基本完全相同的數(shù)據(jù)進行上下連接。如有表1和表2兩個數(shù)據(jù)庫表格,它們對應(yīng)的字段是相同的,那么就可以對這兩個表進行數(shù)據(jù)合并,如圖所示。
表2表1圖
數(shù)據(jù)合并任務(wù)三數(shù)據(jù)集成【任務(wù)實施】1.數(shù)據(jù)關(guān)聯(lián)B公司的數(shù)據(jù)分析師對清洗后的超市銷售數(shù)據(jù)表要從省份和大區(qū)的維度進行銷售額統(tǒng)計,但數(shù)據(jù)表中只有“城市”的數(shù)據(jù),沒有省份和大區(qū)的數(shù)據(jù),如圖所示。任務(wù)三數(shù)據(jù)集成數(shù)據(jù)分析師做了兩張表:城市表和省區(qū)表。城市表是城市和省區(qū)的對應(yīng)表,超市銷售情況表中的每一個城市都有對應(yīng)的省區(qū);省區(qū)表是省份和大區(qū)的對應(yīng)表,每一個省份都對應(yīng)了所屬的大區(qū)。城市表如圖2-3-10所示,省區(qū)表如圖所示。任務(wù)三數(shù)據(jù)集成
將超市數(shù)據(jù)與地區(qū)數(shù)據(jù)進行關(guān)聯(lián),“超市銷售情況表”上增加“省份”列和“地區(qū)”列,與“城市”列相匹配。步驟一∶數(shù)據(jù)上傳
將下載的“超市數(shù)據(jù)清洗結(jié)果”、“城市表”、“省區(qū)表”上傳到分析云。任務(wù)三數(shù)據(jù)集成步驟二∶數(shù)據(jù)關(guān)聯(lián)
單擊【新建】按鈕,系統(tǒng)彈出“創(chuàng)建數(shù)據(jù)集”窗口,選擇【關(guān)聯(lián)數(shù)據(jù)集】,名稱設(shè)為“超市省區(qū)關(guān)聯(lián)”。
單擊【確定】,將“超市數(shù)據(jù)清洗結(jié)果”、“城市表”、“省區(qū)表”依次拖拽到右方數(shù)據(jù)編輯區(qū),如圖所示。任務(wù)三數(shù)據(jù)集成
先點選“超市數(shù)據(jù)清洗結(jié)果”,再單擊“城市表”,系統(tǒng)彈出“連接”窗口,選擇“左連接”,關(guān)聯(lián)字段是“城市”,單擊【確定】,如圖所示。任務(wù)三數(shù)據(jù)集成【注意】此次關(guān)聯(lián)是以“城市表”為主表,如果該表在左邊,則關(guān)聯(lián)方式選擇“左連接”,如果該表在右邊,則需要選擇“右連接”。單擊【執(zhí)行】,系統(tǒng)將三張表連接成一張表,在下方的數(shù)據(jù)預(yù)覽區(qū)可以看到表中有“省自治區(qū)”列和“地區(qū)”列,如圖所示。任務(wù)三數(shù)據(jù)集成
單擊【abc】,修改關(guān)聯(lián)表的“數(shù)量”、“折
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢節(jié)職業(yè)技術(shù)學(xué)院《花卉學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 北京中醫(yī)藥大學(xué)東方學(xué)院《服裝定制設(shè)計三高級時裝定制設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度九級工傷賠償標(biāo)準(zhǔn)理賠與賠償合同3篇
- 2025版化工產(chǎn)品采購合同商務(wù)英語版3篇
- 2025年A4規(guī)格勞動合同樣本編制服務(wù)合同6篇
- 別墅安裝制作合同
- 2025版報廢車輛收購與處理合同3篇
- 個人2022轉(zhuǎn)正述職報告七篇
- 網(wǎng)絡(luò)紅人形象代言合作合同王律師
- 生豬購銷合同
- 新蘇教版五年級上冊科學(xué)全冊期末復(fù)習(xí)知識點(彩版)
- CJJT 164-2011 盾構(gòu)隧道管片質(zhì)量檢測技術(shù)標(biāo)準(zhǔn)
- 2023年甘肅省定西市中考政治真題 (含解析)
- 中醫(yī)科診療指南及技術(shù)操作規(guī)范學(xué)習(xí)試題
- 6.2《青紗帳-甘蔗林》教學(xué)設(shè)計-【中職專用】高一語文(高教版2023·基礎(chǔ)模塊下冊)
- 25王戎不取道旁李公開課一等獎創(chuàng)新教學(xué)設(shè)計
- 中國歷史文化知識競賽100題(含答案)
- 學(xué)前兒童健康教育活動設(shè)計智慧樹知到期末考試答案章節(jié)答案2024年云南國防工業(yè)職業(yè)技術(shù)學(xué)院
- 門診敘事護理課件
- 福建省廈門市翔安區(qū)2023-2024學(xué)年八年級上學(xué)期期末語文試題
- 村廟修建合同
評論
0/150
提交評論