第4章 電子商務(wù)數(shù)據(jù)處理_第1頁
第4章 電子商務(wù)數(shù)據(jù)處理_第2頁
第4章 電子商務(wù)數(shù)據(jù)處理_第3頁
第4章 電子商務(wù)數(shù)據(jù)處理_第4頁
第4章 電子商務(wù)數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第4章電子商務(wù)數(shù)據(jù)處理4.1數(shù)據(jù)處理與預(yù)處理4.2電子商務(wù)數(shù)據(jù)清理4.3電子商務(wù)數(shù)據(jù)集成4.4電子商務(wù)數(shù)據(jù)變換4.5電子商務(wù)數(shù)據(jù)規(guī)約【章節(jié)目標及學(xué)習(xí)難點】章節(jié)目標1.了解數(shù)據(jù)處理與預(yù)處理的主要內(nèi)容2.了解數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約的主要內(nèi)容4.掌握Excel進行缺失、重復(fù)數(shù)據(jù)、分類匯總的處理方法5.掌握PowerQuery進行數(shù)據(jù)處理的方法6.掌握決策樹ID3算法的實際運用學(xué)習(xí)難點1.決策樹ID3算法方法的實際應(yīng)用【案例導(dǎo)入】數(shù)據(jù)預(yù)處理方法在網(wǎng)絡(luò)社區(qū)數(shù)據(jù)分析中的應(yīng)用據(jù)統(tǒng)計發(fā)現(xiàn),數(shù)據(jù)預(yù)處理的工作量占據(jù)整個數(shù)據(jù)挖掘工作的60%,由此可見,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中扮演著舉足輕重的角色。例如,哈啰單車騎行數(shù)據(jù)在經(jīng)過數(shù)據(jù)預(yù)處理前,用戶編號、單車編號、單車類型是一些冗余的屬性,對分析目標而言沒有任何意義。騎行時長是對分析目標起關(guān)鍵作用的屬性,但該列中有若干個空缺。用戶編號城市單車編號單車類型騎行時長MU_00004北京MB_00001經(jīng)典0.5MU_00234上海MB_00431輕騎1.1MU_00087深圳MB_00876經(jīng)典1.0MU_00067廣州MB_00078輕騎

MU_00065上海MB_00034輕騎1.5MU_09870北京MB_00021經(jīng)典0.6MU_00864北京MB_00090經(jīng)典

MU_00984廣州MB_00045經(jīng)典1.5MU_00043深圳MB_00064輕騎0.8MU_00821廣州MB_00286輕騎

【案例導(dǎo)入】數(shù)據(jù)預(yù)處理方法在網(wǎng)絡(luò)社區(qū)數(shù)據(jù)分析中的應(yīng)用經(jīng)過預(yù)處理后,城市和騎行時長列的數(shù)據(jù)比較完整,也根據(jù)城市名稱進行了歸類,方便用戶快速地得出各城市用戶的平均騎行時長。城市騎行時長(時)城市騎行時長(時)北京0.5深圳1.0北京0.6深圳0.8北京0.5廣州0.5上海1.1廣州1.5上海1.5廣州0.5顯而易見,若使用預(yù)處理前的哈啰單車騎行數(shù)據(jù)對各城市用戶的平均騎行時長進行分析,會導(dǎo)致分析結(jié)果存在一些偏差,相反地,使用預(yù)處理后的哈啰單車數(shù)據(jù)進行分析,會得到一個較為準確的分析結(jié)果。拓展思考1.數(shù)據(jù)預(yù)處理的目的是什么?2.哈啰單車騎行數(shù)據(jù)還有哪些有價值的數(shù)據(jù)指標?第1節(jié)數(shù)據(jù)處理與預(yù)處理4.1.1數(shù)據(jù)處理4.1.2數(shù)據(jù)預(yù)處理數(shù)據(jù)處理的基本目的是從大量的、雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理的過程大致分為數(shù)據(jù)的準備、處理和輸出3個階段。在數(shù)據(jù)準備階段從各個渠道獲取到數(shù)據(jù),錄入到某個數(shù)據(jù)處理軟件中,這個階段也可以稱為數(shù)據(jù)的錄入階段。數(shù)據(jù)錄入以后,就要由計算機對數(shù)據(jù)進行處理。最后輸出的是各種文字和數(shù)字的表格和報表。4.1.1數(shù)據(jù)處理數(shù)據(jù)處理主要包括8個方面:4.1.1數(shù)據(jù)處理①數(shù)據(jù)采集:采集所需的信息。②數(shù)據(jù)轉(zhuǎn)換:把信息轉(zhuǎn)換成機器能夠接收的形式。③數(shù)據(jù)分組:指定編碼,按有關(guān)信息進行有效的分組。④數(shù)據(jù)組織:整理數(shù)據(jù)或用某些方法安排數(shù)據(jù),以便進行處理。⑤數(shù)據(jù)計算:進行各種算術(shù)和邏輯運算,以便得到進一步的信息。⑥數(shù)據(jù)存儲:將原始數(shù)據(jù)或計算的結(jié)果保存起來,供以后使用。⑦數(shù)據(jù)檢索:按用戶的要求找出有用的信息。⑧數(shù)據(jù)排序:把數(shù)據(jù)按一定要求排成次序。數(shù)據(jù)預(yù)處理指在主要的處理以前對數(shù)據(jù)進行的一些處理。數(shù)據(jù)預(yù)處理有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等方法。4.1.2數(shù)據(jù)預(yù)處理4.1.2數(shù)據(jù)預(yù)處理1、數(shù)據(jù)質(zhì)量問題數(shù)據(jù)質(zhì)量問題主要表現(xiàn)為非完整性、不一致性、有噪聲和冗余性等方面。其中非完整性指數(shù)據(jù)屬性值遺漏或不確定;不一致性指數(shù)據(jù)的來源和定義標準的不同,導(dǎo)致數(shù)據(jù)的內(nèi)涵不一致,例如同一屬性的命名、單位、字長卻不相同;有噪聲是數(shù)據(jù)中存在異常(偏離期望值;冗余性是數(shù)據(jù)記錄或?qū)傩缘闹貜?fù)。4.1.2數(shù)據(jù)預(yù)處理問題臟數(shù)據(jù)描述未經(jīng)校正的數(shù)據(jù)輸入錯誤身份證號=“41038119990927”身份證號用字符型來存儲,正確的身份證號被錯誤地輸入為“41038119990927”未經(jīng)約束造成的數(shù)據(jù)錯誤出生日期=“1999-14-27”月份大于12,日期錯誤,可以通過約束來保證其正確性數(shù)據(jù)冗余不一致客戶1為:身份證號姓名=張潔;客戶2為:身份證號姓名=張潔客戶1和客戶2分別存儲在不同的表格中,實際上是一個客戶,卻產(chǎn)生了不同的姓名特殊事件造成的有關(guān)信息不準確某一客戶有兩條交易記錄:記錄1,購買日期=2023-1-1.購買產(chǎn)品=“A”“B”、單價=1680、數(shù)量=2;記錄2,購買日期=2023-1-6.購買產(chǎn)品=“A”“B”、單價=-1680、數(shù)量=2客戶在購買A產(chǎn)品后,又退掉了,因此應(yīng)該把這兩條記錄在要分析的數(shù)據(jù)表中刪除,如果用這樣的數(shù)據(jù)做產(chǎn)品關(guān)聯(lián)分析就可能產(chǎn)生錯誤的結(jié)果4.1.2數(shù)據(jù)預(yù)處理2、數(shù)據(jù)預(yù)處理內(nèi)容數(shù)據(jù)預(yù)處理指對收集的數(shù)據(jù)進行分類或分組前所做的審核、篩選和排序等必要的處理。4.1.2數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)審核數(shù)據(jù)審核的內(nèi)容主要包括以下四個方面:①準確性審核,主要是從數(shù)據(jù)的真實性與精確性角度檢查資料,其審核的重點是檢查調(diào)查過程中所發(fā)生的誤差。②適用性審核,主要是根據(jù)數(shù)據(jù)的用途,檢查數(shù)據(jù)解釋說明問題的程度。具體包括數(shù)據(jù)與調(diào)查主題、與目標總體的界定、與調(diào)查項目的解釋等是否匹配。③及時性審核,主要是檢查數(shù)據(jù)是否按照規(guī)定時間報送,如未按規(guī)定時間報送,就需要檢查未及時報送的原因。④一致性審核,主要是檢查數(shù)據(jù)在不同地區(qū)、不同時間段是否一致。4.1.2數(shù)據(jù)預(yù)處理(2)數(shù)據(jù)篩選數(shù)據(jù)篩選包括兩方面的內(nèi)容:一是將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除;二是將符合某種特定條件的數(shù)據(jù)篩選出來,對不符合特定條件的數(shù)據(jù)予以剔除。4.1.2數(shù)據(jù)預(yù)處理(3)數(shù)據(jù)排序數(shù)據(jù)排序是按照一定順序?qū)?shù)據(jù)排列,以便于研究者通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。除此之外,排序還有助于對數(shù)據(jù)檢查糾錯,為重新歸類或分組等提供依據(jù)。第2節(jié)電子商務(wù)數(shù)據(jù)清理4.2.1數(shù)據(jù)缺失值處理4.2.2重復(fù)值處理4.2.3錯誤值處理4.2電子商務(wù)數(shù)據(jù)清理數(shù)據(jù)清理是通過填寫缺失的值、去除冗余數(shù)據(jù)、識別或刪除離群點、光滑噪聲數(shù)據(jù)和解決不一致數(shù)據(jù)等方法來清理數(shù)據(jù),從而達到數(shù)據(jù)格式標準化、異常數(shù)據(jù)清除、錯誤糾正和重復(fù)數(shù)據(jù)清除的目的。4.2.1數(shù)據(jù)缺失值處理數(shù)據(jù)缺失值處理(1)刪除對于缺失情況很嚴重的數(shù)據(jù)字段(缺失比例在80%以上)或缺失值的數(shù)據(jù)記錄數(shù)量相對較少(缺失比例小于20%),一般采用直接刪除該數(shù)據(jù)字段的方式進行處理。但當存在丟失重要數(shù)據(jù)風(fēng)險時,不應(yīng)該將數(shù)據(jù)丟失,而是通過創(chuàng)建一個新的、相關(guān)的,具有布爾值的屬性進行替代,比如缺少值用True替代,正常用False替代。4.2.1數(shù)據(jù)缺失值處理(2)填充填充丟失的數(shù)據(jù)是最常見的方法。該方法主要用于定性屬性,最有效的方式是估計一個值,可以使用以下幾種方法:①如果缺失值為數(shù)值型數(shù)據(jù),數(shù)據(jù)分布近似正態(tài)分布,可以使用均值進行填充。②如果缺失值為數(shù)值型數(shù)據(jù),數(shù)據(jù)分布偏態(tài)分布時,可以使用中位數(shù)進行填充。比如某客戶的年收入值缺失,就可以用所有客戶的年平均收入來代替。③如果缺失值為字符型數(shù)據(jù),則使用眾數(shù)進行填充。④對于數(shù)據(jù)中的空值有特殊含義的,可以單獨歸為一類數(shù)據(jù)。⑤為模型填充,比如通過回歸分析、決策樹等方法,將缺失的數(shù)據(jù)作為目標進行預(yù)測,得到最為可能的填充值。4.2.1數(shù)據(jù)缺失值處理【案例分析】電商企業(yè)進貨單缺失值處理某電商企業(yè)在2023年1月的進貨單,其中包含商品名稱、來源、類型、單價、數(shù)量、總計費用、上次進貨量等字段數(shù)據(jù),現(xiàn)進行數(shù)據(jù)分析時發(fā)現(xiàn)“上次進貨量”字段數(shù)據(jù)存在缺失,現(xiàn)要求將缺失的數(shù)據(jù)全部填充為“0”。商品名稱來源類型單價數(shù)量總計費用上次進貨量銷售情況無線鼠標中國電子產(chǎn)品251025041藍牙耳機美國電子產(chǎn)品26751335

0電動牙刷德國電子產(chǎn)品112161792

6電熱水壺中國生活用品230492082熨斗中國生活用品120224062垃圾桶中國生活用品158120142時尚T恤中國服裝120101200202短褲美國服裝569504

8發(fā)卡印度服裝819152

1鋼筆美國學(xué)習(xí)用品42625224寫字本新加坡學(xué)習(xí)用品271027061修改液中國學(xué)習(xí)用品1210120234.2.1數(shù)據(jù)缺失值處理1.選定G列,選擇【開始】-【查找和選擇】-【定位條件】,打開定位條件功能;設(shè)置定位條件為“空值”,單擊【確定】4.2.1數(shù)據(jù)缺失值處理2.直接輸入“0”,CTRL+ENTER確定4.2.2重復(fù)值處理重復(fù)值處理在數(shù)據(jù)集成的過程中,由于數(shù)據(jù)輸入錯誤、非標準的縮寫、或者不同數(shù)據(jù)源記錄的差異等原因?qū)е聰?shù)據(jù)中可能包含同一實體的重復(fù)記錄。缺少值是數(shù)據(jù)的缺乏,而重復(fù)記錄則是數(shù)據(jù)的過剩。重復(fù)數(shù)據(jù)刪除技術(shù)是一種預(yù)處理技術(shù),其目標是識別和刪除數(shù)據(jù)集中重復(fù)的記錄。4.2.2重復(fù)值處理【案例分析】電商企業(yè)多類型進貨產(chǎn)品處理在某電商企業(yè)在2023年1月的進貨單中,現(xiàn)需要統(tǒng)計進貨的產(chǎn)品類型有多少種。下面使用“高級篩選”法和“函數(shù)法”分別對產(chǎn)品類型進行數(shù)量統(tǒng)計。商品名稱來源類型單價數(shù)量總計費用上次進貨量銷售情況無線鼠標中國電子產(chǎn)品251025041藍牙耳機美國電子產(chǎn)品2675133500電動牙刷德國電子產(chǎn)品11216179206電熱水壺中國生活用品230492082熨斗中國生活用品120224062垃圾桶中國生活用品158120142時尚T恤中國服裝120101200202短褲美國服裝56950408發(fā)卡印度服裝81915201鋼筆美國學(xué)習(xí)用品42625224寫字本新加坡學(xué)習(xí)用品271027061修改液中國學(xué)習(xí)用品1210120234.2.2重復(fù)值處理1.高級篩選法選擇【數(shù)據(jù)】-【排序篩選】-【高級】功能,直接進入“高級篩選”設(shè)置界面。進行高級篩選設(shè)置,其中在進行列表區(qū)域選擇時,一定要從該列的列標題,即第一行開始選擇,如果未選擇非列標題行,則顯示的結(jié)果中第一行內(nèi)容為選擇區(qū)域的第一行內(nèi)容,即對結(jié)果的準確性造成影響,設(shè)置完成后,單擊【確定】4.2.2重復(fù)值處理2.函數(shù)法使用COUNTIF函數(shù)識別出重復(fù)項,并計算非重復(fù)項的數(shù)量。在J1單元格輸入“類型出現(xiàn)次數(shù)”標題,在K1單元格輸入“類型數(shù)量”標題。選擇J2單元格,輸入公式“=COUNTIF($C$2:C2,C2)”,單擊ENTER。選擇J2單元格,使用公式快速方式進行向下填充,得出所有商品類型出現(xiàn)的次數(shù)。選擇K2單元格,輸入公式“=COUNTIF(J2:J13,”1“)”,計算所有類型出現(xiàn)次數(shù)為1的數(shù)量。4.2.3錯誤值處理錯誤值處理錯誤值或異常值的存在會對分析結(jié)果(平均值與標準差)產(chǎn)生重要影響,異常值的檢驗與正確處理是保證原始數(shù)據(jù)可靠性的前提。異常值的檢測可以有多種方法,如聚類方法、統(tǒng)計方法等。【案例分析】使用Excel能夠控制和檢查數(shù)據(jù)統(tǒng)計中存在的錯誤假設(shè)在源數(shù)據(jù)表中存在一列“銷售情況”,0表示銷售一般,1表示銷售良好,2表示銷售極好,其他所有數(shù)據(jù)均為錯誤數(shù)據(jù)。第一步:選中H列,選擇數(shù)據(jù)-數(shù)據(jù)驗證4.2.3錯誤值處理第二步:在彈出的對話框中進行設(shè)置第三步:選擇數(shù)據(jù)驗證-圈釋無效數(shù)據(jù)4.2.3錯誤值處理第3節(jié)電子商務(wù)數(shù)據(jù)集成4.3.1數(shù)據(jù)集成概述4.3.2數(shù)據(jù)集成應(yīng)用1、數(shù)據(jù)集成問題數(shù)據(jù)集成的過程中可能遇到命名沖突、屬性類型沖突和屬性值等問題。(1)命名沖突主要指同一個屬性在不同的數(shù)據(jù)源中采用了不同的名字。比如有一個電子商務(wù)企業(yè)在北京和上海設(shè)兩家公司,在北京分公司內(nèi)部員工表中的身份信息用員工身份證號來表示,而在上海的分公司數(shù)據(jù)中,內(nèi)部員工表中的身份信息用員工ID字段來表示,盡管這兩個字段項都表示相同的含義,但命名卻不相同,從而產(chǎn)生命名沖突。4.3.1數(shù)據(jù)集成概述(2)屬性類型沖突以郵編字段項為例,雖然郵編是以數(shù)字形式來表示的,但不能用于任何計算,其可能會被定義為數(shù)值型,也可能會被定義為字符型,從而產(chǎn)生屬性類型沖突。4.3.1數(shù)據(jù)集成概述(3)屬性值沖突屬性值沖突主要有兩種形式。一種是字段名稱相同,屬性值的表示形式不同。比如以性別字段項為例,有的數(shù)據(jù)源中會用“男”表示男性,用“女”表示女性,而有的會用“M”表示男性,“F”表示女性。另一種是字段名稱相同,屬性值的表示形式也相同,但取值范圍不同。比如兩個數(shù)據(jù)源中都有消費金額這個字段項,但第一個數(shù)據(jù)源中的消費金額是客戶一個月的消費金額,而第二個數(shù)據(jù)源中的消費金額是客戶一個季度的消費金額,本質(zhì)上這兩個數(shù)據(jù)源的消費金額這個字段項的值所表示的含義就有很大差異。4.3.1數(shù)據(jù)集成概述4.3.1數(shù)據(jù)集成概述2、數(shù)據(jù)集成架構(gòu)數(shù)據(jù)集成的主要過程有數(shù)據(jù)抽?。‥xtract)、數(shù)據(jù)轉(zhuǎn)換(Transform)和數(shù)據(jù)加載(Load),這個過程是負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時中間層進行轉(zhuǎn)換、集成等處理,最后加載列數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理和數(shù)據(jù)挖掘的基礎(chǔ)。4.3.1數(shù)據(jù)集成概述根據(jù)轉(zhuǎn)換發(fā)生的順序和位置,數(shù)據(jù)集成可以分為ETL和ELT兩種架構(gòu)。ETL的過程為提取-轉(zhuǎn)換-加載,在數(shù)據(jù)源抽取后首先進行轉(zhuǎn)換,然后將轉(zhuǎn)換的結(jié)果寫入目的地。ELT的過程則是提取-加載-變換,在抽取后將結(jié)果先寫入目的地,然后利用數(shù)據(jù)庫的聚合分析能力或者外部計算框架。4.3.2數(shù)據(jù)集成應(yīng)用PowerQuery是一個數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)準備引擎,可以執(zhí)行提取、轉(zhuǎn)換和加載數(shù)據(jù)處理。PowerQuery中的轉(zhuǎn)換引擎包括許多預(yù)生成的轉(zhuǎn)換函數(shù),這些函數(shù)可通過編輯器的圖形界面使用。這些轉(zhuǎn)換可以像刪除列或篩選行一樣簡單,也可以像使用第一行作為表標題一樣常見。還有高級轉(zhuǎn)換選項,例如合并、追加、分組依據(jù)、透視和逆透視。通過選擇菜單中的轉(zhuǎn)換選項,然后應(yīng)用該轉(zhuǎn)換所需的選項,可以實現(xiàn)所有這些轉(zhuǎn)換。4.3.2數(shù)據(jù)集成應(yīng)用【案例分析】電商企業(yè)人員職務(wù)信息處理某電商企業(yè),有三個部門人員信息表,分別是產(chǎn)品部、客服部和運營部的人員的職務(wù)信息,包含員工編號、姓名、性別和職務(wù),現(xiàn)需要對三個部門的職務(wù)信息表合成一張表。員工編號姓名性別職務(wù)CP001小溪女主管CP002王曦女市場CP003李章男產(chǎn)品設(shè)計CP004張俊超男產(chǎn)品設(shè)計CP005李亮亮男產(chǎn)品設(shè)計CP006張朝新男市場員工編號姓名性別職務(wù)KF001李曉女主管KF002梁秋佳女客服KF003李佳琪女客服KF004張燕子女客服KF005張曉楠女客服KF006李貝女客服KF007趙倩女客服員工編號姓名性別職務(wù)YY001張黎剛男主管YY002林曉曉女運營YY003李軍男運營YY004張穎女運營YY005趙麗華女運營助手4.3.2數(shù)據(jù)集成應(yīng)用【案例分析】電商企業(yè)人員職務(wù)信息處理①新建工作表,打開PowerQuery編輯器,分別建立“運營部”、“產(chǎn)品部”和“客服部”三個查詢,并分別導(dǎo)入相應(yīng)的數(shù)據(jù)源。4.3.2數(shù)據(jù)集成應(yīng)用②添加自定義列。在每個查詢中添加自定義列,將列名修改為部門,內(nèi)容填充為各自對應(yīng)的部門名稱。③新建追加查詢。將“運營部”、“產(chǎn)品部”和“客服部”三個查詢追加到新的查詢中,并刪除重復(fù)的項。④關(guān)閉PowerQuery編輯器,將數(shù)據(jù)上載至Excel表格中。第4節(jié)電子商務(wù)數(shù)據(jù)變換4.4.1數(shù)據(jù)變換方法4.4.2數(shù)據(jù)分類匯總4.4.1數(shù)據(jù)變換方法數(shù)據(jù)變換指根據(jù)要解決問題的具體要求進行數(shù)據(jù)的轉(zhuǎn)換或格式的統(tǒng)一,將數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)分析的形式。常見的數(shù)據(jù)變換有光滑、聚集、概化、規(guī)范化和屬性構(gòu)造等幾種方法。4.4.1數(shù)據(jù)變換方法1、平滑數(shù)據(jù)光滑主要是通過分箱、聚類、回歸等方法來去除數(shù)據(jù)中的噪聲。在一定誤差允許的情況下,通過一個數(shù)值來代表一個區(qū)域范圍來減少噪聲。其中,分箱方法主要是通過考察數(shù)據(jù)周圍的值來平滑數(shù)據(jù)的值,以期去掉數(shù)據(jù)中的噪聲,可以按箱平均值對數(shù)據(jù)進行平滑處理,也可以按箱邊界值對數(shù)據(jù)進行平滑處理。4.4.1數(shù)據(jù)變換方法【案例分析】假如一組商品銷售數(shù)量的數(shù)據(jù)如下(已按由小到大的順序排列):4,5,9,14,15,18,22,25,26,28,29,33按等深的方法把數(shù)據(jù)分成等深(深度為4,即每個箱子里4個數(shù)據(jù))的三個箱子,則采用各種分箱方法獲得的結(jié)果如表所示:數(shù)據(jù)劃分為等深箱按箱平均值平滑后的數(shù)據(jù)按箱邊界平滑后的數(shù)據(jù)箱子1:4,5,9,14箱子2:15,18,22,25箱子3:26,28,29,33箱子1:8,8,8,8箱子2:20,20,20,20箱子3:29,29,29,29箱子1:4,4,4,14箱子2:15,15,25,25箱子3:26,26,26,334.4.1數(shù)據(jù)變換方法如果用箱的邊界值平滑,就要確定兩個邊界,然后依次計算除邊界值外的其他值與兩個邊界的距離,與之距離最小的邊界確定為平滑邊界值。具體如下計算:箱1:|5-4|=1;|14-5|=9;故選4為平滑邊界值;|9-4|=5;|14-9|=5;故可選4,也可選14為平滑邊界值,本處選擇4。箱2:|18-15|=3;|25-18|=7;故選15作平滑邊界值;|22-15|=7;|25-22|=3;故選25作平滑邊界值。箱3:|28-26|=2;|33-28|=5;故選26作平滑邊界值;|29-26|=3;|33-29|=4;故選26作平滑邊界值。4.4.1數(shù)據(jù)變換方法2、聚集聚集一般是采用統(tǒng)計的方法對數(shù)據(jù)進行匯總或聚類。如將月銷售數(shù)據(jù)聚集為季度銷售數(shù)據(jù)等。3、概化用較高層次的概念來替代較低層次的概念,從而降低數(shù)據(jù)復(fù)雜度。如地理維度中的城市,可以概化為較高層次的概念,如省、國家等。4.4.1數(shù)據(jù)變換方法4、規(guī)范化將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如0.0~1.0,稱為規(guī)范化。數(shù)據(jù)規(guī)范化、標準化的目的是將數(shù)據(jù)轉(zhuǎn)化為無量綱的純數(shù)據(jù),便于不同單位或量級的指標進行比較或加權(quán)。比較常用的數(shù)據(jù)規(guī)范化方法有以下兩種。(1)最小-最大規(guī)范化該方法的主要思想是通過線性變換的方式把原始數(shù)據(jù)值轉(zhuǎn)換成一定區(qū)間上的數(shù)值,但轉(zhuǎn)換后的數(shù)據(jù)值仍保持原始數(shù)據(jù)值之間的關(guān)系。假定MinX、MaxX分別是屬性X上的最小值和最大值,現(xiàn)要將屬性X的值映射到區(qū)間[a,b]上,對于給定的屬性X的某個值Y,就可以采用如下的方法來進行轉(zhuǎn)換,設(shè)Y值被規(guī)范化后的值為NewY,則:

4.4.1數(shù)據(jù)變換方法(2)零-均值規(guī)范化該方法的主要思想是屬性X規(guī)范化后的值取決于屬性X取值的均值和標準差。若A是屬性X上的一個取值,可用公式進行零-均值規(guī)范化,得到規(guī)范化后的值A(chǔ)′。

4.4.1數(shù)據(jù)變換方法4.4.1數(shù)據(jù)變換方法【案例分析】對一組商品銷售數(shù)量的數(shù)據(jù)分別采用最小-最大規(guī)范化處理讓其區(qū)間落在[0,1]上、零-均值規(guī)范化,其結(jié)果如表所示原始數(shù)據(jù)4,5,9,14,15,18,22,25,26,28,29,33最小值,最大值4,33平均值、標準差19,9.695最小-最大規(guī)范化0.000,0.034,0.172,0.345,0.379,0.483,0.621,0.724,0.759,0.828,0.862,1.000零-均值規(guī)范化-1.547,-1.444,-1.031,-0.516,-0.413,-0.103,0.309,0.619,0.722,0.928,1.031,1.4444.4.1數(shù)據(jù)變換方法5、屬性構(gòu)造人們可以通過已有屬性構(gòu)造數(shù)據(jù)分析需要的新屬性。數(shù)據(jù)分析工作往往都是圍繞特定主題進行的,所以有時需要構(gòu)造一些原始數(shù)據(jù)庫中沒有的屬性。如有的數(shù)據(jù)庫中沒有顧客某次購買的商品所帶給企業(yè)利潤的數(shù)據(jù),但在相關(guān)數(shù)據(jù)庫中可以找到該商品的進價和銷售價格,這樣就可以根據(jù)這兩個屬性構(gòu)造一個新的利潤屬性,通過這個新屬性了解顧客購買該商品帶給企業(yè)的利潤。這種屬性構(gòu)造特性對數(shù)據(jù)分析和知識發(fā)現(xiàn)是很有價值的。4.4.2數(shù)據(jù)分類匯總要創(chuàng)建分類匯總,首先要對數(shù)據(jù)進行排序,然后以排序的字段為匯總依據(jù),進行求和、求平均值以及求最大值等各種匯總操作。【案例分析】電商企業(yè)堅果產(chǎn)品銷售總額分類匯總某電商企業(yè)2023年1月份的堅果銷售情況表,需要對產(chǎn)品的銷量總額進行匯總,包含對“亞馬遜”和“速賣通”的銷量總額單獨匯總。堅果銷售情況銷售人員銷售日期產(chǎn)品易趣亞馬遜速賣通合計銷量評定客服-粉紅貓1月1日核桃¥808.00¥484.85¥944.00¥2,236.85優(yōu)客服-櫻桃貓1月1日板栗¥690.32¥451.30¥543.00¥1,684.62良客服-櫻桃貓1月1日松仁¥120.35¥125.30¥123.20¥368.85差客服-粉紅貓1月1日腰果仁¥505.00¥303.03¥530.00¥1,338.03良客服-招財貓1月3日榛子¥603.30¥361.64¥703.00¥1,667.94良客服-招財貓1月3日杏仁¥230.00¥135.39¥3,140.00¥3,505.39優(yōu)客服-粉紅貓1月3日開心果¥563.58¥120.21¥653.00¥1,336.79良客服-古怪貓1月3日夏威夷果¥859.30¥540.60¥523.00¥1,922.90良客服-古怪貓1月9日葵花子¥300.00¥503.60¥351.00¥1,154.60良客服-櫻桃貓1月9日花生¥500.00¥303.03¥590.00¥1,393.03良客服-櫻桃貓1月9日巴旦木¥383.53¥200.30¥443.60¥1,027.43良客服-粉紅貓1月9日核桃¥525.00¥310.18¥125.30¥960.48差客服-古怪貓1月9日板栗¥390.00¥243.82¥253.50¥887.32差客服-古怪貓1月9日松仁¥630.00¥383.82¥125.53¥1,139.35良客服-櫻桃貓1月13日腰果仁¥240.00¥145.36¥173.50¥558.86差客服-櫻桃貓1月13日榛子¥840.00¥501.09¥953.00¥2,294.09優(yōu)客服-粉紅貓1月13日杏仁¥521.00¥312.18¥125.36¥958.54差客服-古怪貓1月13日開心果¥125.00¥120.00¥122.30¥367.30差客服-古怪貓1月13日夏威夷果¥423.30¥202.00¥536.00¥1,161.30良客服-櫻桃貓1月13日葵花子¥630.00¥220.00¥145.00¥995.00差客服-櫻桃貓1月13日花生¥125.00¥692.00¥180.36¥997.36差客服-粉紅貓1月13日巴旦木¥315.00¥196.91¥372.30¥884.21差4.4.2數(shù)據(jù)分類匯總1.選擇“產(chǎn)品”列某數(shù)據(jù),單擊【開始】-【排序和篩選】-【降序】功能,則以“產(chǎn)品”列的產(chǎn)品,按照名稱首字母降序排列。4.4.2數(shù)據(jù)分類匯總2.單擊【數(shù)據(jù)】-【分級顯示】-【分類匯總】功能,彈出“分類匯總”設(shè)置框,設(shè)置分類匯總參數(shù),“分類字段”為“產(chǎn)品”、“亞馬遜”和“速賣通”,“匯總方式”為“求和”,“選定匯總項”為“合計”,其分類匯總結(jié)果如下圖所示。第5節(jié)電子商務(wù)數(shù)據(jù)規(guī)約4.5.1數(shù)據(jù)規(guī)約概述4.5.2數(shù)據(jù)規(guī)約ID3算法4.5.1數(shù)據(jù)規(guī)約概述數(shù)據(jù)規(guī)約是為了降低在海量數(shù)據(jù)上進行數(shù)據(jù)分析的難度和復(fù)雜度而進行的一項工作。它的核心思想是在不破壞數(shù)據(jù)原有完整性的基礎(chǔ)上選取小樣本數(shù)據(jù)進行數(shù)據(jù)分析,但要求從小樣本數(shù)據(jù)進行分析得到的效果和從大樣本數(shù)據(jù)進行分析得到的結(jié)果是相同的。4.5.1數(shù)據(jù)規(guī)約概述1.屬性規(guī)約屬性規(guī)約是通過屬性合并或刪除不相關(guān)的屬性來降低數(shù)據(jù)的維度。屬性規(guī)約的目標是找到最小的屬性集,這樣丟棄那些不相關(guān)的屬性不會對數(shù)據(jù)的效用產(chǎn)生太大影響,并且可以降低數(shù)據(jù)分析的成本。例如,企業(yè)銷售數(shù)據(jù)中的客戶聯(lián)系電話與客戶的購買行為無關(guān),因此該屬性項就可以被刪除。屬性規(guī)約的方法很多,例如決策樹、主成分分析等。2.數(shù)值規(guī)約數(shù)值規(guī)約指用較小的數(shù)據(jù)表示形式去替換原數(shù)據(jù),包括有參數(shù)方法和無參數(shù)方法兩類。有參數(shù)方法指使用一個模型去估計數(shù)據(jù),這樣就可以只存放模型參數(shù)代替存放實際數(shù)據(jù),如回歸模型和線性模型。對于無參數(shù)方法就需要存放實際數(shù)據(jù),如直方圖、聚類、抽樣和數(shù)據(jù)立方體等。4.5.1數(shù)據(jù)規(guī)約概述3.數(shù)據(jù)壓縮數(shù)據(jù)壓縮指在不丟失信息的前提下,縮減數(shù)據(jù)量以減少存儲空間,提高其傳輸、存儲和處理效率的一種技術(shù)方法。數(shù)據(jù)壓縮包括有損壓縮和無損壓縮。無損壓縮指壓縮后的數(shù)據(jù)經(jīng)重構(gòu)后與原來的數(shù)據(jù)完全相同。有損壓縮指壓縮后的數(shù)據(jù)經(jīng)重構(gòu)后與原來的數(shù)據(jù)有所不同,但不影響人對原始資料所表達信息的理解。4.概念分層概念分層是用高層次概念替換低層次概念,得出的數(shù)值可以大大降低數(shù)據(jù)分析的復(fù)雜度。4.5.2數(shù)據(jù)規(guī)約ID3算法ID3算法是由J.RossQuinlan在1986年提出一種基于決策樹的分類算法。該算法建立的決策樹具有規(guī)模比較小、查詢速度快等優(yōu)點。ID3算法用信息增益作為屬性選擇度量,信息增益值越大,不確定性越小。因此,ID3算法總是選擇具有最高信息增益的屬性作為當前節(jié)點的測試屬性。根據(jù)“信息增益越大的屬性對訓(xùn)練集的分類越有利”的原則來選取信息增益最大的屬性作為“最佳”分裂點。以自頂向下遞歸的分而治之方式構(gòu)造決策樹。ID3算法描述ID3算法用信息增益(InformationGain)作為屬性選擇度量。信息增益值越大,不確定性越小。因此,ID3算法總是選擇具有最高信息增益的屬性作為當前節(jié)點的測試屬性。根據(jù)“信息增益越大的屬性對訓(xùn)練集的分類越有利”的原則來選取信息增益最大的屬性作為“最佳”分裂點。以自頂向下遞歸的分而治之方式構(gòu)造決策樹。4.5.2數(shù)據(jù)規(guī)約ID3算法(1)劃分前的熵信息熵(簡稱為熵Entropy)表示信源的不確定性,熵越大,把它搞清楚所需要的信息量也就越大。信息熵定義:假設(shè)訓(xùn)練樣本集S包含n個樣本,這些樣本分別屬于m個類,其中第i個類在S中出現(xiàn)的比例為pi,那么S的信息熵為:從信息熵的計算公式可以看出,訓(xùn)練集在樣本類別方面越模糊越雜亂無序,它的熵值就越高;反之,則熵值越低。

4.5.2數(shù)據(jù)規(guī)約ID3算法(2)劃分后的熵假設(shè)屬性A把集合S劃分成V個子集,所包含的樣本數(shù)為ni,如果A作為測試屬性,那么劃分后的熵就是:ni/n充當?shù)趇個子集的權(quán),它表示任意樣本屬于Si的概率。熵值越小,劃分的純度越高。用屬性A把訓(xùn)練樣本集分組后,樣本集的熵將會降低,因為這是一個從無序向有序的轉(zhuǎn)變過程。

4.5.2數(shù)據(jù)規(guī)約ID3算法(3)信息增益信息增益定義為分裂前的信息熵與分裂后的信息熵之間的差。簡單的說,信息增益是針對屬性而言的,沒有這個屬性時樣本所具有的信息量與有這個屬性時的信息量的差值就是這個屬性給樣本所帶來的信息量。因此,應(yīng)選擇信息增益最大的屬性作為結(jié)點并分支。

4.5.2數(shù)據(jù)規(guī)約ID3算法ID3算法步驟(每次選信息增益最大的屬性)對當前例子集合,計算各屬性的信息增益選擇信息增益最大的屬性Ai在Ai處取相同值的例子歸于同一個子集,Ai取幾個值就得幾個子集依次對每種取值情況下的子集,遞歸調(diào)用建樹算法,即返回步驟1中若子集的目標屬性相同,則分支為葉子節(jié)點,并標上標簽,然后返回調(diào)用處4.5.2數(shù)據(jù)規(guī)約ID3算法4.5.2數(shù)據(jù)規(guī)約ID3算法【案例分析】電商企業(yè)客戶屬性分類分析某電商企業(yè)某段時間內(nèi)客戶的購買記錄如表所示,那么從客戶的年齡范圍、收入水平、會員性別和會員等級等四個方面的客戶屬性對客戶是否購買產(chǎn)品進行判斷,哪個屬性最具有區(qū)分度?序號年齡范圍收入水平會員性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論