(4.3.1)-模塊四單元三數(shù)據(jù)處理_第1頁
(4.3.1)-模塊四單元三數(shù)據(jù)處理_第2頁
(4.3.1)-模塊四單元三數(shù)據(jù)處理_第3頁
(4.3.1)-模塊四單元三數(shù)據(jù)處理_第4頁
(4.3.1)-模塊四單元三數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

電子商務(wù)數(shù)據(jù)分析基礎(chǔ)模塊四

數(shù)據(jù)分類與處理123認識數(shù)據(jù)分類與處理分類統(tǒng)計數(shù)據(jù)處理目

錄4數(shù)據(jù)計算03單元三

數(shù)據(jù)處理一、分類統(tǒng)計的方法

數(shù)據(jù)清洗是指將數(shù)據(jù)表中多余、重復的數(shù)據(jù)篩選出來并刪除,將缺失、不完整的數(shù)據(jù)補充完整,將內(nèi)容、格式錯誤的數(shù)據(jù)糾正或剔除的操作行為。數(shù)據(jù)清洗是對數(shù)據(jù)進行重新審查和校驗的過程,目的在于提升數(shù)據(jù)的質(zhì)量,確保數(shù)據(jù)的準確性、完整性和一致性。缺失值清洗格式內(nèi)容清洗邏輯錯誤清洗重復數(shù)據(jù)清洗無價值數(shù)據(jù)清洗數(shù)據(jù)處理缺失值清洗數(shù)據(jù)集中某個或某些屬性的值是不完整的。缺失值產(chǎn)生的原因有些信息無法獲取,如在收集顧客婚姻狀況和工作信息時,未婚人士的配偶、未成年兒童的工作單位等都是無法獲取的信息。數(shù)據(jù)收集或者保存失敗造成數(shù)據(jù)缺失,如數(shù)據(jù)存儲的失敗、存儲器損壞、機械故障等。人為原因?qū)е碌哪承┬畔⒈贿z漏或刪除了。數(shù)據(jù)處理空值清洗打開原始數(shù)據(jù)表格,選中數(shù)據(jù)區(qū)域,在“開始”選項卡下的“編輯”功能組中單擊“查找和選擇”按鈕,點擊“定位條件”命令,在彈出的“定位條件”對話框中,選中“空值”,點擊“確定”后,所有的空值即可被一次性選中。1數(shù)據(jù)處理定位到空白值后,可以選擇“數(shù)據(jù)補齊”、“刪除記錄”或者“不處理”。如需數(shù)據(jù)補齊,則直接輸入需要補充的內(nèi)容,按“Ctrl+Enter”快捷鍵,進行批量填充。2數(shù)據(jù)處理錯誤標識符清洗######DIV/0!單元格中的數(shù)據(jù)超出了該單元格的寬度,或者單元格中的日期時間公式產(chǎn)生了一個負值進行公式運算時,除數(shù)使用了數(shù)值零、指向了空單元格或包含零值單元格的引用#VALUE!鍵入公式的方式錯誤,或者引用的單元格錯誤數(shù)據(jù)處理將鼠標定位在出現(xiàn)“I12”單元格中,在公式編輯欄中,修改原公式“=H12/E12”為“=IFERROR(H12/E12,"/")”1數(shù)據(jù)處理確認輸入后,“I12”單元格中的“#VALUE!”被修改為“/”,然后拖動“I12”單元格的填充柄,將其他發(fā)生錯誤的單元格進行填充修改2數(shù)據(jù)處理格式內(nèi)容清洗由于系統(tǒng)導出渠道或人為輸入習慣的原因,整合而來的原始數(shù)據(jù)往往不能做到格式統(tǒng)一,內(nèi)容上也容易出現(xiàn)空格?!坝唵蝿?chuàng)建時間”列出現(xiàn)了四種不同的表達方式,“物流公司”列的字符前面或中間存在空格,需要將其修正。數(shù)據(jù)處理選中“訂單創(chuàng)建時間”整列,右鍵打開彈出式菜單,點擊“設(shè)置單元格格式”選項,在彈出的“設(shè)置單元格格式”對話框中,選擇“數(shù)字”選項卡,點擊“日期”將其類型修改為圖1所示的樣式。點擊“確定”完成。1數(shù)據(jù)處理“物流公司”列數(shù)據(jù)中的空格可以使用“替換”一次性批量去除。選中數(shù)據(jù)區(qū)域,在“開始”選項卡下的“編輯”功能組中單擊“查找和選擇”按鈕,點擊“替換”命令,“查找內(nèi)容”輸入一個空格,“替換為”則不輸入任何內(nèi)容,點擊“全部替換”即可全部刪除表格中的空格。2數(shù)據(jù)處理邏輯錯誤清洗違反邏輯規(guī)律的要求和邏輯規(guī)則而產(chǎn)生的錯誤,一般使用邏輯推理就可以發(fā)現(xiàn)問題。123數(shù)據(jù)不合理數(shù)據(jù)自相矛盾數(shù)據(jù)不符合規(guī)則如客戶年齡500歲,或者消費金額為-100元,明顯不符合客觀事實。如客戶的出生年份是1980年,但年齡卻顯示18歲。如限購1件的商品,客戶的購買數(shù)量卻為3。數(shù)據(jù)處理“多彩橡皮泥套盒”商品的訂單表數(shù)據(jù)處理由于該商品限購1件,因此需要將“購買數(shù)量”大于1的記錄標注出來。選中“購買數(shù)量”列,選擇“開始”選項卡—“樣式”功能組—“條件格式”—“突出顯示單元格規(guī)格”—“大于”,在彈出的“大于”對話框中,填入數(shù)值“1”,點擊“確定”即可將錯誤數(shù)據(jù)標注出來。1數(shù)據(jù)處理同理,條件格式選擇“小于”即可將“買家實際支付金額”列的錯誤數(shù)據(jù)標注出來。2數(shù)據(jù)處理“簽收時間”應晚于“訂單創(chuàng)建時間”,否則該條記錄便屬于異常。選中“簽收時間”列,選擇“開始”選項卡—“樣式”功能組—“條件格式”—“突出顯示單元格規(guī)格”—“其他規(guī)則”,在彈出的“新建格式規(guī)則”中,規(guī)則類型選擇“使用公式確定要設(shè)置格式的單元格”,編輯規(guī)則為“=$M1<$J1”,設(shè)置格式為背景色黃色,點擊“確定”即可將錯誤數(shù)據(jù)標注出來。3數(shù)據(jù)處理重復數(shù)據(jù)清洗數(shù)據(jù)被重復、多次記錄。重復數(shù)據(jù)會影響數(shù)據(jù)處理結(jié)果的正確性,從而導致數(shù)據(jù)分析出現(xiàn)偏差,因此需要將其刪除。某店鋪類目結(jié)構(gòu)月表數(shù)據(jù)處理選中工作表中的數(shù)據(jù)區(qū)域,在“數(shù)據(jù)”選項卡下的“數(shù)據(jù)工具”功能組中,單擊“刪除重復項”,在彈出的“刪除重復項”對話框中,選擇要刪除的列,注意“統(tǒng)計日期”、“一級類目”、“二級類目”、“葉子類目”應同時選中,否則會產(chǎn)生誤刪。1數(shù)據(jù)處理單擊“確定”按鈕完成重復項刪除,Excel將顯示一條消息,指出有多少重復值被刪除,多少唯一值被保留。2數(shù)據(jù)處理無價值數(shù)據(jù)清洗

對本次數(shù)據(jù)統(tǒng)計或數(shù)據(jù)分析沒有產(chǎn)生作用的數(shù)據(jù),直接刪除對應的字段即可。但通常情況下,并不建議刪除。如果數(shù)據(jù)表過大,在匯報展示時用不到又影響操作,可以考慮備份后將其刪除。數(shù)據(jù)處理二、數(shù)據(jù)轉(zhuǎn)化

對數(shù)據(jù)的格式或結(jié)構(gòu)進行轉(zhuǎn)換,是數(shù)據(jù)處理的前期準備。數(shù)據(jù)轉(zhuǎn)化包括數(shù)據(jù)表的行列互換、文本數(shù)據(jù)提煉等。數(shù)據(jù)表的行列互換打開Excel數(shù)據(jù)表,選中目標內(nèi)容,按住“Ctrl+C”組合鍵進行復制。1數(shù)據(jù)處理選中要進行數(shù)據(jù)復制的單元格,點擊“開始”選項卡,在“剪貼板”功能組中單擊“粘貼”——“轉(zhuǎn)置”按鈕,即可讓選中的內(nèi)容進行行列互換,得到新數(shù)據(jù)表。2數(shù)據(jù)處理使用鍵盤快捷方式,按“Ctrl+Alt+V”快捷鍵會彈出對話框,勾選“轉(zhuǎn)置”復選框,即可實現(xiàn)轉(zhuǎn)置粘貼。數(shù)據(jù)處理文本數(shù)據(jù)提煉

在導入文本數(shù)據(jù)時,有時多項數(shù)據(jù)會顯示在同一單元格中,需要對數(shù)據(jù)進行提煉,使相同屬性的數(shù)據(jù)位于同一列中。數(shù)據(jù)處理文本數(shù)據(jù)的提煉涉及到文本函數(shù)的運用LEFT函數(shù),用于獲取字符串左邊指定個數(shù)的字符EFT函數(shù)的語法為:=LEFT(text,[num_chars]),其中text為要取得給定值的文本數(shù)據(jù)源,num_chars表示需要從左開始算提取幾個字符數(shù),其中每個字符按1計數(shù)。RIGHT函數(shù),用于獲取字符串右邊指定個數(shù)的字符RIGHT函數(shù)的語法為:=RIGHT(text,[num_chars]),其中text為要取得給定值的文本數(shù)據(jù)源,num_chars表示需要從右開始算提取幾個字符數(shù),其中每個字符按1計數(shù)。數(shù)據(jù)處理MID函數(shù),用于獲取字符串從指定位置開始指定個數(shù)的字符MID函數(shù)的語法為:=MID(text,start_num,num_chars),其中text為要取得給定值的文本數(shù)據(jù)源,start_num表示指定從第幾位開始提取,num_chars表示需要從指定位置開始算提取幾個字符數(shù),其中每個字符按1計數(shù)。數(shù)據(jù)處理現(xiàn)要將表格中的客戶姓名提煉出來,可以使用LEFT函數(shù),選定客戶姓名要放置的單元格,隨后點擊插入函數(shù)“fx”,選擇文本函數(shù),從中選取LEFT函數(shù),如圖。隨后分別輸入文本源和數(shù)值,如提取A1單元格中,從左開始的5個字符數(shù),如圖。點擊“確定”,完成姓名提取。1文本函數(shù)選取函數(shù)參數(shù)輸入姓名數(shù)據(jù)提煉數(shù)據(jù)處理接下來完成電話號碼的提煉,選取文本函數(shù)中的MID函數(shù),如圖。電話號碼是從第6位字符開始的,需要提取11位字符,輸入?yún)?shù),如圖。點擊確定,即可完成電話號碼的提煉,如圖。2文本函數(shù)選取函數(shù)參數(shù)輸入姓名數(shù)據(jù)提煉數(shù)據(jù)處理提取訂單號,選取文本函數(shù)中的RIGHT函數(shù),訂單號為從右開始的18個字符,輸入函數(shù)參數(shù),如圖。點擊確定,即可完成訂單號的提煉,如圖。3函數(shù)參數(shù)輸入訂單號提煉數(shù)據(jù)處理數(shù)據(jù)類型的轉(zhuǎn)換數(shù)值轉(zhuǎn)字符在Excel輸入數(shù)據(jù)的時候,會默認使用數(shù)值型數(shù)據(jù),若是數(shù)字太長,會變成科學計數(shù)法,不利于查看數(shù)據(jù)在Excel中打開數(shù)據(jù)表,選擇要轉(zhuǎn)換的數(shù)字所在的單元格,隨后單擊“數(shù)據(jù)”選項卡中的“分列”按鈕,在文本分列向?qū)е?,使用默認設(shè)置,連續(xù)點擊下一步,完成第1步和第2步的設(shè)置。1數(shù)據(jù)處理進入文本分列向?qū)У?步,單擊“列數(shù)據(jù)格式”下的文本,點擊“完成”即可完成設(shè)置。2設(shè)置完成后,返回Excel數(shù)據(jù)表,數(shù)據(jù)前有小三角符號,代表已轉(zhuǎn)換成功。3數(shù)據(jù)處理字符轉(zhuǎn)數(shù)值在進行數(shù)據(jù)統(tǒng)計時,有時獲取的原始數(shù)據(jù)是以文本字符形式展現(xiàn)的。雖然不影響數(shù)據(jù)展現(xiàn),但無法進行計算。數(shù)據(jù)處理參考數(shù)值轉(zhuǎn)文本字符的方法,但在第三步選擇“列數(shù)據(jù)格式”時,勾選“常規(guī)”,點擊“完成”即可完成轉(zhuǎn)換。直接選中要轉(zhuǎn)換的數(shù)據(jù)列,點擊數(shù)據(jù)列前出現(xiàn)的提醒符號,在給出的選項中點擊“轉(zhuǎn)換為數(shù)據(jù)”,即可將文本型字符轉(zhuǎn)換為數(shù)值。數(shù)據(jù)處理文本日期轉(zhuǎn)標準日期在Excel中打開數(shù)據(jù)列表,選中為文本格式的日期信息,隨后單擊“數(shù)據(jù)”選項卡中的“分列”,在文本分列向?qū)е校褂媚J設(shè)置,連續(xù)點擊下一步,完成第1步和第2步的設(shè)置,進入第3步后,在列數(shù)據(jù)格式選擇“日期”,在其下拉列表中選擇“YMD”選項,如圖。點擊“完成”后,即可完成標準日期的轉(zhuǎn)換,如圖。1設(shè)定列數(shù)據(jù)格式完成日期的轉(zhuǎn)換數(shù)據(jù)處理轉(zhuǎn)換后的月份和日期都是單數(shù)顯示,想要轉(zhuǎn)換成雙數(shù),可以打開“設(shè)置單元格格式”對話框,在設(shè)置頁面選擇分類為“自定義”,右面的類型設(shè)置為“yyyy-mm-dd”,設(shè)置完成后點擊“確定”按鈕,即可完成日期雙數(shù)的設(shè)置。2數(shù)據(jù)處理簡單排序簡單排序高級排序自定義排序針對單列數(shù)據(jù)進行的快速排序,即只有一個關(guān)鍵字段。圖是某網(wǎng)店無線端推廣的流量匯總表,下面將以表中數(shù)據(jù)為例,采用從高到低(即降序)的方式,快速找到帶來訪客數(shù)最多的流量來源。數(shù)據(jù)處理三、數(shù)據(jù)排序選中需要排序的列“訪客數(shù)”,在“數(shù)據(jù)”選項卡下的“排序和篩選”功能組中單擊“降序”按鈕,在彈出的“排序提醒”對話框中,選擇排序依據(jù),這里選擇“擴展選定區(qū)域”。1數(shù)據(jù)處理排序完成,即可得到該網(wǎng)店無線端推廣的效果排行,如圖。從表中數(shù)據(jù)可以得出,智鉆引流效果最好。2數(shù)據(jù)處理高級排序“訪客數(shù)”從高到低排列引入第二關(guān)鍵字。即修改“某網(wǎng)店無線端推廣的流量匯總表”的排序條件為:按“訪客數(shù)”降序排列,在“訪客數(shù)”相同的情況下按“下單買家數(shù)”降序排列。數(shù)據(jù)處理在“排序”對話框中,“主要關(guān)鍵字”選擇“訪客數(shù)”,“排序依據(jù)”選擇“數(shù)值”,“次序”選擇“降序”。1數(shù)據(jù)處理單擊“添加條件”按鈕,新增次要關(guān)鍵字,設(shè)置參數(shù)為“下單買家數(shù)”、“數(shù)值”、“降序”,排序結(jié)果如圖。2數(shù)據(jù)處理自定義排序在進行自定義排序時,必須先建立需要排序的自定義序列項目,然后才能根據(jù)設(shè)置的自定義序列對表格進行排序。以圖所示的數(shù)據(jù)表為例,對其按照“流量分類”進行排序。數(shù)據(jù)處理選擇“文件”選項卡下的“選項”命令,彈出“Excel選項”對話框,在“高級”標簽下,找到“常規(guī)”欄目,單擊“編輯自定義列表”按鈕。1數(shù)據(jù)處理在彈出的“自定義序列”對話框中,輸入序列,單擊“添加”按鈕,將其添加到自定義序列中,點擊“確定”按鈕完成。2數(shù)據(jù)處理返回Excel文檔中,在“數(shù)據(jù)”選項卡下的“排序和篩選”功能組中單擊“降序”按鈕,彈出“排序”對話框,“主要關(guān)鍵字”選擇“來源分類”,“排序依據(jù)”選擇“數(shù)值”,“次序”選擇“自定義序

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論