大數(shù)據(jù)財(cái)務(wù)分析課件 3.2Python 數(shù)據(jù)清洗_第1頁
大數(shù)據(jù)財(cái)務(wù)分析課件 3.2Python 數(shù)據(jù)清洗_第2頁
大數(shù)據(jù)財(cái)務(wù)分析課件 3.2Python 數(shù)據(jù)清洗_第3頁
大數(shù)據(jù)財(cái)務(wù)分析課件 3.2Python 數(shù)據(jù)清洗_第4頁
大數(shù)據(jù)財(cái)務(wù)分析課件 3.2Python 數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)財(cái)務(wù)分析愛崗敬業(yè)誠實(shí)守信堅(jiān)持準(zhǔn)則提高技能廉潔自律客觀公正參與管理強(qiáng)化服務(wù)項(xiàng)目三數(shù)據(jù)清洗與處理任務(wù)二Python數(shù)據(jù)清洗愛崗敬業(yè)誠實(shí)守信一、重復(fù)值處理對(duì)于重復(fù)值的處理,首先可以先檢驗(yàn)是否存在重復(fù)值,然后再將重復(fù)值刪除。Pandas提供了兩個(gè)專門處理重復(fù)值的函數(shù),分別是duplicated()函數(shù)和drop_duplicated()函數(shù).duplicated():查找重復(fù)項(xiàng)drop_duplicates():刪除重復(fù)項(xiàng)愛崗敬業(yè)誠實(shí)守信一、重復(fù)值處理duplicated()函數(shù):用于查找重復(fù)值,返回布爾值,將重復(fù)項(xiàng)標(biāo)記為True,非重復(fù)項(xiàng)目標(biāo)記為False.DataFrame.duplicated(subset=None,keep=‘first’)Subset:根據(jù)特定列識(shí)別重復(fù)項(xiàng),默認(rèn)使用所有列Keep:確定要標(biāo)記的重復(fù)項(xiàng),可選’first’、’last’、False,默認(rèn)為’first’,表示標(biāo)記除第一次出現(xiàn)的重復(fù)項(xiàng),’last’表示標(biāo)記除最后一次出現(xiàn)的重復(fù)項(xiàng),F(xiàn)alse表示標(biāo)記所有重復(fù)項(xiàng)。廉潔自律客觀公正一、重復(fù)值處理drop_duplicates()函數(shù):返回刪除重復(fù)行的DataFrame.其語法如下:DataFrame.drop_duplicates(subset=None,keep=‘first’,inplace=False,ignore_index=False)Subset:根據(jù)特定列識(shí)別重復(fù)項(xiàng),默認(rèn)使用所用列Keep:確定要保留的重復(fù)項(xiàng),可選可選’first’、’last’、False,默認(rèn)為’first’,表示保留第一次出現(xiàn)的重復(fù)項(xiàng),’last’表示保留最后一次出現(xiàn)的重復(fù)項(xiàng),F(xiàn)alse表示刪除所有重復(fù)項(xiàng)。Inplace:默認(rèn)為False,True表示直接在原數(shù)據(jù)上刪除ignore_index:重建索引,默認(rèn)為False.廉潔自律客觀公正一、重復(fù)值處理duplicated()和drop_duplicates()函數(shù)判斷標(biāo)準(zhǔn)和邏輯是一樣的,在數(shù)據(jù)清洗時(shí),可直接使用drop_duplicates()函數(shù)來處理重復(fù)值。堅(jiān)持準(zhǔn)則提高技能二、缺失值處理和重復(fù)值的處理一樣,在處理缺失值之前可以先檢驗(yàn)缺失值數(shù)量,然后根據(jù)數(shù)據(jù)分析要求,選擇以下常用方法進(jìn)行處理:(1)刪除數(shù)據(jù):根據(jù)缺失比例刪除行、列;(2)使用默認(rèn)值填充:可用空字符串或數(shù)值0替換;(3)使用估算值填充:采用中位數(shù)、平均數(shù)、眾數(shù)等替換;處理缺失值的函數(shù)如下:dropna()函數(shù):刪除缺失值Fillna()函數(shù):使用指定的方法填充NA/NaN值。參與管理強(qiáng)化服務(wù)二、缺失值處理dropna()函數(shù):刪除缺失值.其語法如下:DataFrame.dropna(axis=0,how=‘a(chǎn)ny’,thresh=None,subset=None,inplace=False)其中,axis,默認(rèn)axis=0,表示刪除包含缺失值的的行,axis=1,表示刪除包含缺失值的列How,默認(rèn)how=‘a(chǎn)ny’表示刪除含有缺失值的所有行或列,how=‘a(chǎn)ll’表示刪除全為缺失值的行業(yè)或列thresh:int,保留還能有int個(gè)非空值的行、列subset:對(duì)特定列進(jìn)行缺失值刪除Inplace:默認(rèn)為False,True表示直接在原數(shù)據(jù)上更改愛崗敬業(yè)誠實(shí)守信二、缺失值處理Fillna()函數(shù):使用指定的方法填充NA/NaN值。其語法如下:DataFrame.fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None)Value:用于填充的值:數(shù)值、字符串、變量、字典、series、DataFrame,不能使用列表Method:填充方法:{‘backfill’,’bfill’,’pad’,’ffill’,None},默認(rèn)為None,指定填充值,pad/ffill表示用前一個(gè)非缺失值填充,backfill/bfill表示用后一個(gè)非缺失值填充axis:填充缺失值所沿的軸,默認(rèn)為NoneInplace:默認(rèn)為False,True表示直接在原數(shù)據(jù)上填充Limit:限制填充次數(shù)廉潔自律客觀公正三、任務(wù)實(shí)戰(zhàn)任務(wù)四利用大數(shù)據(jù)技術(shù)清洗數(shù)據(jù)表中以下內(nèi)容:1.數(shù)據(jù)表中的“空格”;2.數(shù)據(jù)表中的“-”操作步驟:1.將表中的值為“-”替換為0;2.將表格中值為“空格”替換為03.將清洗結(jié)果保存至excel文件。堅(jiān)持準(zhǔn)則提高技能三、任務(wù)實(shí)戰(zhàn)任務(wù)五利用大數(shù)據(jù)技術(shù)清洗數(shù)據(jù)表中產(chǎn)品名稱字段中的“/\|”.操作步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論