數(shù)據(jù)清洗方法_第1頁
數(shù)據(jù)清洗方法_第2頁
數(shù)據(jù)清洗方法_第3頁
數(shù)據(jù)清洗方法_第4頁
數(shù)據(jù)清洗方法_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)清洗方法第1頁,共23頁,2023年,2月20日,星期五一、數(shù)據(jù)清洗工作流程第2頁,共23頁,2023年,2月20日,星期五(一)必錄項及重要指標項空缺(二)指標值異常(三)指標值之間邏輯關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常(五)貧困戶、貧困人口重復(fù)二、數(shù)據(jù)清洗內(nèi)容第3頁,共23頁,2023年,2月20日,星期五

(一)必錄項及重要指標項空缺1.貧困戶識別標準為空2.貧困戶屬性為空3.主要致貧原因為空4.脫貧狀態(tài)標識為空5.行政區(qū)劃為空6.證件號碼為空三、數(shù)據(jù)清洗規(guī)則第4頁,共23頁,2023年,2月20日,星期五

(一)必錄項及重要指標項空缺7.文化程度為空8.健康狀況為空9.勞動技能為空10.務(wù)工狀況為空11.在校生情況為空……三、數(shù)據(jù)清洗規(guī)則第5頁,共23頁,2023年,2月20日,星期五

(二)指標值異常1.證件號碼不符合校驗規(guī)則2.其他致貧原因超過兩項3.出生日期與身份證號中的出生日期不符

三、數(shù)據(jù)清洗規(guī)則第6頁,共23頁,2023年,2月20日,星期五

(二)指標值異常4.務(wù)工時間不符合指標采集規(guī)范

5.人均純收入為0或超5位數(shù)

6.與村主干路距離超過50公里……三、數(shù)據(jù)清洗規(guī)則第7頁,共23頁,2023年,2月20日,星期五

(三)指標值之間邏輯關(guān)系異常1.務(wù)工狀況為“非務(wù)工”,務(wù)工時間不為0

2.貧困戶無務(wù)工人員,卻有工資性收入

3.貧困人口喪勞,有外出務(wù)工情況

三、數(shù)據(jù)清洗規(guī)則第8頁,共23頁,2023年,2月20日,星期五

(三)指標值之間邏輯關(guān)系異常4.年收入邏輯關(guān)系異常

5.人均純收入邏輯關(guān)系異常

6.低保貧困戶無低保金三、數(shù)據(jù)清洗規(guī)則第9頁,共23頁,2023年,2月20日,星期五

(三)指標值之間邏輯關(guān)系異常7.“與戶主關(guān)系”和“性別”不符

8.貧困戶“家庭人數(shù)”與實際人口數(shù)不符

9.貧困戶存在多個戶主

10.殘疾人無殘疾證

三、數(shù)據(jù)清洗規(guī)則第10頁,共23頁,2023年,2月20日,星期五

(四)業(yè)務(wù)邏輯關(guān)系異常1.貧困戶家庭無在校生,主要致貧原因為“因?qū)W”

2.貧困戶家庭無殘疾人,主要致貧原因為“因殘”3.貧困戶家庭成員健康狀況全部為“健康”,

主要致貧原因為“因病”。三、數(shù)據(jù)清洗規(guī)則第11頁,共23頁,2023年,2月20日,星期五

(四)業(yè)務(wù)邏輯關(guān)系異常4.返貧戶在上一年度貧困戶屬性非“已脫貧”5.貧困戶空掛7.脫貧戶人均純收入低于國家貧困標準8.年齡在16-60周歲的健康人口勞動能力為“喪勞”9.五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在16-60周歲的勞動力

三、數(shù)據(jù)清洗規(guī)則第12頁,共23頁,2023年,2月20日,星期五

(五)貧困戶、貧困人口重復(fù)

(1)姓名不一致,如:王思妍,王恩妍

(2)性別不一致

(3)文化程度不一致

(4)……

三、數(shù)據(jù)清洗規(guī)則第13頁,共23頁,2023年,2月20日,星期五

(五)貧困戶、貧困人口重復(fù)(5)多省交界處,戶籍地混亂

三、數(shù)據(jù)清洗規(guī)則第14頁,共23頁,2023年,2月20日,星期五(6)僅“識別標準”不同

(7)僅“家庭人員數(shù)量”不同

(8)家庭成員互為戶主

(9)拆戶分戶情況

(10)嫁娶、改嫁,戶口遷移情況三、數(shù)據(jù)清洗規(guī)則第15頁,共23頁,2023年,2月20日,星期五

(一)后臺批量處理

1.指標值含有空字符2.指標值含有特殊字符3.非指標體系代碼選項4.指標值間存在邏輯關(guān)系,

如錯誤出生日期可從正確身份證中提取

并做更新處理四、數(shù)據(jù)清洗策略第16頁,共23頁,2023年,2月20日,星期五

(二)前臺核實修改1.提取待清洗數(shù)據(jù)逐級下發(fā)2.基層扶貧部門核實修改(三)前臺采集補錄1.將應(yīng)填未填項逐級下發(fā)2.基層扶貧部門采集錄入四、數(shù)據(jù)清洗策略第17頁,共23頁,2023年,2月20日,星期五

(一)清洗內(nèi)容1.證件號碼重復(fù)2.證件號碼有誤3.證件類型值異常4.證件類型與證件號碼不符五、證件號碼清洗報告第18頁,共23頁,2023年,2月20日,星期五

(二)清洗規(guī)則1.證件號碼重復(fù)2.證件號碼包含空字符3.證件號碼位數(shù)非15、18、20位4.18位身份證是否符合校驗規(guī)則5.20位殘疾證是否符合校驗位及殘疾類型、等級規(guī)則6.證件類型為空或非指標體系代碼項7.證件類型與證件號碼不符五、證件號碼清洗報告第19頁,共23頁,2023年,2月20日,星期五(五)清洗策略

1.證件號碼清洗(1)證件號碼重復(fù)的,提取問題數(shù)據(jù)并提供修改建議,逐級下發(fā),由基層扶貧部門核實后在前臺修改

(2)證件號碼未采集的(空值),將問題數(shù)據(jù)逐級下發(fā),由基層扶貧部門進行前臺采集補錄(3)證件號碼包含空字符的,首先從后臺批量剔除空字符,然后再進行一輪數(shù)據(jù)清洗處理

五、證件號碼清洗報告第20頁,共23頁,2023年,2月20日,星期五(五)清洗策略

1.證件號碼清洗(4)非15、18、20位的證件號碼,除中國人民解放軍軍官證以外,其他證件類型的證件號碼,提取問題數(shù)據(jù)逐級下發(fā),前臺核實修改(5)15位證件號碼,需升級為18位,將問題數(shù)據(jù)逐級下發(fā),前臺采集補錄

五、證件號碼清洗報告第21頁,共23頁,2023年,2月20日,星期五(五)清洗策略

1.證件號碼清洗(6)對于證件號碼為18、20位的錯誤數(shù)據(jù),證件號碼中第18位校驗碼應(yīng)為“X”,但原采集錄入為“x、全角X、*、×”等字符的,可通過后臺批量處理,統(tǒng)一替換為英文半角大寫X;其他情況需提取問題數(shù)據(jù)逐級下發(fā),由基層扶貧部門核實后在前臺修改五、證件號碼清洗報告第22頁,共23頁,2023年,2月20日,星期五(五)清洗策略

2.證件類型清洗(1)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論