版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)清洗方法第1頁,共23頁,2023年,2月20日,星期五一、數(shù)據(jù)清洗工作流程第2頁,共23頁,2023年,2月20日,星期五(一)必錄項及重要指標項空缺(二)指標值異常(三)指標值之間邏輯關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常(五)貧困戶、貧困人口重復(fù)二、數(shù)據(jù)清洗內(nèi)容第3頁,共23頁,2023年,2月20日,星期五
(一)必錄項及重要指標項空缺1.貧困戶識別標準為空2.貧困戶屬性為空3.主要致貧原因為空4.脫貧狀態(tài)標識為空5.行政區(qū)劃為空6.證件號碼為空三、數(shù)據(jù)清洗規(guī)則第4頁,共23頁,2023年,2月20日,星期五
(一)必錄項及重要指標項空缺7.文化程度為空8.健康狀況為空9.勞動技能為空10.務(wù)工狀況為空11.在校生情況為空……三、數(shù)據(jù)清洗規(guī)則第5頁,共23頁,2023年,2月20日,星期五
(二)指標值異常1.證件號碼不符合校驗規(guī)則2.其他致貧原因超過兩項3.出生日期與身份證號中的出生日期不符
三、數(shù)據(jù)清洗規(guī)則第6頁,共23頁,2023年,2月20日,星期五
(二)指標值異常4.務(wù)工時間不符合指標采集規(guī)范
5.人均純收入為0或超5位數(shù)
6.與村主干路距離超過50公里……三、數(shù)據(jù)清洗規(guī)則第7頁,共23頁,2023年,2月20日,星期五
(三)指標值之間邏輯關(guān)系異常1.務(wù)工狀況為“非務(wù)工”,務(wù)工時間不為0
2.貧困戶無務(wù)工人員,卻有工資性收入
3.貧困人口喪勞,有外出務(wù)工情況
三、數(shù)據(jù)清洗規(guī)則第8頁,共23頁,2023年,2月20日,星期五
(三)指標值之間邏輯關(guān)系異常4.年收入邏輯關(guān)系異常
5.人均純收入邏輯關(guān)系異常
6.低保貧困戶無低保金三、數(shù)據(jù)清洗規(guī)則第9頁,共23頁,2023年,2月20日,星期五
(三)指標值之間邏輯關(guān)系異常7.“與戶主關(guān)系”和“性別”不符
8.貧困戶“家庭人數(shù)”與實際人口數(shù)不符
9.貧困戶存在多個戶主
10.殘疾人無殘疾證
三、數(shù)據(jù)清洗規(guī)則第10頁,共23頁,2023年,2月20日,星期五
(四)業(yè)務(wù)邏輯關(guān)系異常1.貧困戶家庭無在校生,主要致貧原因為“因?qū)W”
2.貧困戶家庭無殘疾人,主要致貧原因為“因殘”3.貧困戶家庭成員健康狀況全部為“健康”,
主要致貧原因為“因病”。三、數(shù)據(jù)清洗規(guī)則第11頁,共23頁,2023年,2月20日,星期五
(四)業(yè)務(wù)邏輯關(guān)系異常4.返貧戶在上一年度貧困戶屬性非“已脫貧”5.貧困戶空掛7.脫貧戶人均純收入低于國家貧困標準8.年齡在16-60周歲的健康人口勞動能力為“喪勞”9.五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在16-60周歲的勞動力
三、數(shù)據(jù)清洗規(guī)則第12頁,共23頁,2023年,2月20日,星期五
(五)貧困戶、貧困人口重復(fù)
(1)姓名不一致,如:王思妍,王恩妍
(2)性別不一致
(3)文化程度不一致
(4)……
三、數(shù)據(jù)清洗規(guī)則第13頁,共23頁,2023年,2月20日,星期五
(五)貧困戶、貧困人口重復(fù)(5)多省交界處,戶籍地混亂
三、數(shù)據(jù)清洗規(guī)則第14頁,共23頁,2023年,2月20日,星期五(6)僅“識別標準”不同
(7)僅“家庭人員數(shù)量”不同
(8)家庭成員互為戶主
(9)拆戶分戶情況
(10)嫁娶、改嫁,戶口遷移情況三、數(shù)據(jù)清洗規(guī)則第15頁,共23頁,2023年,2月20日,星期五
(一)后臺批量處理
1.指標值含有空字符2.指標值含有特殊字符3.非指標體系代碼選項4.指標值間存在邏輯關(guān)系,
如錯誤出生日期可從正確身份證中提取
并做更新處理四、數(shù)據(jù)清洗策略第16頁,共23頁,2023年,2月20日,星期五
(二)前臺核實修改1.提取待清洗數(shù)據(jù)逐級下發(fā)2.基層扶貧部門核實修改(三)前臺采集補錄1.將應(yīng)填未填項逐級下發(fā)2.基層扶貧部門采集錄入四、數(shù)據(jù)清洗策略第17頁,共23頁,2023年,2月20日,星期五
(一)清洗內(nèi)容1.證件號碼重復(fù)2.證件號碼有誤3.證件類型值異常4.證件類型與證件號碼不符五、證件號碼清洗報告第18頁,共23頁,2023年,2月20日,星期五
(二)清洗規(guī)則1.證件號碼重復(fù)2.證件號碼包含空字符3.證件號碼位數(shù)非15、18、20位4.18位身份證是否符合校驗規(guī)則5.20位殘疾證是否符合校驗位及殘疾類型、等級規(guī)則6.證件類型為空或非指標體系代碼項7.證件類型與證件號碼不符五、證件號碼清洗報告第19頁,共23頁,2023年,2月20日,星期五(五)清洗策略
1.證件號碼清洗(1)證件號碼重復(fù)的,提取問題數(shù)據(jù)并提供修改建議,逐級下發(fā),由基層扶貧部門核實后在前臺修改
(2)證件號碼未采集的(空值),將問題數(shù)據(jù)逐級下發(fā),由基層扶貧部門進行前臺采集補錄(3)證件號碼包含空字符的,首先從后臺批量剔除空字符,然后再進行一輪數(shù)據(jù)清洗處理
五、證件號碼清洗報告第20頁,共23頁,2023年,2月20日,星期五(五)清洗策略
1.證件號碼清洗(4)非15、18、20位的證件號碼,除中國人民解放軍軍官證以外,其他證件類型的證件號碼,提取問題數(shù)據(jù)逐級下發(fā),前臺核實修改(5)15位證件號碼,需升級為18位,將問題數(shù)據(jù)逐級下發(fā),前臺采集補錄
五、證件號碼清洗報告第21頁,共23頁,2023年,2月20日,星期五(五)清洗策略
1.證件號碼清洗(6)對于證件號碼為18、20位的錯誤數(shù)據(jù),證件號碼中第18位校驗碼應(yīng)為“X”,但原采集錄入為“x、全角X、*、×”等字符的,可通過后臺批量處理,統(tǒng)一替換為英文半角大寫X;其他情況需提取問題數(shù)據(jù)逐級下發(fā),由基層扶貧部門核實后在前臺修改五、證件號碼清洗報告第22頁,共23頁,2023年,2月20日,星期五(五)清洗策略
2.證件類型清洗(1)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海技術(shù)服務(wù)合同的賠償范圍
- 標準全款購房合同格式
- 網(wǎng)店服務(wù)合同的權(quán)益保護
- 項目服務(wù)合同范式
- 電纜購銷協(xié)議樣本
- 標準招標文件的流程
- 簡單耗材采購合同格式
- 學(xué)生犯錯保證書撰寫要點
- 商業(yè)服務(wù)合同的物聯(lián)網(wǎng)整合
- 房產(chǎn)貸款抵押合同范本
- 憲法知到章節(jié)答案智慧樹2023年海南政法職業(yè)學(xué)院
- 水資源利用與保護智慧樹知到答案章節(jié)測試2023年山東建筑大學(xué)
- 新員工銷售心態(tài)培訓(xùn)
- OECD 太空經(jīng)濟規(guī)模衡量手冊 -OECD Handbook on Measuring the Space Economy
- 青海邦牧生物科技有限公司 微生物發(fā)酵飼料及水溶肥料生產(chǎn)線建設(shè)項目環(huán)評報告
- 小學(xué)學(xué)生成長中心工作措施
- RF基礎(chǔ)與測量-2007版本-2
- PE管熱熔焊接記錄
- 傳染病報告卡艾滋病性病附卡
- HY/T 0349-2022海洋碳匯核算方法
- 2023年遼寧職業(yè)學(xué)院高職單招(語文)試題庫含答案解析
評論
0/150
提交評論