版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)預處理學習完本課程后,你將能夠:1.
掌握什么是數(shù)據(jù)預處理、預處理的基本方法2.
了解數(shù)據(jù)常見抽樣方法3.了解什么是數(shù)據(jù)標準化、歸一化及其方法4.掌握數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗包含哪些內(nèi)容5.了解特征工程的相關(guān)知識課程目標課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5特征工程數(shù)據(jù)預處理概述在工程實踐中,我們得到的數(shù)據(jù)會存在有缺失值、重復值等,在使用之前需要進行數(shù)據(jù)預處理。數(shù)據(jù)預處理沒有標準的流程,通常針對不同的任務和數(shù)據(jù)集屬性的不同而處理不同。我們通常認為的數(shù)據(jù)預處理是這樣子的:但它還遠不夠系統(tǒng)化!~~刪除重復值刪除補全空缺值刪除更正異常值數(shù)據(jù)統(tǒng)一更正不一致數(shù)據(jù)數(shù)據(jù)統(tǒng)一更正非法值數(shù)據(jù)歸一化正則化無量綱化數(shù)據(jù)預處理概述數(shù)據(jù)預處理還往往包括數(shù)據(jù)抽樣、數(shù)據(jù)標準化及歸一化、數(shù)據(jù)質(zhì)量提升與數(shù)據(jù)清洗等環(huán)節(jié)與任務。數(shù)據(jù)抽樣數(shù)據(jù)標準化及歸一化數(shù)據(jù)質(zhì)量提升與數(shù)據(jù)清洗課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣2.1什么是數(shù)據(jù)抽樣2.2為什么要進行數(shù)據(jù)抽樣2.3數(shù)據(jù)抽樣的方法和原理3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程什么是數(shù)據(jù)抽樣數(shù)據(jù)抽樣,就是針對特定問題,從整體數(shù)據(jù)中抽取出來一部分有代表性的數(shù)據(jù),并把這些數(shù)據(jù)作為樣本數(shù)據(jù)的過程。特定問題的全量數(shù)據(jù)集選出來的有一定代表性的樣本數(shù)據(jù)數(shù)據(jù)抽樣過程一系列方法和工具待解決的特定問題課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣2.1什么是數(shù)據(jù)抽樣2.2為什么要進行數(shù)據(jù)抽樣2.3數(shù)據(jù)抽樣的方法和原理3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程為什么要進行數(shù)據(jù)抽樣對數(shù)據(jù)分析而言,在數(shù)據(jù)采集階段,往往需要針對研究的問題選擇一些的好樣本來進行研究,進而通過樣本情況來對整體數(shù)據(jù)做進一步判斷。針對研究的問題針對調(diào)查成本與估計精度好的樣本不同問題:樣本要求千差萬別如果研究顧客滿意度,樣本需要來自該產(chǎn)品的用戶;如果研究消費滿意度,樣本需要取自所有潛在購買者。在成本與估計精度間尋最佳性價比比如航天器中精密儀器主軸加工精度的要求與制作香腸要求的精度不同;比如對投資股票收益率的估計和對電視節(jié)目收視率的估計精度要求不同。課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣2.1什么是數(shù)據(jù)抽樣2.2為什么要進行數(shù)據(jù)抽樣2.3數(shù)據(jù)抽樣的方法和原理3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程數(shù)據(jù)抽樣的方法和原理隨機抽樣系統(tǒng)抽樣分層抽樣加權(quán)抽樣整群抽樣抽樣的隨機性一般來說,設(shè)一個總體含有N個個體,從中逐個不放回地抽取n個個體作為樣本(n≤N),如果每次抽取使總體內(nèi)的各個個體被抽到的機會都相等,就把這種抽樣方法叫作簡單隨機抽樣。從抽樣的隨機性上來看,抽樣可以分為隨機抽樣、系統(tǒng)抽樣、分層抽樣、加權(quán)抽樣和整群抽樣。數(shù)據(jù)抽樣的方法和原理隨機抽樣
建立抽樣框架獲取隨機樣本。適用場景:常常用于總體個數(shù)較少時主要特征:從總體中逐個抽取優(yōu)點:操作簡便易行缺點:在樣本總體過大時不易實行抽簽法1隨機數(shù)法2水塘抽樣3主要方法系統(tǒng)抽樣當總體中的個數(shù)較多時,采用簡單隨機抽樣效率低下。這時,可將總體分成均衡的幾個部分,然后按照預先寫出的規(guī)則,從每一部分抽取一個個體,得到所需要的樣本,這種抽樣叫作系統(tǒng)抽樣。假設(shè)要從容量為N的總體中抽取容量為n的樣本,可按下列步驟進行抽樣:1先將總體的N個個體編號。有時可直接利用個體自身所帶的號碼進行編號,如學號、準考證號、門牌號等。2確定分段間隔k,對編號進行分段。當N/n是整數(shù)時,取k=N/n。3在第一段用簡單隨機抽樣確定第一個個體編號l(l≤k)。4按照一定的規(guī)則抽取樣本。通常是將l加上間隔k得到第2個個體編號(l+k),再加k得到第3個個體編號(l+2k),依次進行下去,直到獲取整個樣本。數(shù)據(jù)抽樣的方法和原理數(shù)據(jù)抽樣分層抽樣分層抽樣法也叫類型抽樣法。它是從一個可以分成不同子總體(或稱為層)的總體中,按規(guī)定的比例從不同層中隨機抽取樣品(個體)的方法。一般地,在抽樣時,將總體分成互不交叉的層,然后按照一定的比例,從各層獨立地抽取一定數(shù)量的個體,將各層取出的個體合在一起作為樣本,則這種抽樣方法是一種分層抽樣。分層抽樣的主要特征是分層按比例抽樣,主要使用于總體中的個體有明顯差異的情況。其和隨機抽樣的共同點是,每個個體被抽到的概率都相等,為N/M。這種方法的優(yōu)點是,樣本的代表性比較好,抽樣誤差比較小。缺點是抽樣手續(xù)較簡單隨機抽樣還要繁雜些。數(shù)據(jù)抽樣的方法和原理整群抽樣將總體中各單位歸并成若干個互不交叉、互不重復的集合,稱為群,然后以群為抽樣單位抽取樣本的一種抽樣方式。應用整群抽樣時,要求各群有較好的代表性,即群內(nèi)各單位的差異要大,群間差異要小。實施方便,節(jié)省經(jīng)費優(yōu)點由于不同群間差異較大,由此引起的抽樣誤差往往大于簡單隨機抽樣缺點抽樣過程確定分群的標注將總體(N)分成若干個互不重疊的部分,每個部分為一個群。根據(jù)各群樣本量,確定應該抽取的群數(shù)。用簡單隨機抽樣或系統(tǒng)抽樣方法,從i群中抽取確定的群數(shù)。數(shù)據(jù)抽樣的方法和原理整群抽樣與分層抽樣的比較分層抽樣要求各層之間的差異很大,層內(nèi)個體或單元差異小,而整群抽樣要求群與群之間的差異比較小,群內(nèi)個體或單元差異大。整體與局部的角度分層抽樣的樣本是從每個層內(nèi)抽取若干單元或個體構(gòu)成,而整群抽樣則是要么整群抽取,要么整群不被抽取。樣本的角度數(shù)據(jù)抽樣的方法和原理加權(quán)抽樣加權(quán),是通過對總體中的各個樣本設(shè)置不同的數(shù)值系數(shù)(即權(quán)值),使樣本呈現(xiàn)希望的相對重要性程度。加權(quán)方法因子加權(quán)目標加權(quán)對滿足特定變量或指標的所有樣本賦予一個權(quán)值,通常用于提高樣本中具有某種特性的被訪問者的重要性對某一特定樣本組賦權(quán),以達到預期的特定目標。課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化3.1什么是數(shù)據(jù)標準化及歸一化3.2為什么要進行數(shù)據(jù)標準化及歸一化3.3數(shù)據(jù)標準化及歸一化的原理與方法4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程什么是標準化數(shù)據(jù)的標準化是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。在進行數(shù)據(jù)分析時,由于數(shù)據(jù)的各個屬性(特征)度量單位是不同的,為了使所有屬性(特征)都能夠參與模型(算法)計算,需要對屬性(特征)進行規(guī)范化處理,通過函數(shù)變換將其數(shù)值都落在某個數(shù)值區(qū)間。舉例:標準化之前的數(shù)據(jù)標準化之后的數(shù)據(jù)標準化方法10數(shù)據(jù)范圍在0-1區(qū)間100200008000101數(shù)據(jù)范圍在1-10區(qū)間5010數(shù)據(jù)范圍在10-50區(qū)間什么是歸一化歸一化是把數(shù)據(jù)變成(0,1)或(-1,1)之間的小數(shù),主要是為了數(shù)據(jù)處理方便提出來的,把數(shù)據(jù)映射到0~1或-1~1范圍之內(nèi)處理,目的是使算法處理更加便捷快速,即把有量綱表達式變?yōu)闊o量綱表達式,成為純量。舉例:歸一化之前的數(shù)據(jù)歸一化之后的數(shù)據(jù)歸一化方法10數(shù)據(jù)范圍在0-1之間100200008000課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化3.1什么是數(shù)據(jù)標準化及歸一化3.2為什么要進行數(shù)據(jù)標準化及歸一化3.3數(shù)據(jù)標準化及歸一化的原理與方法4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程為什么要進行數(shù)據(jù)標準化及歸一化消除數(shù)據(jù)量綱與量級不同帶來的影響歸一化:不同變量往往量綱不同,歸一化可以消除量綱對最終結(jié)果的影響,使不同變量具有可比性。比如兩個人體重差10KG,身高差0.02M,在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋,歸一化之后就不會有這樣的問題。標準化:它表示的是原始值與均值之間差多少個標準差,是一個相對值,所以也有去除量綱的功效。同時,它還帶來兩個附加的好處:均值為0,標準差為1。均值為0有什么好處呢?它可以使數(shù)據(jù)以0為中心左右分布,而數(shù)據(jù)以0為中心左右分布會帶來很多便利。比如在去中心化的數(shù)據(jù)上做奇異值分解等價于在原始數(shù)據(jù)上做主成分分析,同時,在機器學習中很多函數(shù)都以0為中心左右分布。Tips:量綱,可以理解成數(shù)據(jù)的單位;量級,可以理解成數(shù)據(jù)量的大小為什么要進行數(shù)據(jù)標準化及歸一化原因小結(jié):為什么要標準化和歸一化?某些模型求解需要無量綱化避免數(shù)值問題例如:1)在使用梯度下降的方法求解最優(yōu)化問題時,歸一化/標準化后可以加快梯度下降的求解速度,即提升模型的收斂速度。2)一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。例如房子數(shù)量和收入,因為從業(yè)務層知道,這兩者的重要性一樣,所以把它們?nèi)繗w一化。這是從業(yè)務層面上作的處理。例如太大的數(shù)會引發(fā)數(shù)值問題。課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化3.1什么是數(shù)據(jù)標準化及歸一化3.2為什么要進行數(shù)據(jù)標準化及歸一化3.3數(shù)據(jù)標準化及歸一化的原理與方法4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程數(shù)據(jù)標準化及歸一方法0~1歸一化-1~1歸一化Log函數(shù)轉(zhuǎn)換atan(反正切)函數(shù)轉(zhuǎn)換
線性歸一化非線性歸一化用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小需要根據(jù)數(shù)據(jù)分布的情況,決定非線性函數(shù)的曲線數(shù)據(jù)標準化及歸一方法歸一化與標準的區(qū)別:歸一化是為了消除綱量壓縮到[0,1]區(qū)間;標準化只是調(diào)整特征整體的分布;歸一化與最大,最小值有關(guān);標準化與均值,標準差有關(guān);歸一化輸出在[0,1]之間;標準化無限制。
x*=(x-
μ)/σz-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。該種標準化方式要求原始數(shù)據(jù)的分布可以近似為高斯分布,否則效果會變得很糟糕。其中:μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標準差z-score標準化:小數(shù)定標標準化:x’=x/(10^j),其中,j是滿足使max(|x’|)<1成立的最小整數(shù)課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.1什么是數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.2為什么要進行數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.3數(shù)據(jù)質(zhì)量提升與數(shù)據(jù)清洗的方法5.特征工程什么是數(shù)據(jù)質(zhì)量數(shù)據(jù)準確性數(shù)據(jù)精確性數(shù)據(jù)正確性數(shù)據(jù)完整性數(shù)據(jù)時效性數(shù)據(jù)全面性數(shù)據(jù)質(zhì)量簡單的說是“滿足最終用戶期望的程度”,數(shù)據(jù)質(zhì)量的特征是有用性和可用性。管理制度監(jiān)管體系度量標準衡量維度質(zhì)量管理什么是數(shù)據(jù)清洗舉例:A數(shù)據(jù)庫中性別字段男B數(shù)據(jù)庫中性別字段10C數(shù)據(jù)庫中性別字段T99999目標數(shù)據(jù)庫中性別字段男女需要進行缺失值填充需要進行邏輯錯誤清洗需要進行格式內(nèi)容清洗課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.1什么是數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.2為什么要進行數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.3數(shù)據(jù)質(zhì)量提升與數(shù)據(jù)清洗的方法5.特征工程為什么要進行數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗數(shù)據(jù)抽取時間點問題
統(tǒng)計口徑業(yè)務規(guī)則問題數(shù)據(jù)源問題例如:多個系統(tǒng)的數(shù)據(jù)源存在不一致現(xiàn)象例如:數(shù)據(jù)源本身存在臟數(shù)據(jù)噪聲數(shù)據(jù)例如:數(shù)據(jù)存在人工操作例如:不同數(shù)據(jù)源由不同部門管理由于生產(chǎn)系統(tǒng)的數(shù)據(jù)是隨生產(chǎn)而變化的,在不同的時間點進行數(shù)據(jù)抽取的數(shù)據(jù)是不一致的例如:生產(chǎn)系統(tǒng)的不同版本例如:各分支機構(gòu)市場政策的差異例如:同一產(chǎn)品、業(yè)務在業(yè)務處理規(guī)則等方面編碼差異很大各機構(gòu)之間的指標體系及編碼規(guī)則不一致數(shù)據(jù)質(zhì)量原因分析課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.1什么是數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.2為什么要進行數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗
4.3數(shù)據(jù)質(zhì)量提升與數(shù)據(jù)清洗的方法5.特征工程數(shù)據(jù)質(zhì)量提升方法數(shù)據(jù)質(zhì)量方法論戰(zhàn)略執(zhí)行溝通組織過程管理驗證架構(gòu)建立合理的數(shù)據(jù)管理機構(gòu)、制定數(shù)據(jù)質(zhì)量管理機制、落實人員執(zhí)行責任、保障組織間高效的溝通、持續(xù)監(jiān)控數(shù)據(jù)應用過程和領(lǐng)導強有力的督促是保證企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵嚴謹?shù)倪^程定義是數(shù)據(jù)質(zhì)量保障的基礎(chǔ)管理機制的保障是數(shù)據(jù)質(zhì)量控制的關(guān)鍵完善文檔的建立和維護是數(shù)據(jù)質(zhì)量保障各個環(huán)節(jié)以及組織之間溝通的依據(jù)驗證檢查是數(shù)據(jù)保障的督促和推動有效的組織機構(gòu)是管理機制的有力支持數(shù)據(jù)質(zhì)量保證關(guān)鍵因素組織保證設(shè)計崗位明確崗位的要求和職責制定標準制定統(tǒng)一編碼庫過程評估管理123質(zhì)量保證關(guān)鍵因素在數(shù)據(jù)處理的流程上進行規(guī)范并設(shè)置相應的控制點和稽核點規(guī)范的流程過程校驗點和稽核點異常處理措施制定數(shù)據(jù)質(zhì)量的評測標準并按所制定的標準進行考核:標準及時性、準確性、一致性等考核獎勵、懲罰階段評估
數(shù)據(jù)清洗——缺失值填充數(shù)據(jù)清洗——缺失值填充刪除統(tǒng)計填充統(tǒng)一填充預測填充最簡單的方法是刪除,刪除屬性或者刪除樣本。如果大部分樣本該屬性都缺失,這個屬性能提供的信息有限,可以選擇放棄使用該屬性;如果一個樣本大部分屬性缺失,可以選擇放棄該樣本。對于缺失值的屬性,尤其是數(shù)值類型的屬性,根據(jù)所有樣本關(guān)于這維屬性的統(tǒng)計值對其進行填充,如使用平均數(shù)、中位數(shù)、眾數(shù)、最大值、最小值等,具體選擇哪種統(tǒng)計值需要具體問題具體分析。對于含缺失值的屬性,把所有缺失值統(tǒng)一填充為自定義值,如何選擇自定義值也需要具體問題具體分體。當然,如果有可用類別信息,也可以為不同類別分別進行統(tǒng)一填充??梢酝ㄟ^預測模型利用不存在缺失值的屬性來預測缺失值,也就是先用預測模型把數(shù)據(jù)填充后再做進一步的工作。數(shù)據(jù)清洗——缺失值填充缺失值填充方法例析年收入:
商品推薦場景下填充平均值,借貸額度場景下填充最小值行為時間點:
填充眾數(shù)價格:
商品推薦場景下填充最小值,商品匹配場景下填充平均值人體壽命:
保險費用估計場景下填充最大值,人口估計場景下填充平均值駕齡:
沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理本科畢業(yè)時間:
沒有填寫這一項的用戶可能是沒有上大學,為它填充正無窮比較合理婚姻狀態(tài):
沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設(shè)為一個分類,如已婚1、未婚0,未填-1參考并引用自王宏志編著《大數(shù)據(jù)分析原理與實踐》數(shù)據(jù)清洗——實體識別與真值發(fā)現(xiàn)實體識別同一類實體可能由不同的名字指代,例如名字王偉,用英文表示可能是“WangWei”,也可能是“WeiWang”冗余問題不同類的實體可能由相同的名字指代,例如在論文系統(tǒng)中檢索“WeiWang”,可能出現(xiàn)多個不同的作者重名問題兩類沖突解決兩類沖突的兩種技術(shù)冗余發(fā)現(xiàn):用于處理冗余問題,主要是構(gòu)造對象名稱的相似性函數(shù),并與閾值進行比較,從而判定對象是否屬于同一實體簇。重名檢測:用于處理重名問題,主要是利用基于聚類的技術(shù),通過考察實體屬性間的關(guān)聯(lián)程度判定相同名稱的對象是否屬于同一實體簇。參考并引用自王宏志編著《大數(shù)據(jù)分析原理與實踐》數(shù)據(jù)清洗——實體識別與真值發(fā)現(xiàn)真值發(fā)現(xiàn)經(jīng)過實體識別之后,描述同一個現(xiàn)實世界實體的不同元組被聚到了一起,這些對象的相同屬性可能包含沖突值。在很多情況下,沖突值來源于信息集成中的不同的數(shù)據(jù)源。在描述同一實體同一屬性沖突值中發(fā)現(xiàn)真實的值的操作是真值發(fā)現(xiàn)。兩種真值發(fā)現(xiàn)方法投票方法考慮數(shù)據(jù)源精度的迭代方法如果O是一個具體的對象,v是一組獨立的數(shù)據(jù)源,在由v提供的不同的O的值之間,出現(xiàn)次數(shù)最大的那個O值應當被認為是真的。假設(shè):數(shù)據(jù)源集合v只擁有獨立的數(shù)據(jù)源,它只考慮事實的置信度和數(shù)據(jù)源的可信度,以及事實間的含義。從而基于以下幾個基本的啟發(fā)式觀點來構(gòu)建一個稱為真相發(fā)現(xiàn)者的可計算模型。啟發(fā)式規(guī)則1:通常對于一個對象來說,只有一個真值。啟發(fā)式規(guī)則2:真值在不同的數(shù)據(jù)源中總是相同或者是相似的。啟發(fā)式規(guī)則3:不同數(shù)據(jù)源之間的虛假事實就不怎么相同,也不怎么相似。啟發(fā)式規(guī)則4:在特定的領(lǐng)域,一個數(shù)據(jù)源為許多對象提供真值,那么也更傾向于會對其他的對象提供真值。參考并引用自王宏志編著《大數(shù)據(jù)分析原理與實踐》數(shù)據(jù)清洗——格式內(nèi)容清洗顯示格式不一致1內(nèi)容中有非法的字符2內(nèi)容與該字段應有內(nèi)容不符3這種問題通常與輸入端有關(guān),在整合多來源數(shù)據(jù)時也有可能遇到,例如:時間、日期、數(shù)值、全半角等表示的不一致等。某些屬性值只允許包括一部分字符,例如身份證號是數(shù)字+字母x,中國人姓名是漢字等。一些情況下,用戶誤將本來屬于一個屬性的數(shù)據(jù)填寫到了另一個屬性中,例如姓名寫了性別,身份證號寫了手機號等。數(shù)據(jù)清洗方法——內(nèi)容清洗數(shù)據(jù)清洗——邏輯錯誤清洗去重去除不合理值修正矛盾內(nèi)容去掉數(shù)據(jù)中的重復信息,由于數(shù)據(jù)存在的同名和異名,去重通常要通過實體識別技術(shù)來實現(xiàn),這類數(shù)據(jù)中出現(xiàn)的沖突值可以通過真值發(fā)現(xiàn)技術(shù)來進行消除。有時候用戶會填入一些不合理的值,需要有效檢測和修復這種不合理的值。這類不合理值的檢測主要依靠屬性值上的約束。有些字段是可以互相驗證的,這種錯誤的檢測可以通過規(guī)則來實現(xiàn),經(jīng)常用到的規(guī)則包括函數(shù)依賴和條件函數(shù)依賴。數(shù)據(jù)清洗方法——邏輯錯誤數(shù)據(jù)清洗——異常值(離群點,數(shù)據(jù)集中不合理的值)數(shù)據(jù)清洗方法——異常值圖片來源于互聯(lián)網(wǎng)可能原因:輸入異常測量誤差實驗誤差故意異常抽煙錯誤加工處理問題自然異?!瓩z測手段:統(tǒng)計分析
3δ原則箱線圖……異常數(shù)值處理:按缺失處理刪除忽略不處理均值修正……課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程
5.1什么是特征工程
5.2為什么要進行特征工程
5.3特征工程的方法與原理什么是特征工程特征工程本質(zhì)是一項工程活動,經(jīng)過一系列的方法和流程最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。原始數(shù)據(jù)提取特征經(jīng)過一系列的工程方法和流程算法&模型課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程
5.1什么是特征工程
5.2為什么要進行特征工程
5.3特征工程的方法與原理為什么要進行特征工程“數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已?!疤卣鞴こ檀髷?shù)據(jù)分析中的特征特征的重要性特征提取特征選擇特征構(gòu)建特征學習特征工程的目的是獲取優(yōu)質(zhì)特征以有效支持大數(shù)據(jù)分析,其定義是將原始數(shù)據(jù)轉(zhuǎn)化為特征,更好地表示模型處理的實際問題,提升對于未知數(shù)據(jù)的準確性。它使用目標問題所在的特定領(lǐng)域知識或者自動化的方法來生成、提取、刪減或者組合變化得到特征。課程目錄1.數(shù)據(jù)預處理概述2.數(shù)據(jù)抽樣3.數(shù)據(jù)標準化及歸一化4.數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗5.特征工程
5.1什么是特征工程
5.2為什么要進行特征工程
5.3特征工程的方法與原理數(shù)據(jù)分析中的特征數(shù)據(jù)類型舉例觀測特征結(jié)構(gòu)化數(shù)據(jù)由不同的變量或?qū)傩詷?gòu)成屬性就是特征(這里屬性特指對于分析和解決問題有用、有意義的屬性)非結(jié)構(gòu)化數(shù)據(jù)一幅圖像可能是圖中的一條線一個文本可能是其中的段落或者詞頻率一段語音可能是一個詞或者音素數(shù)據(jù)識別、特征理解數(shù)據(jù)分析中的特征定性定類:離散、無序;基于頻率/占比、眾數(shù)統(tǒng)計;可用條形圖、餅圖展現(xiàn)定序:有序、比較;基于頻率、眾數(shù)、中位數(shù)、百分比統(tǒng)計;可用條形圖、餅圖、莖葉圖展現(xiàn)定量定距:數(shù)字差別有意義;基于頻率、眾數(shù)、中位數(shù)、均值、標準差統(tǒng)計;可用條形圖、餅圖、莖葉圖、箱線圖、直方圖統(tǒng)計定比:連續(xù);基于均值、標準差統(tǒng)計,可采用直方圖、箱線圖展現(xiàn)特征工程中的特征增強特征增強即清洗和增強數(shù)據(jù),在探索性分析數(shù)據(jù)的基礎(chǔ)上,進行如下操作:識別數(shù)據(jù)中的缺失值、填充缺失數(shù)值識別有害數(shù)據(jù)、刪除有害數(shù)據(jù)數(shù)據(jù)的歸一化、標準化構(gòu)建新特征選擇特征特征轉(zhuǎn)換……特征的重要性判斷特征的重要性是對特征進行選擇的重要指標,特征根據(jù)重要性被分配分數(shù),然后根據(jù)分數(shù)不同進行排序,其中高分的特征被選擇出來放入訓練數(shù)據(jù)集。如果與因變量(預測的事物)高度相關(guān),則這個特征可能很重要,其中相關(guān)系數(shù)和獨立變量方法是常用的方法。特征一:分數(shù)100特征分數(shù)排序示例訓練數(shù)據(jù)集特征二:分數(shù)90特征三:分數(shù)80特征四:分數(shù)40特征一:分數(shù)100特征二:分數(shù)90特征三:分數(shù)80在構(gòu)建模型的過程中,一些復雜的預測模型會在算法內(nèi)部進行特征重要性的評價和選擇,如多元自適應回歸樣條法、隨機森林、梯度提升機。這些模型在模型準備階段會進行變量重要性的確定。特征提取一些觀測數(shù)據(jù)如果直接建模,其原始狀態(tài)的數(shù)據(jù)太多。像圖像、音頻和文本數(shù)據(jù),如果將其看作表格數(shù)據(jù),那么其中包含了數(shù)以千計的屬性。特征提取是自動地對原始觀測降維,使其特征集合小到可以進行建模的過程。對于結(jié)構(gòu)化高維數(shù)據(jù),可以使用主成分分析、聚類等映射方法;對于非結(jié)構(gòu)的圖像數(shù)據(jù),可以進行線或邊緣的提??;根據(jù)相應的領(lǐng)域,圖像、視頻和音頻數(shù)據(jù)可以有很多數(shù)字信號處理的方法對其進行處理。結(jié)構(gòu)化高維數(shù)據(jù)推薦主成分分析、聚類等映射方法非結(jié)構(gòu)圖像數(shù)據(jù)考慮進行線或邊緣提取特征構(gòu)建表格數(shù)據(jù)文本數(shù)據(jù)圖像數(shù)據(jù)特征重要性和特征選擇是告訴者特征的客觀特性,但這些工作之后,需要人工進行特征的構(gòu)建。特征構(gòu)建需要花費大量的時間對實際樣本數(shù)據(jù)進行處理,思考數(shù)據(jù)的結(jié)構(gòu)和如何將特征數(shù)據(jù)輸入給預測算法。特征構(gòu)建意味著將特征進行混合或組合以得到新的特征,或通過對特征進行分解或切分來構(gòu)造新的特征。特征構(gòu)建意味著設(shè)計出針對特定問題的文本指標。對于圖像數(shù)據(jù),意味著自動過濾,得到相關(guān)的結(jié)構(gòu)。特征構(gòu)建-示例特征重要性和特征選擇是告訴者特征的客觀特性,但這些工作之后,需要人工進行特征的構(gòu)建。特征構(gòu)建需要花費大量的時間對實際樣本數(shù)據(jù)進行處理,思考數(shù)據(jù)的結(jié)構(gòu)和如何將特征數(shù)據(jù)輸入給預測算法。特征構(gòu)建常見方法:常見業(yè)務指標或統(tǒng)計量同一特征的縱向聯(lián)系多個特征的橫向聯(lián)系特征交叉時間序列從業(yè)務角度產(chǎn)生特征特征學習特征學習是以AI促AI,即在原始數(shù)據(jù)中自動識別和使用特征?,F(xiàn)代深度學習方法在特征學習領(lǐng)域有很多成功案例,比如自動編碼器和受限玻爾茲曼機。它們以無監(jiān)督或半監(jiān)督的方式實現(xiàn)自動的學習抽象的特征表示(壓縮形式),其結(jié)果用于支撐像大數(shù)據(jù)分析、語音識別、圖像分類、物體識別和其他領(lǐng)域的先進成果。原始數(shù)據(jù)識別特征使用特征抽象的特殊表達可以自動得到,但是用戶無法理解和利用這些學習得到的結(jié)果,只有黑盒的方式才可以使用這些特征。用戶不可能輕易懂得如何創(chuàng)造和那些效果很好的特征相似或相異的特征。這個技能是很難的,但同時它也是很有魅力的、很重要的。特征學習的分類特征學習是以AI促AI,即在原始數(shù)據(jù)中自動識別和使用特征?,F(xiàn)代深度學習方法在特征學習領(lǐng)域有很多成功案例,比如自動編碼器和受限玻爾茲曼機。它們以無監(jiān)督或半監(jiān)督的方式實現(xiàn)自動的學習抽象的特征表示(壓縮形式),其結(jié)果用于支撐像大數(shù)據(jù)分析、語音識別、圖像分類、物體識別和其他領(lǐng)域的先進成果。特征學習可以分為監(jiān)督特征學習和無監(jiān)督特征學習:監(jiān)督特征學習包括監(jiān)督字典學習、神經(jīng)網(wǎng)絡、多層感知機;無監(jiān)督特征學習包括無監(jiān)督字典學習、主成分分析、獨立成分分析、自編碼器、矩陣分解和各種形式的聚類算法,如K-means聚類特征學習的分類特征學習是以AI促AI,即在原始數(shù)據(jù)中自動識別和使用特征?,F(xiàn)代深度學習方法在特征學習領(lǐng)域有很多成功案例,比如自動編碼器和受限玻爾茲曼機。它們以無監(jiān)督或半監(jiān)督的方式實現(xiàn)自動的學習抽象的特征表示(壓縮形式),其結(jié)果用于支撐像大數(shù)據(jù)分析、語音識別、圖像分類、物體識別和其他領(lǐng)域的先進成果。深度學習:分層結(jié)構(gòu)的神經(jīng)系統(tǒng)啟發(fā)了由簡單學習模塊構(gòu)成的多層深度學習架構(gòu)來進行特征學習;在深度學習體系中每個中間層的輸出可以看做是原始輸入數(shù)據(jù)的一種表示,每層利用上一層中產(chǎn)生的表示作為輸入,生成新的表示作為輸出,提供給更高層。輸入的底層是原始數(shù)據(jù),而最終層輸出的是最后的低維特征或表征。受限玻爾茲曼機(RestrictedBoltzmannMachine)自編碼器(Autoencoder)特征變換特征變換從信號處理觀點來看從統(tǒng)計觀點來看從幾何觀點來看通過變換消除原始特征之間的相關(guān)關(guān)系或減少冗余,得到新的特征,更加便于數(shù)據(jù)分析。在變換域中進行處理并提取信號的性質(zhì),特征變換操作常包括傅里葉變換、小波變換和Gabor變換等。減少變量之間的相關(guān)性,用少數(shù)新的變量來盡可能反映樣本的信息。特征變換包括主成分分析、因子分析和獨立成分分析等。通過變換到新的表達空間,使得數(shù)據(jù)可分性更好。特征分析包括線性判別分析和核方法等。特征選擇特征選擇是尋找最優(yōu)特征子集的過程,特征選擇是指選擇獲得相應模型和算法最好性能的特征集。特征按重要性可分為如下三類:特征分類相關(guān)特征無關(guān)特征冗余特征特征選擇特征選擇是尋找最優(yōu)特征子集的過程,特征選擇是指選擇獲得相應模型和算法最好性能的特征集。特征選擇的目的:減少特征數(shù)量、降維降低學習任務的難度,提升模型的效率使模型泛化能力更強,減少過擬合增強對特征和特征值之間的理解……特征選擇的目的就是獲取盡可能小的特征子集,特征子集不顯著降低分類精度、不影響分類分布并且特征子集應具有穩(wěn)定、適應性強等特點。特征選擇特征選擇是尋找最優(yōu)特征子集的過程,特征選擇是指選擇獲得相應模型和算法最好性能的特征集。特征選擇的策略:完全(全局)搜索策略:
廣度優(yōu)先策略,枚舉舉所有組合,窮舉搜索,實用性不高
分支限界搜索,窮舉基礎(chǔ)上加入分支限界啟發(fā)式策略序列前向選擇、序列后向選擇、雙向搜索
增L去R選擇算法
、序列浮動選擇、決策樹等隨機搜索策略
隨機產(chǎn)生序列選擇算法、模擬退火算法、遺傳算法特征選擇特征選擇是尋找最優(yōu)特征子集的過程,特征選擇是指選擇獲得相應模型和算法最好性能的特征集。工程上常用的方法有以下幾種(根據(jù)特征選擇中子集評價標準和后續(xù)學習算法的結(jié)合方式):Filter方法(過濾式):常見方法有
Chi-squaredtest(卡方檢驗)、Informationgain(信息增益)、Correlationcoefficientscores(相關(guān)系數(shù))等,其優(yōu)點是運行速度快,是非常流行的特征選擇方法Wrapper方法(封裝式):常見方法有遞歸特征消除算法,相對于Filter方法,Wrapper方法找到的特征子集分類性能通常更好Embedded方法(嵌入式):常見方法基于懲罰項的特征選擇法、基于樹模型的特征選擇法等,特點是對特征進行搜索時圍繞學習算法展開的,能夠考慮學習算法所屬的任意學習偏差。訓練模型的次數(shù)小于Wrapper方法,比較節(jié)省時間。特征選擇特征選擇是尋找最優(yōu)特征子集的過程,特征選擇是指選擇獲得相應模型和算法最好性能的特征集。工程上常用的特征選擇實現(xiàn)示例如下:實現(xiàn)方法一:去掉取值變化小的特征(Removing
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度農(nóng)產(chǎn)品電商平臺合作協(xié)議范本4篇
- 2025年度女方離婚協(xié)議書范本與執(zhí)行效力分析4篇
- 二零二五年度公務員借調(diào)期間心理健康輔導服務合同4篇
- 二零二四全新足浴店員工培訓進修及教育資助合同3篇
- 2025年度個人教育培訓服務合同范本15篇
- 健康知識普及與傳播-深度研究
- 2025年度個人貨物運輸代理及車輛維護合同4篇
- 二零二五年度油氣田鉆井安全作業(yè)合同范本4篇
- 2025年度新型木門研發(fā)合作采購合同4篇
- 二零二五年度美容院客戶關(guān)系管理與維護合同2篇
- 2025年上半年江蘇連云港灌云縣招聘“鄉(xiāng)村振興專干”16人易考易錯模擬試題(共500題)試卷后附參考答案
- DB3301T 0382-2022 公共資源交易開評標數(shù)字見證服務規(guī)范
- 人教版2024-2025學年八年級上學期數(shù)學期末壓軸題練習
- 江蘇省無錫市2023-2024學年八年級上學期期末數(shù)學試題(原卷版)
- 俄語版:中國文化概論之中國的傳統(tǒng)節(jié)日
- 2022年湖南省公務員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 婦科一病一品護理匯報
- 哪吒之魔童降世
- 2022年上海市各區(qū)中考一模語文試卷及答案
- 2024年全國統(tǒng)一高考數(shù)學試卷(新高考Ⅱ)含答案
- 地震工程學概論課件
評論
0/150
提交評論