![大數(shù)據(jù)應(yīng)用基礎(chǔ)數(shù)據(jù)挖掘流程_第1頁](http://file4.renrendoc.com/view/e064ce5e2718c4ebd5864460a4bd3559/e064ce5e2718c4ebd5864460a4bd35591.gif)
![大數(shù)據(jù)應(yīng)用基礎(chǔ)數(shù)據(jù)挖掘流程_第2頁](http://file4.renrendoc.com/view/e064ce5e2718c4ebd5864460a4bd3559/e064ce5e2718c4ebd5864460a4bd35592.gif)
![大數(shù)據(jù)應(yīng)用基礎(chǔ)數(shù)據(jù)挖掘流程_第3頁](http://file4.renrendoc.com/view/e064ce5e2718c4ebd5864460a4bd3559/e064ce5e2718c4ebd5864460a4bd35593.gif)
![大數(shù)據(jù)應(yīng)用基礎(chǔ)數(shù)據(jù)挖掘流程_第4頁](http://file4.renrendoc.com/view/e064ce5e2718c4ebd5864460a4bd3559/e064ce5e2718c4ebd5864460a4bd35594.gif)
![大數(shù)據(jù)應(yīng)用基礎(chǔ)數(shù)據(jù)挖掘流程_第5頁](http://file4.renrendoc.com/view/e064ce5e2718c4ebd5864460a4bd3559/e064ce5e2718c4ebd5864460a4bd35595.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)應(yīng)用基礎(chǔ)數(shù)據(jù)挖掘流程第一頁,共七十五頁,2022年,8月28日數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評估4信息收集31數(shù)據(jù)挖掘33知識表示35第二頁,共七十五頁,2022年,8月28日數(shù)據(jù)挖掘的基本流程第三頁,共七十五頁,2022年,8月28日高度重視以下同義詞以下術(shù)語大致是同一個意思:表格中的行:個案=實例=記錄=樣本點=數(shù)據(jù)點表格中的列:屬性=特征=字段=維度=預(yù)測變量=自變量第四頁,共七十五頁,2022年,8月28日數(shù)據(jù)預(yù)處理第五頁,共七十五頁,2022年,8月28日數(shù)據(jù)預(yù)處理的步驟主要包括:數(shù)據(jù)集成數(shù)據(jù)清理數(shù)據(jù)歸約(抽樣和屬性篩選)數(shù)據(jù)變換。第六頁,共七十五頁,2022年,8月28日數(shù)據(jù)質(zhì)量有很多方面問題第七頁,共七十五頁,2022年,8月28日數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)挖掘過程中,數(shù)據(jù)準(zhǔn)備工作占用的時間往往在一半甚至60%以上!這些工作對提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性是必不可少的。因為,沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果。數(shù)據(jù)挖掘出現(xiàn)錯誤結(jié)果多半是由數(shù)據(jù)源的質(zhì)量引起的。因此應(yīng)該重視原始數(shù)據(jù)的質(zhì)量,從源頭上減少錯誤和誤差,尤其是減少人為誤差。第八頁,共七十五頁,2022年,8月28日數(shù)據(jù)準(zhǔn)備的重要性數(shù)據(jù)準(zhǔn)備工作占用的時間往往在60%以上!第九頁,共七十五頁,2022年,8月28日數(shù)據(jù)集成數(shù)據(jù)挖掘或統(tǒng)計分析可能用到來自不同數(shù)據(jù)源的數(shù)據(jù),我們需要將這些數(shù)據(jù)集成在一起。如果只有一個數(shù)據(jù)源,這一步可以省略。第十頁,共七十五頁,2022年,8月28日數(shù)據(jù)集成中的實體識別問題一個重要問題是實體識別問題:在不同的數(shù)據(jù)源中,相同的字段也許有不同的名稱。我們需要識別數(shù)據(jù)中能唯一標(biāo)識實體的字段。我們怎么能確定一個數(shù)據(jù)源中的customer_id和另一個數(shù)據(jù)源中的customer_number指的是同一個字段呢?這里我們可以利用字段的元數(shù)據(jù)信息,例如含義、數(shù)據(jù)類型、字段允許值的范圍等,從而避免在數(shù)據(jù)集成時出錯。如果我們確定這兩個字段是一致的,那么我們就能夠把標(biāo)識相同的客戶當(dāng)作同一個客戶。第十一頁,共七十五頁,2022年,8月28日數(shù)據(jù)集成中的實體識別問題對于互聯(lián)網(wǎng)企業(yè)來說,一個需要注意的重要問題是如何能把PC端用戶、手機端用戶給對應(yīng)起來。也就是說,如何能保證,用戶在不同設(shè)備上登錄你的網(wǎng)站時的訪問記錄都能匯總到一起,而不是把這些訪問記錄當(dāng)做是多個不同用戶的訪問記錄。第十二頁,共七十五頁,2022年,8月28日數(shù)據(jù)集成中屬性值不一致的問題同一個人的名字可能在一個數(shù)據(jù)庫中登記為“王思聰”,在另一個數(shù)據(jù)庫中則登記為“SicongWang”。第十三頁,共七十五頁,2022年,8月28日數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問題對同一個實體,來自不同數(shù)據(jù)源的屬性值可能是不同的。原因可能是各個數(shù)據(jù)源往往以不同的方式表示相同的數(shù)據(jù),或采用不同的度量等。例如,不同數(shù)據(jù)源中日期的格式不同。日期有時是一個數(shù)值;有時是以“XXXX年X月X日”的字符串格式存儲;有時以“YY/MM/DD”的字符串格式存儲。又例如,對同一個省份可能用了不同的名稱。還有,同一個名字的屬性sales,在一個數(shù)據(jù)庫中是指一個區(qū)域的銷量,在另一個數(shù)據(jù)庫中可能是指一個分店的銷量。第十四頁,共七十五頁,2022年,8月28日數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問題重量在一個數(shù)據(jù)源中的單位可能是千克;在另一處則是斤。一種度量另一種度量第十五頁,共七十五頁,2022年,8月28日數(shù)據(jù)集成中的屬性冗余問題一個屬性可能能由另一個或一組屬性導(dǎo)出。有些冗余可以被相關(guān)分析檢測到。我們通過相關(guān)系數(shù)或卡方檢驗了解兩個屬性是否是統(tǒng)計相關(guān)的。第十六頁,共七十五頁,2022年,8月28日數(shù)據(jù)探索在數(shù)據(jù)集成后,需要數(shù)據(jù)探索(dataexploring)。這個步驟不是數(shù)據(jù)預(yù)處理,但對數(shù)據(jù)預(yù)處理很重要。幾乎很少有現(xiàn)成的數(shù)據(jù)能直接使用。數(shù)據(jù)總是看上去不整潔,例如有臟數(shù)據(jù)、缺失值等。怎樣能知道數(shù)據(jù)的質(zhì)量呢?你需要把自己沉浸在數(shù)據(jù)中,進(jìn)行數(shù)據(jù)探索,從而了解數(shù)據(jù)質(zhì)量。第十七頁,共七十五頁,2022年,8月28日數(shù)據(jù)探索的方法在R中的summary(變量名)這種指令(在其他軟件中有類似指令)能提供諸多基本統(tǒng)計信息。比如:每個變量的值域區(qū)間(最大值和最小值)是否合理?所有的值都落在期望的區(qū)間內(nèi)嗎?平均值與中位數(shù)是相等的還是差別很大(這有助于說明變量是否符合正態(tài)分布)?數(shù)據(jù)是對稱的還是傾斜的。每個變量的標(biāo)準(zhǔn)差是多少?(遠(yuǎn)離屬性的均值超過兩個或三個標(biāo)準(zhǔn)差的值可能是離群點)有多少缺失值?第十八頁,共七十五頁,2022年,8月28日直方圖箱圖箱圖散點圖通過直方圖,能觀察連續(xù)型變量的分布是否接近正態(tài)分布。對于離散型變量,則可以用頻次分析。通過箱圖,能觀察到離群值,比如識別出觀測值特別高的個案。通過散點圖,能了解屬性之間是否有相關(guān)性。第十九頁,共七十五頁,2022年,8月28日數(shù)據(jù)清理(數(shù)據(jù)預(yù)處理)“數(shù)據(jù)的重要程度大過算法本身!”無論專家多有經(jīng)驗,無論算法再完美,也不可能從一堆垃圾中發(fā)現(xiàn)寶石。人們往往沒有那么好的運氣,有現(xiàn)成的質(zhì)量好的數(shù)據(jù)可以直接用?,F(xiàn)實世界的數(shù)據(jù)是“雜亂的”,其中總是有這樣或那樣的問題?!敖?jīng)常保持對客戶數(shù)據(jù)的懷疑之心!”“所有的數(shù)據(jù)都是臟的”例如,有些數(shù)據(jù)是缺失的(屬性的值是空值),有些是含噪聲的(屬性的值是錯誤的,或有孤立點數(shù)據(jù)),有時同樣的信息采用了多種不同的表示方式(在編碼或命名上存在不一致)。第二十頁,共七十五頁,2022年,8月28日數(shù)據(jù)清理對于在商業(yè)中比較重要的字段,系統(tǒng)開發(fā)者和系統(tǒng)使用者會盡量確保其正確性。然而,對于在商業(yè)中不太重要的字段,人們往往不太重視確保其質(zhì)量。通過數(shù)據(jù)清理,可以確保存入數(shù)據(jù)倉庫中的信息是完整、正確和格式一致的。如果數(shù)據(jù)有誤,那么所得到的結(jié)果很可能有誤導(dǎo)性。但是,數(shù)據(jù)挖掘者不應(yīng)該太挑剔,因為我們往往只能得到質(zhì)量不好的數(shù)據(jù)。第二十一頁,共七十五頁,2022年,8月28日數(shù)據(jù)清理如果你的企業(yè)中有數(shù)據(jù)倉庫,應(yīng)弄清楚這些數(shù)據(jù)是怎樣收集的,這對理解數(shù)據(jù)質(zhì)量很重要。至少應(yīng)該知道每個字段取值來自哪里、合理的取值的范圍、為什么會有缺失值等。這對數(shù)據(jù)清理很有幫助。第二十二頁,共七十五頁,2022年,8月28日數(shù)據(jù)清理數(shù)據(jù)清理也叫數(shù)據(jù)清洗。這一步主要針對缺失值、數(shù)據(jù)噪聲、離群值。第二十三頁,共七十五頁,2022年,8月28日缺失值缺失值很常見。例如,在銷售表中的顧客信息當(dāng)中,也許除了名字外,其他各個屬性都有缺失值。我們尤其不希望重要屬性存在缺失值。第二十四頁,共七十五頁,2022年,8月28日缺失值的成因分析師首先應(yīng)該了解數(shù)據(jù)缺失的原因。只有知道具體缺失原因后,才能有的放矢。產(chǎn)生缺失值的原因很多,可能是:這些數(shù)據(jù)并沒被記錄下來;測量設(shè)備出現(xiàn)故障;對數(shù)據(jù)錯誤地更新導(dǎo)致某些字段信息丟失;被測量的對象(頭蓋骨或植物)損壞或死亡了。有時,還沒來得及提供屬性值。第二十五頁,共七十五頁,2022年,8月28日缺失值的成因有時,當(dāng)你從外部數(shù)據(jù)源中追加人口統(tǒng)計信息到客戶信息中時,你沒能找到一部分客戶的此類信息。很多時候,最初收集數(shù)據(jù)時,有些變量被認(rèn)為不太重要,因此留下空白。例如,銀行并不特別需要知道客戶的年齡,所以年齡變量會存在許多缺失值?!氨谎谏w的缺失值”:有時,用戶不希望提交個人信息,就會故意向字段輸入不正確的值(例如把生日設(shè)置為1月1日)。一個類似的例子是,數(shù)據(jù)中很多客戶在1911年出生。為什么呢?其實因為數(shù)據(jù)輸入界面堅持要出生日期。因此客服人員在不知道這個日期時,就會鍵入6個“1”,從而輸入1911年11月11日。第二十六頁,共七十五頁,2022年,8月28日缺失值的處理方法處理方式有多種:有些有缺失值的變量實際上并不需要處理,因為你其實知道缺失值的實際值是什么。刪除缺失值較多(例如20%以上的屬性都存在缺失值)的個案(即記錄、行、實例、元組),尤其是關(guān)鍵的屬性值缺失的個案。剔除所有含有缺失值的個案。此法適于有缺失值的個案的數(shù)量占比很小的情況下。此法操作簡單方便,而且留下來的數(shù)據(jù)全是有完整記錄的,數(shù)據(jù)很干凈。但是,丟棄所有包含缺失值的個案可能會引入偏差,因為這些個案不一定是隨機分布的。刪除有大量缺失值的變量。此法適于那些缺失值占比(例如超過20%)較大的變量。對于缺失值占比超過50%的變量,則一般建議刪除。第二十七頁,共七十五頁,2022年,8月28日缺失值的處理方法人工填寫缺失值。此法工作量大,對于海量數(shù)據(jù)可行性極低。使用屬性的中心度量來填充。此類指標(biāo)有平均值、中位數(shù)、眾數(shù)等。對于接近正態(tài)分布的變量來說,平均值是最佳選擇;然而,對于偏態(tài)分布的變量來說,中位數(shù)是更好的指標(biāo)。此種方法偏差大,因為這種替換畢竟是人為的替換,屬于“不得已而為之”的策略。但其簡單、速度快,適用于大數(shù)據(jù)集。使用與給定個案同類的樣本的屬性的中心度量來填充。此法與上一種方法類似。例:把顧客按信用風(fēng)險程度分類,則用具有相同信用風(fēng)險的顧客的平均收入或收入中位數(shù)來替換收入中的缺失值。第二十八頁,共七十五頁,2022年,8月28日缺失值的處理方法通過兩個變量之間的相關(guān)關(guān)系來填充。如果兩個變量之間的相關(guān)系數(shù)足夠高(例如大于0.9),我們可以找到兩者之間的線性相關(guān)關(guān)系模型(一個公式)。我們可以通過這個公式來計算出一個值,用于填充缺失值。通過個案之間的相似性來填充。此法假定如果兩個個案是相似的,那么其中一個個案在某變量上的缺失值很可能與另一個個案在這個變量上的值是相似的。最常用的相似性度量指標(biāo)是歐式距離。我們可以用歐式距離來找到與含缺失值的個案最相似的10個個案,用它們的中位數(shù)或均值來填充缺失值。第二十九頁,共七十五頁,2022年,8月28日缺失值的處理方法對缺失值進(jìn)行賦值(Imputation)。此法通過回歸模型、決策樹、貝葉斯定理等去預(yù)測缺失值的最近似的替代值。也就是把缺失數(shù)據(jù)所對應(yīng)的變量當(dāng)做目標(biāo)變量,把其他的輸入變量作為自變量,為每個有缺失值的字段分別建立預(yù)測模型。這種方法最嚴(yán)謹(jǐn),但是成本較高。還有一種辦法,是在不同的數(shù)據(jù)上建立多個模型。例如,對某幾個變量沒缺失值的客戶建立一個模型,而對這幾個變量有缺失值的客戶建立另一個模型。第三十頁,共七十五頁,2022年,8月28日數(shù)據(jù)噪聲噪聲數(shù)據(jù),即數(shù)據(jù)值錯誤,不能反映真實的值。數(shù)據(jù)噪聲太多,會導(dǎo)致數(shù)據(jù)價值大大降低。產(chǎn)生原因可能是:人們在輸入個人數(shù)據(jù)時常常會故意制造一些錯誤;人們在輸入資料時操作失誤;在互聯(lián)網(wǎng)營銷中,存在大量虛假的應(yīng)用下載和使用,以及虛假的好評差評;數(shù)據(jù)收集的設(shè)備不穩(wěn)定;數(shù)據(jù)轉(zhuǎn)化時存在邏輯錯誤;有時,數(shù)據(jù)過時了(例如地址過時)。第三十一頁,共七十五頁,2022年,8月28日識別數(shù)據(jù)噪聲還好,噪聲數(shù)據(jù)都是少數(shù)!通過數(shù)據(jù)探索,能很容易發(fā)現(xiàn)噪聲數(shù)據(jù)。比如,在直方圖中,某些值出現(xiàn)的頻率非常少,我們就要懷疑這樣的數(shù)據(jù)是否合理。第三十二頁,共七十五頁,2022年,8月28日處理數(shù)據(jù)噪聲對噪聲數(shù)據(jù),我們的處理辦法有:最廣泛應(yīng)用的處理方式是數(shù)據(jù)平滑(Smoothing)。最常用的數(shù)據(jù)平滑方法是分箱技術(shù),此法稍后在數(shù)據(jù)轉(zhuǎn)換中會介紹。其他平滑方法還有:基于時間序列分析,根據(jù)前一段歷史趨勢數(shù)據(jù)對當(dāng)前數(shù)據(jù)進(jìn)行修正。刪除帶有錯誤的個案。第三十三頁,共七十五頁,2022年,8月28日識別異常個案對于多維數(shù)據(jù),異常個案的識別可以通過聚類技術(shù)。異常個案(孤立點、離群點、outlier)跟噪聲數(shù)據(jù)不完全是一回事。離群點能從表象上判別出來,而噪聲則是隨機的、取值是沒有規(guī)律的。噪聲的取值不一定看起來異常;而離群點雖然取值異常,但不一定都是噪聲。對于取值正常的噪聲點,我們還沒辦法檢測??梢赃x取一些字段來對個案進(jìn)行聚類。從而識別出異常程度較高的個案,即落在簇集合之外的個案。第三十四頁,共七十五頁,2022年,8月28日處理異常個案特別要注意的是,這些數(shù)據(jù)點不一定是噪聲。我們要從中剔除真正不正常的數(shù)據(jù),而保留看起來不正常,但實際上真實的數(shù)據(jù)。有時,這些并非噪聲的異常點包含著重要的信息,例如信用卡用戶惡意欺詐檢測就需要保留異常點。處理離群點的另一種辦法是對變量進(jìn)行標(biāo)準(zhǔn)化,從而縮小值域。對于時間序列數(shù)據(jù)和空間數(shù)據(jù),則采用其他方法進(jìn)行異常點的檢測。第三十五頁,共七十五頁,2022年,8月28日識別異常值除了上述辦法,還可以僅憑單個變量所提供的信息來識別異常值。對于異常值,處理辦法是:一般建議剔除。此外,在聚類分析中,可以采用隨機抽樣。這樣,作為稀有事件的數(shù)據(jù)噪聲和異常值能被抽進(jìn)樣本的概率會很小,這樣樣本就比較干凈。判斷方法如下:對于類別型變量,是否某個類別出現(xiàn)的次數(shù)太少、太稀有?比如其占比不到1%。對于數(shù)值型變量,是否某些取值太大?比如,一般的客戶平均每天買2次,而某幾個客戶每天買100次。又如,年齡為140歲無疑是個異常值。第三十六頁,共七十五頁,2022年,8月28日重復(fù)數(shù)據(jù)重復(fù)數(shù)據(jù)主要有兩種:個案可能會重復(fù)。比如,輸入數(shù)據(jù)時,意外地多次輸入了同一個個案。屬性也可能會冗余。在集成多個數(shù)據(jù)庫時,同一個屬性在不同的數(shù)據(jù)庫中會有不同的字段名(例如birthday和生日),這時我們只要保留其中一個字段就可以。這種冗余通常在數(shù)據(jù)集成的步驟中就解決了。第三十七頁,共七十五頁,2022年,8月28日數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)變換、Datatransformation)主要是利用現(xiàn)有的字段進(jìn)行運算來得到新的字段。通常說到數(shù)據(jù)變換,包括四種:數(shù)據(jù)離散化(采用分箱等方式)、產(chǎn)生衍生變量、使變量分布更接近正態(tài)分布、數(shù)據(jù)標(biāo)準(zhǔn)化。第三十八頁,共七十五頁,2022年,8月28日數(shù)據(jù)轉(zhuǎn)換——離散化如果對連續(xù)變量進(jìn)行離散化,可以避免引入任何分布假設(shè)。這樣就不需要符合正態(tài)分布了。第三十九頁,共七十五頁,2022年,8月28日數(shù)據(jù)轉(zhuǎn)換——離散化數(shù)據(jù)分箱(Binning)是對連續(xù)數(shù)據(jù)進(jìn)行離散化、增加粒度的主要辦法,這是一種很典型的數(shù)據(jù)變換。它把一個連續(xù)性的數(shù)值字段根據(jù)其值分組,轉(zhuǎn)換成一個擁有幾個不同類別的字段。分箱的主要目的是去除噪聲。具體取值方式有:按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。舉例:假設(shè)有8、24、15、41、7、10、18、67、25等9個數(shù),分為3箱。箱1:8、24、15箱2:41、7、10箱3:18、67、25按箱平均值求得平滑數(shù)據(jù)值:箱1:16、16、16,平均值是16,這樣該箱中的每一個值被替換為16。其他兩個箱與此類似。第四十頁,共七十五頁,2022年,8月28日數(shù)據(jù)轉(zhuǎn)換——離散化對于決策樹算法,往往需要對連續(xù)變量進(jìn)行離散化,從而使輸出的決策樹通俗易懂。具體辦法可以是:把各屬性所在區(qū)間平均分成8份,每一份對應(yīng)1個離散值。第四十一頁,共七十五頁,2022年,8月28日數(shù)據(jù)轉(zhuǎn)換——產(chǎn)生衍生變量具體有兩種:把非數(shù)值型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型。例如:把“男”轉(zhuǎn)換成1,“女”轉(zhuǎn)換成0;根據(jù)用戶出生年月日得到其當(dāng)前的年齡。采用簡單的數(shù)學(xué)公式,產(chǎn)生更加有商業(yè)意義的衍生變量。主要有均值、占比、比率等種類。例如家庭人均年收入、用戶年均消費金額。分析人員常常容易從現(xiàn)有的數(shù)據(jù)庫中直接提取現(xiàn)成的字段,而經(jīng)常忘記一些衍生的新字段,這需要有業(yè)務(wù)知識來支持。第四十二頁,共七十五頁,2022年,8月28日數(shù)據(jù)轉(zhuǎn)換——使變量分布更接近正態(tài)分布最常見的改善變量分布的轉(zhuǎn)換方法是對變量取對數(shù)(takelog)。在實踐中,很多數(shù)值型變量的分布都偏斜、不對稱,這會干擾模型的擬合,影響變量的預(yù)測性能。此種轉(zhuǎn)換和分箱有異曲同工之處,都具有提高變量的預(yù)測能力,強化自變量與因變量的關(guān)系,從而提高預(yù)測模型的擬合效果。因此,在實踐中,經(jīng)常對這兩種方式分別進(jìn)行嘗試,采用其中的一種。不過,這種非線性轉(zhuǎn)換的含義缺少清晰的商業(yè)邏輯,商業(yè)應(yīng)用者可能不太能理解。第四十三頁,共七十五頁,2022年,8月28日數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化(Datarescale、規(guī)范化):是把區(qū)間較大的數(shù)據(jù)按比例縮放,使之落入一個比較小的區(qū)間中,比如0~1或-1~1。標(biāo)準(zhǔn)化可以提高涉及距離度量的算法的準(zhǔn)確率和效率。比如,當(dāng)創(chuàng)建一個聚類模型時,我們需要確保所有字段都有近似的標(biāo)度。標(biāo)準(zhǔn)化能夠避免出現(xiàn)聚類結(jié)果完全由某個具有很大變化范圍的屬性主導(dǎo)的情況。第四十四頁,共七十五頁,2022年,8月28日數(shù)據(jù)標(biāo)準(zhǔn)化最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種:標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(Z-score
transformation、零均值法、Zero-meannormalization)。經(jīng)過這種方法處理后的變量符合標(biāo)準(zhǔn)正態(tài)分布,均值為0,標(biāo)準(zhǔn)差為1。最小最大值法(Min/Maxtransformation、Min-Max標(biāo)準(zhǔn)化)能把各變量的值歸一化到[0,1]范圍之內(nèi)。第四十五頁,共七十五頁,2022年,8月28日數(shù)據(jù)歸約數(shù)據(jù)歸約屬于數(shù)據(jù)預(yù)處理,但不屬于數(shù)據(jù)清理。這一步也叫數(shù)據(jù)簡化。數(shù)據(jù)歸約(datareduction):在保持?jǐn)?shù)據(jù)的完整性的前提下,把需要分析的數(shù)據(jù)量大幅減小,從而加快算法運行速度,但能夠產(chǎn)生幾乎同樣質(zhì)量的分析結(jié)果。包括兩類:屬性篩選和數(shù)據(jù)歸約。第四十六頁,共七十五頁,2022年,8月28日數(shù)據(jù)歸約——抽樣抽樣可看作數(shù)據(jù)歸約(numerosityreduction)的一種。抽樣的主要原因是如果數(shù)據(jù)全集的規(guī)模太大,運算資源的消耗會很大,而且運算時間很長。另一個常見原因是:在很多小概率、稀有事件(例如信用卡欺詐)的預(yù)測建模中,如果按原始數(shù)據(jù)來分析,是很難得到有意義的預(yù)測的。因此,需要人為增加樣本中稀有事件的濃度和在樣本中的占比。抽樣需要注意盡量保持樣本和總體的一致性。例如樣本中變量的值域和分布、缺失值的分布都應(yīng)該與總體盡量高度相似。盡量采用簡單隨機抽樣或分層隨機抽樣。否則可能會有樣本偏差(samplebias)。第四十七頁,共七十五頁,2022年,8月28日數(shù)據(jù)歸約——不平衡數(shù)據(jù)的抽樣在不平衡數(shù)據(jù)中,兩組群體的成員數(shù)量相差甚遠(yuǎn),例如對直郵促銷做出響應(yīng)者比無響應(yīng)者少很多、信用卡欺詐者比正常的信用卡持有者少很多、流失可衡山的數(shù)量往往只有非流失客戶數(shù)量的百分之幾甚至千分之幾。如果兩組群體的成員數(shù)量大致相當(dāng),分類算法的性能最好。對于偏斜數(shù)據(jù),在抽樣方面,通??梢圆扇追N辦法使得兩組群體占比更為平衡:最常用的一種是對占比較少的實例進(jìn)行過抽樣(oversampling)。其他方法有:對占比較多的實例進(jìn)行欠抽樣,從而得到一個雖然較小、但是更平衡的樣本;添加一個加權(quán)因子,讓常見組的成員的權(quán)重小于罕見組的成員的權(quán)重。這樣抽樣之后,預(yù)測模型的效果往往更好。第四十八頁,共七十五頁,2022年,8月28日數(shù)據(jù)歸約——屬性篩選在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)歸約主要是維度歸約(dimensionalityreduction),即特征歸約、變量篩選。也就是把多維數(shù)據(jù)壓縮成較少維度的數(shù)據(jù)。這就需要進(jìn)行特征選擇(featureselection),即屬性篩選。按說信息比較多應(yīng)該是好事才對,所以我們盡量不使用特征歸約,因為這對于原始數(shù)據(jù)通常都是有損的。但是:過多的特征會使得機器學(xué)習(xí)的訓(xùn)練變慢。有些數(shù)據(jù)挖掘算法比較復(fù)雜,在高維度情況下運行的時間是天文數(shù)字,不可能實現(xiàn);過多的輸入變量容易帶來過度擬合和共線性的風(fēng)險,這會降低分類模型的預(yù)測能力。第四十九頁,共七十五頁,2022年,8月28日屬性篩選的方法首先,可以刪除明顯無價值的變量,例如缺失值比例很高的變量,以及常數(shù)變量,還有取值太泛的類別型變量(例如郵政編碼)。然后,可以結(jié)合業(yè)務(wù)經(jīng)驗進(jìn)行篩選。這是最關(guān)鍵、最重要的篩選自變量的方法。很多時候,業(yè)務(wù)專家一針見血的商業(yè)敏感性可以有效縮小自變量的考察范圍。第五十頁,共七十五頁,2022年,8月28日屬性篩選的方法——線性相關(guān)性最簡單、最常用的方法就是通過自變量之間的線性相關(guān)性指標(biāo)進(jìn)行初步篩選。其中,以Pearson相關(guān)系數(shù)最為常用。如果多個自變量之間線性相關(guān)性很強,只需要保留一個就可以了。第五十一頁,共七十五頁,2022年,8月28日屬性篩選的方法——互信息線性相關(guān)系數(shù)可以檢測出特征之間是否有線性相關(guān)關(guān)系。但是,它不適于檢測非線性關(guān)系?;バ畔t適合檢測非線性關(guān)系。它基于信息熵的概念,計算出兩個特征所共有的信息量,即一個特征使另一個特征的不確定性減少的程度。第五十二頁,共七十五頁,2022年,8月28日屬性篩選的方法——R平方在上述步驟結(jié)束之后,仍然可能有些特征,它們雖然彼此之間獨立,并且和目標(biāo)變量有一定的依賴關(guān)系,但是把它們放在一起來看,跟目標(biāo)變量就沒有依賴關(guān)系;而另一些特征,則雖然單獨看起來跟目標(biāo)變量沒有依賴關(guān)系,但把它們放在一起就能看出與目標(biāo)變量有依賴關(guān)系。R平方(R-Square)借鑒多元線性回歸的算法來判斷對目標(biāo)變量有重要預(yù)測意義的自變量,也就是找出哪些自變量能顯著地解釋目標(biāo)變量的變異性。第五十三頁,共七十五頁,2022年,8月28日屬性篩選的方法——特征抽取法這類方法不是要刪減特征,而是把原有的特征組合成少量特征??梢苑譃榫€性的和非線性的。線性的:主成分分析。非線性的:多維標(biāo)度法。以上兩種方法是典型代表。但還有其他方法。第五十四頁,共七十五頁,2022年,8月28日屬性篩選的方法——主成分分析主成分分析是最常用的特征抽取方法。主成分分析(PCA)是用少量指標(biāo)(即主成分)來表示原先較多的指標(biāo)。這少量指標(biāo)盡可能多地反映原來較多指標(biāo)的有用信息(所保留下的方差盡量多),且相互之間又是無關(guān)的。每個主成分都是由多個原始變量線性組合而成的。這種分析在基本未損失數(shù)據(jù)集的信息的情況下降低了數(shù)據(jù)集的維數(shù)。PCA適于處理稀疏數(shù)據(jù)。PCA的不足是會造成結(jié)論的可解釋性上相對于原始變量而言更復(fù)雜。第五十五頁,共七十五頁,2022年,8月28日屬性篩選的方法還有其他一些屬性篩選方法,此處不詳細(xì)講,例如:聚類線性判別式分析(LDA)多維標(biāo)度法(MDS)卡方檢驗。小波變換。適用于多維數(shù)據(jù)。其典型應(yīng)用是圖像壓縮。第五十六頁,共七十五頁,2022年,8月28日后續(xù)步驟第五十七頁,共七十五頁,2022年,8月28日數(shù)據(jù)挖掘這是最核心的一步。根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù),用合適的數(shù)據(jù)挖掘算法進(jìn)行分析,得出有用的信息。第五十八頁,共七十五頁,2022年,8月28日評估在這一步,我們驗證數(shù)據(jù)挖掘結(jié)果的正確性。其中,模型算法質(zhì)量的評價是很重要的一部分。對分類模型和聚類模型的評價方法是不同的。分類模型很重視采用一些指標(biāo)來進(jìn)行模型評價和選擇。對分類模型,通常采用的指標(biāo)有:ROC曲線、Lift曲線。其本質(zhì)都是與預(yù)測的準(zhǔn)確性有關(guān)的。第五十九頁,共七十五頁,2022年,8月28日分類算法評估的主要宗旨主要宗旨就是:減少誤判(假陽性)和漏判(假陰性)。在疾病預(yù)測、欺詐識別等領(lǐng)域,漏判帶來的危害遠(yuǎn)大于誤判。當(dāng)然,誤判會帶來干預(yù)成本的提高,比如會增加就診成本。第六十頁,共七十五頁,2022年,8月28日分類算法評估——一個比喻懷孕檢測:假陰性:懷孕了但沒檢測出來。第六十一頁,共七十五頁,2022年,8月28日分類算法評估——混淆矩陣混淆矩陣(Confusionmatrix)例如,TP表示實際是正例預(yù)測也為正例的實例個數(shù)。其他以此類推。第六十二頁,共七十五頁,2022年,8月28日分類算法評估——混淆矩陣可見,預(yù)測正確的實例數(shù)量遠(yuǎn)遠(yuǎn)多于預(yù)測錯誤的實例數(shù)量。第六十三頁,共七十五頁,2022年,8月28日分類算法評估——ROC曲線FP:假陽性,即實際是負(fù)例卻預(yù)測成正例的個數(shù)TP:真陽性,即實際是正例且預(yù)測成正例的個數(shù)橫軸是假陽性率(假正率),即FPR(FalsePositiveRate)或1-Specificity(即1-真負(fù)率),即實際為負(fù)例預(yù)測為正例的概率,即:FP/(FP+TN),即實際為負(fù)例預(yù)測為正例的個數(shù)除以實際為負(fù)例的個數(shù)。縱軸是真陽性率(真正率),即TPR(TruePositiveRate)或Sensitivity,即實際為正例預(yù)測也是正例的概率,即:TP/(TP+FN),即實際為正例預(yù)測也為正例的個數(shù)除以實際為正例的個數(shù)。第六十四頁,共七十五頁,2022年,8月28日分類算法評估——ROC曲線我們希望分類器的TPR盡量高,F(xiàn)PR盡量小。即,用盡量低的假陽性率為代價來換取盡量高的真陽性率。所以,我們希望ROC曲線離縱軸近。第六十五頁,共七十五頁,2022年,8月28日分類算法評估——ROC曲線曲線下方的面積(也叫AUC)越大越好。一般超過0.7就說明分類器有一定效果。我們經(jīng)常用AUC來比較各種分類器的效果。優(yōu)先采用AUC面積比較大的模型。第六十六頁,共七十五頁,2022年,8月28日分類算法評估——Lift曲線Lift曲線顯示了采用模型后與沒采用模型相比的改進(jìn)。含義是:分類器獲得的正類數(shù)量和不使用分類器隨機獲取正類數(shù)量的比例。后者是指不使用模型時,正例在樣本中的占比,也叫randomrate。換言之,lift值是指,如果使用分類器分類,會使得正類產(chǎn)生的比例增加多少。例如,與直接隨機抽取一些用戶發(fā)放促銷郵件相比,采用分類器會給公司帶來多少響應(yīng)客戶。Lift值在實踐中可能是用得最多的。它直觀易懂。它的重要的好處是直接顯示對應(yīng)于不同的促銷目標(biāo)群體規(guī)模的模型效果,便于挑選適當(dāng)?shù)哪繕?biāo)群體規(guī)模。第六十七頁,共七十五頁,2022年,8月28日分類算法評估——Lift曲線橫軸是樣本大小在所有潛在用戶中的占比;縱軸是所得到的回應(yīng)數(shù)量。對角線表示的是不同大小的隨機樣本的結(jié)果。我們用的不是隨機樣本,而是通過數(shù)據(jù)挖掘模型選擇出來的那些最可能做出回應(yīng)的客戶的樣本。我
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《13潔凈的水域》說課稿-2023-2024學(xué)年科學(xué)六年級下冊蘇教版
- Unit 2 Months of a Year Lesson Three(說課稿)-2024-2025學(xué)年重大版英語六年級上冊
- Unit 6 Chores Lesson 4 Let's spell(說課稿)-2024-2025學(xué)年人教新起點版英語五年級上冊001
- 2025水泥磚銷售合同范文
- 2024年七年級數(shù)學(xué)下冊 第10章 一元一次不等式和一元一次不等式組10.4一元一次不等式的應(yīng)用說課稿(新版)冀教版
- 中型臭氧設(shè)備購買合同范例
- 8 安全地玩(說課稿)-部編版道德與法治二年級下冊
- 農(nóng)業(yè)設(shè)備供貨合同范例
- 冷庫設(shè)備購銷合同范例
- 個人借還款合同范例
- 小學(xué)英語800詞分類(默寫用)
- 《 西門塔爾牛臉數(shù)據(jù)集的研究》范文
- 八年級上冊 第三單元 11《簡愛》公開課一等獎創(chuàng)新教學(xué)設(shè)計
- 真實世界研究指南 2018
- 2024年燃?xì)廨啓C值班員技能鑒定理論知識考試題庫-上(單選題)
- 中小商業(yè)銀行數(shù)字化轉(zhuǎn)型現(xiàn)狀及對策研究
- 2024-2030年中國車載冰箱行業(yè)市場發(fā)展調(diào)研及投資戰(zhàn)略分析報告
- 親子非暴力溝通培訓(xùn)講座
- 保險投訴處理流程培訓(xùn)
- (正式版)SHT 3046-2024 石油化工立式圓筒形鋼制焊接儲罐設(shè)計規(guī)范
- JJG 707-2014扭矩扳子行業(yè)標(biāo)準(zhǔn)
評論
0/150
提交評論