(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第1頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第2頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第3頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第4頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

腳本——數(shù)據(jù)合并與數(shù)據(jù)變換(ppt1,2)同學,你好。這節(jié)課我們來學習數(shù)據(jù)合并與數(shù)據(jù)變換。(ppt3)先來了解一下數(shù)據(jù)變換的重要性。(ppt4)(動畫1,2)為什么要對數(shù)據(jù)進行變換呢?例如回歸分析中的異方差性,誤差項的方差隨著自變量的變化而變化,如果直接進行回歸估計殘差的方差會隨著自變量的變化而變化,如果對變量進行適當變換,此時殘差服從同一個正態(tài)分布??梢愿玫陌l(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。(動畫3)那為什么要對數(shù)據(jù)進行標準化呢?主要功能就是消除變量間的量綱關(guān)系,從而使數(shù)據(jù)具有可比性。(動畫4)將數(shù)據(jù)變成可以挖掘使用的形式,更好的探索數(shù)據(jù)中隱藏的信息。(ppt5)下面我們來講解怎么樣來合并數(shù)據(jù)。(ppt6)(動畫1)數(shù)據(jù)合并的第一種形式:橫向表縱向表堆疊。(動畫2)橫向堆疊是將兩個表在X軸向拼接在一起,在python可以使用concat函數(shù)完成。即在橫向?qū)⒉煌忻Q的兩張或多張表合并。(動畫3)縱向堆疊是將兩個在Y軸向拼接在一起,也可以使用concat函數(shù)完成。即在縱向上,concat做列對齊,將不同行索引的兩張或多張表縱向合并。(ppt7)我們來看兩個例子。(動畫1)下面是兩張數(shù)據(jù)表,我們想要用橫向堆疊將其合并。(動畫2)采用并集方式合并之后得到表3,我們發(fā)現(xiàn)表3將原來的全部列拼接到一起,然后將相應(yīng)的數(shù)據(jù)填入表中。(ppt8)(動畫1)如果我們要用縱向堆疊將其合并。(動畫2)類似合并之后得到表3,我們發(fā)現(xiàn)表3將全部的行拼接到一起,然后將對應(yīng)的數(shù)據(jù)填入表中。(ppt9)(動畫1)第二種形式是主鍵合并數(shù)據(jù)。(動畫2)通過一個或多個鍵將兩個數(shù)據(jù)集的行連接起來,主要利用merge函數(shù)。(動畫3)如下表,在每一行增加了一個鍵,同一個行索引的鍵的名稱相同。(動畫4)合并后得到表3,我們發(fā)現(xiàn)在表3中用主鍵將兩張表的行連接起來,這就是我們的主鍵合并數(shù)據(jù)的原理。(ppt10)(動畫1)第三種是重疊合并數(shù)據(jù)。(動畫2)若出現(xiàn)兩份數(shù)據(jù)的內(nèi)容幾乎一致的情況,但是某些特征在其中一張表上是完整的,而在另外一張表上的數(shù)據(jù)則是缺失的時候,在python中可以用combine_first方法進行重疊數(shù)據(jù)合并。(動畫3)如下表,兩個數(shù)據(jù)表中都有一些缺失的數(shù)據(jù),但是這些缺失的數(shù)據(jù)可以在另外一個表中找到,因此我們把他們重疊,(動畫4)就可以得到表10,我們發(fā)現(xiàn)這個表的數(shù)據(jù)相對已經(jīng)比較完整了。數(shù)據(jù)之間的合并操作還有很多,大家在后續(xù)學習中可以更深入了解。(ppt11)接下來我們來學習數(shù)據(jù)變換。(ppt12)(動畫1)第一個是標準化數(shù)據(jù)。(動畫2,3)先考慮用離差來標準化數(shù)據(jù)。離差標準化是對原始數(shù)據(jù)的一種線性變換,結(jié)果是將原始數(shù)據(jù)的數(shù)值映射到[0,1]區(qū)間之間,轉(zhuǎn)換公式如下:X星等于(X-最小值)再除以極差。(動畫4)離差標準化保留了原始數(shù)據(jù)值之間的聯(lián)系,是消除量綱和數(shù)據(jù)取值范圍影響最簡單的方法。(ppt13)(動畫1)再考慮用標準差標準化數(shù)據(jù)。標準差標準化也叫零均值標準化或分數(shù)標準化,是當前使用最廣泛的數(shù)據(jù)標準化方法。經(jīng)過該方法處理的數(shù)值均值為0,標準差為1,轉(zhuǎn)化公式如下:X星等于X-均值除以原始數(shù)據(jù)的標準差服從標準正態(tài)分布。(動畫2)標準差標準化后的值區(qū)間不局限于[0,1],并且存在負值。同時,標準差標準化和離差標準化一樣不會改變數(shù)據(jù)的分布情況。(ppt14)(動畫1)小數(shù)定標標準化數(shù)據(jù)。通過移動數(shù)據(jù)的小數(shù)位數(shù),將數(shù)據(jù)映射到區(qū)間[-1,1]之間,移動的小數(shù)位數(shù)取決于數(shù)據(jù)絕對值的最大值。轉(zhuǎn)化公式如下:X星等于X除以10的K次方。K我們一般通過經(jīng)驗取得,要保證10的k次方大于X的最大值,這樣就會將所有的數(shù)據(jù)映射到區(qū)間[-1,1]之間。(ppt15)(動畫1)我們來對三種標準化數(shù)據(jù)的方式進行總結(jié)。離差標準化方法簡單,便于理解,標準化后的數(shù)據(jù)限定在[0,1]區(qū)間內(nèi);標準差標準化受到數(shù)據(jù)分布的影響較??;小數(shù)定標標準化方法適用范圍廣,并且受到數(shù)據(jù)分布的影響較小,相比較于前兩種方法而言該方法適用程度適中。(ppt16)(動畫1)接下來我們看第二種數(shù)據(jù)變換的方式,簡單函數(shù)變換。簡單函數(shù)變換就是對原始數(shù)據(jù)進行某些數(shù)學函數(shù)變換,常用的函數(shù)變換包括平方、開方、對數(shù)、差分運算等。(動畫2)如果對數(shù)據(jù)進行平方、開方和對數(shù)運算。(動畫3)對特性數(shù)據(jù)可以將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)。(動畫4)如果對數(shù)據(jù)進行差分運算,(動畫5)一般可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列。(ppt17)(動畫1)常用的第三種數(shù)據(jù)變換方式,連續(xù)屬性的離散化。(動畫2)一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法(決策樹,分類算法)、Apriori算法(關(guān)聯(lián)算法)等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。(動畫3)連續(xù)屬性變換成分類屬性涉及兩個子任務(wù):決定需要多少個分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。(ppt18)將連續(xù)屬性離散化一般有三種方法。(動畫1)第一種是等寬法。將屬性的值域分成具有相同寬度的區(qū)間,區(qū)間的個數(shù)由數(shù)據(jù)本身的特點決定,或者由用戶指定,類似于制作頻率分布表。(動畫2)如右邊的圖所示,每一個區(qū)間的寬度是相同的,但是區(qū)間中的數(shù)據(jù)個數(shù)是不同的。(動畫3)第二種是等頻法,即將相同數(shù)量的記錄放進每個區(qū)間。(動畫4)如右邊的圖所示,每一個區(qū)間中數(shù)據(jù)的個數(shù)是相同的,但是所占的區(qū)間寬度確實不同的。(動畫5)基于聚類分析的方法:一維聚類的方法包括兩個步驟,首先將連續(xù)屬性的值用聚類算法(如K-Means算法)進行聚類,然后將聚類得到的簇進行處理,合并到一個簇的連續(xù)屬性值并做同一標記。(ppt19)下面我們來講解轉(zhuǎn)換數(shù)據(jù)。(ppt20)(動畫1)第一種是利用啞變量處理數(shù)據(jù)。(動畫2)啞變量,也叫虛擬變量,引入啞變量的目的是,將不能夠定量處理的變量量化。它是人為虛設(shè)的變量,通常取值為0或1,來反映某個變量的不同屬性。(動畫3)Python中可以利用pandas庫中的get_dummies函數(shù)對類別型特征進行啞變量處理。(ppt21)(動畫1)我們通過一個例子來了解啞變量的原理。我們想要研究的是學歷為小學、中學、大學、碩士和博士的人,如果一個人他屬于這個學歷,就記為1,否則,記為0。(動畫2)因為對于我們所研究的群體,如果他不是小學、中學、大學或者碩士,他必然就是博士,因此我們固定博士,記為(0,0,0,0)。(動畫3)我們得到啞變量處理之后的表格如右表所示,得到的是一個四維矩陣。(ppt22)(動畫1)所以我們啞變量處理數(shù)據(jù)的特點就是對于一個類別型特征,若其取值有m個,則經(jīng)過啞變量處理后就變成了m個二元特征,并且這些特征互斥,每次只有一個激活,這使得數(shù)據(jù)變得稀疏。對類別型特征進行啞變量處理主要解決了部分算法模型無法處理類別型數(shù)據(jù)的問題,這在一定程度上起到了擴充特征的作用。由于數(shù)據(jù)變成了稀疏矩陣的形式,因此也加速了算法模型的運算速度。(ppt23)(動畫1)接下來我們來講解one-hot編碼處理類別數(shù)據(jù)。one-hot編碼也叫做獨熱碼,其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼,每個狀態(tài)都由他獨立的寄存器位,并且在任意時候,其中只有一位有效。直觀來說就是有多少個狀態(tài)就有多少比特,而且只有一個比特為1,其他全為0的一種碼制。(ppt24)(動畫1)還是考慮之前的那個例子,One-hot編碼會對每一個狀態(tài)都進行編碼,因此我們可以得到右邊那個五維的矩陣形式。(ppt25)(動畫1)那么啞變量與one-hot編碼有什么區(qū)別呢?啞變量將定性特征轉(zhuǎn)化為n-1個特征,而One-hot則是轉(zhuǎn)化為n個特征。即啞變量在編碼時會去除第一個狀態(tài),而One-hot則對所有的狀態(tài)都會進行編碼。(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論