韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章課件_第1頁
韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章課件_第2頁
韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章課件_第3頁
韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章課件_第4頁
韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章課件_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章了解你的數(shù)據(jù)2014.10第二章了解你的數(shù)據(jù)2014.101目錄2.1數(shù)據(jù)對象和屬性類型2.2數(shù)據(jù)的基本統(tǒng)計描述2.3數(shù)據(jù)可視化2.4衡量數(shù)據(jù)相似性和相異性2.5總結(jié)目錄2.1數(shù)據(jù)對象和屬性類型22.1DataObjectsandAttributeTypes2.1.1WhatisanAttribute?2.1.2NominalAttributes2.1.3BinaryAttributes2.1.4OrdinalAttributes2.1.5NumericAttributes2.1.6DiscreteversusContinuousAttributes2.2BasicStatisticalDesciptionsofData2.3DataVisualization2.4MeasuringDataSimilarityandDissimilarity2.5Summary2.1DataObjectsandAttribute32.1數(shù)據(jù)對象和屬性類型

數(shù)據(jù)集是由數(shù)據(jù)對象構(gòu)成的。一個數(shù)據(jù)對象表示一個實體——在銷售數(shù)據(jù)庫中,對象可以是顧客、商品或者銷售記錄。在醫(yī)學(xué)數(shù)據(jù)庫中,數(shù)據(jù)對象可以是病人。在大學(xué)數(shù)據(jù)庫中,數(shù)據(jù)對象可以是學(xué)生、教授和課程。

數(shù)據(jù)對象用屬性來描述。

數(shù)據(jù)對象可以是一個抽樣、舉例、實例、數(shù)據(jù)點或者對象。如果數(shù)據(jù)對象存放在數(shù)據(jù)庫中,它們是數(shù)據(jù)元組。即數(shù)據(jù)庫中行對應(yīng)數(shù)據(jù)對象,列對應(yīng)于屬性。2.1數(shù)據(jù)對象和屬性類型 數(shù)據(jù)集是由數(shù)據(jù)對象構(gòu)成的。一個數(shù)42.1.1什么是屬性?

一個屬性是一個域,表示一個數(shù)據(jù)對象的一個特征。

“屬性”、“維度”、“特征”和“變量”這些詞在語義上是可交換的?!熬S度”通常被用在數(shù)據(jù)倉庫中,機器學(xué)習(xí)中傾向于使用“特征”;統(tǒng)計學(xué)傾向使用“變量”,數(shù)據(jù)挖掘和數(shù)據(jù)庫經(jīng)常使用“屬性”。

屬性描述一個顧客對象,如:顧客ID,姓名,地址。

對給定的屬性的可觀察值被稱為觀察??坍嬕粋€給定對象的屬性集合被稱為屬性向量(或特征向量)。

2.1.1什么是屬性? 一個屬性是一個域,表示一個數(shù)據(jù)對象5

包含單個屬性的數(shù)據(jù)分布被稱為單變量的分布;包含2個屬性的被稱為二變量的分布。

屬性的類型是有屬性可取的值決定的,有名詞、二進制型、順序值或者數(shù)值類型。 包含單個屬性的數(shù)據(jù)分布被稱為單變量的分布;包含2個屬性的被62.1.2名詞屬性

名詞屬性的值是事物的標(biāo)號或者名稱。每一個值表示類別、編碼或者狀態(tài)。因此名詞屬性被稱為是分類。值沒有次序信息。在計算機領(lǐng)域,也可以稱為枚舉型。

舉例如:發(fā)色和婚姻狀態(tài)。發(fā)色可以是黑色,棕色,紅色,灰色,白色?;橐鰻顟B(tài)可以是單身、已婚、離異或者喪偶。這些都是名詞屬性。2.1.2名詞屬性 名詞屬性的值是事物的標(biāo)號或者名稱。每一7

盡管名詞屬性是標(biāo)號或者名稱,但也可以是數(shù)值的表示形式。比如,發(fā)色,可以用0表示黑色,1表示棕色等。顧客ID可以是數(shù)字。但是,在這種情況,數(shù)字并不被當(dāng)成數(shù)值來使用。

因為名詞屬性不包含任何順序信息也非數(shù)值型,所以不用終止或者平均數(shù)去衡量這類屬性。可以使用屬性最多出現(xiàn)的值,“眾數(shù)”來做中心性測量。 盡管名詞屬性是標(biāo)號或者名稱,但也可以是數(shù)值的表示形式。比如82.1.2二進制屬性

二進制屬性是只有兩個類別或狀態(tài):0和1.0一般表示屬性缺失,1表示存在。二進制屬性也即bool型,兩個狀態(tài)表示真和假。

舉例。如,病人對象的吸煙屬性,1表示吸煙,0表示不吸煙。再比如,病人的某個醫(yī)學(xué)檢查結(jié)果有兩種情況。1表示結(jié)果為陽性,0表示為陰性。

如果二進制屬性的兩個狀態(tài)是同等有價值的具有相同的權(quán)重,則為對稱的。2個屬性被標(biāo)為1或者0都可以,比如性別屬性的兩個值男和女。

如果兩個狀態(tài)不是同等重要的,則為非對稱的。比如HIV檢查的結(jié)果呈陰性和陽性。通常,用1表示更重要的通常是更稀少的結(jié)果,其他的用0表示。2.1.2二進制屬性 二進制屬性是只有兩個類別或狀態(tài):0和92.1.4次序?qū)傩?/p>

次序?qū)傩跃哂写涡蚧蛘呒墑e的意義。但是相鄰值的級別未知。舉例:例如飲料尺寸,可以是“小杯”,“中杯”,“大杯”。值有順序的意義,但是不能分辨中杯比大杯大多少。再比如,成績等級A+,A,A-,B+職稱:助理,副教授,教授

次序?qū)傩员挥脕砗饬繜o法客觀衡量的屬性,用主觀的評估定質(zhì)量。在調(diào)查中常用來排序。比如,參與者作為顧客,他們的滿意度可以是:0:非常不滿意,1有點不滿意,2中立3滿意4很滿意2.1.4次序?qū)傩?次序?qū)傩跃哂写涡蚧蛘呒墑e的意義。但是相10

把數(shù)值數(shù)據(jù)離散化,把它們按照值的范圍分類,也可以得到次序?qū)傩缘臄?shù)據(jù)。

次序?qū)傩缘闹行男钥梢杂帽姅?shù)和中值來衡量,但是不能計算平均數(shù)。

名詞屬性、二進制屬性和次序?qū)傩远际嵌ㄐ缘?。它們在描述一個對象的特征時不給出具體的尺寸和數(shù)量。值通常是一個詞表示類別,即使以整數(shù)的方式表現(xiàn),也不是表示數(shù)量。 把數(shù)值數(shù)據(jù)離散化,把它們按照值的范圍分類,也可以得到次序?qū)?12.1.5數(shù)值型屬性數(shù)值型屬性是定量的,是可測量的數(shù)值,為整數(shù)或?qū)崝?shù)。分為間隔尺度和比例尺度。2.1.5數(shù)值型屬性數(shù)值型屬性是定量的,是可測量的數(shù)值,為12間隔尺度屬性

間隔尺度使用同等大小的單元來衡量。間隔尺度屬性有大小,可以是正,0或者負值。除了能對屬性值排序,還可以比較和衡量不同值的差值大小。

舉例:溫度屬性是間隔尺度。20攝氏度高于15攝氏度。日歷也是間隔尺度,以及年份。 Celsius和Fahrenhet是兩個溫度,沒有絕對0點,并且我們能計算溫度的差值,但是不能說一個值是另一個值的多少倍,例如10攝氏度比5攝氏度溫暖2倍。

間隔尺度是數(shù)值型的,可以計算平均值,中值和眾數(shù)。間隔尺度屬性 間隔尺度使用同等大小的單元來衡量。間隔尺度屬性13比例尺度

比例尺度屬性是數(shù)值型的,有固定的0值。

如果一個測量是比例尺度,則可以以比率來衡量兩個值,也可以計算值的差值,以及中值,均數(shù)和眾數(shù)。

例如:Kelvin溫度有一個真正的0點。另外,計數(shù)屬性,經(jīng)驗?zāi)陻?shù),單詞個數(shù),體重,身高,速度,貨幣都是比例尺度。比例尺度 比例尺度屬性是數(shù)值型的,有固定的0值。142.1.6離散和連續(xù)屬性離散屬性有有限的或者可數(shù)的值集合,可能不能表示為整數(shù)。例如發(fā)色,是否吸煙,醫(yī)學(xué)檢查結(jié)果,飲料尺寸,都有有限的值,因此是離散的。離散值可能是數(shù)值型的,比如二進制的0和1,年齡的0到110.一個屬性是可數(shù)無限的如果可能的值集合是無限的但是值和自然數(shù)有一一對應(yīng)的關(guān)系。比如,顧客ID是可數(shù)無限的。郵政編碼也是。2.1.6離散和連續(xù)屬性離散屬性有有限的或者可數(shù)的值集合,15如果值不是離散的,則是連續(xù)的。數(shù)值屬性或者連續(xù)屬性是含義上是一樣的。如果值不是離散的,則是連續(xù)的。數(shù)值屬性或者連續(xù)屬性是含義上是162.2數(shù)據(jù)的基本統(tǒng)計描述為了更好的做數(shù)據(jù)預(yù)處理,對數(shù)據(jù)有整體的了解很關(guān)鍵?;镜慕y(tǒng)計描述能鑒別數(shù)據(jù),分辨出噪聲和離群點。2.2數(shù)據(jù)的基本統(tǒng)計描述為了更好的做數(shù)據(jù)預(yù)處理,對數(shù)據(jù)有整172.2.1中心性度量:平均數(shù),中位數(shù),眾數(shù)

假定我們有一些屬性X,例如薪資,有一系列數(shù)據(jù)對象的記錄。令x1,x2,….xN是屬性X的N個觀察到的值。如果我們畫出薪資的點圖,絕大部分的值會落在哪里呢?這就是數(shù)據(jù)的中心性問題。衡量中心性的測量有均值、中值、眾數(shù)和中列數(shù)。2.2.1中心性度量:平均數(shù),中位數(shù),眾數(shù)

假定我們有一些18平均數(shù):最常用和最有效的測量是數(shù)據(jù)的(算術(shù))平均數(shù)。計算公式是:平均數(shù):19有時候,每一個xi有一個關(guān)聯(lián)的權(quán)重wi,權(quán)值表示相應(yīng)值的重要性、顯著性或者發(fā)生頻率。這時候,平均值的計算公式為:稱為加權(quán)算術(shù)平均值或者加權(quán)平均。有時候,每一個xi有一個關(guān)聯(lián)的權(quán)重wi,權(quán)值表示相應(yīng)值的重要20平均值對極端值比較敏感。比如一個公司的員工平均薪水可能被少數(shù)高新的經(jīng)理提高很多。同樣,班級的平均分也可能被少數(shù)的低分拉低很多。為了處理這種由少數(shù)極端值帶來的效果,可以使用削減均值,即去掉極端大和極端小的值之后的平均值。比如,把薪水排序,然后去掉2%的最大值和最小值。應(yīng)該避免削減太多(比如20%),這會導(dǎo)致數(shù)據(jù)信息的丟失。平均值對極端值比較敏感。比如一個公司的員工平均薪水可能被少數(shù)21對于偏斜(不對稱)的數(shù)據(jù),使用中值(中位數(shù))是更好的中心性測量。中值是一系列排序好的數(shù)據(jù)的中點的值。該值把數(shù)據(jù)集分成2個部分,一半值大的,一半值小的。在概率統(tǒng)計中,中值一般用在數(shù)值型數(shù)據(jù)上。這里,中值可以擴展到次序?qū)傩陨?。將?shù)據(jù)集的N個值按升序排列。如果N為奇數(shù),中值即是排序集合的中點的值;如果N為偶數(shù),中值可以是中點的2個值中的任意值。如果X是數(shù)值型數(shù)據(jù),傳統(tǒng)上中值取兩個中點數(shù)的均值。對于偏斜(不對稱)的數(shù)據(jù),使用中值(中位數(shù))是更好的中心性測22

23

24眾數(shù)眾數(shù)是另一個衡量中心性的測量。眾數(shù)是一系列數(shù)據(jù)中出現(xiàn)頻率最高的值。眾數(shù)可以是定性的也可以是定量的屬性。有可能好幾個不同的值都出現(xiàn)大量的頻率,導(dǎo)致眾數(shù)不止一個。眾數(shù)有1個、2個、3個的分別稱為unimodal(單峰值),bimodal(二峰值),trimodal(三峰值).一個極端的例子,如果每隔數(shù)據(jù)值都僅出現(xiàn)一次,則沒有眾數(shù)。眾數(shù)眾數(shù)是另一個衡量中心性的測量。眾數(shù)是一系列數(shù)據(jù)中出現(xiàn)頻率25舉例:例子2.6中有2個眾數(shù):52和70.對于單峰值的數(shù)值型數(shù)據(jù)來說,數(shù)據(jù)是適度偏斜的(不對稱),有一下的經(jīng)驗性關(guān)系:這表明,如果平均數(shù)和中值已知,適度傾斜的單峰頻率曲線的眾數(shù)可以近似得到。舉例:例子2.6中有2個眾數(shù):52和70.26中列數(shù)中列數(shù)是數(shù)據(jù)集中最大值和最小值的平均值。可以用來評估數(shù)值型數(shù)據(jù)的中心性趨勢。利用sql語言的聚集函數(shù)max()和min()很容易計算。舉例:例2.6中,中列數(shù)是:30+110/2=70.中列數(shù)中列數(shù)是數(shù)據(jù)集中最大值和最小值的平均值??梢杂脕碓u估數(shù)27數(shù)據(jù)的對稱和偏斜在對稱的單峰頻率曲線數(shù)據(jù)分布中,平均數(shù),中值和眾數(shù)都在同樣的中點值上。實際應(yīng)用中,絕大部分都不是對稱的。如果眾數(shù)的值小于中值,稱為正偏斜;如果眾數(shù)的值大于中值,稱為負偏斜。見圖2.1.數(shù)據(jù)的對稱和偏斜在對稱的單峰頻率曲線數(shù)據(jù)分布中,平均數(shù),中值28韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章ppt課件292.2.2數(shù)據(jù)分散性的度量:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差、四分位差1、極差、四分位數(shù)、四分位差令x1,x2,…xN是某個數(shù)值屬性X的一系列觀察,數(shù)據(jù)集的極差表示的是最大值和最小值的差。假設(shè)數(shù)據(jù)按照屬性X以升序排列。想象我們可以挑選特定的數(shù)據(jù)點,這樣可以把數(shù)據(jù)分割成大小相等的連續(xù)數(shù)據(jù)集,如圖2-2.數(shù)據(jù)點稱為分位點。分位點是數(shù)據(jù)分布上有規(guī)律率的間隔的數(shù)據(jù)點,將其分成相等大小的連續(xù)的數(shù)據(jù)集。2.2.2數(shù)據(jù)分散性的度量:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差、30韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章ppt課件31給定數(shù)據(jù)分布的第K個q-分位點x,是至多k/q的數(shù)據(jù)值小于x,至多q-k/q的數(shù)據(jù)值大于x,k是大于0小于q的整數(shù)。共有q-1個q-分位點。2-分位點是把數(shù)據(jù)分布分割成較小值和較大值兩半的數(shù)據(jù)點。即中位數(shù)。4-分位點是把數(shù)據(jù)分布分成4個等量大小的3個數(shù)據(jù)點,每一個部分表示數(shù)據(jù)分布的1/4.它們被稱為四分位數(shù)。給定數(shù)據(jù)分布的第K個q-分位點x,是至多k/q的數(shù)據(jù)值小于32100-分位數(shù)更通常被稱為百分位數(shù),它們將數(shù)據(jù)集分成100個大小相等的連續(xù)集合。中位數(shù),四分位數(shù)和百分位數(shù)是使用最廣泛的分位數(shù)。分位數(shù)反應(yīng)了分布的中心,散布以及形狀。第1個四分位數(shù),表示為Q1,是第25個百分位點。它把數(shù)據(jù)值最低的25%切斷。第3個四分位數(shù),表示為Q3,是第75個百分位數(shù)。它切斷了數(shù)據(jù)值低的75%。100-分位數(shù)更通常被稱為百分位數(shù),它們將數(shù)據(jù)集分成100個33Q1和Q3的距離,簡單反應(yīng)了數(shù)據(jù)中心的一半數(shù)據(jù)的范圍。這個距離被稱為四分位差。被定義為:Q1和Q3的距離,簡單反應(yīng)了數(shù)據(jù)中心的一半數(shù)據(jù)的范圍。這個距34五數(shù)概括、箱子圖、離群點單個的數(shù)值分散測量在描述偏斜的分布時都不夠有效。在對稱的分布中,中值把數(shù)據(jù)分成大小相等的2部分。但對偏斜的數(shù)據(jù)來說并非如此。因此,使用Q1,Q3和中值一起會更加有信息量。一個通用的鑒別可疑的離群點的規(guī)則是挑選出落在Q3以上或者Q1以下1.5*IQR以上的數(shù)據(jù)值。Five-numbersummary是包含了中值,Q1,Q3,最小值和最大值的分布,按次序表示為:Minimum,Q1,Median,Q3,Maximum.箱線圖是常用的描述數(shù)據(jù)分布的方法。五數(shù)概括、箱子圖、離群點單個的數(shù)值分散測量在描述偏斜的分布時35韓家煒數(shù)據(jù)挖掘概念與技術(shù)第2章ppt課件36箱線圖中:箱子的長度是四分位差中值是箱子中間的線箱子外面的兩根須是觀察的最小值和最小值。當(dāng)處理相當(dāng)數(shù)量的觀察時,單個的繪出潛在的離群點是值得的。箱線圖中為了處理這個,須被擴展到最大值和最小值僅當(dāng)這些值小于1.5*IQR時。否則的話,須的末端是1.5*IQR處。箱線圖的計算時間復(fù)雜度是o(nlogn).箱線圖中:37方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差是測量數(shù)據(jù)分散度的。比較低的標(biāo)準(zhǔn)差表示數(shù)據(jù)觀察傾向于靠近均值。高標(biāo)準(zhǔn)差表示數(shù)據(jù)值分布在一個比較大的范圍區(qū)間。N個觀察x1,x2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論