




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘:數(shù)據(jù)第2章數(shù)據(jù)什么是數(shù)據(jù)?數(shù)據(jù)集可以看作數(shù)據(jù)對象的集合。數(shù)據(jù)對象用一組刻畫對象基本特性的屬性描述數(shù)據(jù)對象記錄、點、向量、模式、事件、案例、樣本、觀測、實體.屬性變量、特性、字段、特征、維AttributesObjects屬性與屬性值屬性的性質(zhì)不必與度量它的屬性值的性質(zhì)相同,反之亦然相同的屬性可能有不同的屬性值
例子:高度可以用米或英尺來表示不同的屬性可能映射到相同的值的集合
例子:雇員IDand年齡都用整型表示
然而,談論平均年齡是有意義的,平均ID是無意義的ID和年齡最大值不同例
線段長度屬性的不同類型四種屬性類型分類的(定性的)標稱舉例:雇員id、眼球顏色、性別序數(shù)舉例:礦石硬度、{好,較好,最好}數(shù)值的(定量的)區(qū)間舉例:日歷日期、攝氏、華氏溫度比率舉例:絕對溫度、貨幣量、計數(shù)、年齡、質(zhì)量、長度、電流屬性類型描述例子操作標稱標稱值只提供足夠的信息以區(qū)分對象.(=,
)雇員id、眼球顏色、性別眾數(shù)、熵、列聯(lián)相關、,
2
檢驗序數(shù)序數(shù)屬性的值提供足夠的信息確定對象的序.(<,>)礦石硬度、{好,較好,最好}、成績中值、百分位、秩相關、游程檢驗、符號檢驗區(qū)間對于區(qū)間屬性,值之間的差是有意義的,即存在測量單位.
(+,-)日歷日期、攝氏、華氏溫度均值、標準差、皮爾遜相關、t和F檢驗比率對于比率變量,差和比率都是有意義的.(*,/)絕對溫度、貨幣量、計數(shù)、年齡、質(zhì)量、長度、電流幾何平均、調(diào)和平均、百分比變差屬性類型變換注釋標稱任何一對一變換如果所有雇員的ID號都重新賦值,不會導致任何不同序數(shù)值的保序變換
新值=f(舊值)
f
是單調(diào)的.包括好、較好、最好的屬性可以完全等價的用{1,2,3}或用{0.5,1,10}表示.區(qū)間新值=a*舊值+b華氏和攝氏溫度標度零度的位置和1度的大小(單位)不同比率新值=a*舊值
長度可以用米或英尺度量.離散和連續(xù)屬性離散屬性具有有限或無限可數(shù)個值例子:ID號、計數(shù)、字母數(shù)經(jīng)常用整數(shù)表示.一種特殊的離散屬性:二元屬性連續(xù)屬性是取實數(shù)值的屬性例子:溫度、高度、重量.連續(xù)屬性用浮點變量表示.實際上、實數(shù)值只能用有限的精度測量和表示.2.1數(shù)據(jù)集的類型記錄數(shù)據(jù)數(shù)據(jù)矩陣(DataMatrix)文檔-詞矩陣(Document-termData)事物數(shù)據(jù)(TransactionData)圖帶有對象之間聯(lián)系的數(shù)據(jù)具有圖形對象的數(shù)據(jù)有序數(shù)據(jù)空間數(shù)據(jù)(SpatialData)時間數(shù)據(jù)(TemporalData)時間序列數(shù)據(jù)(TimeSeriesData)序列數(shù)據(jù)(SequenceData)數(shù)據(jù)集的一般特性維度(dimensionality)
數(shù)據(jù)集中的對象具有的屬性個數(shù)維災難維歸約稀疏性(sparsity)
具有非對稱特征的數(shù)據(jù)集,一個對象大部分屬性值為0,非零項一般不到1%分辨率(resolution)
不同的分辨率下數(shù)據(jù)的性質(zhì)不同記錄數(shù)據(jù)記錄(數(shù)據(jù)對象)的匯集,每個記錄包含固定的數(shù)據(jù)字段(屬性)集數(shù)據(jù)矩陣如果一個數(shù)據(jù)集族中的所有數(shù)據(jù)對象都具有相同的數(shù)值屬性集,則數(shù)據(jù)對象可以看作多維空間的點(向量),其中每一維代表描述對象的一個不同屬性。數(shù)據(jù)對象集可用m×n的矩陣表示它是記錄數(shù)據(jù)的變體,它由數(shù)值屬性組成,可以使用矩陣操作對數(shù)據(jù)進行變換和操作稀疏數(shù)據(jù)矩陣特殊的數(shù)據(jù)矩陣,只有非零值是重要的,例子:文檔-詞矩陣事務數(shù)據(jù)每個記錄(事務)涉及一個項的集合.例子:一個雜貨店。顧客一次購買的商品的集合就構成一個事務,而購買的商品是項.這種類型的數(shù)據(jù)稱作購物籃數(shù)據(jù)基于圖形的數(shù)據(jù)帶有對象之間聯(lián)系的數(shù)據(jù)具有圖形對象的數(shù)據(jù)苯分子:C6H6有序數(shù)據(jù)時序數(shù)據(jù)例子:時序事務數(shù)據(jù)有序數(shù)據(jù)時間序列數(shù)據(jù)有序數(shù)據(jù)序列數(shù)據(jù)例子:基因組序列數(shù)據(jù)有序數(shù)據(jù)空間數(shù)據(jù)例子:溫度數(shù)據(jù)數(shù)據(jù)質(zhì)量現(xiàn)實世界的數(shù)據(jù)是“骯臟的”——數(shù)據(jù)多了,什么問題都會出現(xiàn)不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯誤或者“孤立點”不一致的:在編碼或者命名上存在差異沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫需要對高質(zhì)量的數(shù)據(jù)進行一致地集成2.2數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量問題的例子:噪聲(Noise)離群點(outliers)遺漏值(missingvalues)重復數(shù)據(jù)(duplicatedata)噪聲噪聲是測量誤差的隨機部分Examples:distortionofaperson’svoicewhentalkingonapoorphoneand“snow”ontelevisionscreenTwoSineWavesTwoSineWaves+Noise離群點噪聲和離群點的區(qū)別離群點可以是合法的數(shù)據(jù)對象或值,不像噪聲,離群點本身可以是令人感興趣的例子:欺詐和網(wǎng)絡攻擊檢測中,目標就是從大量正常對象或事件中發(fā)現(xiàn)不正常的對象和事件遺漏值原因信息未收集
(例如:有的人拒絕提供年齡和體重)屬性并不能用于所有對象
(例如:填寫學歷后,填寫專業(yè),研究方向)處理遺漏值刪除數(shù)據(jù)對象或?qū)傩怨烙嬤z漏值在分析時忽略遺漏值如何處理遺漏(缺失)值忽略元組:當類標號缺少時通常這么做(假定挖掘任務涉及分類或描述),當每個屬性缺少值的百分比變化很大時,它的效果非常差。人工填寫空缺值:工作量大,可行性低使用一個全局變量填充空缺值:比如使用unknown或-∞使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值重復數(shù)據(jù)數(shù)據(jù)集可能包含重復或幾乎重復的數(shù)據(jù)對象例子:許多人收到重復的郵件2.3數(shù)據(jù)預處理聚集抽樣維歸約特征子集選擇特征創(chuàng)建離散化和二元化變量變換聚集將兩個或多個對象合并成單個對象目的數(shù)據(jù)歸約
使數(shù)據(jù)集規(guī)模減少,從而耗時較多的數(shù)據(jù)挖掘算法更可行尺度變換建立高層數(shù)據(jù)視圖。城市聚集成地區(qū)、省、國家數(shù)據(jù)性質(zhì)更加穩(wěn)定
平均值、總數(shù)等聚集量具有更小的變異性聚集動機1.數(shù)據(jù)歸約導致的較小數(shù)據(jù)集需要較少的內(nèi)存和處理時間,因此可以使用花費更大的數(shù)據(jù)挖掘算法。2.通過高層而不是低層數(shù)據(jù)視圖,聚集起到了轄域或標度轉(zhuǎn)換的作用。3.對象或?qū)傩匀旱男再|(zhì)通常比單個對象或?qū)傩缘男再|(zhì)更加穩(wěn)定聚集StandardDeviationofAverageMonthlyPrecipitationStandardDeviationofAverageYearlyPrecipitation例2.7澳大利亞降水量該例基于從1982年到1993年的降水量。左圖顯示澳大利亞3030個0.5度乘0.5度(經(jīng)緯度)的網(wǎng)格單元上的平均月降水量的標準差。右圖為相同位置的平均年降水量的標準差。抽樣抽樣是一種選擇數(shù)據(jù)對象子集進行分析的常用方法抽樣長期用于數(shù)據(jù)的事先調(diào)查和最終的數(shù)據(jù)分析.
在統(tǒng)計學和數(shù)據(jù)挖掘中,抽樣的動機并不相同.統(tǒng)計學使用抽樣是因為獲得感興趣的整個數(shù)據(jù)集的費用太高、太費時間數(shù)據(jù)挖掘使用抽樣是因為處理所有的數(shù)據(jù)的費用太高、太費時間抽樣…有效抽樣(樣本有代表性):使用抽樣樣本與使用整個數(shù)據(jù)集的效果幾乎一樣
如果它近似地具有與原數(shù)據(jù)集相同(感興趣)的性質(zhì)。例子:如果感興趣的數(shù)據(jù)對象是均值,而抽樣樣本具有近似于原數(shù)據(jù)集的均值,則樣本是有代表性的抽樣方法簡單隨機抽樣無放回抽樣有放回抽樣
當樣本與數(shù)據(jù)集相比相對較小時,兩種方法產(chǎn)生的樣本差別不大,有放回抽樣較為簡單分層抽樣每種類型的對象數(shù)量差別很大時,簡單隨機抽樣不能充分地代表不太頻繁出現(xiàn)的對象類型。先分組,然后對每組抽樣??梢允姑拷M抽樣個數(shù)相同或從每組中抽取的對象數(shù)量正比于該組的大小抽樣——SRSSRSWOR(簡單隨機抽樣,不回放)SRSWR(簡單隨機抽樣,回放)原始數(shù)據(jù)分層抽樣原始數(shù)據(jù)聚類/分層選樣抽樣與信息損失
8000points 2000Points 500Points較大的樣本容量增大了樣本具有代表性的概率,但也抵消了抽樣帶來的許多好處。反過來,使用較小容量的樣本,可能丟失模式,或檢測到錯誤的模式。抽樣尺寸抽樣尺寸選為多少?才能保證從每組中找出一個代表點.維歸約目的:減少數(shù)據(jù)挖掘算法運行的時間和空間數(shù)據(jù)更容易可視化刪除不相關特征、降低噪音維歸約通過刪除不相干的屬性或維減少數(shù)據(jù)量屬性子集選擇找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解技術主成分分析(PrincipleComponentAnalysis)特征創(chuàng)建由原來的屬性創(chuàng)建新的屬性集,更有效地捕獲數(shù)據(jù)集中的重要信息三個一般的方法:特征提取映射數(shù)據(jù)到新的空間特征構造特征提取映射數(shù)據(jù)到新的空間TwoSineWavesTwoSineWaves+NoiseFrequency傅立葉變換:把時間序列轉(zhuǎn)化為頻率信息小波變換特征構造有時,原始數(shù)據(jù)集的特征具有必要的信息,但其形式不適合數(shù)據(jù)挖掘算法。在這種情況下,一個或多個由原特征構造的新特征可能比原特征更有用例子:每個人工制品由體積、質(zhì)量和其它信息構成。假定這些人工制品使用少量材料(木材、陶土、青銅、黃金)制造,并且我們希望根據(jù)制造材料對它們分類。密度=質(zhì)量/體積將很直接地產(chǎn)生準確的分類。盡管有一些努力,試圖通過考察已有特征的簡單的數(shù)學組合來自動的進行特征構造,但是最常見的方法還是使用專家的意見構造特征離散化和二元化分類屬性二元化如果有m個分類值,則將每個原始值唯一地賦予區(qū)間[0,m-1]中的一個整數(shù)。如果屬性是有序的,則賦值必須保持序關系然后,將這m個整數(shù)的每一個都變換成一個二進制數(shù)。需要使用
個二進位表示這些整數(shù)例:一個具有5個值[awful,poor,ok,good,great]的分類變量需要三個二元變量表示。上面的變換可能導致復雜化,如無意中建立了轉(zhuǎn)化后的屬性之間的聯(lián)系。關聯(lián)分析可能認為x2和x3是相關的,因為good值使用這兩個屬性值表示對于關聯(lián)分析,需要為每個分類值引入一個二元屬性連續(xù)屬性離散化連續(xù)屬性變?yōu)榉诸悓傩詫⑦B續(xù)屬性值排序后,通過指定n-1個分割點把他們分成n個區(qū)間將一個區(qū)間中的所有值映射到相同的分類例:對x=2.1,2.4,3,3.5,4,3.2離散化為三個分類值2.1,2.4,3,3.2,3.8,4設定區(qū)間(-∞,2.7],(2.7,3.5],(3.5,+∞)離散化為0,0,1,1,2,2
非監(jiān)督離散化數(shù)據(jù)等寬離散化等頻率離散化k均值離散化等寬這種方法將屬性的值域劃分成具有相同寬度的區(qū)間這種方法可能受離群點的影響而性能不佳等頻率這種方法將相同數(shù)量的對象放進每個區(qū)域K均值聚類監(jiān)督離散化帶有類標號的數(shù)據(jù)離散化基于熵的離散化熵的計算公式Mi是第i個區(qū)間中值的個數(shù)Mij是第i個區(qū)間中類j的值的個數(shù)將初始值切分成兩部分,使得兩個結果區(qū)間產(chǎn)生最小熵。然后,取一個最大熵的區(qū)間,重復分割過程,直到區(qū)間的個數(shù)達到用戶指定的個數(shù)變量變換是指用于變量的所有值的變換簡單函數(shù):xk,log(x),ex,|x|,1/x,sinx規(guī)范化和標準化規(guī)范化和標準化比較兩個人的不同:因為年齡之差一般遠小于收入之差,因此如果不對數(shù)據(jù)標準化,將導致收入之差將主導人的不同標準差方法:均值和標準差受離群點影響大,可用中位點和絕對標準差代替2.4相似性和相異性的度量相似度兩個對象之間的相似度是這兩個對象相似程度的數(shù)值度量.兩個對象越相似,它們的相似度就越高相似度是非負的,并常常在0和1之間取值相異度兩個對象之間的相異度是這兩個對象差異程度的數(shù)值度量對象越相似,他們的相異度就越低距離常作相異度的同義詞取值(0,1)或(0,∞)變量變換用于相似度與相異度例:如果對象之間的相似度在1(一點也不相似)和10(完全相似)之間變化,則我們可以使用如下變換將它變換到[0,1]區(qū)間:s‘=(s-1)/9,其中s和s’分別是相似度的原值和新值。在更一般的情況下,相似度到[0,1]區(qū)間的變換由如下表達式給出:s'=
(s-min_s)/(max_s-min_s),其中max_s和min_s分別是相似度的最大值和最小值。類似地,具有有限值域的相異度也能用d'=(d-min_d)/(max_d-min_d)映射到[0,1]區(qū)間。相似度與相異度互換對于變換s=1/(d+1),相異度0,1,10,100分別變換到1,0.5,0.09,0.01;對于s=它們分別被變換到1.00,0.37,0.00,0.00;對于s=1-它們分別被變換到1.00,0.99,0.00,0.00。
簡單屬性之間的相似度和相異度pandqaretheattributevaluesfortwodataobjects.數(shù)據(jù)對象之間的相異度EuclideanDistance
明可夫斯基距離(MinkowskiDistance)MinkowskiDistancer=1.城市塊(曼哈頓,出租車,L1
范數(shù))距離.r=2.歐氏距離(L2
范數(shù))r
.上確界(Lmax或L
范數(shù))距離.MinkowskiDistanceDistanceMatrix距離的性質(zhì)距離具有一些眾所周知的性質(zhì).非負性d(x,y)
0,僅當x=y時d(x,y)=0對稱性d(x,y)=d(y,x)
三角不等式d(x,z)
d(x,y)+d(y,z)
滿足以上三個性質(zhì)的測度稱為度量(metric)(距離)例2.14
非度量的相異度:集合差
這個例子是基于集合論中定義的兩個集合差的概念,設有兩個集合A和B,A
-
B是不在B中的A中元素的集合。例如,如果A={1,2,3,4},而B={2,3,4},則A-B={1},而B-A=?,即空集。我們可以將兩個集合A和B之間的距離定義為d(A,B)=size(A-B),其中size是一個函數(shù),它返回集合元素的個數(shù)。該距離測度是大于或等于零的整數(shù)值,但不對稱性,同時還不滿足三角不等式。然而,如果將相異度修改為d(A,B)=size(A-B)+size(B-A),則這些性質(zhì)都可以成立二元數(shù)據(jù)的相似性度量兩個僅包含二元屬性的對象之間的相似性度量也稱相似系數(shù)兩個對象的比較導致四個量 f00
=x取0并且y取0的屬性個數(shù) f01=x取0并且y取1的屬性個數(shù) f10
=x取1并且y取0的屬性個數(shù) f11
=x取1并且y取1的屬性個數(shù)簡單匹配系數(shù) SMC=值匹配的屬性個數(shù)/屬性個數(shù)=(f11+f00)/(f01+f10+f11+f00)Jaccard(雅卡爾)系數(shù)(非對稱二元屬性) J=匹配的個數(shù)/不涉及0-0匹配的屬性個數(shù)=(f11)/(f01+f10+f11)SMCvsJaccard:例子x=1000000000
y=0000001001
f00
=7f01
=2f10
=1f11
=0
SMC=(f11+f00)/(f01+f10+f11+f00)=(0+7)/(2+1+0+7)=0.7
J=(f11)/(f01+f10+f11)=0/(2+1+0)=0
余弦相似度文檔用向量表示,向量的每個屬性代表一個特定的詞(術語)在文檔中出現(xiàn)的頻率。當然,實際情況要復雜得多,因為需要忽略常用詞,并使用各種技術處理同一個詞的不同形式、不同的文檔長度以及不同的詞頻。盡管文檔具有數(shù)以百千計或數(shù)以萬計的屬性(詞),但是每個文檔都是稀疏的,因此,文檔的相似性度量不僅應當像Jaccard度量一樣需要忽略0-0匹配,而且還必須能夠處理非二元向量。余弦相似度
Ifd1andd2aretwodocumentvectors,thencos(x,y)=(x
y)/||x||||y||,
Example:
x=3205000200 y=1000000102
x
y=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2=5
||x||=(3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5=6.481||y||=(1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)
0.5
=(6)0.5=2.245 cos(d1,d2)=0.3150廣義Jaccard系數(shù)(Tanimoto谷本貴義-系數(shù))相關性兩個具有二元變量或連續(xù)變量的數(shù)據(jù)對象之間的相關性是對象屬性之間線性聯(lián)系的度量。相關性皮爾遜相關系數(shù):兩個具有二元變量或連續(xù)變量的數(shù)據(jù)對象之間的相關性是對象屬性之間線性聯(lián)系的度量。相關性例2.19
完全相關
相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2016秋浙教版九年級科學上冊教學設計:第四章第1節(jié) 食物與營養(yǎng)
- Unit 3 Going outdoors Lesson 4(教學設計)-2024-2025學年北師大版(三起)(2024)英語三年級下冊
- 《第三單元 班級智能養(yǎng)護系統(tǒng) 第3課 激光切割做模型》教學設計教學反思-2023-2024學年初中信息技術青島版2024第二冊
- 2024年高中語文 第11課 師說教學設計5 新人教版必修3
- 《月夜憶舍弟》(教學設計)-2024-2025學年九年級語文上冊素質(zhì)教育精講課堂(統(tǒng)編版)
- Chapter2 Our pet friends (教學設計)-2024-2025學年新思維小學英語1B
- Unit7 Seeing a film(教學設計)-2024-2025學年滬教牛津版(深圳用)英語六年級上冊
- 2024秋九年級語文上冊 第四單元 16孤獨之旅教學設計 新人教版
- 2024-2025學年高中生物 第四章 基因的表達 第2節(jié) 基因?qū)π誀畹目刂平虒W設計2 新人教版必修2
- Unit 8 第3課時 Section B (1a-1e)2024-2025學年八年級英語上冊同步教學設計(人教版)河北專版
- 英語四級仔細閱讀講解及技巧
- 城市地理學-第八章城市空間分布體系
- 3,5-二甲基吡唑生產(chǎn)工藝規(guī)程
- 拆除工程安全的應急預案工程應急預案
- 貴州省促進養(yǎng)老托育服務高質(zhì)量發(fā)展實施方案
- 托利多電子秤校秤步驟
- 四線制方向電路
- 食堂干貨類食材臨時采購需求書
- 注射模具設計說明書
- 《DVT深靜脈血栓》
評論
0/150
提交評論