數(shù)據(jù)挖掘是一種技術(shù)_第1頁
數(shù)據(jù)挖掘是一種技術(shù)_第2頁
數(shù)據(jù)挖掘是一種技術(shù)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘是一種技術(shù),它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合,在一個(gè)大型數(shù)據(jù)庫中,自動(dòng)的發(fā)現(xiàn)有用信息的過程,還具有預(yù)測(cè)未來觀測(cè)結(jié)果的能力。數(shù)據(jù)挖掘的對(duì)象是數(shù)據(jù),所以離開數(shù)據(jù),挖掘無從談起。現(xiàn)將我學(xué)習(xí)《數(shù)據(jù)挖掘?qū)д摗返墓P記寫出來,鞏固一下知識(shí)。一、 數(shù)據(jù)類型。數(shù)據(jù)對(duì)象有其它的名字,如記錄,點(diǎn),向量,模式,事件,案例,樣本,觀測(cè)或?qū)嶓w1、 屬性與度量屬性是對(duì)象的性質(zhì)或特性,因?qū)ο蠖?,或隨時(shí)間而變化。測(cè)量標(biāo)度是將數(shù)值或符號(hào)與對(duì)象的屬性相關(guān)聯(lián)的規(guī)則。屬性有四種類型:標(biāo)稱、序數(shù)、區(qū)間、比率,其中標(biāo)稱和序數(shù)屬性統(tǒng)稱分類的或定性的。區(qū)間和比率是數(shù)值的或定量的。2、 數(shù)據(jù)集的類型數(shù)據(jù)集有三個(gè)重要的特性:維度、稀疏性、分辨率。數(shù)據(jù)集有以下的類型:*記錄數(shù)據(jù),包括:事務(wù)數(shù)據(jù)或購物籃數(shù)據(jù)、數(shù)據(jù)矩陣、稀疏數(shù)據(jù)矩陣。*基于圖形的數(shù)據(jù),包括:帶有對(duì)象之間聯(lián)系的數(shù)據(jù)、具有圖形對(duì)象的數(shù)據(jù)。*有序數(shù)據(jù),包括:時(shí)序數(shù)據(jù)、序列數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、空間數(shù)據(jù)。二、 數(shù)據(jù)質(zhì)量1。測(cè)量和數(shù)據(jù)收集問題測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤:噪聲和偽像:其中偽像是確定性失真,如一組照片同一地方上的條紋。精度、偏倚和準(zhǔn)確率:精度通常用值集合的標(biāo)準(zhǔn)差度量,而偏倚用值集合的均值與被測(cè)量的已知值之間的差度量。離群點(diǎn):是某種意義上具有不同于數(shù)據(jù)集中其它大部分?jǐn)?shù)據(jù)對(duì)象的特征的數(shù)據(jù)對(duì)象,或者相對(duì)于該屬性的典型值不尋常的屬性值,也稱異常對(duì)象。遺漏值:是對(duì)一個(gè)對(duì)象中,其中一個(gè)或幾個(gè)屬性的信息未收集。有許多處理遺漏值的策略,如刪除數(shù)據(jù)對(duì)象或?qū)傩?、估?jì)遺漏值、在分析時(shí)忽略遺漏值。重復(fù)數(shù)據(jù):數(shù)據(jù)集中可能包含重復(fù)或者幾乎重復(fù)的數(shù)據(jù)對(duì)象。2。關(guān)于應(yīng)用的問題數(shù)據(jù)在應(yīng)用時(shí)除了考慮質(zhì)量問題之外,同時(shí)也要考慮如下幾個(gè)性質(zhì):時(shí)效性、相關(guān)性。三、數(shù)據(jù)預(yù)處理1、 聚集聚集是將兩個(gè)或多個(gè)對(duì)象合并成單個(gè)對(duì)象。2、 抽樣抽樣是一種選擇數(shù)據(jù)子集進(jìn)行分析的常用方法,主要基于這樣的思想:如果樣本是有代表性的,則使用樣本與使用整個(gè)數(shù)據(jù)集的效果幾乎一樣。抽樣有如下幾個(gè)方法:無放回抽樣、有放回抽樣、分層抽樣、漸進(jìn)抽樣。3、 維歸約維歸約不同于聚集,聚集是合并對(duì)象,維歸約是減少屬性的個(gè)數(shù),即降低維度。維歸約通過創(chuàng)建新屬性,將一些舊屬性合并在一起來降低數(shù)據(jù)集的維度。維災(zāi)難:是指這樣一種現(xiàn)象,隨著數(shù)據(jù)維度的增加,許多數(shù)據(jù)分析變得非常困難。用于維歸約的線性代數(shù)技術(shù):主成分分析(PCA)、奇異值分解(SVD)。4、 特征子集選擇降低維度的另一種方法是僅使用特征的一個(gè)子集,用這個(gè)特征子集代替原來的屬性集合,更能有效的捕獲數(shù)據(jù)集中的重要信息。有三種標(biāo)準(zhǔn)的特征選擇方法:嵌入、過濾、包裝。特征加權(quán):特征越大(屬性),所賦予的權(quán)值越大,而不太重要的特征賦予較小的權(quán)值。5、 離散化和二元化在數(shù)據(jù)挖掘中,經(jīng)常需要將連續(xù)屬性變換成分類屬性(離散化),并且連續(xù)和離散屬性可能都需要變換成一個(gè)或多個(gè)二元屬性(二元化)。6、變量變換變量變換是指用于變量的所有值的變換,也就是屬性變換。有兩種重要的變量變換類型:簡(jiǎn)單函數(shù)、規(guī)范化或標(biāo)準(zhǔn)化。四、相似性和相異性度量1、 相似性和相異性的高層定義是術(shù)語鄰近性。而相似度是兩個(gè)對(duì)像相似程度的數(shù)值度量。相異度(經(jīng)常也稱距離)是兩個(gè)對(duì)象差異程度的數(shù)值度量。2、 數(shù)據(jù)對(duì)象之間的相異度比較經(jīng)典的是歐幾里德距離(歐式距離)。3、 數(shù)據(jù)對(duì)象之間的相似性二元數(shù)據(jù)的相似性度量也稱相似系數(shù)。一般采用如下方法度量:簡(jiǎn)單匹配系數(shù):SMC=值匹配個(gè)數(shù)/屬性個(gè)數(shù)。Jaccard系數(shù):J=匹配的屬性的個(gè)數(shù)/不涉及0-0匹配的屬性的個(gè)數(shù)。余弦相似度:比較常見用于比較兩個(gè)向量。在Web挖掘中經(jīng)常用于比較兩個(gè)網(wǎng)面的相似性。廣義Jaccard系數(shù)(Tanimoto系數(shù)):是對(duì)Jaccard系數(shù)的擴(kuò)展,可以用于文檔數(shù)據(jù)。4、 鄰近度計(jì)算問題組合異種屬性的相似度:可以分別計(jì)算出每個(gè)屬性之間的相似度,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論